আমি মনে করি যে বড় ডেটার একমাত্র দরকারী সংজ্ঞা হ'ল ডেটা যা কোনও নির্দিষ্ট ঘটনা সম্পর্কে সমস্ত তথ্য তালিকাভুক্ত করে। আমি এর দ্বারা যা বোঝাতে চাইছি তা হ'ল কিছু স্বার্থের জনসংখ্যা থেকে নমুনা তৈরি করা এবং সেই ইউনিটগুলিতে কিছু পরিমাপ সংগ্রহ করার চেয়ে বড় ডেটা সুদের পুরো জনসংখ্যার উপর পরিমাপ সংগ্রহ করে। মনে করুন আপনি আমাজন ডটকমের গ্রাহকদের প্রতি আগ্রহী অ্যামাজন ডটকমের পক্ষে কেবলমাত্র কিছু ব্যবহারকারীর উপর নজর রাখা বা কিছু লেনদেনের ট্র্যাক না করে তাদের গ্রাহকদের সমস্ত ক্রয়ের তথ্য সংগ্রহ করা পুরোপুরি সম্ভব।
আমার মনে, সংজ্ঞাগুলি যা ডেটা নিজেই মেমরির আকারের উপর নির্ভর করে কিছুটা সীমিত উপযোগী হতে পারে। এই মেট্রিক দ্বারা, একটি বৃহত যথেষ্ট কম্পিউটার দেওয়া, কোন তথ্য আসলে বড় ডেটা হয় না। অসীম বৃহত কম্পিউটারের চূড়ান্ত সময়ে, এই যুক্তিটি হ্রাসজনক বলে মনে হতে পারে তবে আমার গ্রাহক-গ্রেড ল্যাপটপের গুগলের সার্ভারের সাথে তুলনা করার ক্ষেত্রে বিবেচনা করুন। স্পষ্টতই আমার কাছে একটি টেরাবাইট ডেটা অনুসন্ধানের চেষ্টা করার প্রচুর লজিস্টিকাল সমস্যা ছিল, তবে গুগলের কাছে সেই কাজটি বেশ সহজেই পরিচালনা করার সংস্থান রয়েছে। আরও গুরুত্বপূর্ণ, আপনার কম্পিউটারের আকার কোনও উপাত্তের অভ্যন্তরীণ বৈশিষ্ট্য নয় , সুতরাং আপনার হাতে যে প্রযুক্তি রয়েছে তার তথ্যকে বিশুদ্ধভাবে সংজ্ঞায়িত করা আপনার বাহুর দৈর্ঘ্যের দিক থেকে দূরত্ব পরিমাপ করার মতো।
এই যুক্তি কেবল একটি আনুষ্ঠানিকতা নয়। জটিল সমান্তরালীন স্কিমগুলির জন্য প্রয়োজনীয় বিতরণ এবং বিতরণ করা কম্পিউটিং প্ল্যাটফর্মগুলি আপনার কাছে পর্যাপ্ত কম্পিউটিং শক্তি পাওয়ার পরে অদৃশ্য হয়ে যায়। সুতরাং যদি আমরা এই সংজ্ঞাটি মেনে নিই যে র্যামের সাথে ফিট করার জন্য বিগ ডেটা খুব বড় (বা এক্সেল ক্র্যাশ করে, বা যাই হোক না কেন), তবে আমরা আমাদের মেশিনগুলি আপগ্রেড করার পরে, বিগ ডেটা উপস্থিতি বন্ধ হয়ে যায়। এটা নির্বোধ মনে হচ্ছে।
তবে আসুন বড় ডেটা সম্পর্কে কিছু তথ্য দেখি এবং আমি এটিকে "বিগ মেটাডেটা" বলব। এই ব্লগ পোস্টটি একটি গুরুত্বপূর্ণ প্রবণতা পর্যবেক্ষণ করেছে : উপলভ্য র্যাম ডেটা মাপের চেয়ে আরও দ্রুত বাড়ছে, এবং উস্কানিমূলকভাবে দাবি করেছে যে "বিগ র্যাম বিগ ডেটা খাচ্ছে" - এটি পর্যাপ্ত অবকাঠামো সহ, আপনার আর একটি বড় ডেটা সমস্যা নেই, আপনি কেবল ডেটা আছে এবং আপনি প্রচলিত বিশ্লেষণ পদ্ধতির ডোমেনে ফিরে আসেন।
তদুপরি, বিভিন্ন উপস্থাপনের পদ্ধতিগুলির বিভিন্ন আকার থাকতে পারে, সুতরাং এটির আকার-মেমরির ক্ষেত্রে "বিগ ডেটা" সংজ্ঞায়িত করার অর্থ কী তা স্পষ্টভাবে পরিষ্কার নয়। যদি আপনার ডেটা এমনভাবে তৈরি করা হয় যাতে প্রচুর রিলান্ডান্ট তথ্য সংরক্ষণ করা হয় (যা আপনি একটি অদক্ষ কোডিং চয়ন করেন) তবে সহজেই আপনার কম্পিউটার যা সহজে পরিচালনা করতে পারে তার প্রান্তিকতা অতিক্রম করতে পারবেন। তবে আপনি কেন এই সম্পত্তিটির সংজ্ঞা চান? আমার মতে, ডেটা সেটটি "বিগ ডেটা" কিনা তা আপনি গবেষণার নকশায় দক্ষ পছন্দ করেছেন কিনা তা জড়িত থাকা উচিত নয়।
একজন চিকিত্সকের দৃষ্টিকোণ থেকে, আমি এটি সংজ্ঞায়িত করার সাথে বড় ডেটা এটির সাথে গণ্য প্রয়োজনীয়তাও বহন করে, তবে এই প্রয়োজনীয়তাগুলি অ্যাপ্লিকেশন-নির্দিষ্ট। পর্যবেক্ষণের জন্য ডাটাবেস ডিজাইন (সফ্টওয়্যার, হার্ডওয়্যার, সংস্থা) মাধ্যমে চিন্তা করা চেয়ে খুব আলাদা10 7104107পর্যবেক্ষণ, এবং এটি পুরোপুরি ঠিক আছে। এটিও বোঝায় যে বড় ডেটা, যেমন আমি এটি সংজ্ঞায়িত করেছি, আমরা ধ্রুপদী পরিসংখ্যানগুলিতে যা বিকাশ করেছি তার চেয়ে বেশি বিশেষায়িত প্রযুক্তির দরকার পড়তে পারে না: যখন আপনাকে এক্সট্রোপোলেটেড করার দরকার হয় তখন নমুনা এবং আত্মবিশ্বাসের ব্যবধানগুলি এখনও পুরোপুরি কার্যকর এবং বৈধ অনন্য সরঞ্জাম are লিনিয়ার মডেলগুলি কিছু প্রশ্নের পুরোপুরি গ্রহণযোগ্য উত্তর সরবরাহ করতে পারে। তবে আমি এটি সংজ্ঞায়িত করে বড় ডেটাগুলিতে অভিনব প্রযুক্তি প্রয়োজন হতে পারে। সম্ভবত আপনাকে এমন পরিস্থিতিতে নতুন ডেটা শ্রেণীবদ্ধ করতে হবে যেখানে প্রশিক্ষণের ডেটার চেয়ে আপনার কাছে আরও বেশি ভবিষ্যদ্বাণী রয়েছে বা আপনার ভবিষ্যদ্বাণীগুলি আপনার ডেটার আকারের সাথে বৃদ্ধি পাবে। এই সমস্যাগুলির জন্য আরও নতুন প্রযুক্তি প্রয়োজন।
একদিকে যেমন, আমি মনে করি এই প্রশ্নটি গুরুত্বপূর্ণ কারণ এটি সংজ্ঞাটি কেন গুরুত্বপূর্ণ তা স্পষ্টভাবে স্পর্শ করে - এটি হ'ল আপনি কার জন্য বিষয়টিকে সংজ্ঞায়িত করছেন। প্রথম-গ্রেডারদের সংযোজনের আলোচনাটি সেট তত্ত্ব দিয়ে শুরু হয় না, এটি দৈহিক বস্তু গণনা প্রসঙ্গে শুরু হয়। আমার অভিজ্ঞতা হয়েছে যে "বিগ ডেটা" শব্দের বেশিরভাগ ব্যবহার জনপ্রিয় সংবাদমাধ্যমে বা পরিসংখ্যান বা মেশিন লার্নিংয়ের বিশেষজ্ঞ নয় এমন ব্যক্তিদের মধ্যে যোগাযোগের ক্ষেত্রে ঘটে (উদাহরণস্বরূপ পেশাদার বিশ্লেষণের জন্য বিপণন উপকরণ), এবং এটি ব্যবহৃত হয় এই ধারণাটি প্রকাশ করুন যে আধুনিক কম্পিউটিং অনুশীলনের অর্থ টুপি রয়েছে এমন উপলভ্য তথ্যের প্রচুর পরিমাণ যা ব্যবহার করা যেতে পারে। এটি প্রায় সর্বদা গ্রাহকদের সম্পর্কে তথ্য প্রকাশের তথ্য প্রসঙ্গে যা সম্ভবত ব্যক্তিগত না হলে অবিলম্বে সুস্পষ্ট নয়।
সুতরাং "বিগ ডেটা" এর সাধারণ ব্যবহারকে ঘিরে রূপক এবং বিশ্লেষণও এ ধারণার সাথে বহন করে যে ডেটাটি কোনও ব্যক্তির জীবনের গোপনীয়তা বা গোপনীয়তা এমনকি ব্যক্তিগত বিবরণ প্রকাশ করতে পারে, পর্যাপ্ত অনুমানমূলক পদ্ধতির প্রয়োগ সরবরাহ করে। মিডিয়া যখন বড় ডেটা সম্পর্কে রিপোর্ট করে, নাম প্রকাশের এই অবনতি সাধারণত তারা কীভাবে চালাচ্ছে - "বড় ডেটা" কী তা সংজ্ঞায়িত করা এই আলোকে কিছুটা পথভ্রষ্ট বলে মনে হয়, কারণ জনপ্রিয় প্রেস এবং ননস্পেশালিস্টদের এলোমেলো যোগ্যতার জন্য কোনও উদ্বেগ নেই। বন এবং সমর্থন ভেক্টর মেশিন এবং আরও অনেক কিছু, না তাদের বিভিন্ন স্কেলের ডেটা বিশ্লেষণের চ্যালেঞ্জগুলির কোনও ধারণা নেই। এবং এই ঠিক আছে।তাদের দৃষ্টিকোণ থেকে উদ্বেগটি তথ্য বয়সের সামাজিক, রাজনৈতিক এবং আইনী পরিণতিগুলিকে কেন্দ্র করে। মিডিয়া বা ননস্পেশালিস্টদের জন্য একটি সুনির্দিষ্ট সংজ্ঞা সত্যই কার্যকর নয় কারণ তাদের বোঝাপড়াটিও সুনির্দিষ্ট নয়। (আমাকে স্মাগ করে ভাবেন না - আমি কেবল পর্যবেক্ষণ করছি যে প্রত্যেকেই সবকিছুতে বিশেষজ্ঞ হতে পারে না))