বা আরও কিছু "তাই হবে"? বিগ ডেটা পরিসংখ্যান এবং প্রাসঙ্গিক জ্ঞানকে আরও গুরুত্বপূর্ণ করে তোলে তবে স্যাম্পলিং থিওরিটিকে আন্ডারপ্লে করে বলে মনে হয়।
আমি 'বিগ ডেটা' এর আশেপাশে এই হাইপ দেখেছি এবং ভাবতে পারি না যে "কেন" আমি সবকিছু বিশ্লেষণ করতে চাই ? "স্যাম্পলিং থিওরি" ডিজাইন / প্রয়োগ / আবিষ্কার / আবিষ্কার করার কোনও কারণ ছিল না? আমি ডেটাসেটের পুরো 'জনসংখ্যা' বিশ্লেষণ করার বিন্দু পাই না। আপনি কেবল এটি করতে পারার অর্থ এই নয় যে আপনার উচিত হওয়া উচিত (মূর্খতা একটি সুযোগ সুবিধা তবে আপনার এটি ব্যবহার করা উচিত নয় :)
সুতরাং আমার প্রশ্নটি হ'ল: সম্পূর্ণ ডেটা সেটটি বিশ্লেষণ করার জন্য এটি কি পরিসংখ্যানগতভাবে প্রাসঙ্গিক? স্যাম্পলিংয়ের কাজটি করা থাকলে ত্রুটিটি হ্রাস করা সবচেয়ে ভাল। কিন্তু সেই ত্রুটিটি হ্রাস করার ব্যয়টি কি আসলেই মূল্যবান? "তথ্যের মূল্য" কি সেই প্রচেষ্টা, সময় ব্যয় ইত্যাদির পক্ষে মূল্যবান যা প্রচুর পরিমাণে সমান্তরাল কম্পিউটারে বড় ডেটা বিশ্লেষণ করতে যায়?
এমনকি যদি কেউ সমগ্র জনসংখ্যা বিশ্লেষণ করে তবে ফলাফলটি সঠিকভাবে অনুমান করার উচ্চতর সম্ভাবনা নিয়ে সর্বোত্তম অনুমান করবে। স্যাম্পলিংয়ের চেয়ে সম্ভবত কিছুটা বেশি (বা এটি আরও অনেক কিছু হবে?) জনসংখ্যা বিশ্লেষণ বনাম নমুনা বিশ্লেষণ করে প্রাপ্ত অন্তর্দৃষ্টি কি বিস্তৃতভাবে পৃথক হতে পারে?
নাকি আমাদের "সময়ের পরিবর্তন হয়েছে" হিসাবে এটি গ্রহণ করা উচিত? কোনও ক্রিয়াকলাপ হিসাবে স্যাম্পলিং কম গুরুত্বপূর্ণ হয়ে উঠতে পারে পর্যাপ্ত গণনার শক্তি :)
দ্রষ্টব্য: আমি বিতর্ক শুরু করার চেষ্টা করছি না তবে কেন বড় ডেটা এটি করে তা বোঝার জন্য উত্তর খুঁজতে চাই (অর্থাত সবকিছু বিশ্লেষণ করে) এবং স্যাম্পলিংয়ের তত্ত্বকে উপেক্ষা করে (বা এটি হয় না?)