"বিগ ডেটা" মিডিয়াতে সর্বত্র রয়েছে। সকলেই বলেছেন যে "বিগ ডেটা" হ'ল ২০১২ সালের সবচেয়ে বড় বিষয়, উদাহরণস্বরূপ, কেডিনিগেটস পোষাকগুলি ২০১২ সালের জনপ্রিয় বিষয়গুলিতে । তবে এখানে আমার গভীর উদ্বেগ রয়েছে। বড় ডেটা সহ, প্রত্যেকে কিছু খুশি খুশি বলে মনে হচ্ছে । কিন্তু আমরা কি হাইপোথিসিস টেস্টিং এবং প্রতিনিধি নমুনার মতো সমস্ত ক্লাসিক পরিসংখ্যান নীতি লঙ্ঘন করছি না?
যতক্ষণ আমরা একই ডেটা সেট সম্পর্কে কেবল ভবিষ্যদ্বাণী করি ততক্ষণ এই ঠিক করা উচিত। সুতরাং আমি যদি টুইটার ব্যবহারকারীর আচরণের পূর্বাভাস দিতে ডেটা ব্যবহার করি তবে এটি সম্ভবত ঠিক আছে। তবে, ভবিষ্যদ্বাণী করার জন্য টুইটার ডেটা ব্যবহার করে নির্বাচনগুলি সম্পূর্ণরূপে এই সত্যটিকে উপেক্ষা করে যে টুইটার ব্যবহারকারীরা পুরো জনগণের জন্য প্রতিনিধি নমুনা নয়। এছাড়াও, বেশিরভাগ পদ্ধতিগুলি সত্যিকারের "তৃণমূল" মুড এবং প্রচারের মধ্যে পার্থক্য করতে সক্ষম হবে না। এবং টুইটার প্রচারণায় পূর্ণ। সুতরাং টুইটার বিশ্লেষণ করার সময়, আপনি কেবলমাত্র প্রচার এবং বটগুলি পরিমাপ করবেন। (উদাহরণস্বরূপ "ইয়াহু আমেরিকার রাজনৈতিক বিজয়ীদের ভবিষ্যদ্বাণী করেছে"যা পোল মারতে পূর্ণ এবং "সংবেদন বিশ্লেষণ অনেক ভাল"। তারা ভবিষ্যদ্বাণী করেছিলেন "রোমনির মনোনয়ন বিজয়ী হওয়ার 90 শতাংশ সম্ভাবনা রয়েছে, এবং দক্ষিণ ক্যারোলিনা প্রাইমারি জয়ের সম্ভাবনা আছে" (তার ছিল 28%, যখন জিঙ্গরিচের এই প্রাথমিকটিতে 40% ছিল)।
আপনি কি জানেন যে এরকম আরও বড় ডেটা ব্যর্থ হয় ? আমার মোটামুটি মনে আছে যে একজন বিজ্ঞানী ভবিষ্যদ্বাণী করেছিলেন যে আপনি 150 টিরও বেশি বন্ধুত্ব বজায় রাখতে পারবেন না। তিনি আসলে বন্ধু হিসাবে কেবল একটি ক্যাপ সীমা আবিষ্কার করেছিলেন ...
টুইটারের ডেটা বা আসলে ওয়েব থেকে সংগ্রহ করা কোনও "বড় ডেটা" হিসাবে, আমি বিশ্বাস করি যে প্রায়শই লোকেরা তাদের ডেটা সংগ্রহের উপায়ে অতিরিক্ত বায়াসও প্রবর্তন করে। কয়েকজনের কাছেই সমস্ত টুইটার থাকবে। তাদের একটি নির্দিষ্ট উপসেট থাকবে যা তারা স্পাইড করেছিল এবং এটি তাদের ডেটা সেটে আরও একটি পক্ষপাতিত্ব।
কোনও পরীক্ষার সেট বা ক্রস বৈধকরণের জন্য ডেটা বিভক্ত করা সম্ভবত খুব বেশি সাহায্য করে না। অন্য সেট একই পক্ষপাতিত্ব হবে। এবং বড় ডেটাগুলির জন্য, আমার তথ্যগুলি এতগুলি ভারীভাবে "সংকুচিত" করা দরকার যাতে আমি বেশি পরিমাণে ফিট করার সম্ভাবনা কম।
আমি সম্প্রতি এই রসিকতাটি শুনেছি, বিশ্বে প্রায় sex০০ লিঙ্গ রয়েছে এমন বড় ডেটা বিজ্ঞানী আবিষ্কার করেছেন ... এবং আমি এটি ঘটতে পেরে ঠিক তাই কল্পনা করতে পারি ... "পুরুষ, মহিলা, অর্ক, ফ্যারি, হ্যাঁ এবং না"।
সুতরাং বিশ্লেষণে বিশেষত "বিগ ডেটা" ডেটাসেটের বাইরের কিছু পূর্বাভাস দেওয়ার চেষ্টা করার সময় আমাদের কোন পরিসংখ্যানের বৈধতা ফিরে পেতে হবে?