"বিগ ডেটা" থেকে কীভাবে বৈধ সিদ্ধান্ত নেওয়া যায়?


40

"বিগ ডেটা" মিডিয়াতে সর্বত্র রয়েছে। সকলেই বলেছেন যে "বিগ ডেটা" হ'ল ২০১২ সালের সবচেয়ে বড় বিষয়, উদাহরণস্বরূপ, কেডিনিগেটস পোষাকগুলি ২০১২ সালের জনপ্রিয় বিষয়গুলিতে । তবে এখানে আমার গভীর উদ্বেগ রয়েছে। বড় ডেটা সহ, প্রত্যেকে কিছু খুশি খুশি বলে মনে হচ্ছে । কিন্তু আমরা কি হাইপোথিসিস টেস্টিং এবং প্রতিনিধি নমুনার মতো সমস্ত ক্লাসিক পরিসংখ্যান নীতি লঙ্ঘন করছি না?

যতক্ষণ আমরা একই ডেটা সেট সম্পর্কে কেবল ভবিষ্যদ্বাণী করি ততক্ষণ এই ঠিক করা উচিত। সুতরাং আমি যদি টুইটার ব্যবহারকারীর আচরণের পূর্বাভাস দিতে ডেটা ব্যবহার করি তবে এটি সম্ভবত ঠিক আছে। তবে, ভবিষ্যদ্বাণী করার জন্য টুইটার ডেটা ব্যবহার করে নির্বাচনগুলি সম্পূর্ণরূপে এই সত্যটিকে উপেক্ষা করে যে টুইটার ব্যবহারকারীরা পুরো জনগণের জন্য প্রতিনিধি নমুনা নয়। এছাড়াও, বেশিরভাগ পদ্ধতিগুলি সত্যিকারের "তৃণমূল" মুড এবং প্রচারের মধ্যে পার্থক্য করতে সক্ষম হবে না। এবং টুইটার প্রচারণায় পূর্ণ। সুতরাং টুইটার বিশ্লেষণ করার সময়, আপনি কেবলমাত্র প্রচার এবং বটগুলি পরিমাপ করবেন। (উদাহরণস্বরূপ "ইয়াহু আমেরিকার রাজনৈতিক বিজয়ীদের ভবিষ্যদ্বাণী করেছে"যা পোল মারতে পূর্ণ এবং "সংবেদন বিশ্লেষণ অনেক ভাল"। তারা ভবিষ্যদ্বাণী করেছিলেন "রোমনির মনোনয়ন বিজয়ী হওয়ার 90 শতাংশ সম্ভাবনা রয়েছে, এবং দক্ষিণ ক্যারোলিনা প্রাইমারি জয়ের সম্ভাবনা আছে" (তার ছিল 28%, যখন জিঙ্গরিচের এই প্রাথমিকটিতে 40% ছিল)।

আপনি কি জানেন যে এরকম আরও বড় ডেটা ব্যর্থ হয় ? আমার মোটামুটি মনে আছে যে একজন বিজ্ঞানী ভবিষ্যদ্বাণী করেছিলেন যে আপনি 150 টিরও বেশি বন্ধুত্ব বজায় রাখতে পারবেন না। তিনি আসলে বন্ধু হিসাবে কেবল একটি ক্যাপ সীমা আবিষ্কার করেছিলেন ...

টুইটারের ডেটা বা আসলে ওয়েব থেকে সংগ্রহ করা কোনও "বড় ডেটা" হিসাবে, আমি বিশ্বাস করি যে প্রায়শই লোকেরা তাদের ডেটা সংগ্রহের উপায়ে অতিরিক্ত বায়াসও প্রবর্তন করে। কয়েকজনের কাছেই সমস্ত টুইটার থাকবে। তাদের একটি নির্দিষ্ট উপসেট থাকবে যা তারা স্পাইড করেছিল এবং এটি তাদের ডেটা সেটে আরও একটি পক্ষপাতিত্ব।

কোনও পরীক্ষার সেট বা ক্রস বৈধকরণের জন্য ডেটা বিভক্ত করা সম্ভবত খুব বেশি সাহায্য করে না। অন্য সেট একই পক্ষপাতিত্ব হবে। এবং বড় ডেটাগুলির জন্য, আমার তথ্যগুলি এতগুলি ভারীভাবে "সংকুচিত" করা দরকার যাতে আমি বেশি পরিমাণে ফিট করার সম্ভাবনা কম।

আমি সম্প্রতি এই রসিকতাটি শুনেছি, বিশ্বে প্রায় sex০০ লিঙ্গ রয়েছে এমন বড় ডেটা বিজ্ঞানী আবিষ্কার করেছেন ... এবং আমি এটি ঘটতে পেরে ঠিক তাই কল্পনা করতে পারি ... "পুরুষ, মহিলা, অর্ক, ফ্যারি, হ্যাঁ এবং না"।

সুতরাং বিশ্লেষণে বিশেষত "বিগ ডেটা" ডেটাসেটের বাইরের কিছু পূর্বাভাস দেওয়ার চেষ্টা করার সময় আমাদের কোন পরিসংখ্যানের বৈধতা ফিরে পেতে হবে?

উত্তর:


31

আপনার ভয়টি সুপ্রতিষ্ঠিত এবং উপলব্ধিযোগ্য। ইয়াহু এবং সম্ভবত আরও বেশ কয়েকটি সংস্থা ব্যবহারকারীদের উপর এলোমেলোভাবে পরীক্ষা-নিরীক্ষা করছে এবং এটি ভাল করছে। তবে পর্যবেক্ষণের তথ্যগুলি অসুবিধা নিয়ে ভীত। এটি একটি সাধারণ ভুল ধারণা যা নমুনার আকার বাড়ার সাথে সাথে সমস্যাগুলি হ্রাস পায়। এটি বৈকল্পিকের জন্য সত্য, তবে পক্ষপাত N বাড়ার সাথে সাথে স্থির থাকে। পক্ষপাত যখন বড় হয়, খুব ছোট একটি সত্যিকারের এলোমেলো নমুনা বা এলোমেলো অধ্যয়ন 100,000,000 পর্যবেক্ষণের চেয়ে মূল্যবান হতে পারে।


8
বড় ডেটা সম্ভবত এমন একটি ক্ষেত্র যেখানে পক্ষপাত বৈষম্য ক্ষয় সহায়ক নয় - ডেটা গুণমান এবং ডেটা ম্যানেজমেন্ট আরও গুরুত্বপূর্ণ। এটি হ'ল কারণ আমরা প্রতিটি ডেটা পয়েন্ট বা এমনকি বিশেষ কেসগুলি জানতে পারব না - কেবল তাদের মধ্যে অনেকগুলিই
সম্ভাব্যতা ব্লগ

24

পরীক্ষামূলক নকশা এবং বিশ্লেষণে এমন অনেকগুলি কৌশল রয়েছে যা আপনাকে আপনার পক্ষপাতদুষ্টতা হ্রাস করতে সহায়তা করতে পারে তবে এটি আবার সর্বদা একই জিনিসটিতে ফোটে: একজনকে কী করা হচ্ছে তা জানতে হবে। বড় ডেটা বিশ্লেষণে অন্য ডেটা বিশ্লেষণের মতোই সমস্যা রয়েছে; এটি অনুমানের অভাবে ভুগছে।

একটি সুস্পষ্ট উদাহরণ হ'ল ধাপে ধাপে চলক নির্বাচন সহ একাধিক রিগ্রেশন। খুব সুন্দর, একটি বলে, তবে 100 ভেরিয়েবলের সাথে পরিমাপিত পরিসংখ্যান আইনগুলি নির্দেশ করে যে সংশ্লিষ্ট গুনাগুলি শূন্যের থেকে উল্লেখযোগ্যভাবে পৃথক কিনা কিনা তা দেখে মূল্যায়ন করার সময় তাদের মধ্যে কিছু গুরুত্বপূর্ণ সম্পর্ক প্রদর্শন করবে । সুতরাং আপনার ডেটাসেটে যত বেশি ভেরিয়েবল, কিছু (অর্থহীন) সম্পর্ক দেখায় এমন দুটি সন্ধানের সম্ভাবনা তত বেশি। এবং আপনার ডেটাসেটটি যত বড়, উদাহরণস্বরূপ একটি ছোট বিভ্রান্তিমূলক প্রভাবের কারণে অর্থহীন মডেলগুলির জন্য আরও বেশি সুযোগ। আপনি যদি অনেকগুলি মডেল পরীক্ষা করেন (এবং এমনকি কেবলমাত্র 10 টি ভেরিয়েবল যা পুরো মডেল হতে পারে) তবে আপনি কমপক্ষে একটি উল্লেখযোগ্য খুঁজে পাওয়ার সম্ভাবনা খুব সম্ভবত। এর অর্থ কি কিছু? না।

তখন কি করা উচিত? মাথা খাটাও:

  • ডেটা সংগ্রহ করার আগে একটি হাইপোথিসিস তৈরি করুন এবং সেই অনুমানটি পরীক্ষা করুন। আপনার পরিসংখ্যান আসলে কোনও গল্প বলে তা নিশ্চিত করার একমাত্র উপায়।
  • কিছু পরীক্ষা করার আগে আপনার নমুনা প্রশমিত করার জন্য আপনার কোভেরিয়েটগুলি ব্যবহার করুন। বোকা উদাহরণ: আপনার ডাটাসেটে আপনার যদি 1000 পুরুষ এবং 100 মহিলা থাকে তবে আপনি যদি গড় জনসংখ্যার বিষয়ে কথা বলতে চান তবে এলোমেলোভাবে 50 টি নির্বাচন করুন। এটি প্রকৃতপক্ষে এমন কিছু যেখানে বড় ডেটা কাজে আসে You আপনার কাছে নমুনার জন্য পর্যাপ্ত পরিমাণ রয়েছে।
  • পরীক্ষার জনসংখ্যার পুঙ্খানুপুঙ্খ বর্ণনা করুন, সুতরাং কোন সিদ্ধান্তে জনগণের জন্য আপনার সিদ্ধান্তগুলি নির্ধারণ করা হয়েছে তা স্পষ্ট।
  • আপনি যদি আপনার বড় ডেটাসেটকে শোষণমূলক উদ্দেশ্যে ব্যবহার করেন তবে এই অন্বেষণের সময় আপনি যে হাইপোথিসিগুলি নিয়ে এসেছেন তা পরীক্ষা করে নিন একটি নতুন এবং আলাদা ডেটাসেটে, আপনি কী সংগ্রহ করেছেন তার কেবল একটি উপসেট নয়। এবং প্রয়োজনীয় সমস্ত সতর্কতা ব্যবহার করে তাদের আবার পরীক্ষা করুন।

এই জিনিসগুলি সমস্ত সুস্পষ্ট এবং সুপরিচিত। হেক, ইতিমধ্যে 1984 সালে রোজেনবাউম এবং রুবিন পর্যবেক্ষণ গবেষণায় পক্ষপাতিত্ব হ্রাস করার জন্য কীভাবে প্রসারিত স্কোরগুলি ব্যবহার করবেন তা চিত্রিত করেছিলেন এবং সর্বাধিক বড় ডেটাসেটগুলি হ'ল: পর্যবেক্ষণমূলক তথ্য। ফেং এট আল- এর আরও সাম্প্রতিক কাজগুলিতে, মহালানোবিস দূরত্বের ব্যবহারেরও সমর্থন রয়েছে। এবং প্রকৃতপক্ষে, আমার এক পরিসংখ্যান নায়ক, কোচরান ইতিমধ্যে 1973 সালে সেই সমস্যাটি সম্পর্কে একটি পর্যালোচনা লিখেছিলেন ! বা রুবিনের সম্পর্কে কী, যিনি ইতিমধ্যে 1979 সালে মাল্টিভিয়ারেটের সাথে স্যাম্পলিং এবং রিগ্রেশন সংশোধন করা সংশোধন করেছিলেন Old পুরানো প্রকাশনাগুলি গুরুত্ব সহকারে অবমূল্যায়ন করা হয় এবং খুব সম্ভবত প্রায়শই উপেক্ষা করা হয়, অবশ্যই পরিসংখ্যানের মতো ক্ষেত্রে।

এই সমস্ত কৌশলগুলির পক্ষে মতামত রয়েছে এবং একটিকে বুঝতে হবে যে পক্ষপাত হ্রাস পক্ষপাত নির্মূল করার মতো নয়। তবে আপনি যদি সচেতন হন:

  • আপনি কি পরীক্ষা করতে চান, এবং
  • আপনি কিভাবে এটি করছেন

বড় ডেটা বোগাস ফলাফল নিয়ে আসার বাহানা নয়।


@ ডিডব্লিউর (সংশোধন) মন্তব্যের পরে সম্পাদিত যিনি নির্দেশ করেছেন যে আমি 'প্রচ্ছন্ন' শব্দটি ভুল প্রসঙ্গে ব্যবহার করেছি।


12
"আপনার ডেটাসেট যত বড়, অর্থহীন ওভারফিটিংয়ের জন্য আরও বেশি সুযোগ" - আসলে, এটি পিছনের দিকে। সম্ভাব্য মডেলগুলির সেট যত বড়, ওভারফিটিংয়ের সম্ভাবনা তত বেশি (সমস্ত কিছুই সমান হওয়ার)। ডেটাসেট যত বড় হবে, ওভারফিটিংয়ের সম্ভাবনা তত কম (সমস্ত কিছুই সমান হচ্ছে)।
DW

@ ডিডাব্লু কীভাবে? প্রকৃতপক্ষে, যদি কোনও সিমুলেশনে নিখুঁত স্বাধীনতা থাকে তবে ছোট এবং বড় ডেটাসেটগুলির সাথে একটি উল্লেখযোগ্য মডেলের যতটা সুযোগ রয়েছে (সাধারণ সিমুলেশন আপনাকে এটি দেখায়)। হায়, আমি এখনও একটি ডেটাসেটের সাথে সাক্ষাত করতে পারি নি যেখানে স্বাধীনতা নিখুঁত। এই মুহূর্তে আপনার যেমন একটি খুব ছোট বিভ্রান্তিকর প্রভাব রয়েছে, বড় ডেটাসেটগুলি ছোট ডেটাসেটের চেয়ে অর্থহীন উল্লেখযোগ্য ফলাফল দেওয়ার সম্ভাবনা বেশি।
জোরিস মাইস

উত্তম উত্তর - উল্লেখযোগ্য প্রভাবগুলি সম্পর্কে আপনার মন্তব্য মডেল নির্বাচনের "ইন-বা-আউট" পদ্ধতির উপর সঙ্কুচিত পদ্ধতির জন্য একটি ভাল যুক্তি সরবরাহ করে।
সম্ভাব্যতা ব্লগ

10
@ ডিডাব্লু অতিরিক্ত মানানসই সম্পর্কে একটি বিবৃতি দিচ্ছে, এবং সঠিক বলে মনে হচ্ছে - বিশেষত যেহেতু ডেটা বৃহত্তর সেট, তথ্যের সাবসেটগুলিতে ক্রস-বৈধকরণকে হুমকি দেওয়ার আরও বেশি সুযোগ। জরিস মাই পরিসংখ্যানগত তাত্পর্য সম্পর্কে একটি বিবৃতি দিচ্ছেন। এটিও সঠিক। তবে বৃহত ডেটা সেটগুলিতে পরিসংখ্যানগত তাত্পর্য হ'ল - এটির আকারের বিষয়টি গুরুত্বপূর্ণ যেটি প্রায় সবকিছু "পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ"।
zbcyclist

1
@Zbcyclist খুব সঠিক পর্যবেক্ষণ। আমি স্বীকার করি যে আমি DW এর ভুল ব্যাখ্যা দিয়েছি এবং একটি ভুল প্রসঙ্গে overfitting শব্দটি ব্যবহার করেছি। আমি সংশোধন করেছি.
জোরিস মাইস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.