'বড় ডেটা'র সময়ে স্যাম্পলিং কি প্রাসঙ্গিক?


54

বা আরও কিছু "তাই হবে"? বিগ ডেটা পরিসংখ্যান এবং প্রাসঙ্গিক জ্ঞানকে আরও গুরুত্বপূর্ণ করে তোলে তবে স্যাম্পলিং থিওরিটিকে আন্ডারপ্লে করে বলে মনে হয়।

আমি 'বিগ ডেটা' এর আশেপাশে এই হাইপ দেখেছি এবং ভাবতে পারি না যে "কেন" আমি সবকিছু বিশ্লেষণ করতে চাই ? "স্যাম্পলিং থিওরি" ডিজাইন / প্রয়োগ / আবিষ্কার / আবিষ্কার করার কোনও কারণ ছিল না? আমি ডেটাসেটের পুরো 'জনসংখ্যা' বিশ্লেষণ করার বিন্দু পাই না। আপনি কেবল এটি করতে পারার অর্থ এই নয় যে আপনার উচিত হওয়া উচিত (মূর্খতা একটি সুযোগ সুবিধা তবে আপনার এটি ব্যবহার করা উচিত নয় :)

সুতরাং আমার প্রশ্নটি হ'ল: সম্পূর্ণ ডেটা সেটটি বিশ্লেষণ করার জন্য এটি কি পরিসংখ্যানগতভাবে প্রাসঙ্গিক? স্যাম্পলিংয়ের কাজটি করা থাকলে ত্রুটিটি হ্রাস করা সবচেয়ে ভাল। কিন্তু সেই ত্রুটিটি হ্রাস করার ব্যয়টি কি আসলেই মূল্যবান? "তথ্যের মূল্য" কি সেই প্রচেষ্টা, সময় ব্যয় ইত্যাদির পক্ষে মূল্যবান যা প্রচুর পরিমাণে সমান্তরাল কম্পিউটারে বড় ডেটা বিশ্লেষণ করতে যায়?

এমনকি যদি কেউ সমগ্র জনসংখ্যা বিশ্লেষণ করে তবে ফলাফলটি সঠিকভাবে অনুমান করার উচ্চতর সম্ভাবনা নিয়ে সর্বোত্তম অনুমান করবে। স্যাম্পলিংয়ের চেয়ে সম্ভবত কিছুটা বেশি (বা এটি আরও অনেক কিছু হবে?) জনসংখ্যা বিশ্লেষণ বনাম নমুনা বিশ্লেষণ করে প্রাপ্ত অন্তর্দৃষ্টি কি বিস্তৃতভাবে পৃথক হতে পারে?

নাকি আমাদের "সময়ের পরিবর্তন হয়েছে" হিসাবে এটি গ্রহণ করা উচিত? কোনও ক্রিয়াকলাপ হিসাবে স্যাম্পলিং কম গুরুত্বপূর্ণ হয়ে উঠতে পারে পর্যাপ্ত গণনার শক্তি :)

দ্রষ্টব্য: আমি বিতর্ক শুরু করার চেষ্টা করছি না তবে কেন বড় ডেটা এটি করে তা বোঝার জন্য উত্তর খুঁজতে চাই (অর্থাত সবকিছু বিশ্লেষণ করে) এবং স্যাম্পলিংয়ের তত্ত্বকে উপেক্ষা করে (বা এটি হয় না?)


1
আরও দেখুন: stats.stackexchange.com/q/22502/7828 - কীভাবে বড় ডেটা থেকে বৈধ সিদ্ধান্ত নেওয়া যায়।
অ্যানি-মৌসে

1
(+1 অনেক আগে) আমি সর্বদা আপনার অন্তর্দৃষ্টিপূর্ণ প্রশ্নগুলি পড়তে উপভোগ করি। তারা এই সাইটের একটি আসল সম্পদ।
কার্ডিনাল

@ কার্ডিনাল - আমি আপনার মন্তব্যের আন্তরিকভাবে প্রশংসা করি। মানে আপনার কাছ থেকে অনেক কিছু আসছে।
পিএইচডি

উত্তর:


29

এক কথায় হ্যাঁ । আমি বিশ্বাস করি যে "বিগ ডেটা" বিশ্বের অভ্যন্তরে এবং ছাড়াও স্যাম্পলিং উপযুক্ত যেখানে এখনও স্পষ্ট পরিস্থিতি রয়েছে তবে বড় ডেটার প্রকৃতি অবশ্যই আমাদের নমুনার প্রতি দৃষ্টিভঙ্গিকে বদলে দেবে এবং আমরা আরও বেশি ডেটাসেট ব্যবহার করব যা অন্তর্নিহিতের প্রায় সম্পূর্ণ উপস্থাপনা জনসংখ্যা.

নমুনা নেওয়ার বিষয়ে: পরিস্থিতিগুলির উপর নির্ভর করে যদি নমুনা করা উপযুক্ত জিনিস হয় তবে তা প্রায় সর্বদা স্পষ্ট হবে। স্যাম্পলিং কোনও অন্তর্নিহিত উপকারী কার্যকলাপ নয়; এটি কেবলমাত্র আমরা যা করি কারণ তথ্য সংগ্রহের বাস্তবায়নের ব্যয় নিয়ে আমাদের ট্রেড অফ করা দরকার। আমরা জনসংখ্যাকে বৈশিষ্ট্যযুক্ত করার চেষ্টা করছি এবং জনসংখ্যা সম্পর্কে ডেটা সংগ্রহ এবং বিশ্লেষণের জন্য উপযুক্ত পদ্ধতিটি নির্বাচন করা দরকার। যখন ডেটা সংগ্রহ বা ডেটা প্রসেসিংয়ের কোনও পদ্ধতির প্রান্তিক ব্যয় বেশি হয় তখন নমুনাটি বোঝায়। জনসংখ্যার 100% পৌঁছানোর চেষ্টা করা সেক্ষেত্রে সংস্থানগুলির ভাল ব্যবহার নয়, কারণ আপনি প্রায়শই এলোমেলো নমুনা ত্রুটির ক্ষেত্রে ক্ষুদ্রতর উন্নতি করার চেয়ে প্রতিক্রিয়াবিহীন পক্ষপাতের মতো বিষয়গুলিকে সম্বোধন করা ভাল।

বড় ডেটা কীভাবে আলাদা? "বিগ ডেটা" আমাদের বহু যুগ ধরে একই প্রশ্নগুলি সম্বোধন করে, তবে "নতুন" হ'ল ডেটা সংগ্রহটি একটি বিদ্যমান, কম্পিউটার-মধ্যস্থতা প্রক্রিয়া থেকে ঘটে, তাই ডেটা সংগ্রহের প্রান্তিক ব্যয় মূলত শূন্য। এটি নাটকীয়ভাবে আমাদের স্যাম্পলিংয়ের প্রয়োজনীয়তা হ্রাস করে।

আমরা এখনও নমুনা ব্যবহার করব? যদি আপনার "বিগ ডেটা" জনসংখ্যা সমস্যার জন্য সঠিক জনসংখ্যা হয় তবে আপনি কেবল কয়েকটি ক্ষেত্রে নমুনা নিযুক্ত করবেন: পৃথক পরীক্ষামূলক গোষ্ঠী চালানোর প্রয়োজন, বা ডেটা নিছক ভলিউম ক্যাপচার এবং প্রক্রিয়া করার জন্য খুব বেশি যদি (অনেকগুলি) আমাদের মধ্যে আজকাল লক্ষ লক্ষ সারির ডেটা সহজেই হ্যান্ডেল করা যায়, সুতরাং এখানকার সীমানা আরও বেশি এবং আরও বাড়তে চলেছে)। যদি মনে হয় যে আমি আপনার প্রশ্নটি খারিজ করছি, এটি সম্ভবত কারণ আমি খুব কমই এমন পরিস্থিতির মুখোমুখি হয়েছি যেখানে তথ্য সংগ্রহ বা প্রক্রিয়াজাতকরণের পর্যায়ে ডেটা ভলিউম একটি উদ্বেগ ছিল, যদিও আমি জানি অনেকগুলি

আপনার "বিগ ডেটা" জনসংখ্যা আপনার টার্গেট জনসংখ্যাকে নিখুঁতভাবে উপস্থাপন করে না এমন পরিস্থিতিটি আমার কাছে কঠিন বলে মনে হয়, তাই ট্রেড অফগুলি কমলার চেয়ে বেশি আপেল। বলুন যে আপনি আঞ্চলিক পরিবহন পরিকল্পনাকারী এবং গুগল আপনাকে সহায়তা করার জন্য এর অ্যান্ড্রয়েড জিপিএস নেভিগেশন লগগুলিতে অ্যাক্সেস দেওয়ার প্রস্তাব দিয়েছে। ডেটাসেটটি ব্যবহারে সন্দেহজনক হলেও, জনসংখ্যা সম্ভবত স্বল্প আয়ের, জনসাধারণের পরিবহণ ব্যবহারকারী এবং বৃদ্ধদের বিরুদ্ধে নিয়মিতভাবে পক্ষপাতদুষ্ট হবে। এমন পরিস্থিতিতে, traditionalতিহ্যবাহী ভ্রমণ ডায়েরিগুলি এলোমেলোভাবে পরিবারের নমুনায় প্রেরণ করা, যদিও ব্যয়বহুল এবং সংখ্যায় ছোট, তথ্যের সংগ্রহের সর্বোত্তম পদ্ধতি হতে পারে। তবে এটি কেবল "নমুনা বনাম বড় তথ্য" এর প্রশ্ন নয়, এটি '


22

যদিও মোবাইল ডিভাইস এবং এর মাধ্যমে প্রচুর বিগ ডেটা তৈরি হচ্ছে তা খুব কমই থাকতে পারে, তবে এতে খুব কম ব্যবহারযোগ্য ডেটা রয়েছে। আপনি যদি চৌবাচ্চা ব্যবহার করে শহুরে ভ্রমণের ধরণগুলি পূর্বাভাস দিতে চান তবে আপনি আনুমানিক প্রবাহে প্রস্থের ক্রম দ্বারা বন্ধ হয়ে যেতে পারেন। সবচেয়ে খারাপ, আপনি জানেন না যে আপনি এই প্রবাহকে অত্যধিক মূল্যায়ন করছেন বা অবমূল্যায়ন করছেন। আপনি পাগল চতুষ্কোয়ার ব্যবহারকারীদের শহুরে ভ্রমণের নিদর্শনগুলির একটি অত্যন্ত নির্ভুল চিত্র পেতে পারেন, তবে যতক্ষণ না প্রত্যেকের প্রয়োজন (1) একটি কাজের স্মার্টফোন রাখতে, (2) সবসময় চৌবাচ্চা অ্যাপ্লিকেশন চালানোর জন্য এবং (3) এখানে নিবন্ধকরণ করার জন্য তারা যে স্থানে 10 মিনিটেরও বেশি সময় ধরে থাকেন (যেমন একটি বৈদ্যুতিন আদমশুমারি পান; উদারপন্থীরা গুগল এবং ফেসবুক সম্পর্কে আপনার সম্পর্কে সমস্ত কিছু জেনে রাখুন অভিযোগ করুন), আপনার ডেটাটিতে অজানা পক্ষপাতিত্ব থাকবে এবং আপনার বৈদ্যুতিন ডিভিগুলি সত্যিকারের শব্দটিকে পরাস্ত করতে থাকবে ট্রুম্যানস (ক্লিকযোগ্য):


(উত্স: হোয়াইটসাসুরভে.ইনফো )

যদি কিছু হয় তবে আমি প্রত্যাশা করব যে ইতিহাসের এই টুকরোটি পুনরায় পুনরাবৃত্তি হবে এবং বিগ ডেটা থেকে উত্পাদিত কিছু বড় "বিয়ার + ডায়াপার" পূর্বাভাসকে আরও কঠোর নমুনা পদ্ধতি ব্যবহার করে গবেষকরা উল্টে ফেলবেন। এটা বিস্ময়কর যে সম্ভাবনা ভিত্তিক সার্ভে এমনকি পতনশীল প্রতিক্রিয়া হার সত্ত্বেও সঠিক থাকা।


1
(+1 টি) কিন্তু, একটি বাঁধা ফোরস্কয়ার ব্যবহারকারীর বৈপরীত্য হবে না ভীতু । ;-)
কার্ডিনাল

1
হ্যাঁ ... সম্ভবত একটি খারাপ শব্দ। আমাকে যে পাগল করতে দিন!
স্টাসকে

2
বড় ডেটা অপরাধী নয়। এটি এটি ব্যবহৃত হয়। যখন এটিতে তথ্য থাকে এবং যথাযথভাবে প্রয়োগ করা হয় এটি খুব সহায়ক হতে পারে। ডেটা মাইনিং সব খারাপ নয়।
মাইকেল চেরনিক

ট্র্যাফিক তথ্যের জন্য বড় ডেটা ব্যবহারের দুর্দান্ত বিষয়। গুগল এবং অ্যাপলের মতো সংস্থাগুলি যেহেতু ইতিমধ্যে এটি করেছে, আমি মনে করি এটি কিছু শ্রোতার ক্ষেত্রে বড় তথ্য যেখানে (বর্তমানে উপলব্ধ) কমতে পারে তার একটি দুর্দান্ত উদাহরণ এবং আমি আমার উত্তরেও এটি অন্তর্ভুক্ত করার চেষ্টা করেছি।
জোনাথন

@ মিশেল, আপনি অবশ্যই ঠিক বলেছেন। ডেটা ময়লা সস্তা, তবে এর থেকে ব্যবহারযোগ্য তথ্য পাওয়ার উপায়গুলি হ্রাস পাচ্ছে না - যদি কিছু হয় তবে সেগুলি এগিয়ে চলেছে, কারণ দরকারী তথ্যটি বের করার জন্য এখন আরও একটি ডেটা অনুসন্ধান করতে হবে।
স্টাসকে

21

যখনই কেউ পরিসংখ্যানগত অনুক্রমের কৌশল প্রয়োগ করে, জনসংখ্যা সম্পর্কে কোনটি সিদ্ধান্তে পৌঁছানোর লক্ষ্য রয়েছে সে সম্পর্কে এটি পরিষ্কার হওয়া গুরুত্বপূর্ণ । এমনকি যে তথ্য সংগ্রহ করা হয়েছে তা যদি খুব বড় হয় তবে এটি কেবলমাত্র জনসংখ্যার একটি সামান্য অংশের সাথে সম্পর্কিত হতে পারে এবং সামগ্রিকভাবে খুব প্রতিনিধি নাও হতে পারে।

উদাহরণস্বরূপ ধরুন যে কোনও নির্দিষ্ট শিল্পে পরিচালিত একটি সংস্থা একটি নির্দিষ্ট দেশে তার গ্রাহকদের জন্য 'বড় ডেটা' সংগ্রহ করেছে। যদি সে দেশে এটি বিদ্যমান বিদ্যমান গ্রাহকদের সম্পর্কে উপসংহার আঁকতে সেই ডেটাটি ব্যবহার করতে চায়, তবে নমুনাটি খুব প্রাসঙ্গিক নাও হতে পারে। তবে যদি এটি বৃহত্তর জনসংখ্যার - সম্ভাব্য পাশাপাশি তেমনি বিদ্যমান গ্রাহকগণ বা অন্য কোনও দেশের গ্রাহকদের সম্পর্কে সিদ্ধান্তগুলি আঁকতে চায় - তবে গ্রাহকরা কী পরিমাণ ডেটা সংগ্রহ করেছেন সেগুলি কতটা প্রতিনিধি - সম্ভবত আয়, বয়স হিসাবে , লিঙ্গ, শিক্ষা ইত্যাদি - বৃহত্তর জনসংখ্যার।

সময় মাত্রাও বিবেচনা করা প্রয়োজন। যদি ভবিষ্যদ্বাণীগুলি সমর্থন করার জন্য পরিসংখ্যানগত অনুমান ব্যবহার করা হয়, তবে ভবিষ্যতে জনসংখ্যার প্রসারিত করতে হবে জনগণকে বুঝতে হবে। যদি তা হয় তবে তা পুনরায় বিবেচনা করা অপরিহার্য হয়ে উঠেছে যে ডেটা সেটটি বৃহত্তর হলেও ভবিষ্যতে যেগুলি পেতে পারে সেগুলির প্রতিনিধি পরিস্থিতিতে প্রাপ্ত হয়েছিল কিনা।


আমাদের সাইটে স্বাগতম, আদম! (আপনি নিয়মিতভাবে চেক করলে, আপনি আপনার স্বার্থ ব্যায়াম অনিয়মিত সুযোগ পাবেন জ্যামিতি এবং সংখ্যা তত্ত্ব :-)।
whuber

জনসংখ্যার বিবেচনার প্রয়োজন সম্পর্কে দুর্দান্ত পয়েন্ট! লোকেরা বড় ডেটা সম্পর্কে অলস পেতে পারে এমন একটি বড় উপায়।
জোনাথন

"এমনকি যে তথ্য সংগ্রহ করা হয়েছে তা খুব বড় হলেও এটি এখনও কেবল জনসংখ্যার একটি সামান্য অংশের সাথে সম্পর্কিত হতে পারে এবং সামগ্রিকভাবে খুব প্রতিনিধি নাও হতে পারে।" আমি মনে করি এই বাক্যটি একা অনেক প্রশ্নের উত্তর দেয়।
বেমিপেফ

13

আমি বড় ডেটা / এমএল ক্রেজটি যা দেখেছি তা থেকে, স্যাম্পলিংয়ের বিষয়ে চিন্তাভাবনা এবং যে নমুনাটি থেকে আপনার নমুনাটি আঁকানো হয়েছে তা আগের মতোই গুরুত্বপূর্ণ - তবে এর চেয়েও কম সম্পর্কে ভাবা হয়েছে।

আমি স্ট্যানফোর্ড এমএল শ্রেণীর "অডিটিং" করছি, এবং এখন পর্যন্ত আমরা জনসংখ্যার অনুক্রমের উল্লেখের সাথে উল্লেখযোগ্যভাবে সংবেদনশীলতা এবং নিউরাল নেটওয়ার্কগুলি কভার করেছি। যেহেতু এই শ্রেণিটি figures জন ব্যক্তিত্বের মূল্যবান লোক গ্রহণ করেছে, এখন সেখানে প্রচুর লোক রয়েছে যারা নমুনার ধারণা সম্পর্কে কোনও ধারণা ছাড়াই খুব সহজেই কীভাবে ডেটা ফিট করতে জানেন।


3
আমি পুরোপুরি একমত. মেশিন লার্নিং (বেশিরভাগ অনুশীলনকারী এবং প্রোগ্রামারস), বিগ ডেটা এবং "ডেটা সায়েন্স" সম্পর্কে বর্তমান ক্রেজটি পর্যবেক্ষণ করার সময়, আমি স্যাম্পলিং, অনুমান, পরিসংখ্যানগত যুক্তি বোঝার এবং অর্থটিকে সম্পূর্ণ উপেক্ষা করা এবং অন্ধভাবে প্রয়োগের জন্য যজ্ঞ করার জন্য হাস্যকরভাবে সাধারণ বলে মনে করি অ্যালগরিদম এটিতে নিতম্ব এমনকি আপনি ক্রস যাচাইকরণে এখানে প্রশ্ন এবং কিছু উত্তর সহ দেখতে পারেন। এ কারণেই আমি এটিকেও একটি হাইপ বলে বিশ্বাস করি যা শীঘ্রই অপ্রচলিত হয়ে যাবে বা পরিসংখ্যান জ্ঞানবিদ্যার ধার নেবে এবং এভাবে পরিসংখ্যানগুলির একটি শাখায় পরিণত হবে (আমি যাইহোক এটি এ হিসাবে দেখি)।
মোমো

2
সেই এমএল ক্লাসটি যদি আমি কিছুক্ষণ আগে অডিট করেছিলাম তার মতো হয়, তবে হাফডিং বৈষম্যের আগে একটি প্রযুক্তিগত ধারণা হ্রাস পেয়েছিল যে প্রশিক্ষণের তথ্য জনসংখ্যার থেকে একেবারে এলোমেলো নমুনা। দুর্ভাগ্যক্রমে, এটি প্রায়শই ঘটে না, কমপক্ষে আমার অভিজ্ঞতাতে এবং পুরো কোর্সে কৌশলগুলির প্রয়োগের উদাহরণগুলিতে। আপনি যখন "বিগ ডেটা" ব্যবহার করেন তখন এখনও এটি হয় না।
ডগলাস জারে

12

হ্যাঁ, নমুনাটি প্রাসঙ্গিক এবং প্রাসঙ্গিক থাকবে। নীচের লাইনটি হ'ল পরিসংখ্যানের প্রাক্কলনটির যথার্থতা সাধারণত নমুনার আকারের ফাংশন, আমরা যে জনসংখ্যায় সাধারণীকরণ করতে চাই তা নয়। সুতরাং 1,000 উত্তরদাতাদের একটি নমুনা থেকে গণনা করা গড় বা গড় অনুপাত জনসংখ্যার আকার নির্বিশেষে (বা "কত বড়" নির্বিশেষে একটি নির্দিষ্ট নির্ভুলতার (পুরো জনসংখ্যার যে অংশ থেকে আমরা নমুনা দিয়েছি সে সম্পর্কে শ্রদ্ধার) একটি অনুমান আনবে “ বড় তথ্য "হয়)।

যা বলেছিলেন: এখানে নির্দিষ্ট সমস্যা এবং চ্যালেঞ্জ রয়েছে যা প্রাসঙ্গিক এবং উল্লেখ করা উচিত:

  1. একটি ভাল সম্ভাবনার নমুনা নেওয়া সর্বদা সহজ নয়। তাত্ত্বিকভাবে, আমরা যে জনসংখ্যায় সাধারণীকরণ করতে চাই তার প্রতিটি ব্যক্তির (যার সম্পর্কে আমরা সূচি তৈরি করতে চাই) অবশ্যই নির্বাচিত হওয়ার একটি সম্ভাব্য সম্ভাবনা থাকতে হবে; আদর্শভাবে যে সম্ভাবনা একই হওয়া উচিত (সমান সম্ভাবনার নমুনা বা ইপিএসইএম - নির্বাচনের সমান সম্ভাবনা)। এটি একটি গুরুত্বপূর্ণ বিবেচনা এবং নমুনা প্রক্রিয়াটি জনসংখ্যার যে সদস্যকে সাধারণীকরণ করতে চায় তাদের সদস্যদের নির্বাচনের সম্ভাব্যতা কীভাবে অর্পণ করবে সে সম্পর্কে একটি পরিষ্কার ধারণা থাকা উচিত। উদাহরণস্বরূপ, টুইটার থেকে প্রাপ্ত কোনও ব্যক্তি টুইটার অ্যাকাউন্টবিহীন ব্যক্তিদের সহ মোট জনসংখ্যার সামগ্রিক অনুভূতির সঠিক অনুমানের ফিড দিতে পারেন?
  2. বড় ডেটাতে খুব জটিল বিশদ এবং তথ্য থাকতে পারে; অন্য কোনও উপায়ে বলা যায়, বিষয়টি নমুনা নয়, তবে (মাইক্রো) বিভাজন, প্রাসঙ্গিকভাবে পর্যবেক্ষণের একটি ছোট উপসেটের জন্য সঠিক বিশদটি বের করে। এখানে চ্যালেঞ্জটি নমুনা নয়, তবে মূল্যবান অন্তর্দৃষ্টিতে রূপান্তরিত হতে পারে এমন সুনির্দিষ্ট কার্যকর কার্যকর তথ্য প্রাপ্ত বড় ডেটার সুনির্দিষ্ট স্তরবিন্যাস এবং বিভাগকরণ সনাক্তকরণ to
  3. মতামত পরিমাপের আরেকটি সাধারণ নিয়ম হ'ল স্যাম্পলিংয়ের ত্রুটি এবং বায়াসগুলি সাধারণত নমুনা ত্রুটি এবং পক্ষপাতদুষ্টের চেয়ে অনেক বড়। আপনি যদি মতামত প্রকাশের জন্য উত্তরদাতাদের 1 শত গাজিলিয়ন রেকর্ড প্রক্রিয়া করে থাকেন তবে ফলাফলগুলি আরও কার্যকর করে না যদি আপনার কাছে কেবলমাত্র 1000 ব্যক্তির উপাত্তের ডেটা থাকে, বিশেষত যদি সম্পর্কিত সমীক্ষার জন্য প্রশ্নগুলি ভাল ও প্ররোচিত পক্ষপাতিত্ব না লেখা থাকে।
  4. কখনও কখনও স্যাম্পলিংয়ের প্রয়োজন হয়: উদাহরণস্বরূপ, যদি কেউ সমস্ত ডেটা থেকে একটি ভবিষ্যদ্বাণীপূর্ণ মডেল তৈরি করে, তবে কেউ কীভাবে এটি বৈধতা দেবে? কীভাবে কেউ বিভিন্ন মডেলের যথার্থতা তুলনা করতে পারে? যখন "বিগ ডেটা" (খুব বড় ডেটা সংগ্রহস্থল) থাকে তখন কেউ আলাদা আলাদা নমুনার জন্য একাধিক মডেল এবং মডেলিংয়ের পরিস্থিতি তৈরি করতে পারে এবং অন্যান্য স্বতন্ত্র নমুনায় সেগুলি বৈধ করে (তাদের চেষ্টা করে দেখতে পারেন)। যদি সমস্ত ডেটার জন্য একটি করে মডেল তৈরি করা হয় - তবে এটির বৈধতা কীভাবে পাওয়া যায়?

আপনি আমাদের 'বিগ ডেটা রেভোলিউশন' দেখতে পারেন।


1
আমাদের সাইটে স্বাগতম, কিরা!
হোয়বার

3

অনেকগুলি বড় ডেটা পদ্ধতি প্রকৃতপক্ষে স্যাম্পলিংয়ের আশেপাশে তৈরি করা হয়।

প্রশ্নটি আরও বেশি হওয়া উচিত:

আমাদেরও কি খুব বড় ডেটা সহ পদ্ধতিগত নমুনা ব্যবহার করা উচিত নয় ?

প্রচুর "বিগ ডেটা" স্টাফ এখনও বেশ তাজা এবং কখনও কখনও নিষ্পাপ। উদাহরণস্বরূপ কে-অর্থগুলি তুচ্ছ সমান্তরাল হতে পারে, এবং এইভাবে "বিগ ডেটা" এর জন্য কাজ করে (আমি ফলাফলগুলি নিয়ে কথা বলব না, সেগুলি খুব অর্থবহ নয়; এবং সম্ভবত কোনও নমুনায় প্রাপ্তদের চেয়ে খুব আলাদা নয়!)। যতদূর আমি জানি এটিই মাহাউটে কে-মানে বাস্তবায়ন করে।

যাইহোক, গবেষণা নিখুঁত সমান্তরালতার বাইরে চলেছে (এটি এখনও প্রচুর পরিমাণে পুনরাবৃত্তির প্রয়োজন হতে পারে) এবং একটি নির্দিষ্ট সংখ্যক পুনরাবৃত্তিতে কে-মানে করার চেষ্টা করে । এর উদাহরণ:

  • ম্যাপ্রেডিউস
    এ, এ এবং ইম, এস এবং মসলেলি, বি ব্যবহার করে দ্রুত ক্লাস্টারিং ,
    জ্ঞান আবিষ্কার এবং ডেটা মাইনিং সম্পর্কিত 2011-এর 17 তম এসিএম সিক্কডিডি আন্তর্জাতিক সম্মেলনের কার্যক্রম

এবং অনুমান করুন কী, তাদের পদ্ধতির ভারীভাবে নমুনার উপর ভিত্তি করে

পরবর্তী উদাহরণ: সিদ্ধান্ত বন । এটি মূলত: ডেটা সেট থেকে বেশ কয়েকটি নমুনার জন্য , প্রতিটি সিদ্ধান্তের গাছ তৈরি করুন। আবার তুচ্ছভাবে সমান্তরাল হতে পারে: প্রতিটি নমুনা আলাদা মেশিনে রাখুন। এবং আবার, এটি একটি নমুনা ভিত্তিক পদ্ধতির।

সুতরাং বড় ডেটা পদ্ধতির জন্য নমুনা হ'ল অন্যতম মূল উপাদান!

আর এতে কোনও ভুল নেই।


2

ক্রস বৈধতা সাব-স্যাম্পলিংয়ের একটি নির্দিষ্ট উদাহরণ যা এমএল / বড় ডেটাতে বেশ গুরুত্বপূর্ণ। আরও সাধারণভাবে, বড় ডেটা এখনও সাধারণত একটি জনসংখ্যার নমুনা, যেমন এখানকার অন্যান্য লোকেরা উল্লেখ করেছেন।

তবে, আমি মনে করি যে ওপি সম্ভবত স্যাম্পলিংয়ের উল্লেখ করছে কারণ এটি একটি নিয়ন্ত্রিত পরীক্ষাগুলির ক্ষেত্রে প্রযোজ্য ডেটা বনাম। সাধারণত বড় ডেটা উত্তরোত্তর হিসাবে মনে করা হয়, তবে আমার কাছে কমপক্ষে ব্যতিক্রম রয়েছে। আমি "বড় ডেটা সেটিংসে নমুনা দেওয়ার" উদাহরণ হিসাবে ই-কমার্স এবং সোশ্যাল নেটওয়ার্ক সেটিংসে এলোমেলোভাবে পরীক্ষাগুলি, এ / বি টেস্টিং এবং মাল্টিআরমেড ডাকাতদের কথা ভাবব।


1

যে জায়গাগুলিতে বিগ ডেটা জনপ্রিয়তা অর্জন করছে: অনুসন্ধান, বিজ্ঞাপন, অ্যামাজন, নেটফ্লিক্সের মতো সুপারিশকারী সিস্টেমগুলি পুরো ডেটা সেটটি অন্বেষণ করার জন্য খুব বড় উত্সাহ রয়েছে।

এই ব্যবস্থাগুলির উদ্দেশ্য হ'ল জনসংখ্যার প্রতিটি সদস্যের জন্য প্রস্তাবনা / পরামর্শ। এছাড়াও, অধ্যয়নের গুণাবলী সংখ্যা বিপুল en গড় ওয়েব অ্যানালিটিক্স সিস্টেম ক্লিকের মাধ্যমে হার, কোনও পৃষ্ঠায় "গরম অঞ্চলগুলি" "তাপ ট্র্যাকিং", সামাজিক মিথস্ক্রিয়া ইত্যাদি পরিমাপ করতে পারে এবং এগুলি পূর্বনির্ধারিত লক্ষ্যের একটি বিশাল সংখ্যার তুলনায় ওজন করতে পারে।

আরও গুরুত্বপূর্ণ বিষয়, এখন বিগ ডেটা যে জায়গাগুলি সর্বব্যাপী, বেশিরভাগ জায়গাতেই "অনলাইন" ডেটা স্ট্রিম অর্থাৎ ডেটা প্রতিনিয়ত যুক্ত করা / আপডেট করা হচ্ছে। একটি নমুনা স্কিম তৈরি করা যা অন্তর্নিহিত পক্ষপাত ছাড়াই এই সমস্ত বৈশিষ্ট্যগুলি কভার করে এবং এখনও প্রতিশ্রুতিবদ্ধ ফলাফল সরবরাহ করে (আরও ভাল মার্জিন পড়ুন) একটি চ্যালেঞ্জ।

স্যাম্পলিং এখনও জরিপ, মেডিকেল ট্রায়াল, এ / বি পরীক্ষার, গুণমান নিশ্চিতকরণের জন্য অত্যন্ত প্রাসঙ্গিক।

সংক্ষেপে, নমুনা দেওয়া খুব দরকারী যখন অধ্যয়নের জন্য জনসংখ্যা খুব বড় এবং আপনি জনসংখ্যার ম্যাক্রোস্কোপিক বৈশিষ্ট্যে আগ্রহী। সিস্টেমের মাইক্রোস্কোপিক বৈশিষ্ট্যগুলি ব্যবহারের জন্য 100% চেকিং (বিগ ডেটা) প্রয়োজনীয়

আশাকরি এটা সাহায্য করবে :)


সুতরাং আপনার বক্তব্যটি কি তারা এখনও যে ডেটা নেই তাদের কাছে থাকা ডেটা ছাড়িয়ে সাধারণ করতে সক্ষম হতে চায় না? বা তারা কি মনে করেন যে তাদের নমুনা এত বড় যে তাদের এই সমস্যাগুলি নিয়ে চিন্তা করতে হবে না? বা যে অন্তর্নিহিত প্যারামিটারগুলি সময়ের সাথে সাথে পরিবর্তিত হবে, তাই এতক্ষণ কি নতুন বিষয় প্রবাহিত হওয়ার সাথে সাথে তারা আপডেট অবিরত রাখে না?
গুং - মনিকা পুনরায়

@ ইঙ্গিতটি ইস্যুটি নমুনার আকার নয়, তবে একটি ডেটাসেটের জন্য একটি নিরপেক্ষ নমুনা তৈরির সমস্যা যার মধ্যে বিশাল সংখ্যক বৈশিষ্ট্য রয়েছে। এবং জেনারালাইজেশন সাধারণত মেশিন লার্নিং অ্যালগরিদম দ্বারা সম্পন্ন হয়, ডেটা সেটের একটি অংশে প্রশিক্ষিত। অবিচ্ছিন্নভাবে আসা অনলাইন ডেটা স্ট্রিমগুলি স্যাম্পলিংয়ের বিষয়টিটিকে মাধ্যমিক হিসাবে তোলে কারণ ব্যাচ আপডেটগুলি পরামিতিগুলি পরিবর্তন করতে ব্যবহার করা যেতে পারে।
র‌্যাম্পেজ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.