যখন আপনি বিতরণটি জানেন না তখন কীভাবে নমুনা করবেন


9

আমি পরিসংখ্যানগুলিতে মোটামুটি নতুন (মুষ্টিমেয় প্রাথমিক স্তরের ইউনি কোর্স) এবং অজানা বিতরণ থেকে নমুনা নিয়ে ভাবছিলাম। বিশেষত, অন্তর্নিহিত বিতরণ সম্পর্কে যদি আপনার কোনও ধারণা না থাকে তবে আপনি কোনও প্রতিনিধি নমুনা পেয়েছেন এমন "গ্যারান্টি" দেওয়ার কোনও উপায় আছে কি?

উদাহরণস্বরূপ উদাহরণ: বলুন যে আপনি বিশ্বব্যাপী সম্পদের বিতরণটি বের করার চেষ্টা করছেন। যে কোনও প্রদত্ত ব্যক্তির জন্য, আপনি কোনওভাবে তাদের সঠিক সম্পদ খুঁজে পেতে পারেন; তবে আপনি পৃথিবীর প্রতিটি একক ব্যক্তিকে "নমুনা" দিতে পারবেন না। সুতরাং, ধরা যাক আপনি এলোমেলোভাবে এন = 1000 জনকে নমুনা দিন।

  1. যদি আপনার নমুনায় বিল গেটস অন্তর্ভুক্ত না থাকে তবে আপনি ভাবতে পারেন যে কোনও বিলিয়নেয়ারের অস্তিত্ব নেই।

  2. যদি আপনি নমুনায় বিল গেটস অন্তর্ভুক্ত করেন তবে আপনি ভাবতে পারেন যে বিলিয়নেয়াররা তাদের তুলনায় আরও সাধারণ।

উভয় ক্ষেত্রেই, আপনি সত্যিই বলতে পারবেন না যে সাধারণ বা বিরল কোটিপতিরা কীভাবে হয়; এমনকি আপনি কোনও কিছুরই অস্তিত্ব আছে কিনা তা বলতেও সক্ষম হবেন না।

এর মতো কেসের জন্য কী আরও ভাল নমুনা ব্যবস্থা উপস্থিত রয়েছে?

কীভাবে নমুনা পদ্ধতি ব্যবহার করবেন (এবং কয়টি নমুনা প্রয়োজন) আপনি কোনও অগ্রিমকে কীভাবে বলবেন?

আমার কাছে মনে হয় আপনার পক্ষে জনগণের একটি বিশাল শতাংশের "নমুনা" থাকতে হবে, যুক্তিসঙ্গত নিশ্চিততার কাছে পৌঁছানোর সাথে, গ্রহে সাধারণ বা বিরল বিলিয়নিয়াররা কতটা সাধারণ, এবং এটি অন্তর্নিহিত বিতরণটি কিছুটা জটিল হওয়ার কারণে হয়েছে সাথে কাজ করা.


1
সম্পদের ক্ষেত্রে বিতরণের ক্ষেত্রে, লক্ষ্যটি ঠিক কী ছিল তার উপর অনেক কিছুই নির্ভর করবে। উদাহরণস্বরূপ যদি লক্ষ্যটি ছিল যে ধনসম্পদের মাত্রাটি অনুমান করা যা একজন ব্যক্তিকে শীর্ষ 10%, শীর্ষ 20% এবং আরও কিছুতে রাখে, তবে নমুনাটি কোটিপতি অন্তর্ভুক্ত কিনা তা সমালোচনা করা হবে না। তবে যদি লক্ষ্যটি ছিল যে শীর্ষস্থানীয় 10% দ্বারা প্রাপ্ত সম্পদের অনুপাতটি অনুমান করা যায়, তবে কীভাবে নমুনাটি কোটিপতিদের দ্বারা পরিচালিত হয় তা সম্ভবত সমালোচনামূলক হবে। এখানে সাধারণ বিষয়টি হ'ল কোনও নমুনা প্রতিনিধি কিনা তা আপনি যা করার চেষ্টা করছেন তা সর্বদা তুলনামূলক।
অ্যাডাম বেইলি

সত্যি? ওপেন সমস্যা, উত্তরগুলি ভাল হওয়া, এখনও অনুমান (কখনও কখনও ভাল, কখনও কখনও খারাপ)। এটি একটি উন্মুক্ত সমস্যা, সম্ভবত পরিসংখ্যানগুলির একক উন্মুক্ত সমস্যা
নিকোস এম

উত্তর:


9

আমি আপনার দাবিটিকে বিতর্ক করছি যে "উভয় ক্ষেত্রেই আপনি সত্যই বলতে পারবেন না যে সাধারণ বা বিরল কোটিপতি কতটা" " যাক জনসংখ্যা বিলিয়নিয়ার অজানা ভগ্নাংশ হতে। পূর্বে অভিন্নতার সাথে, অঙ্কের পরে বিতরণ যে 0 বিলিয়নেয়ার রয়েছে তা বিটা (1,1001) বিতরণ, যা দেখতে এরকম দেখাচ্ছে: 1000পি (চ | খ = 0)

যদিও বিয়ের পরে বিতরণ 1 বিলিয়নেয়ার হয়েছে তা বিটা (2,1000) বিতরণ, যা দেখতে এটির মতো দেখাচ্ছে: 1000পি (চ | খ = 1)

উভয় ক্ষেত্রেই, আপনি যথেষ্ট নিশ্চিত হতে পারেন যে । আপনি ভাবতে পারেন যে এটি যথেষ্ট সুনির্দিষ্ট নয়। তবে বাস্তবে 0.01 আকার 1000 এর নমুনার জন্য বেশ নির্ভুল। উদাহরণস্বরূপ, পুরুষদের ভগ্নাংশটি মাত্র ০.০ আকারের মধ্যেই অনুমান করা যায়। <0.01


7

দুটি জিনিস আপনি করতে পারেন (পৃথকভাবে বা সংমিশ্রণে)

লেজ মডেল

একটি হ'ল প্যারাম্যাট্রিক বিতরণ ব্যবহার করে বিতরণের লেজ মডেল করা। পাওয়ার আইনগুলি সম্পদের বন্টন ভালভাবে মাপসই হিসাবে পরিচিত, তাই আপনি একটি পেরিটো বিতরণের চেষ্টা করেন। আপনি হয় সর্বাধিক সম্ভাবনা দ্বারা এই বিতরণ ফিট করতে হবে, যে পরামিতি আপনার নমুনা প্রতিনিধিত্ব করে সন্ধান করে। বা আরও ভাল, আপনি প্যারামিটারগুলিতে কোনও বায়েশিয়ান প্রিয়ার রাখতে পারেন এবং পুরো উত্তরোত্তর গণনা করতে পারেন।

দুর্ভাগ্যক্রমে, পাওয়ার আইনগুলি প্যারামিটারগুলির জন্য খুব সংবেদনশীল এবং আপনার নমুনায় অনেকগুলি বড় ডেটাপয়েন্ট ছাড়াই ক্ষয়কারী সম্পর্কে অনেক অনিশ্চয়তা দেখা দেবে। বিলিয়নেয়ারের আনুমানিক সংখ্যা এই প্যারামিটারের প্রতি সংবেদনশীল হবে, তবে বিলিয়নেয়ারদের গড় সম্পদের তুলনায় অনেক কম, তাই পরিস্থিতি খুব খারাপ নয়।

গুরুত্ব নমুনা

অন্যটি হ'ল আপনি নিজের নমুনা সংগ্রহ করার পদ্ধতিটি পরিবর্তন করুন। মনে করুন যে আপনার সন্দেহ (যেমন হওয়া উচিত) মোগাদিশিউয়ের চেয়ে মোনাকো বা জুরিখে মাথাপিছু আরও কয়েক হাজার কোটিপতি রয়েছেন। আপনি যদি এই শহরগুলির প্রত্যেকটির জনসংখ্যা জানেন তবে আপনি যে সমস্ত শহরগুলিতে আরও বেশি বিলিয়নিয়ারের দেখার আশা করছেন সেই শহরগুলিতে আপনি আরও একটি বড় নমুনা সংগ্রহ করতে পারেন, এবং অন্যগুলির মধ্যে একটি ছোট একটি সংগ্রহ করতে পারেন।

সুতরাং বলুন যে জুরিখের 400,000 মানুষ এবং মোগাদিশু 1,400,000 এবং আমরা 9,000 জনকে জরিপ করতে চাই। আমরা এখানে কোটিপতি নয়, কোটিপতি সংখ্যা নিয়ে আগ্রহী।

একটি নিরপেক্ষ নমুনা জুরিখে 2,000 এবং মোগাদিশুতে 7,000 জনকে বেছে নেবে। যাইহোক, আমরা জুরিখ থেকে প্রায়শই সাত বার ভাঁজ করে নমুনাকে পক্ষপাত করব। সুতরাং আমরা "ভান" করব যে জুরিখের 2,800,000 লোক রয়েছে এবং পরে এটি সামঞ্জস্য করে। এর অর্থ আমরা জুরিখে 6,000 এবং মোগাদিশুতে 4,000 এর পরিবর্তে 6,000 লোককে জরিপ করব।

বলুন যে আমরা আমাদের জুরিখ নমুনায় 21 মিলিয়নেয়ার গণনা করি এবং আমাদের মোগাদিশু নমুনায় কেবল 1 জন। যেহেতু আমরা জুরিখ 7 ভাগে নমুনা পেয়েছি, আমরা কেবল এটি 3 মিলিয়নেয়ার হিসাবে গণনা করব।

এই পদ্ধতিটি আপনার অনুমানের বৈকল্পিকতা হ্রাস করবে। এটি প্রথম পদ্ধতির সাথে একত্রেও ব্যবহার করা যেতে পারে, প্যারামেট্রিক বিতরণে ফিট করার সময় আপনি স্যাম্পলিংয়ের জন্য গুরুত্বের জন্য সামঞ্জস্য করবেন।


6

আমি মনে করি একটি ভাল নমুনা পদ্ধতি সিস্টেমের পূর্ববর্তী জ্ঞানের উপর ভিত্তি করে। আপনার ক্ষেত্রে, আপনার সম্ভাব্য বায়াসগুলি সম্পর্কে আপনার জ্ঞান রয়েছে যা আপনার নমুনাটিকে প্রভাবিত করতে পারে। আপনার যদি সেই জ্ঞান না থাকে তবে আপনি এটি সাহিত্য থেকে অর্জন করতে পারেন।

আপনার উদাহরণে, আপনি জানেন যে কোটিপতি আছেন এবং তারা আপনার নমুনা পক্ষপাতদুষ্ট হতে পারে। সুতরাং আপনি শিক্ষার স্তর, দেশ, কাজের ধরণের ইত্যাদি দ্বারা নমুনাটি প্রশমিত করার সিদ্ধান্ত নিতে পারেন একাধিক বিকল্প রয়েছে।

আরেকটি উদাহরণ দিয়ে চেষ্টা করা যাক। আপনার উদ্দেশ্যটি একটি পার্কে ইঁদুরের প্রজাতির প্রাচুর্য নির্ধারণ করা। এই পার্কে, বন এবং চারণভূমি রয়েছে। সাহিত্যের দ্বারা, আপনি জানেন যে ইঁদুরগুলি বনভূমিতে বনভূমির চেয়ে বেশি পরিমাণে রয়েছে। সুতরাং আপনি এই বৈশিষ্ট্য দ্বারা আপনার স্যাম্পলিং stratify। স্যাম্পল করার অন্যান্য পদ্ধতিও সম্ভব, তবে আমি মনে করি আপনার সেরা তথ্যটি বিদ্যমান সাহিত্যের থেকে হবে।

আর যদি আপনার ক্ষেত্র সম্পর্কে সাহিত্য না থাকে? অভাবনীয়, তবে সেই প্রসঙ্গে, নমুনা দেওয়ার জন্য কোন কারণগুলিকে বিবেচনা করা দরকার তা দেখার জন্য আমি একটি প্রাক-গবেষণা করব do


2

কোনও নমুনা প্রতিনিধি কিনা তা নমুনার পর্যবেক্ষণযোগ্য পরিমাপের সাথে কোনও সম্পর্ক রাখে না। একটি নমুনা প্রতিনিধিত্ব করে যদি পর্যবেক্ষণ ইউনিটের প্রতিটি সেট একই আকারের অন্য কোনও সেট হিসাবে নির্বাচিত হওয়ার একই সম্ভাবনা থাকে। অবশ্যই আপনি যদি আপনার নমুনা জায়গার সম্পূর্ণ গণনা না পান তবে এটি করা শক্ত। ধরে নিই যে আপনি এটি পেতে পারেন (উদাহরণস্বরূপ আদমশুমারীর তথ্য থেকে), একটি সাধারণ এলোমেলো নমুনা প্রতিনিধিত্ব করবে।

আপনি কীভাবে আপনার নমুনাটি গ্রহণ করেন তা বিবেচনা করা না কেন, সর্বদা বিবেচনা করার জন্য সর্বদা কমপক্ষে তিনটি পৃথক উত্স থাকবে:

নমুনা ত্রুটি: সুযোগক্রমে আপনি আপনার প্রতিনিধি নমুনায় বিল গেটস অন্তর্ভুক্ত করেন। পরিসংখ্যানগত পদ্ধতিগুলি, বিশেষত আত্মবিশ্বাসের অন্তরগুলির প্রস্থগুলি এটিকে যত্ন নেওয়ার জন্য ডিজাইন করা হয়েছে, তবে আপনার হাতে বিতরণ সম্পর্কে মোটামুটি জ্ঞান থাকলে (যেমন স্বাভাবিকতা, যা সম্পদের বন্টন অবশ্যই অবধারিত নয়)।

নমুনা পক্ষপাত: নমুনা প্রতিনিধি ছিল না। উদাহরণ: বিল গেটসের একটি তালিকাভুক্ত নম্বর রয়েছে, তাই আপনার টেলিফোন সমীক্ষা কখনই তার কাছে পৌঁছতে পারে না (যদি আপনি "এলোমেলো-অঙ্কের ডায়ালিং" এর মতো কিছু ব্যবহার না করেন)। এটি চরম উদাহরণ, তবে নমুনা পক্ষপাত খুব ব্যাপক very একটি সাধারণ ঘটনা হ'ল সাইটে বা সুবিধার্থে নমুনা নেওয়া: আপনি রেস্তোঁরাতে রেস্তোরাঁর পৃষ্ঠপোষকদের নমুনা রাখেন যে তারা জায়গাটি পছন্দ করে কিনা, তারা সেখানে কতবার ছিল এবং তারা ফিরে আসার পরিকল্পনা করছে কিনা। পুনরাবৃত্তি গ্রাহকরা এক সময়ের গ্রাহকদের চেয়ে বেশি নমুনা নেওয়ার সম্ভাবনা বেশি এবং এই ধরণের নমুনাগুলি তাদের মনোভাবগুলিতে মারাত্মক পক্ষপাতদুষ্ট হতে পারে।

প্রতিক্রিয়া পক্ষপাত: পরিমাপগুলি নিজেরাই ভুল। এটি মিটারের ত্রুটি থেকে শুরু করে কোয়ান্টাম এফেক্টের (যেমন হাইজেনবার্গের অনিশ্চয়তার নীতি) থেকে সচেতনভাবে মিথ্যাচারের কারণেই এসেছে।


এই উত্তরের দরকারী পরামর্শ আছে এবং ভাল জমি জুড়ে covers আমি প্রস্তাব দিতে চাই যে "প্রতিনিধি" এর বৈশিষ্ট্যটি খুব বাধাজনক হতে পারে, কারণ এটি নমুনার সাধারণ এবং দরকারী ফর্মগুলি (অন্যান্য জবাবগুলিতে নির্দিষ্টভাবে উল্লেখ করা কিছু অন্তর্ভুক্ত করে) যেমন স্তরিত নমুনা, গুরুত্বের নমুনা এবং পদ্ধতিগত নমুনার ফর্মগুলি বাদ দেয় because । কোনও পর্যবেক্ষণ ইউনিট অন্তর্ভুক্ত করার সম্ভাবনা (এবং তাই পক্ষপাতহীন অনুমান উত্পাদন করতে ব্যবহার করা যেতে পারে) তবে প্রদত্ত আকারের সমস্ত সেটের জন্য অবিচ্ছিন্নভাবে না হয়ে কী নমুনাটি প্রতিনিধিত্ব করার পক্ষে পর্যাপ্ত হবে না?
শুক্রবার

@ হুবুয়ার "পর্যবেক্ষণ ইউনিটগুলির কোনও সেট অন্তর্ভুক্ত করার সম্ভাবনা জানা গেলে কি নমুনা প্রতিনিধিত্ব করার পক্ষে যথেষ্ট হবে না ...": এটি সঠিক, এবং স্তরিত নমুনা ও গুরুত্বের নমুনা স্বীকার করার জন্য আমার উত্তরটি সম্পাদনা করা উচিত। যাইহোক, নিয়মিত পদ্ধতিতে নমুনা ছদ্মবেশী, এবং লিঙ্কে এবং অন্যত্র দেওয়া পরামর্শটি কেবল ভুল। যদি ডেটাতে নিয়মতান্ত্রিক নিদর্শন থাকে, একটি এলোমেলো প্রারম্ভিক বিন্দু পক্ষপাত দূর করবে না, এটি যা করবে তা নিশ্চিত করা আপনি পক্ষপাত গণনা করতে সক্ষম হবেন না তা নিশ্চিত করা।
ব্যবহারকারী3697176

সম্ভবত এখন অবধি সেরা উত্তর (সরাসরি পরিসংখ্যানের দিকে লক্ষ্য করার অর্থে)
নিকোস এম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.