আত্মবিশ্বাসের বিরতি বনাম নমুনা আকার?


9

আমি পরিসংখ্যান এবং আত্মবিশ্বাসের অন্তরগুলির ক্ষেত্রে সম্পূর্ণ নতুন। সুতরাং এটি খুব তুচ্ছ বা এমনকি নির্বোধ শব্দ হতে পারে। আপনি যদি আমাকে বুঝতে বা এমন কিছু সাহিত্য / পাঠ / ব্লগকে নির্দেশ করতে পারেন যা এটি আরও ভাল ব্যাখ্যা করে তবে আমি প্রশংসা করব।

সিএনএন, ফক্স নিউজ, পলিটিকো ইত্যাদি সম্পর্কিত বিভিন্ন নিউজ সাইটগুলিতে মার্কিন প্রেসিডেন্ট রেস ২০১২ সম্পর্কিত তাদের জরিপ সম্পর্কে আমি দেখি। প্রতিটি সংস্থা কিছু পোল পরিচালনা করে এবং ফর্মের কিছু পরিসংখ্যান রিপোর্ট করে:

সিএনএন: ওবামার জনপ্রিয়তা +/- x1% এর মার্জিনের সাথে X%। নমুনা আকার 600. ফক্স: ত্রুটির মার্জিনের সাথে ওবামার জনপ্রিয়তা ওয়াই%, +/- y1%। নমুনা আকার 800. এক্সওয়াইজেড: ত্রুটির ব্যবধানের সাথে ওবামার জনপ্রিয়তা জেড%, +/- z1%। নমুনা আকার 300।

আমার সন্দেহ এখানে:

  1. কোনটির উপর নির্ভর করব তা আমি কীভাবে সিদ্ধান্ত নেব? এটি কি আত্মবিশ্বাসের ব্যবধানের ভিত্তিতে হওয়া উচিত, বা আমার কি ধরে নেওয়া উচিত যেহেতু ফক্সের আকারের চেয়ে বড় আকার রয়েছে, তাই এর অনুমান আরও নির্ভরযোগ্য? আত্মবিশ্বাসের ঘটনাবলী এবং নমুনা আকারের মধ্যে এমন একটি অন্তর্নিহিত সম্পর্ক রয়েছে যা নির্দিষ্ট করে অন্যটিকে নির্দিষ্ট করার প্রয়োজনকে নির্দিষ্ট করে?

  2. আমি কি আত্মবিশ্বাসের ব্যবধানগুলি থেকে মানক বিচ্যুতি নির্ধারণ করতে পারি? যদি তা হয় তবে এটি কি সর্বদা বৈধ বা কেবল নির্দিষ্ট বিতরণের জন্য (যেমন গাউসিয়ান) বৈধ?

  3. উপরোক্ত তিনটি অনুমানকে "একত্রিত" বা "একত্রিত" করতে এবং আত্মবিশ্বাসের অন্তরগুলির সাথে আমার নিজস্ব অনুমানও পাওয়ার উপায় আছে কি? সেক্ষেত্রে আমার কোন নমুনা আকার দাবি করা উচিত?

আমি কেবল আমার উদাহরণটি আরও ভালভাবে ব্যাখ্যা করার জন্য সিএনএন / ফক্স উল্লেখ করেছি। আমার এখানে ডেমোক্র্যাট বনাম রিপাবলিকান বিতর্ক শুরু করার কোনও ইচ্ছা নেই।

আমি উত্থাপিত বিষয়গুলি বুঝতে দয়া করে আমাকে সহায়তা করুন।

উত্তর:


4

পিটারের দুর্দান্ত উত্তরের পাশাপাশি, আপনার নির্দিষ্ট প্রশ্নের কয়েকটি উত্তর এখানে দেওয়া হয়েছে:

  1. কারা আস্থা রাখতে হবে তার উপরও নির্ভর করবে যে জরিপটি কী করছে এবং একটি ভাল মানের পোল পেতে তারা কী প্রচেষ্টা চালিয়েছে। একটি বৃহত নমুনার আকার আরও ভাল নয় যদি নমুনাটি প্রতিনিধিত্ব না করে, একটি বিশাল পোল গ্রহণ করে তবে কেবল একটিতে নন-সুইং স্টেট খুব ভাল ফলাফল দেয় না।

    নমুনার আকার এবং আত্মবিশ্বাসের ব্যবধানের প্রস্থের মধ্যে একটি সম্পর্ক রয়েছে তবে অন্যান্য জিনিসগুলি প্রস্থকেও প্রভাবিত করে, যেমন শতাংশটি 0, 1 বা 0.5 এর কাছাকাছি কতটা কাছাকাছি; কী পক্ষপাত সমন্বয় ব্যবহৃত হয়েছিল, কীভাবে নমুনা নেওয়া হয়েছিল (গুচ্ছ, স্তরবিন্যাস ইত্যাদি)। সাধারণ নিয়মটি হল যে আত্মবিশ্বাসের ব্যবধানের প্রস্থটি proportion সমানুপাতিক হবে , সুতরাং অন্তরকে অর্ধেক করার জন্য আপনাকে নমুনার আকারের 4 গুণ বেশি প্রয়োজন।1n

  2. কীভাবে নমুনা সংগ্রহ করা হয়েছিল এবং ব্যবস্থার গণনা করার জন্য কোন সূত্র ব্যবহার করা হয়েছিল সে সম্পর্কে আপনি যদি যথেষ্ট পরিমাণে জানেন তবে আপনি স্ট্যান্ডার্ড বিচ্যুতির জন্য সমাধান করতে পারেন (আপনার আত্মবিশ্বাসের স্তরটি সাধারণত ব্যবহার করা হচ্ছে তা সাধারণত 0.05 টিও জানতে হবে)। স্তরিত বনাম ক্লাস্টারের নমুনাগুলির জন্য সূত্রটি আলাদা। এছাড়াও বেশিরভাগ পোল শতাংশের দিকে নজর দেয়, তাই দ্বিপদী বিতরণ ব্যবহার করে।

  3. তথ্য একত্রিত করার বিভিন্ন উপায় রয়েছে তবে নমুনাগুলি কীভাবে সংগ্রহ করা হয়েছিল সে সম্পর্কে আপনাকে সাধারণত কিছুটা জানতে হবে বা অন্তরগুলি কীভাবে তৈরি করা হয়েছিল সে সম্পর্কে কিছুটা অনুমানের জন্য প্রস্তুত হতে আগ্রহী। বায়েশিয়ান পদ্ধতির এক উপায় is


1
+1 টি। তবে # 3 এর দৃষ্টিভঙ্গি কি আসলেই এতটাই নির্লজ্জ বা কঠিন? আমার যদি স্বতন্ত্র অনুমানের সংকলন থাকে, প্রত্যেকটির নিজস্ব ত্রুটির মার্জিন থাকে তবে আমি কেন (কমপক্ষে মোটামুটিভাবে) এগুলিকে স্বাভাবিক উপায়ে (স্কোড এমও দ্বারা বিপরীতভাবে ওজনযুক্ত) একত্রিত করতে পারি না এবং তাদের স্ট্যান্ডার্ড ত্রুটিগুলি সংযুক্ত করতে পারি না কেন ভাল (ভেরিয়েন্স সূত্র ব্যবহার করে)? এটি নিখুঁত হবে না, তবে এমন একটি জরিপ বেছে নেওয়ার চেয়ে ভাল হওয়া উচিত যা নির্ভর করে, তাই না?
whuber

ধন্যবাদ গ্রেগ! আমি আপনার উত্তর প্রশংসা করি। আপনি আপনার 3 নম্বর প্রশ্নের উত্তরে উল্লেখ করেছেন যে "একটি বায়েশিয়ান পদ্ধতির এক উপায়"। আপনি কি আমাকে এমন কিছু সাহিত্যের দিকে নির্দেশ করতে পারেন যা এই সম্পর্কে আরও তথ্য দেয়?
নিক

@ শুভ: আপনার মন্তব্যের জন্য ধন্যবাদ। এটাই আমি করার কথা ভাবছিলাম। আপনি কি মনে করেন যে এই ফ্যাশনে এই অনুমানগুলি একত্রিত করা ন্যায়সঙ্গত? পুরোপুরি না হলেও অনেকাংশে?
নিক

1
@ হুবুহু, আমি পোস্টারটি সচেতন ছিলাম এবং প্রয়োজনীয় অনুমানগুলি নিয়ে বেঁচে থাকতে পারি তা নিশ্চিত করার জন্য, এটি একে বিবর্ণ হিসাবে আঁকানো নয়।
গ্রেগ তুষার 21

@ নিক, বায়েশিয়ান পরিসংখ্যানের জন্য ওয়েবে অনেক টিউটোরিয়াল রয়েছে। একটি সহজ পদ্ধতির (যা ধরে নেবে যে নমুনাগুলিগুলি সমস্ত সাধারণ এলোমেলো নমুনা, বা সমীক্ষার নকশা এমন ছিল যে এসআরএস অনুমান খুব বেশি দূরে নয়) আগে বিটা দিয়ে শুরু করতে হবে, তারপরে প্রতিটি পোলকে দ্বিপদী সম্ভাবনার সাথে ব্যবহার করতে হবে আপডেট করুন এবং একটি নতুন পোস্টার পেতে। বেইস পদ্ধতির একটি দুর্দান্ত বিষয় হ'ল আপনি যদি পূর্ববর্তী গবেষণার প্রভাব সর্বাধিক সাম্প্রতিক জরিপের মতো তাত্পর্যপূর্ণ না রাখতে চান তবে আপনি ছাড় দিতে পারেন।
গ্রেগ তুষারপাত 21

4

এটি একটি বিশাল বিষয়, তবে মূলত দুটি বিষয় রয়েছে:

1) যথার্থতা - এটি নমুনার আকার দ্বারা নির্ধারিত হয়। বৃহত্তর নমুনা নিম্নমানের ত্রুটি এবং শক্ত আত্মবিশ্বাসের অন্তরগুলির সাথে আরও সুনির্দিষ্ট অনুমান দেয়

২) বায়াস - যা পরিসংখ্যান অনুসারে, অন্যত্র এটির নেতিবাচক ধারণা থাকতে পারে না। পোলে, তারা XXXX এর একটি এলোমেলো নমুনা পাওয়ার চেষ্টা করে (কখনও কখনও সম্ভবত ভোটাররা, কখনও কখনও নিবন্ধিত ভোটার)। কিন্তু, তারা তা করে না। কিছু পোল শুধুমাত্র ল্যান্ড লাইন ব্যবহার করে। বিভিন্ন গোষ্ঠীর লোকদের উত্তর দেওয়ার সম্ভাবনা কম বেশি। বিভিন্ন গোষ্ঠী কমবেশি কেবল হ্যাং আপ হওয়ার সম্ভাবনা থাকে।

সুতরাং, সমস্ত পোলস্টার তাদের প্রতিক্রিয়াগুলি ওজন করে। অর্থাৎ, তারা ভোটারদের সম্পর্কে জ্ঞাত তথ্যের সাথে মেলে তাদের ফলাফলগুলি সামঞ্জস্য করার চেষ্টা করে। তবে তারা সবাই এটিকে কিছুটা আলাদাভাবে করে। সুতরাং, একই পোলিং ইনপুট ডেটা সহ, তারা বিভিন্ন নম্বর দেবে।

কে বিশ্বাস করবে? ঠিক আছে, যদি আপনি 538-তে নেট সিলভারের কাজটি লক্ষ্য করেন তবে তার কাছে আগের নির্বাচনের ভোটদানে কতটা সঠিক ভোটার ছিল তার রেটিং রয়েছে। তবে এর অর্থ এই নয় যে তারা এখন সমানভাবে নির্ভুল হবে।


ধন্যবাদ পিটার সুতরাং ত্রুটির নিম্নতম মার্জিন সহ একটি অনুমান আরও 'নির্ভুল'। কেবল এক্স% +/- x1% ত্রুটি মার্জিন থেকে এটি কীভাবে পক্ষপাতদুষ্ট তা জানার কোনও উপায় আছে? আমি অনুমান করি যে এটি সম্ভব না হলে আপনি পৃথক নমুনার পছন্দগুলি জানেন না, তাই না?
নিক

হ্যা, তা ঠিক. অবশ্যই, কিছু পোলস্টার পক্ষপাতদু (একটি দিক বা অন্য দিকে) জানা আছে। অভ্যন্তরীণ পোলগুলি (একটি পক্ষ বা অন্য পক্ষ দ্বারা পরিচালিত) প্রায়শই পক্ষপাতদুষ্ট থাকে। তারা এটি করার একটি উপায় হ'ল বেশ কয়েকটি পোল চালানো এবং কেবল তাদের পছন্দমতো প্রকাশ করা। তারপরে "পুশ পোলস" এর পুরো বিষয়টি রয়েছে যেখানে কোনও প্রার্থী সম্পর্কে প্রশ্নগুলি তার বা তার সম্পর্কে নেতিবাচক প্রশ্নগুলির দ্বারা অনুভূত হয়।
পিটার ফ্লুম

1

এটি সমীক্ষার নমুনা দেওয়ার ক্ষেত্রে পড়ে। নীতিগতভাবে পদ্ধতিগুলি কাজ করে কারণ এলোমেলোকরণ ব্যবহৃত হয়। এখানে বিষয়গুলি বিষয়গত সিদ্ধান্তের ভিত্তিতে পোলে পৃথক হতে পারে।

  1. নমুনা ফ্রেম. আমার নমুনাটি কোন দলের থেকে নেওয়া উচিত?

  2. গতকাল জরিপ বা পরবর্তী সপ্তাহের ভিত্তিতে ওবামা বনাম রমনির বিষয়ে তার মতামত পরিবর্তন করতে পারে এমন অনাকাঙ্ক্ষিত ভোটারের অস্থিরতা আমি কীভাবে সামলাব?

  3. পিটার পক্ষপাতিত্ব স্পর্শ করেছেন। ১৯৩36 সালের সাহিত্য ডাইজেস্ট পোলটি একটি বিপর্যয় ছিল। এটি এফডিআরের চেয়ে রিপাবলিকান প্রার্থীকে বেছে নিয়েছে কারণ স্যাম্পলিং ফ্রেম টেলিফোন নম্বরগুলির এলোমেলো নির্বাচনের উপর ভিত্তি করে ছিল। 1936 সালে কেবল উচ্চ মধ্যবিত্ত শ্রেণীর এবং ধনী লোকদের ফোন ছিল। এই গ্রুপটিতে রিপাবলিকানদের আধিপত্য ছিল যারা রিপাবলিকান প্রার্থীর পক্ষে ভোট দেয়। রুজভেল্ট দরিদ্র ও মধ্যবিত্ত শ্রেণীর কাছ থেকে ভোট পেয়ে ভূমিধসের দ্বারা জিতেছিলেন যেটি ডেমোক্র্যাটদের একটি দল ছিল! এটি একটি নমুনা ফ্রেমের মোটামুটি দুর্বল পছন্দ কারণে পক্ষপাতিত্ব চিত্রিত করে।

  4. জরিপ নমুনা সীমাবদ্ধ জনসংখ্যার সাথে কাজ করে। জনসংখ্যার আকার হ'ল এন Say বলুন যে একটি সাধারণ এলোমেলো নমুনা সেই জনসংখ্যা থেকে আঁকা এবং আকার এন has সরলতার জন্য ধরে নিন কেবল ওবামা এবং রোমনিই চলছে। এই নমুনা ফ্রেমের জন্য ওবামা যে পরিমাণ ভোট পাবেন তা বাইনারি ভেরিয়েবলের গড় (যদি উত্তরদাতারা ওবামাকে ওমোন এবং রোমনির জন্য 0 বেছে নেয়) বলুন। এই পরিবর্তনশীলটির জন্য নমুনার অর্থের বৈচিত্রটি হ'ল [পি (1-পি) / এন] [এনএন] / এন যেখানে পি সত্যিকারের জনসংখ্যার প্রোপোটিন যা ওবামাকে বেছে নেবে। [এনএন] / এন হ'ল সীমাবদ্ধ জনসংখ্যা সংশোধন। বেশিরভাগ পোলগুলিতে এন এন থেকে অনেক বড় এবং সঠিক উপেক্ষা করা যেতে পারে। পি (1-পি) / n এর দিকে তাকালে আমরা দেখতে পাই যে প্রকরণটি n এর সাথে নেমে গেছে। সুতরাং এন যদি বড় হয় তবে একটি নির্দিষ্ট আত্মবিশ্বাস স্তরের আস্থার ব্যবধানটি ছোট হয়ে যায়।

মার্কিন আদমশুমারি ব্যুরোর অন্যান্য জরিপ নমুনাবিদ এবং পরিসংখ্যানবিদদের পোলস্টার তাদের সকলের কাছে এই পরিসংখ্যানগত সরঞ্জাম রয়েছে এবং তারা আরও জটিল এবং নির্ভুল পদ্ধতি (ক্লাস্টারের এলোমেলো নমুনা এবং কয়েকটি পদ্ধতির উল্লেখ করার জন্য স্তম্ভিত র্যান্ডম নমুনা) করেন।

যখন তাদের মডেলিং অনুমানগুলি বৈধ হয় তবে পদ্ধতিগুলি উল্লেখযোগ্যভাবে ভাল কাজ করে। প্রস্থান ভোটদান একটি প্রধান উদাহরণ। নির্বাচনের দিন আপনি নেটওয়ার্কগুলি প্রায় প্রতিটি রাজ্যে নির্ভুলভাবে প্রকল্পের বিজয়ী দেখতে পাবেন কাছাকাছি চূড়ান্ত গণনার অনেক আগে। প্রিলেকশন ডে পরিবর্তনশীলতা চলে যাওয়ার কারণ এটি। তারা knowতিহাসিকভাবে জানেন যে লোকেরা কীভাবে ভোট দেওয়ার প্রবণতা রাখে এবং তারা নির্বাচিত প্রান্তগুলি এমনভাবে নির্ধারণ করতে পারে যে পক্ষপাতদুষ্টতা এড়ায়। নেটওয়ার্কগুলি কিছু সময় পৃথক হয়। এটি অন্যদের মানসিকতার চেয়ে আগে বিজয়ী বাছাই করার প্রতিযোগিতার কারণে হতে পারে। এটি খুব বিরল উদাহরণস্বরূপও হতে পারে কারণ ভোট অত্যন্ত নিকটে (যেমন ফ্লোরিডায় রাষ্ট্রপতি নির্বাচন 2000))

আমি আশা করি এটি আপনাকে কী ঘটছে তার একটি পরিষ্কার চিত্র দেবে। 1948 সালে "ডিউই ট্রুমানকে পরাজিত করেন" বা 1936-এর সাহিত্যের ডাইজেস্ট ফিয়াসোর মতো গুরুতর ভুল আমরা আর দেখতে পাচ্ছি না But


বিস্তারিত ব্যাখ্যার জন্য ধন্যবাদ। এটি সত্যিই সাহায্য করেছে!
নিক

আমরা আর স্থূল ভুল দেখতে পাচ্ছি না? সুতরাং ক্লিনটন 2016 সালে জিতেছিলেন, তিনি কি? আমি আপনার পরিচিত অজানা গ্রহণ এবং একটি কালো রাজহাঁস উত্থাপন । আমার বাবা যেমন বলতেন, "এটিই আপনি জানেন না যে আপনাকে হত্যা করে।"
কার্ল

1
আমার উত্তরের ক্লিনটন এবং ২০১ election সালের নির্বাচনের কোনও সম্পর্ক ছিল না যা অনেক বিস্ময়কর সমস্যা ছিল। (১) রাশিয়ার হস্তক্ষেপ, (২) ক্লিনটন জনপ্রিয় ভোটে জিতেছিলেন এবং (৩) কিছু ট্রাম্প ভোটার স্বীকার করেছিলেন যে তারা ট্রাম্পের পক্ষে ভোট দেবেন। সম্ভবত আমার যোগ করা উচিত যে ভোটারদের ভোটদানের প্রত্যাশাটি না হলে পোলগুলি ভুল হতে পারে।
মাইকেল আর চের্নিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.