নমুনার নমুনা বিতরণ মানে আনুমানিক জনসংখ্যার অর্থ কী?


16

আমি পরিসংখ্যান শেখার চেষ্টা করছি কারণ আমি দেখতে পেয়েছি যে এটি এতটাই প্রচলিত যে এটি যদি আমি সঠিকভাবে বুঝতে না পারি তবে এটি আমাকে কিছু জিনিস শেখা থেকে নিষেধ করে। নমুনা অর্থের নমুনা বন্টনের এই ধারণাটি বুঝতে আমার সমস্যা হচ্ছে। কিছু বই এবং সাইট যেভাবে ব্যাখ্যা করেছে তা আমি বুঝতে পারি না। আমি মনে করি আমার একটি বোঝাপড়া আছে তবে এটি সঠিক কিনা তা সম্পর্কে আমি অনিশ্চিত। নীচে এটি বোঝার চেষ্টা করা হল।

যখন আমরা কোনও সাধারণ বিতরণ গ্রহণের কিছু ঘটনা সম্পর্কে কথা বলি, তখন এটি জনসংখ্যার ক্ষেত্রে সাধারণত (সর্বদা নয়) is

আমরা কিছু জনসংখ্যার বিষয়ে কিছু স্টাফের পূর্বাভাস দেওয়ার জন্য অনুমানমূলক পরিসংখ্যান ব্যবহার করতে চাই, তবে সমস্ত ডেটা নেই। আমরা এলোমেলো নমুনা ব্যবহার করি এবং আকারের প্রতিটি নমুনা সমানভাবে নির্বাচিত হওয়ার সম্ভাবনা রয়েছে।

সুতরাং আমরা প্রচুর নমুনা নিই, 100 বলে আসি এবং তারপরে সেই নমুনাগুলির অর্থ বিতরণ কেন্দ্রীয় সীমাবদ্ধতা উপপাদ্য অনুসারে প্রায় স্বাভাবিক হবে normal নমুনাটির গড় অর্থ জনসংখ্যার গড় আনুমানিক করবে।

এখন যা আমি বুঝতে পারি না তা আপনি "100 জনের একটি নমুনা" দেখছেন তার অনেক সময় ... গড়ের জনসংখ্যার আনুমানিক জন্য আমাদের কি 100 জনের 100 বা 100 এর নমুনার দরকার হবে না? অথবা এটি এমন কি যে আমরা একটি একক নমুনা নিতে পারি যা যথেষ্ট পরিমাণে বড়, 1000 বলুন এবং তারপরে বলতে পারি যে জনসংখ্যার অর্থ আনুমানিক হবে? বা আমরা কি 1000 জনের একটি নমুনা নিই এবং তারপরে আমরা নেওয়া সেই মূল 1000 জনের কাছ থেকে প্রতিটি নমুনায় 100 জনের 100 টি এলোমেলো নমুনা নিই এবং তারপরে এটি আমাদের সান্নিধ্য হিসাবে ব্যবহার করব?

গড় প্রায় (প্রায়) আনুমানিক হিসাবে একটি বড় যথেষ্ট নমুনা গ্রহণ সর্বদা কাজ করে? কাজ করার জন্য কি জনসংখ্যা এমনকি স্বাভাবিক হওয়া দরকার?

উত্তর:


9

আমি মনে করি আপনি সম্ভবত একই জনসংখ্যার একাধিকবার নমুনা দিলে কী ঘটবে তা অনুকরণের (সাধারণত অনুমানমূলক) প্রক্রিয়াটির সাথে কোনও গড়ের প্রত্যাশিত নমুনা বিতরণ (যা আমরা একটি একক নমুনার উপর ভিত্তি করে গণনা করব) গুলিয়ে ফেলছি।

প্রদত্ত যে কোনও নমুনা আকারের জন্য (এমনকি এন = 2) আমরা বলব যে নমুনাটির অর্থ জনসংখ্যার গড় (দুই ব্যক্তির কাছ থেকে) অনুমান করে। তবে অনুমানের নির্ভুলতা - এটি হ'ল আমাদের নমুনা তথ্যের উপর ভিত্তি করে জনসংখ্যার গড় নির্ধারণের জন্য আমরা কতটা ভাল কাজ করেছি, যেমনটির গড় মানদণ্ডে প্রতিফলিত হয়েছে - আমাদের কাছে ২০ বা ২০০ থাকলে গরিব হবে আমাদের নমুনা মানুষ। এটি তুলনামূলক স্বজ্ঞাত (বৃহত্তর নমুনাগুলি আরও ভাল অনুমানের নির্ভুলতা দেয়)।

এরপরে আমরা একটি আত্মবিশ্বাসের ব্যবধান গণনা করার জন্য স্ট্যান্ডার্ড ত্রুটি ব্যবহার করব, যা (সাধারণভাবে বিতরণ) সাধারণত সাধারণ বিতরণকে কেন্দ্র করে তৈরি করা হয় (আমরা সম্ভবত ছোট নমুনায় টি-বিতরণটি ব্যবহার করতাম যেহেতু জনগণের স্ট্যান্ডার্ড বিচ্যুতিটি প্রায়শই একটি হ্রাস করা হয় না ছোট নমুনা, অত্যধিক আশাবাদী স্ট্যান্ডার্ড ত্রুটির দিকে পরিচালিত করে))

আপনার শেষ প্রশ্নের উত্তরে, এই অনুমানের পদ্ধতিগুলি প্রয়োগ করার জন্য আমাদের সর্বদা সাধারণত বিতরিত জনগোষ্ঠীর প্রয়োজন হয় না - কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি ইঙ্গিত দেয় যে কোনও গড়ের নমুনা বিতরণ (আনুমানিক, আবার কোনও একক নমুনা থেকে) প্রবণতা থাকবে অন্তর্নিহিত জনসংখ্যার সাধারণ-সাধারণ বিতরণ থাকলেও একটি সাধারণ বিতরণ অনুসরণ করুন। এটি সাধারণত "বড়" নমুনা আকারের জন্য উপযুক্ত।

এই বলে যে, যখন আপনি একটি সাধারণ-সাধারণ জনগোষ্ঠী হন যেটি থেকে আপনি নমুনা নিচ্ছেন, তখন গড়টি উপযুক্ত সংক্ষিপ্ত পরিসংখ্যান হতে পারে না, এমনকি যদি সেই কারণের জন্য নমুনা বিতরণকে নির্ভরযোগ্য হিসাবে বিবেচনা করা যায়।


সুতরাং আমি কি মূলত এই তাত্ত্বিক অনুধাবনটি বুঝতে পারি যে এই কিছু জিনিস কীভাবে কাজ করে? আসল আকর্ষণীয় জিনিসটি কি এখানে আত্মবিশ্বাসের ব্যবধান? অন্য কথায়, আমি যদি মার্কিন যুক্তরাষ্ট্রে প্রাপ্ত বয়স্কদের কত ঘন্টা ঘুমায়, এবং আমি 5,000,০০০ এর নমুনা গ্রহণ করি এবং আমার আত্মবিশ্বাসের ব্যবধানটি 6.৪ 99 থেকে .5.৫৪ এর মধ্যে হয় তার গড়ের পরিমাণ ৯৯.৯% হলে আমি একটি গবেষণা প্রকাশ করতে চাই। এগিয়ে যান এবং "আত্মবিশ্বাসের সাথে" বলে আমার গবেষণাটি প্রকাশ করুন যে আমেরিকার প্রাপ্ত বয়স্কদের গড় 6.5 ঘন্টা ঘুমায়?

2
যেখানে আপনি বলেছেন: " আত্মবিশ্বাসের সাথে " বলছেন যে মার্কিন যুক্তরাষ্ট্রে প্রাপ্ত বয়স্কদের গড় 6.5 ঘন্টা ঘুমায় "। ঠিক আছে, না, আপনি যথেষ্ট আত্মবিশ্বাসী হতে পারেন এটি আসলে গড়ে 6.5 ঘন্টা নয় । আপনি কেবল আত্মবিশ্বাসী হতে পারেন এটি প্রায় 6.5 ঘন্টার কাছাকাছি, বা আপনি আত্মবিশ্বাসের সাথে বলতে পারেন যে এটি 'নিকটতম 5 মিনিটের 6.5 ঘন্টা' বা এরকম কিছু। কেবলমাত্র রেঞ্জগুলির সাথে তাদের কিছু আত্মবিশ্বাসের স্তর যুক্ত রয়েছে।
গ্লেন_বি -রিনস্টেট মনিকা

1
@ গ্লেেন_বি বিষয়টি হৃদয়ে গেঁথেছেন - আমরা কখনই বলতে পারি না যে আমরা একটি জনসংখ্যার মূল্য সঠিকভাবে অনুমান করেছি বলে আমরা আত্মবিশ্বাসী, বরং আমাদের প্রাক্কলন প্রক্রিয়াটির নির্ভুলতা সম্পর্কে আমাদের কিছু ধারণা আছে।
জেমস স্ট্যানলি

@angrymonkey আমি মনে করি (সিমুলেটেড) পুনরাবৃত্ত-নমুনা পদ্ধতির অন্তর্নিহিত ধারণাগুলি পাওয়া এখনও দরকারী। এছাড়াও, অনুমানের জন্য একজনকে "বিশাল" নমুনা আকারের প্রয়োজন হয় না - একটি গড় মানের স্ট্যান্ডার্ড ত্রুটির সূত্রটি হল sample std deviation / square root(n)- এন অংশের বর্গমূল আমাদের বলে যে আমরা নমুনার আকার হিসাবে স্থির বর্ধনের জন্য অনুমানের নির্ভুলতার উপর হ্রাসকারী রিটার্ন পাই get বড় হয় (যেমন একটি নমুনায় 10 থেকে 20 জনের কাছ থেকে সরে যাওয়া 210 থেকে 220 জনের চেয়ে অনুমানের নির্ভুলতার উন্নতি করে))
জেমস স্ট্যানলি

দুর্দান্ত ... সহায়তার জন্য আপনাকে অনেক ধন্যবাদ সুতরাং একটি সিআই আমাদের কেবলমাত্র 95% নিশ্চিত বলতে দেয় যে একজন ব্যক্তি গড়ে রাতে 6.45 থেকে 6.56 ঘন্টা ঘুমায়? তাহলে কিছু ব্যক্তি নিবন্ধগুলি কেন এই চূড়ান্ত দাবী করে যে গড়ে একজন ব্যক্তি দিনে 4.5 ঘন্টা টিভি দেখেন? অবশ্যই আত্মবিশ্বাসের ব্যবধান 95% 4.43 এবং 4.56 এর মতো কিছু

10
  • σ2/এনএনএন বৃহত্তর পায়, গড় এর বন্টন ভ্যারিয়েন্স ছোট পায়, তাই যে সীমা মধ্যে, নমুনা গড় জনসংখ্যা গড় মান থাকে।
  • আপনি যদি বেশ কয়েকটি স্বতন্ত্র নমুনা নেন তবে প্রতিটি নমুনা গড়টি স্বাভাবিক হবে এবং মাধ্যমের গড়টি স্বাভাবিক হবে এবং সত্যিকারের গড়ের দিকে ঝোঁক।
  • যদি আপনার নমুনাগুলি সত্যিই একই বন্টন থেকে থাকে (উদাহরণস্বরূপ ১০ টির জন্য ১০০ টি নমুনা), আপনি একই পরিমাণটি তৈরি করতে পারবেন যেমন আপনি 1000 এর একটি বড় নমুনা নিয়েছেন ((তবে বাস্তব বিশ্বে, স্বতন্ত্র নমুনাগুলি সম্ভবত সেগুলির চেয়ে আলাদা হয়) উপেক্ষা করতে পারবেন না; "এলোমেলো ব্লক ডিজাইন" দেখুন))
  • এন , স্বাভাবিকতার কাছাকাছি আপনি থাকবেন।
  • আপনি যদি প্রতি 10 টির 100 টি নমুনা নেন তবে স্যাম্পলটির অর্থ এমন একটি বিতরণ হবে যা মূল ডেটার তুলনায় বেশি স্বাভাবিক, তবে সামগ্রিক গড় বিতরণের চেয়ে কম স্বাভাবিক।
  • একটি বড় নমুনা গ্রহণ করা আপনাকে স্বাভাবিকতার নিকটবর্তী করে তুলবে।
  • আপনি যদি জনসংখ্যার গড় অনুমান করতে চান তবে আপনি যদি 10 এর 1000 বা 100 নমুনার একটি বড় নমুনা নেন তবে এটি কোনও তাত্পর্যপূর্ণ নয় (তত্ত্ব অনুসারে)।
  • তবে অনুশীলনে, নমুনা তত্ত্বের লোকেরা ক্লাস্টারিং, স্তরবদ্ধকরণ এবং অন্যান্য সমস্যার কারণে নমুনাটিকে আলাদা করে দিতে পারে। এরপরে তারা তাদের অনুমান করার সময় স্যাম্পলিং স্কিমটিকে বিবেচনা করে। তবে এটি অন্য প্রশ্নের জন্য সত্যই গুরুত্বপূর্ণ।

বেশিরভাগ পাঠ্যপুস্তকগুলিতে, তারা আপনাকে নমুনার মাধ্যমের নমুনা বিতরণের এই ধারণার মধ্য দিয়ে নিয়ে যায়। এটি সংক্ষেপে আপনাকে বলে, "ওহে চেহারা, আপনি যদি প্রচুর নমুনা নেন তবে এটি স্বাভাবিক হয়ে যায় এবং জনসংখ্যার গড় আনুমানিক হয়"। তারপরে তারা আপনাকে বলে যে আপনি যদি যথেষ্ট পরিমাণে নমুনা নেন তবে আপনি কেবল একটি করে বাছাই করতে পারেন। নমুনার স্যাম্পলিং বিতরণের অর্থ কী আপনি একটি বড় নমুনা নিতে পারবেন তা বিশ্বাস করা উচিত? অন্য কথায়, এটি বোঝার উদ্দেশ্য কী? এটি কি কেবলমাত্র একটি বড় নমুনা নেওয়ার পিছনে অন্তর্নিহিত বুঝতে সাহায্য করার জন্য? থিও নমুনা দেওয়ার ধারণা উপেক্ষা করে
একীভূত করুন

আমার মনে হয় @ @ জেমস স্ট্যানলি "এর উত্তর খুব ভালভাবে দিয়েছে। কোনও বাস্তব জীবনের ক্ষেত্রে, আপনি একটি নমুনা নেন, নমুনার অর্থ গণনা করুন এবং এটি আপনার অনুমান।
প্লাসিডিয়া

1

গড়ের নমুনা বন্টন হ'ল প্রদত্ত আকারের সমস্ত নমুনার বিতরণ। স্যাম্পলিং ডিস্টের গড় গড় জনসংখ্যার গড়ের সমান। যখন আমরা কোনও নির্দিষ্ট আকারের নমুনাগুলির জন্য দূরত্বে নমুনার বিষয়ে কথা বলি তখন আমরা একটি নমুনা এমনকি হাজার হাজার নমুনা নয়, সমস্ত নমুনার কথা বলছি।


0

গড়ের নমুনা দূরত্বের আত্মবিশ্বাসের ব্যবধানগুলির সাথে কোনও সম্পর্ক নেই। এটি অন্য ধারণা। দুরের নমুনা নির্ধারণের জন্য জনসংখ্যা স্বাভাবিক হতে পারে বা স্বাভাবিক নয়) ক) পপ যদি স্বাভাবিক হয় তবে কোনও নমুনা আকারের জন্য সাম্প্রতিক বিস্তৃত দূরত্বটি স্বাভাবিক হবে। খ) যদি পপটি স্বাভাবিক না থাকে তবে 1) নমুনার আকার 30 বা ততোধিক না হলে স্যাম্পলিংয়ের দূরত্বকে সাধারণ হিসাবে বিবেচনা করা যাবে না। তারপরে সেন্ট্রাল সীমাবদ্ধ তত্ত্বটি আমাদের জানান যে স্যাম্পলিং ডিস্টকে সাধারণ হিসাবে বিবেচনা করা যেতে পারে।

আপনি ভবিষ্যদ্বাণী সম্পর্কে কথা বলতে। ভবিষ্যদ্বাণী করাও এর সাথে কিছু করার নেই। আপনি স্যাম্প ডিস্টে খুব বেশি .োকাচ্ছেন। স্যাম্প ডিস্টটি কেবল সমস্ত নমুনা এবং তারপরে অর্থ নেওয়া হয়। এবং এই সমস্ত নমুনার মধ্যবর্তী গড়, মিউ সাব এক্স বার, জনসংখ্যার গড় সমান, মিউ এবং স্ট্যান্ডার্ড দেব ওড স্যাম্পলিং ডিস্ট, সিগমা সাব এক্স বার = সিগমা n এর বর্গমূল দ্বারা বিভক্ত। (আমরা সসীম পপ সংশোধন ফ্যাক্টর সম্পর্কে কথা বলব না face আপনার মুখের মানের জন্য স্ট্যাটাস নিন a কোনও ধারণার মধ্যে খুব বেশি পড়বেন না F প্রাথমিক ধারণাটি মুষ্টি বুঝতে।

পিএস এর সাম্প্রতিক দূরত্বে কিছু নেই রো আবু পিআর পিআর


আমি ভাবছি যে এই উত্তরটি অন্য উত্তর হিসাবে প্রবেশের পরিবর্তে ডাব্লু / আপনার প্রথম উত্তরকে সংযুক্ত করা যেতে পারে। আমরা সাধারণত আপনার প্রতি থ্রেডে 1 টি উত্তর পছন্দ করি। (যদিও এর ব্যতিক্রম রয়েছে)) আপনি কোনও বিদ্যমান উত্তরে উপাদান যুক্ত করতে পারেন বা এর নীচে বামদিকে ধূসর "সম্পাদনা" ক্লিক করে পরিবর্তন করতে পারেন।
গুং - মনিকা পুনরায়

0

আমি বড় ডেটা সমস্যাগুলি নিয়ে ভাবছিলাম এবং আজ সকালে এই পোস্টগুলির কয়েকটি দেখছি। আমার মনে হয় না এটি একেবারেই তুচ্ছ সমস্যা, ১০০ টি সেটকে ১০০ সেট বিশ্লেষণের তুলনায় এক সেট হিসাবে ১০০০ ডেটা বিশ্লেষণের মধ্যে পার্থক্যটি। তত্ত্ব অনুসারে , যদি নাল হাইপোথিসিসটি সত্য হয় যে ডেটা আইড হয়, এটি কোনওরকম হয় না পার্থক্য। তবে, কেউ যদি 1000 টি ডেটার অর্থ গ্রহণ করে এবং আনুমানিক গড় এবং সম্পর্কিত মানক ত্রুটির উদ্ধৃতি দেয় তবে ডেটাগুলিতে ক্লাস্টারিং এবং নিদর্শনগুলিকে একেবারে সম্বোধন করা হয় না।

আমি উপসংহারে এসে পৌঁছেছি, স্ট্যাকেক্সচেঞ্জ এবং উইকিপিডিয়ায় কিছু পৃষ্ঠাগুলি তাকিয়ে দেখানো হচ্ছে যে বড় ডেটা স্পষ্টতই দেখতে পায়। সামগ্রিকভাবে জনসংখ্যায় যদি কোনও আকর্ষণীয় বৈশিষ্ট্য থাকে তবে একটি বড় ডেটা সেট সেটিকে দিনের হিসাবে পরিষ্কার করে দেবে। সুতরাং আমার যদি খুব বড় ডেটাসেট থাকে, যা আমি দৃষ্টিশক্তিতে দেখতে পারি, তবে আমি খুব স্পষ্ট বৈশিষ্ট্য অনুসন্ধান না করে প্রথমে ঝাঁপিয়ে পড়ি এবং সংক্ষিপ্ত সংক্ষিপ্তসার ব্যবস্থা গ্রহণ করতাম না। আমার পরিসংখ্যানগত অনুক্রমের প্রথম পাঠ থেকে আমাকে প্রথম পাস হিসাবে ডেটার গ্রাফ এবং ভিজ্যুয়ালাইজেশন সন্ধান করতে শেখানো হয়েছে। আমি এটি যথেষ্ট জোর দিতে পারি না। যদি কোনও পর্দায় কোনও মানুষের নজর রাখার জন্য ডেটাসেটটি খুব বড় হয়, তবে এটি এমন কোনও রেজোলিউশনে যা মানব-পঠনযোগ্য তা উপ-নমুনা করা উচিত।


দয়া করে আপনার পোস্টগুলিতে স্বাক্ষর করবেন না - এটি আপনার পোস্টের নীচে ডানদিকে ব্যবহারকারীর নাম for
গ্লেন_বি -রিনস্টেট মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.