আমরা কীভাবে জনসংখ্যার বৈচিত্র জানতে পারি?


10

হাইপোথিসিস পরীক্ষায়, একটি সাধারণ প্রশ্ন জনসংখ্যার বৈচিত্র কী? আমার প্রশ্ন হ'ল আমরা কীভাবে জনসংখ্যার বৈচিত্র জানতে পারি? আমরা যদি সমগ্র বন্টন জানতাম, আমরা পাশাপাশি চিনতে পারেন গড় সমগ্র জনসংখ্যার। তাহলে হাইপোথিসিস পরীক্ষার বিন্দু কী?


কিছু প্রাসঙ্গিক সাহিত্য: nber.org/papers/w20325
ডিভি_বিএন

গড় সম্পর্কে কিছু না জেনেও কেউ তারতম্য জানতে পারে। উদাহরণস্বরূপ, জনসংখ্যার মানগুলির সমস্ত ভিন্নতার স্কোয়ার থেকে বৈকল্পিকতা পুনরুদ্ধার করা যেতে পারে তবে এই পার্থক্যগুলি গড় সম্পর্কে কোনও তথ্য দেয় না। নির্বিশেষে, আমি দেখতে পাচ্ছি না যে এই পোষ্টের বিবৃতি এবং প্রশ্নগুলি অনুমানের পরীক্ষার বিন্দু সম্পর্কে নিজেই প্রশ্ন উত্থাপন করে।
whuber

উত্তর:


10

আমি নিশ্চিত নই যে এই সমস্যাটি আসলে পরিসংখ্যান 101 এর বাইরে "প্রায়শই" আসে (পরিসংখ্যানগুলির পরিচিতি)। আমি নিশ্চিত যে আমি এটি কখনও দেখেছি not অন্যদিকে, প্রারম্ভিক কোর্সগুলি পড়ানোর সময় আমরা সেই উপকরণটি সেইভাবে উপস্থাপন করি কারণ এটি একটি যৌক্তিক অগ্রগতি সরবরাহ করে: আপনি একটি সাধারণ পরিস্থিতি দিয়ে শুরু করেন যেখানে কেবল একটি গ্রুপ রয়েছে এবং আপনি বৈচিত্রটি জানেন, তারপরে আপনি যেখানে যান না সেখানে অগ্রগতি করুন তারতম্যটি জানুন, তারপরে যেখানে দুটি গ্রুপ রয়েছে (সেখানে সমান বৈকল্পিক সহ) ইত্যাদি উন্নতি করুন etc.

কিছুটা আলাদা পয়েন্ট সম্বোধন করার জন্য, আপনি জিজ্ঞাসা করুন কেন আমরা যদি ধারণাটি জানতাম তবে অনুমানের পরীক্ষার সাথে কেন বিরক্ত করব, কারণ আমাদের অবশ্যই এর কারণটি জানতে হবে know পরবর্তী অংশটি যুক্তিসঙ্গত, তবে প্রথম অংশটি একটি ভুল বোঝাবুঝি: আমরা যে অর্থটি জানব তা নাল অনুমানের অধীনে হবে mean এটিই আমরা পরীক্ষা করছি। আইকিউ স্কোরগুলির জন্য @ স্টিফানকোলাসার উদাহরণ বিবেচনা করুন। আমরা জানি যে গড়টি 100 এবং স্ট্যান্ডার্ড বিচ্যুতি 15; আমাদের গ্রুপটি (বলুন, বাম-হাতের রেডহেডস, বা সম্ভবত পরিচিতির পরিসংখ্যানের শিক্ষার্থীরা) যদি এর থেকে আলাদা হয় তবে আমরা যা পরীক্ষা করছি।


2
(+1) সম্ভবত এটি আরও সামনে আসে যখন "কোনও জনগোষ্ঠীর থেকে নমুনা নেওয়া" হ'ল আক্ষরিকভাবে গ্রহণ করার পরিবর্তে ডেটা তৈরির প্রক্রিয়াটি সম্পর্কে চিন্তাভাবনার উপায়। উদাহরণস্বরূপ একটি পরিমাপ যন্ত্রের নির্ভুলতা জানা।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

গাং, 20+ বছরের ক্যারিয়ারের অনুশীলনকারী হিসাবে, এই সমস্যাটি আপনার অভিজ্ঞতার চেয়ে বারবার আমার অভিজ্ঞতায় উঠে এসেছে। আমি প্রস্তাব দিচ্ছি না যে এটি বিতর্কগুলি ঘটেছিল কেবল "ঘন ঘন"। যাইহোক, এবং পরিসংখ্যান 101 সম্পর্কে আপনার বক্তব্য, আলোচনার চেয়েও বেশি সময় লাল হেরিংগুলি ছিল যা কোনও গবেষণা বা প্রকল্পের বিবরণ সম্পর্কে সামান্য বা কিছুই সমাধান করে নি - কেউ প্রশ্ন জিজ্ঞাসা করার জন্য কেবল বুদ্ধির উপস্থিতি তৈরি করতে চেয়েছিল।
মাইক হান্টার

1
@ ডি জনসন, আমি মনে করি এটি আপনি যে বিষয়গুলিতে কাজ করছেন তার উপর নির্ভর করে।
গুং - মনিকা পুনরায়

4

প্রায়শই আমরা জনসংখ্যার বৈচিত্রটি জানি না - তবে আমাদের আলাদা নমুনা থেকে খুব নির্ভরযোগ্য অনুমান হয়। উদাহরণস্বরূপ, পেঙ্গুইনের গড় ওজন হ্রাস পেয়েছে কি না তা মূল্যায়নের জন্য এখানে উদাহরণ রয়েছে, যেখানে আমরা ছোট-ইশ নমুনা থেকে গড়টি ব্যবহার করি, তবে বৃহত্তর স্বতন্ত্র নমুনার চেয়ে ভিন্নতা। অবশ্যই, এটি অনুমান করে যে উভয় জনগোষ্ঠীতে বৈকল্পিক একই রকম।

ক্লাসিকাল আইকিউ আঁশ হতে পারে এর অন্য উদাহরণ হতে পারে। এগুলি সত্যিকারের বৃহত নমুনাগুলি ব্যবহার করে 100 টির গড় এবং 15 এর একটি মানক বিচ্যুতি থাকতে স্বাভাবিক করা হয় । তারপরে আমরা একটি নির্দিষ্ট নমুনা নিতে পারি (বলুন, 50 বাম-হাতের রেডহেডগুলি) এবং জিজ্ঞাসা করতে পারি যে তাদের গড় আইকিউ 100 এর চেয়ে উল্লেখযোগ্যভাবে বড় কিনা, 15 ^ 2 কে "পরিচিত" বৈকল্পিক হিসাবে ব্যবহার করে। অবশ্যই, আবারও, এই প্রশ্নটি উত্থাপন করে যে দুটি নমুনার মধ্যে বৈকল্পিকতা আসলেই সমান কিনা - সর্বোপরি, আমরা ইতিমধ্যে পরীক্ষা করে দেখছি যে উপায়গুলি আলাদা কিনা, তবে কেন রূপগুলি সমান হওয়া উচিত?

নীচের লাইন: আপনার উদ্বেগগুলি বৈধ এবং সাধারণত পরিচিত মুহুর্তগুলির সাথে পরীক্ষাগুলি কেবলমাত্র যুক্তিযুক্ত উদ্দেশ্যে পরিবেশন করে। পরিসংখ্যান কোর্সে সাধারণত আনুমানিক মুহুর্তগুলি ব্যবহার করে পরীক্ষাগুলি অনুসরণ করা হয় ।


2

জনসংখ্যার বৈচিত্রটি জানার একমাত্র উপায় হ'ল সম্পূর্ণ জনসংখ্যা পরিমাপ করা।

তবে একটি সম্পূর্ণ জনসংখ্যার পরিমাপ প্রায়শই সম্ভব হয় না; এর জন্য অর্থ, সরঞ্জাম, কর্মী এবং অ্যাক্সেস সহ সংস্থানসমূহ প্রয়োজন। এই কারণে আমরা জনসংখ্যার নমুনা করি; এটি জনসংখ্যার একটি উপসেট পরিমাপ করছে। নমুনা প্রক্রিয়াটি সাবধানতার সাথে এবং নমুনা জনসংখ্যার যা জনসংখ্যার প্রতিনিধিত্বকারী তা তৈরির লক্ষ্যে ডিজাইন করা উচিত; দুটি মূল বিবেচনা প্রদান - নমুনা আকার এবং নমুনা কৌশল।

খেলনা উদাহরণ: আপনি সুইডেনের প্রাপ্তবয়স্ক জনসংখ্যার জন্য ওজনের বিভিন্নতার অনুমান করতে চান। এখানে প্রায় 9.5 মিলিয়ন সুইডিশ রয়েছে তাই আপনি বাইরে গিয়ে সেগুলি সমস্ত মাপার সম্ভাবনা নেই। সুতরাং আপনাকে এমন একটি নমুনা জনসংখ্যার পরিমাপ করতে হবে যা থেকে আপনি জনসংখ্যার প্রকৃতির মধ্যে প্রকৃত পরিমাণটি অনুমান করতে পারেন।

আপনি সুইডিশ জনসংখ্যার নমুনা প্রকাশ। এটি করতে আপনি স্টকহোম শহরের কেন্দ্রে গিয়ে দাঁড়ান এবং ঠিক তাই জনপ্রিয় কল্পিত সুইডিশ বার্গার চেইন বার্গার কুঞ্জেনের ঠিক বাইরে দাঁড়ান । আসলে, বৃষ্টি এবং শীতল (এটি গ্রীষ্মের হতে হবে) তাই আপনি রেস্তোঁরাটির অভ্যন্তরে দাঁড়িয়ে যান। এখানে আপনার চারজনের ওজন হয়।

সম্ভাবনাগুলি হ'ল, আপনার নমুনা সুইডেনের জনসংখ্যাকে খুব ভাল প্রতিফলিত করবে না। আপনার কাছে যা আছে তা হ'ল স্টকহোমের লোকদের একটি নমুনা, যারা বার্গার রেস্তোঁরায়। এটি একটি স্যাম্পলিংয়ের একটি দুর্বল কৌশল কারণ আপনি যে জনসংখ্যার অনুমান করার চেষ্টা করছেন তার ন্যায্য প্রতিনিধিত্ব না করে ফলাফলটিকে পক্ষপাতিত্ব করার সম্ভাবনা রয়েছে। তদুপরি, আপনার একটি ছোট নমুনা আকার আছে, সুতরাং জনসংখ্যার চূড়ান্তভাবে চারজনকে বাছাই করার ঝুঁকি আপনার মধ্যে রয়েছে; হয় খুব হালকা বা খুব ভারী। আপনি যদি 1000 জনকে নমুনা দেন তবে আপনার নমুনা পক্ষপাতের সম্ভাবনা কম থাকে; অস্বাভাবিক যে চারটি বাছাই করা তার চেয়ে 1000 জন লোককে বেছে নেওয়ার সম্ভাবনা খুব কম। একটি বৃহত্তর নমুনার আকার কমপক্ষে আপনাকে বার্গার কুঞ্জেনের গ্রাহকদের মধ্যে গড়ের ওজন এবং তারতম্যের আরও সঠিক অনুমান দেবে।

এখানে চিত্র বর্ণনা লিখুন

হিস্টোগ্রাম স্যাম্পলিং কৌশলটির প্রভাব চিত্রিত করে, ধূসর বিতরণ সুইডেনের জনসংখ্যার প্রতিনিধিত্ব করতে পারে যা বার্গার কুঞ্জেন (মানে 85 কেজি) খায় না, যখন লাল বার্গার কুঞ্জেনের গ্রাহকদের জনসংখ্যার প্রতিনিধিত্ব করতে পারে (যার অর্থ 100 কেজি) , এবং নীল ড্যাশগুলি আপনার চারজনের নমুনা হয়ে থাকতে পারে। সঠিক নমুনা দেওয়ার কৌশলটির জন্য জনসংখ্যাকে মোটামুটিভাবে ওজন করতে হবে, এবং এই ক্ষেত্রে ~ 75% জনসংখ্যা, এইভাবে পরিমাপিত নমুনাগুলির 75%, বার্গার কুঞ্জেনের গ্রাহক হওয়া উচিত নয়।

এটি অনেক সমীক্ষা সহ একটি বড় সমস্যা। উদাহরণস্বরূপ, গ্রাহক সন্তুষ্টি বা জরিপ নির্বাচনের জরিপে সাড়া জাগাতে পারে এমন লোকেরা চরম দৃষ্টিভঙ্গিযুক্ত ব্যক্তিদের দ্বারা বৈষম্যমূলকভাবে প্রতিনিধিত্ব করেন; কম দৃ strong় মতামতযুক্ত লোকেরা তাদের প্রকাশে বেশি সংরক্ষিত থাকে।

অনুমানের পরীক্ষার বিন্দুটি ( সর্বদা নয় ) উদাহরণস্বরূপ, দুটি জনসংখ্যা একে অপরের থেকে পৃথক কিনা তা পরীক্ষা করা to উদাহরণস্বরূপ বার্গার কুঞ্জেনের গ্রাহকদের কি সুইডেনের চেয়ে বেশি ওজন হয় যা বার্গার কুংজে না খায়? এটি সঠিকভাবে পরীক্ষা করার ক্ষমতা সঠিক নমুনা কৌশল এবং পর্যাপ্ত নমুনার আকারের উপর নির্ভরশীল।


এই সমস্ত ঘটতে পরীক্ষার জন্য আর কোড:

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

ফলাফল:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 

1

হ্যাঁ, এটি সত্য, তবে সেই ক্ষেত্রে একটি নির্দিষ্ট গড় পর্যন্ত স্কেলিংও হয়, সুতরাং এটি অজানা গড় এবং জ্ঞাত বৈকল্পিকের পরিস্থিতি তৈরি করে না। এছাড়াও, সমস্ত মান জানার পরে স্কেলিংটি করা হয়।
বেন - মনিকা পুনরায়

1

একমাত্র বাস্তব উদাহরণটি যখন আমি অর্থটি অজানা তা ভাবতে পারি তবে তারতম্যটি তখনই জানা যায় যখন একটি হাইপারস্পিয়ারে বিন্দু বিন্দুগুলির বিন্দু নমুনা হয় (যাই হোক না কেন মাত্রায়) একটি নির্দিষ্ট ব্যাসার্ধ এবং একটি অজানা কেন্দ্র থাকে। এই সমস্যার অজানা গড় (গোলকের কেন্দ্র) রয়েছে তবে একটি স্থির বৈকল্পিক (গোলকের বর্গাকার-ব্যাসার্ধ)। আমি অন্য কোনও বাস্তব উদাহরণ সম্পর্কে অজানা যেখানে অজানা গড় কিন্তু জ্ঞাত বৈকল্পিকতা রয়েছে। (এবং স্পষ্টরূপে: কেবলমাত্র অন্যান্য ডেটা থেকে বাইরের ভেরিয়েন্সের অনুমান করা কোনও পরিচিত বৈকল্পিকের উদাহরণ নয় Also এছাড়াও, যদি অন্য ডেটা থেকে আপনার যদি এই বৈকল্পিক অনুমান থাকে তবে আপনারও সেই একই পরিমাণের সাথে আনুমানিক গড় অনুমান কেন নেই? তথ্য?)

আমার দৃষ্টিতে, একটি অজানা গড় এবং জ্ঞাত বৈচিত্রের সাথে পরীক্ষাগুলি শেখানো সূচনাসংখ্যার পরিসংখ্যান কোর্সগুলি একটি অ্যানক্রোনিজম এবং এগুলি আধুনিক শিক্ষার সরঞ্জাম হিসাবে বিপথগামী। শিক্ষাগতভাবে, অজানা গড় এবং ভিন্নতার ক্ষেত্রে সরাসরি টি-টেস্ট দিয়ে শুরু করা এবং জেড-টেস্টটিকে এ্যাসিপটোটিক সান্নিধ্য হিসাবে বিবেচনা করা ভাল যা স্বাধীনতার ডিগ্রি বড় হলে (বা না) এমনকি জেড-পরীক্ষা শেখাতে বিরক্ত করুন)। জ্ঞাত বৈকল্পিকতা থাকলেও অজানা মাধ্যমগুলি এমন পরিস্থিতিতে উপস্থিত হওয়ার সংখ্যাটি খুব কম, এবং সাধারণত শিক্ষার্থীরা এই (অত্যন্ত বিরল) কেসটি প্রবর্তন করার জন্য বিভ্রান্তিকর।


0

কখনও কখনও প্রয়োগকৃত সমস্যায় পদার্থবিজ্ঞান, অর্থনীতি ইত্যাদি দ্বারা উপস্থাপিত কারণ রয়েছে যা আমাদের বৈকল্পিকতা সম্পর্কে বলে এবং কোনও অনিশ্চয়তা নেই। অন্যান্য সময়ে, জনসংখ্যা সীমাবদ্ধ হতে পারে এবং আমরা প্রত্যেকের সম্পর্কে কিছু জিনিস জানতে পারি, তবে বাকিটি শিখতে পরিসংখ্যানের নমুনা ও সম্পাদনা করা দরকার।

সাধারণত, আপনার উদ্বেগ বেশ বৈধ।


5
পদার্থবিজ্ঞান বা অর্থনীতি থেকে এমন একটি উদাহরণ চিত্রিত করতে আমার বেশ কষ্ট হয়েছে যেখানে আমরা তারতম্যটি জানতে পারি , তবে এর অর্থটি নয়। পৃথক বিতরণ জন্য একই। আপনি একটি দৃ concrete় উদাহরণ দিতে পারেন বা দুটি?
স্টিফান কোলাছা

@ স্টেফানকোলাসা আমি বিশ্বাস করি যে পদার্থবিজ্ঞানের পরীক্ষামূলক পরিমাপের একটি উদাহরণ হতে পারে - আমাদের পরিমাপের একটি প্রক্রিয়া বা ডিভাইস থাকতে পারে যা একটি সুপরিচিত বৈকল্পিক (পরিমাপ ত্রুটি) রয়েছে, তাই কোনও নির্দিষ্ট ইভেন্ট পরিমাপ করার সময় আপনি ধরে নিতে পারেন যে বৈকল্পিক একই তবে আপনি শুধুমাত্র সত্যিকারের গড়টি অনুমান করতে পারে।
পিটারিস 25'16

2
@ পেটারিস: এটি বোধগম্য - তবে এটি আমার মনে আছে , আগের "ক্যালিব্রেশন নমুনাগুলি" সম্পর্কে অনুমান করা হয়েছে (আপনার উপকরণের) প্রকারের মতো মনে হচ্ছে। আমি কোনও তাত্ত্বিকভাবে উদ্ভূত বৈকল্পিকতা আশা করতে চাই যে কোনও অনিশ্চয়তা (!) আলাদা নয়।
স্টিফান কোলাছা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.