হাইপোথিসিস পরীক্ষায়, একটি সাধারণ প্রশ্ন জনসংখ্যার বৈচিত্র কী? আমার প্রশ্ন হ'ল আমরা কীভাবে জনসংখ্যার বৈচিত্র জানতে পারি? আমরা যদি সমগ্র বন্টন জানতাম, আমরা পাশাপাশি চিনতে পারেন গড় সমগ্র জনসংখ্যার। তাহলে হাইপোথিসিস পরীক্ষার বিন্দু কী?
হাইপোথিসিস পরীক্ষায়, একটি সাধারণ প্রশ্ন জনসংখ্যার বৈচিত্র কী? আমার প্রশ্ন হ'ল আমরা কীভাবে জনসংখ্যার বৈচিত্র জানতে পারি? আমরা যদি সমগ্র বন্টন জানতাম, আমরা পাশাপাশি চিনতে পারেন গড় সমগ্র জনসংখ্যার। তাহলে হাইপোথিসিস পরীক্ষার বিন্দু কী?
উত্তর:
আমি নিশ্চিত নই যে এই সমস্যাটি আসলে পরিসংখ্যান 101 এর বাইরে "প্রায়শই" আসে (পরিসংখ্যানগুলির পরিচিতি)। আমি নিশ্চিত যে আমি এটি কখনও দেখেছি not অন্যদিকে, প্রারম্ভিক কোর্সগুলি পড়ানোর সময় আমরা সেই উপকরণটি সেইভাবে উপস্থাপন করি কারণ এটি একটি যৌক্তিক অগ্রগতি সরবরাহ করে: আপনি একটি সাধারণ পরিস্থিতি দিয়ে শুরু করেন যেখানে কেবল একটি গ্রুপ রয়েছে এবং আপনি বৈচিত্রটি জানেন, তারপরে আপনি যেখানে যান না সেখানে অগ্রগতি করুন তারতম্যটি জানুন, তারপরে যেখানে দুটি গ্রুপ রয়েছে (সেখানে সমান বৈকল্পিক সহ) ইত্যাদি উন্নতি করুন etc.
কিছুটা আলাদা পয়েন্ট সম্বোধন করার জন্য, আপনি জিজ্ঞাসা করুন কেন আমরা যদি ধারণাটি জানতাম তবে অনুমানের পরীক্ষার সাথে কেন বিরক্ত করব, কারণ আমাদের অবশ্যই এর কারণটি জানতে হবে know পরবর্তী অংশটি যুক্তিসঙ্গত, তবে প্রথম অংশটি একটি ভুল বোঝাবুঝি: আমরা যে অর্থটি জানব তা নাল অনুমানের অধীনে হবে mean এটিই আমরা পরীক্ষা করছি। আইকিউ স্কোরগুলির জন্য @ স্টিফানকোলাসার উদাহরণ বিবেচনা করুন। আমরা জানি যে গড়টি 100 এবং স্ট্যান্ডার্ড বিচ্যুতি 15; আমাদের গ্রুপটি (বলুন, বাম-হাতের রেডহেডস, বা সম্ভবত পরিচিতির পরিসংখ্যানের শিক্ষার্থীরা) যদি এর থেকে আলাদা হয় তবে আমরা যা পরীক্ষা করছি।
প্রায়শই আমরা জনসংখ্যার বৈচিত্রটি জানি না - তবে আমাদের আলাদা নমুনা থেকে খুব নির্ভরযোগ্য অনুমান হয়। উদাহরণস্বরূপ, পেঙ্গুইনের গড় ওজন হ্রাস পেয়েছে কি না তা মূল্যায়নের জন্য এখানে উদাহরণ রয়েছে, যেখানে আমরা ছোট-ইশ নমুনা থেকে গড়টি ব্যবহার করি, তবে বৃহত্তর স্বতন্ত্র নমুনার চেয়ে ভিন্নতা। অবশ্যই, এটি অনুমান করে যে উভয় জনগোষ্ঠীতে বৈকল্পিক একই রকম।
ক্লাসিকাল আইকিউ আঁশ হতে পারে এর অন্য উদাহরণ হতে পারে। এগুলি সত্যিকারের বৃহত নমুনাগুলি ব্যবহার করে 100 টির গড় এবং 15 এর একটি মানক বিচ্যুতি থাকতে স্বাভাবিক করা হয় । তারপরে আমরা একটি নির্দিষ্ট নমুনা নিতে পারি (বলুন, 50 বাম-হাতের রেডহেডগুলি) এবং জিজ্ঞাসা করতে পারি যে তাদের গড় আইকিউ 100 এর চেয়ে উল্লেখযোগ্যভাবে বড় কিনা, 15 ^ 2 কে "পরিচিত" বৈকল্পিক হিসাবে ব্যবহার করে। অবশ্যই, আবারও, এই প্রশ্নটি উত্থাপন করে যে দুটি নমুনার মধ্যে বৈকল্পিকতা আসলেই সমান কিনা - সর্বোপরি, আমরা ইতিমধ্যে পরীক্ষা করে দেখছি যে উপায়গুলি আলাদা কিনা, তবে কেন রূপগুলি সমান হওয়া উচিত?
নীচের লাইন: আপনার উদ্বেগগুলি বৈধ এবং সাধারণত পরিচিত মুহুর্তগুলির সাথে পরীক্ষাগুলি কেবলমাত্র যুক্তিযুক্ত উদ্দেশ্যে পরিবেশন করে। পরিসংখ্যান কোর্সে সাধারণত আনুমানিক মুহুর্তগুলি ব্যবহার করে পরীক্ষাগুলি অনুসরণ করা হয় ।
জনসংখ্যার বৈচিত্রটি জানার একমাত্র উপায় হ'ল সম্পূর্ণ জনসংখ্যা পরিমাপ করা।
তবে একটি সম্পূর্ণ জনসংখ্যার পরিমাপ প্রায়শই সম্ভব হয় না; এর জন্য অর্থ, সরঞ্জাম, কর্মী এবং অ্যাক্সেস সহ সংস্থানসমূহ প্রয়োজন। এই কারণে আমরা জনসংখ্যার নমুনা করি; এটি জনসংখ্যার একটি উপসেট পরিমাপ করছে। নমুনা প্রক্রিয়াটি সাবধানতার সাথে এবং নমুনা জনসংখ্যার যা জনসংখ্যার প্রতিনিধিত্বকারী তা তৈরির লক্ষ্যে ডিজাইন করা উচিত; দুটি মূল বিবেচনা প্রদান - নমুনা আকার এবং নমুনা কৌশল।
খেলনা উদাহরণ: আপনি সুইডেনের প্রাপ্তবয়স্ক জনসংখ্যার জন্য ওজনের বিভিন্নতার অনুমান করতে চান। এখানে প্রায় 9.5 মিলিয়ন সুইডিশ রয়েছে তাই আপনি বাইরে গিয়ে সেগুলি সমস্ত মাপার সম্ভাবনা নেই। সুতরাং আপনাকে এমন একটি নমুনা জনসংখ্যার পরিমাপ করতে হবে যা থেকে আপনি জনসংখ্যার প্রকৃতির মধ্যে প্রকৃত পরিমাণটি অনুমান করতে পারেন।
আপনি সুইডিশ জনসংখ্যার নমুনা প্রকাশ। এটি করতে আপনি স্টকহোম শহরের কেন্দ্রে গিয়ে দাঁড়ান এবং ঠিক তাই জনপ্রিয় কল্পিত সুইডিশ বার্গার চেইন বার্গার কুঞ্জেনের ঠিক বাইরে দাঁড়ান । আসলে, বৃষ্টি এবং শীতল (এটি গ্রীষ্মের হতে হবে) তাই আপনি রেস্তোঁরাটির অভ্যন্তরে দাঁড়িয়ে যান। এখানে আপনার চারজনের ওজন হয়।
সম্ভাবনাগুলি হ'ল, আপনার নমুনা সুইডেনের জনসংখ্যাকে খুব ভাল প্রতিফলিত করবে না। আপনার কাছে যা আছে তা হ'ল স্টকহোমের লোকদের একটি নমুনা, যারা বার্গার রেস্তোঁরায়। এটি একটি স্যাম্পলিংয়ের একটি দুর্বল কৌশল কারণ আপনি যে জনসংখ্যার অনুমান করার চেষ্টা করছেন তার ন্যায্য প্রতিনিধিত্ব না করে ফলাফলটিকে পক্ষপাতিত্ব করার সম্ভাবনা রয়েছে। তদুপরি, আপনার একটি ছোট নমুনা আকার আছে, সুতরাং জনসংখ্যার চূড়ান্তভাবে চারজনকে বাছাই করার ঝুঁকি আপনার মধ্যে রয়েছে; হয় খুব হালকা বা খুব ভারী। আপনি যদি 1000 জনকে নমুনা দেন তবে আপনার নমুনা পক্ষপাতের সম্ভাবনা কম থাকে; অস্বাভাবিক যে চারটি বাছাই করা তার চেয়ে 1000 জন লোককে বেছে নেওয়ার সম্ভাবনা খুব কম। একটি বৃহত্তর নমুনার আকার কমপক্ষে আপনাকে বার্গার কুঞ্জেনের গ্রাহকদের মধ্যে গড়ের ওজন এবং তারতম্যের আরও সঠিক অনুমান দেবে।
হিস্টোগ্রাম স্যাম্পলিং কৌশলটির প্রভাব চিত্রিত করে, ধূসর বিতরণ সুইডেনের জনসংখ্যার প্রতিনিধিত্ব করতে পারে যা বার্গার কুঞ্জেন (মানে 85 কেজি) খায় না, যখন লাল বার্গার কুঞ্জেনের গ্রাহকদের জনসংখ্যার প্রতিনিধিত্ব করতে পারে (যার অর্থ 100 কেজি) , এবং নীল ড্যাশগুলি আপনার চারজনের নমুনা হয়ে থাকতে পারে। সঠিক নমুনা দেওয়ার কৌশলটির জন্য জনসংখ্যাকে মোটামুটিভাবে ওজন করতে হবে, এবং এই ক্ষেত্রে ~ 75% জনসংখ্যা, এইভাবে পরিমাপিত নমুনাগুলির 75%, বার্গার কুঞ্জেনের গ্রাহক হওয়া উচিত নয়।
এটি অনেক সমীক্ষা সহ একটি বড় সমস্যা। উদাহরণস্বরূপ, গ্রাহক সন্তুষ্টি বা জরিপ নির্বাচনের জরিপে সাড়া জাগাতে পারে এমন লোকেরা চরম দৃষ্টিভঙ্গিযুক্ত ব্যক্তিদের দ্বারা বৈষম্যমূলকভাবে প্রতিনিধিত্ব করেন; কম দৃ strong় মতামতযুক্ত লোকেরা তাদের প্রকাশে বেশি সংরক্ষিত থাকে।
অনুমানের পরীক্ষার বিন্দুটি ( সর্বদা নয় ) উদাহরণস্বরূপ, দুটি জনসংখ্যা একে অপরের থেকে পৃথক কিনা তা পরীক্ষা করা to উদাহরণস্বরূপ বার্গার কুঞ্জেনের গ্রাহকদের কি সুইডেনের চেয়ে বেশি ওজন হয় যা বার্গার কুংজে না খায়? এটি সঠিকভাবে পরীক্ষা করার ক্ষমতা সঠিক নমুনা কৌশল এবং পর্যাপ্ত নমুনার আকারের উপর নির্ভরশীল।
এই সমস্ত ঘটতে পরীক্ষার জন্য আর কোড:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
ফলাফল:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024
কখনও কখনও জনসংখ্যার বৈকল্পিক একটি অগ্রাধিকার সেট করা হয় । উদাহরণস্বরূপ, স্যাট স্কোরগুলি পরিমাপ করা হয় যাতে স্ট্যান্ডার্ড বিচ্যুতিটি 110 হয় এবং আইকিউ পরীক্ষাগুলি 15 এর মানক বিচ্যুতি থাকতে স্কেল করা হয় ।
একমাত্র বাস্তব উদাহরণটি যখন আমি অর্থটি অজানা তা ভাবতে পারি তবে তারতম্যটি তখনই জানা যায় যখন একটি হাইপারস্পিয়ারে বিন্দু বিন্দুগুলির বিন্দু নমুনা হয় (যাই হোক না কেন মাত্রায়) একটি নির্দিষ্ট ব্যাসার্ধ এবং একটি অজানা কেন্দ্র থাকে। এই সমস্যার অজানা গড় (গোলকের কেন্দ্র) রয়েছে তবে একটি স্থির বৈকল্পিক (গোলকের বর্গাকার-ব্যাসার্ধ)। আমি অন্য কোনও বাস্তব উদাহরণ সম্পর্কে অজানা যেখানে অজানা গড় কিন্তু জ্ঞাত বৈকল্পিকতা রয়েছে। (এবং স্পষ্টরূপে: কেবলমাত্র অন্যান্য ডেটা থেকে বাইরের ভেরিয়েন্সের অনুমান করা কোনও পরিচিত বৈকল্পিকের উদাহরণ নয় Also এছাড়াও, যদি অন্য ডেটা থেকে আপনার যদি এই বৈকল্পিক অনুমান থাকে তবে আপনারও সেই একই পরিমাণের সাথে আনুমানিক গড় অনুমান কেন নেই? তথ্য?)
আমার দৃষ্টিতে, একটি অজানা গড় এবং জ্ঞাত বৈচিত্রের সাথে পরীক্ষাগুলি শেখানো সূচনাসংখ্যার পরিসংখ্যান কোর্সগুলি একটি অ্যানক্রোনিজম এবং এগুলি আধুনিক শিক্ষার সরঞ্জাম হিসাবে বিপথগামী। শিক্ষাগতভাবে, অজানা গড় এবং ভিন্নতার ক্ষেত্রে সরাসরি টি-টেস্ট দিয়ে শুরু করা এবং জেড-টেস্টটিকে এ্যাসিপটোটিক সান্নিধ্য হিসাবে বিবেচনা করা ভাল যা স্বাধীনতার ডিগ্রি বড় হলে (বা না) এমনকি জেড-পরীক্ষা শেখাতে বিরক্ত করুন)। জ্ঞাত বৈকল্পিকতা থাকলেও অজানা মাধ্যমগুলি এমন পরিস্থিতিতে উপস্থিত হওয়ার সংখ্যাটি খুব কম, এবং সাধারণত শিক্ষার্থীরা এই (অত্যন্ত বিরল) কেসটি প্রবর্তন করার জন্য বিভ্রান্তিকর।
কখনও কখনও প্রয়োগকৃত সমস্যায় পদার্থবিজ্ঞান, অর্থনীতি ইত্যাদি দ্বারা উপস্থাপিত কারণ রয়েছে যা আমাদের বৈকল্পিকতা সম্পর্কে বলে এবং কোনও অনিশ্চয়তা নেই। অন্যান্য সময়ে, জনসংখ্যা সীমাবদ্ধ হতে পারে এবং আমরা প্রত্যেকের সম্পর্কে কিছু জিনিস জানতে পারি, তবে বাকিটি শিখতে পরিসংখ্যানের নমুনা ও সম্পাদনা করা দরকার।
সাধারণত, আপনার উদ্বেগ বেশ বৈধ।