দুটি জন নমুনা একই জনসংখ্যা থেকে টানা হয় কিনা তা পরিসংখ্যানগত পরীক্ষা?


30

ধরা যাক আমার দুটি নমুনা রয়েছে। এগুলি বিভিন্ন জনগোষ্ঠীর থেকে টানা হয়েছে কিনা তা যদি আমি বলতে চাই, তবে আমি টি-টেস্ট চালাতে পারি। তবে আসুন আমরা নমুনাগুলি একই জনগোষ্ঠীর কিনা তা পরীক্ষা করতে চাই say এক কিভাবে এই কাজ করে? অর্থাৎ, এই দুটি নমুনা একই জনসংখ্যা থেকে টানা হয়েছিল এমন পরিসংখ্যানগত সম্ভাবনা আমি কীভাবে গণনা করব?


1
দয়া করে ব্যাখ্যা করুন - পরিমাণ হিসাবে যতটা সম্ভব - আপনি "একই" বলতে কী বোঝায়। এটি "শর্ত" দ্বারা আপনার অর্থ কী তা বোঝাতে সহায়তা করবে।
শুক্র

দ্বি-নমুনা কলমোগোরভ-স্মারনভের মতো পরীক্ষা (একমাত্র সম্ভাবনা নয়; সাধারণ অনুমানের সাথে টি-টেস্ট একই জিনিস পরীক্ষা করছে, যেমন আপনি লক্ষ্য করেছেন) জনসংখ্যার বন্টন আলাদা কিনা তা পরীক্ষা করতে পারে (তবে ব্যর্থতা প্রত্যাখ্যান করতে ব্যর্থ হয়েছে ' t এর অর্থ তারা আসলে একই রকম)। যাইহোক, কোনও পরীক্ষা আপনাকে বলতে পারে না যে দুটি বিতরণ যা খুব বেশি ভিন্ন নয় এটি একই ধরণের বিতরণ সহ দুটি পৃথক জনগোষ্ঠীর চেয়ে একই জনসংখ্যার । এটি হয় অনুমান বা অন্যান্য তদন্ত থেকে আসতে হবে। ... সিটিডি
গ্লেন_বি -রেইনস্টেট মনিকা

3
সিটিডি ... একইভাবে, পরীক্ষাগুলি আপনাকে বলতেও পারে না যে বিতরণগুলি অভিন্ন, যেহেতু তারা তুচ্ছ উপায়ে পৃথক হতে পারে। আপনি 'সমতুল্য পরীক্ষা' বা 'সমতুল্য পরীক্ষা' অনুসন্ধান করতে চাইতে পারেন, যার ভিত্তিতে আপনাকে এখানে বা গুগলে বেশ কয়েকটি হিট পাওয়া উচিত।
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


20

পরীক্ষাগুলি যেগুলি বিতরণের তুলনা করে সেগুলি নিয়ম-বহির্ভূত পরীক্ষা। তারা নাল অনুমান দিয়ে শুরু করে যে 2 জনসংখ্যা অভিন্ন, তারপরে সেই অনুমানটিকে প্রত্যাখ্যান করার চেষ্টা করুন। আমরা কখনই নালটিকে সত্য বলে প্রমাণ করতে পারি না, কেবল এটিকে প্রত্যাখ্যান করি, সুতরাং এই পরীক্ষাগুলি সত্যিই 2 জন নমুনা একই জনসংখ্যার (বা অভিন্ন জনসংখ্যা) থেকে আসে তা দেখাতে ব্যবহার করা যায় না।

এটি কারণ বিতরণে সামান্য পার্থক্য থাকতে পারে (যার অর্থ তারা অভিন্ন নয়) তবে এত ছোট যে পরীক্ষাগুলি সত্যিই পার্থক্যটি খুঁজে পায় না।

2 টি বিতরণ বিবেচনা করুন, প্রথমটি 0 থেকে 1 অবধি, দ্বিতীয়টি 2 টি ইউনিফর্মের মিশ্রণ, সুতরাং এটি 0 থেকে 0.999 এর মধ্যে 1 এবং এছাড়াও 9.999 এবং 10 (অন্য কোথাও 0) এর মধ্যে 1। সুতরাং স্পষ্টত এই বিতরণগুলি পৃথক (পার্থক্যটি অর্থবোধক কিনা তা অন্য প্রশ্ন) তবে আপনি যদি প্রতিটি (মোট 100) থেকে 50 এর নমুনা আকার নেন তবে 90% সুযোগের সম্ভাবনা রয়েছে যে আপনি কেবল 0 এবং 0.999 এর মধ্যে মান দেখতে পাবেন এবং কোন বাস্তব পার্থক্য দেখতে অক্ষম।

সমানতালিকা যাচাইকরণ বলা হয় সেখানে করার উপায় আছে যেখানে আপনি জিজ্ঞাসা করেন যে 2 টি বন্টন / জনসংখ্যা সমান, তবে আপনি যা সমতুল্য বলে মনে করেন তা আপনাকে সংজ্ঞায়িত করতে হবে। এটি সাধারণত যে কিছু পরিমাণ পার্থক্য একটি নির্দিষ্ট পরিসরের মধ্যে থাকে, অর্থাৎ 2 টির মধ্যে পার্থক্য 2 টির গড়ের 5% এরও কম হয়, বা কেএস পরিসংখ্যান একটি প্রদত্ত কাট-অফের নীচে থাকে ইত্যাদি you তারপরে পার্থক্য পরিসংখ্যানের জন্য একটি আত্মবিশ্বাসের ব্যবধান গণনা করতে পারে (উপায়ের পার্থক্য কেবল টি আত্মবিশ্বাসের ব্যবধান, বুটস্ট্র্যাপিং, সিমুলেশন বা অন্যান্য পরিসংখ্যানগুলির জন্য অন্যান্য পদ্ধতির প্রয়োজন হতে পারে)। যদি পুরো আত্মবিশ্বাসের ব্যবধানটি "সমতুল্য অঞ্চলে" পড়ে তবে আমরা 2 জনসংখ্যা / বিতরণকে "সমতুল্য" হিসাবে বিবেচনা করি।

সমতুল্য অঞ্চলটি কী হওয়া উচিত তা কঠিন অংশটি নির্ধারণ করছে।


2
একটি নাল অনুমান পরীক্ষা কখনও নাল অনুমানের পক্ষে প্রমাণ প্রদান করতে পারে না, সত্য। মডেল নির্বাচন, হয় বায়েশিয়ান বা কিছু "মানদণ্ড" (এআইসি, বিআইসি) এর উপর ভিত্তি করে ইঙ্গিত দিতে পারে যে একটি নাল মডেল (অভিন্ন ডিস্ট্রিবিউশন) বিকল্প মডেলের (বিভিন্ন বিতরণ) এর চেয়ে ডেটার আরও ভাল বিবরণ। অবশ্যই অনুমান একটি গুচ্ছ অধীনে।
এ। ডোন্ডা

6

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

আপনার নমুনা মানগুলি অবিচ্ছিন্ন বিতরণ থেকে আসে তা ধরে নিয়ে, আমি কলমোগোরভ-স্মারনভ পরীক্ষার পরামর্শ দেব। এটি সম্পর্কিত পরীক্ষামূলক বিতরণের উপর ভিত্তি করে দুটি নমুনা বিভিন্ন বিতরণ থেকে আসে (এটি আমি আপনার জনসংখ্যার ব্যবহারের ব্যাখ্যা কীভাবে করছি) তা পরীক্ষার জন্য ব্যবহার করা যেতে পারে।

সরাসরি উইকিপিডিয়া থেকে:

এই পরিসংখ্যানের নাল বিতরণ নাল অনুমানের অধীনে গণনা করা হয় যে নমুনাগুলি একই বন্টন থেকে আঁকা হয় (দ্বি-নমুনা ক্ষেত্রে)

আর-এ ks.est ফাংশন এই পরীক্ষার জন্য ব্যবহার করা যেতে পারে।

যদিও সত্য যে কেস্টেস্ট একজাতীয়তার জন্য পরীক্ষা করে না, আমি যুক্তি দেব যে আপনি যদি যথেষ্ট পরিমাণে নমুনা আকার (একটি উচ্চ ক্ষমতা সম্পন্ন পরীক্ষা) দিয়ে প্রত্যাখ্যান করতে ব্যর্থ হন তবে আপনি দাবি করতে পারেন যে পার্থক্যগুলি কার্যত তাত্পর্যপূর্ণ নয়। আপনি অনুমান করতে পারেন যে পার্থক্যগুলি যদি বিদ্যমান থাকে তবে সেগুলি সম্ভবত অর্থবহ নয় (আবারও, বড় আকারের নমুনার আকার ধরে)) অন্যরা সঠিকভাবে বলেছে যে এগুলি একই জনসংখ্যার থেকে এসেছেন তা আপনি সিদ্ধান্ত নিতে পারছেন না। এই সমস্ত বলা হচ্ছে, সাধারণত আমি গ্রাফিকালি দুটি স্যাম্পল মিলের জন্য পরীক্ষা করব examine


6
আমি সন্দেহ করি যে কেএস পরীক্ষাটি বিতরণের সমতুল্যতা দেখাতে ব্যবহার করা যেতে পারে।
মাইকেল এম

@ মিশেলমায়ার ঠিক এটি সঠিক। ওপি একজাতীয়তার পরীক্ষাতে আগ্রহী ... এতে অনেকগুলি অন্তর্নিহিত পদ্ধতিগত সমস্যা রয়েছে। বৈচিত্র্যের জন্য কেএস এর সমস্যাগুলিও রয়েছে: কার্যতঃ জনপদগুলি সমস্ত দিক থেকে কার্যত অভিন্ন কিনা তা নির্বিশেষে এটি বৃহত নমুনায় প্রত্যাখ্যান করবে । এটি কেবল দেখায় যে পরীক্ষার, এবং ফলস্বরূপ পি-মানগুলি পরিসংখ্যানগত তাত্পর্যের চেয়ে নমুনা আকারের ব্যবস্থা হিসাবে ভাল ধারণা করা হয়।
অ্যাডমো

@ অ্যাডামো হ্যাঁ, তবে আপনার কাছে যদি বড় নমুনা থাকে এবং আপনি প্রত্যাখ্যান করতে ব্যর্থ হন তবে আমি আত্মবিশ্বাসী হয়ে উঠব যে জনসংখ্যা কার্যত অভিন্ন। যতদূর আমি জানি, এটির ব্যাক আপ করার কোনও তত্ত্ব নেই, তবে অভিজ্ঞতা থেকে জানা গেল যে বিজাতীয়তার জন্য কেএস বড় নমুনা আকারের সাথে মিনিটের পার্থক্যগুলি সনাক্ত করতে পারে আপনাকে ব্যবহারিকভাবে একটি ডি ফ্যাক্টো স্টেটমেন্ট হিসাবে একটি ব্যর্থ বৃহত নমুনা পরীক্ষা ব্যবহার করতে দেয় অভিন্ন জনসংখ্যা আমার প্রতিক্রিয়া কি এই পরিসংখ্যানগত সম্ভাবনার গণনা করে যে এই দুটি নমুনা একই জনসংখ্যা থেকে টানা হয়েছিল "? অবশ্যই না.
আন্ডারমিনার

আমার পয়েন্টগুলি দ্বি-মাত্রিক হলে আমি কী করতে পারি ? এটি হ'ল আমার কাছে দ্বি-মাত্রিক পয়েন্টের দুটি নমুনা রয়েছে এবং আমি জানতে চাই যে এগুলি পৃথক বিতরণ থেকে এসেছে কিনা।
বেকো

কেএস পরীক্ষা কেবল প্রাক-সংজ্ঞায়িত বিতরণের বিরুদ্ধে কাজ করে, ডেটা থেকে অনুমান করা প্যারামিটার সহ বিতরণ থেকে নয়।
কিউআরআর

2

আপনি একটি 'শিফট ফাংশন' ব্যবহার করতে পারেন যা প্রতিটি ডেস্কিলে 2 টি বিতরণ আলাদা হয় কিনা তা পরীক্ষা করে। যদিও প্রযুক্তিগতভাবে এটি একই তুলনায় বিভিন্ন জনগোষ্ঠীর থেকে আসে কিনা তা পরীক্ষা করে নেওয়া হয়, যদি বিতরণগুলি কোনও সিদ্ধান্তের ক্ষেত্রে পৃথক না হয় তবে আপনি যুক্তিযুক্তভাবে নিশ্চিত হতে পারবেন যে তারা একই জনসংখ্যার, বিশেষত যদি গ্রুপ আকারগুলি বড় হয়।

আমি 2 টি গোষ্ঠীটি ভিজ্যুয়ালাইজ করব: তাদের বিতরণগুলি ওভারলে করে দেখুন এবং তারা একে অপরের সাথে সাদৃশ্যপূর্ণ কিনা, বা আরও ভাল প্রতিটি গ্রুপ থেকে কয়েক হাজার বুটস্ট্র্যাপ নমুনা আঁকুন এবং সেগুলি প্লট করুন , কারণ এটি আপনাকে ধারণা দেয় যে তারা একই থেকে আসে কিনা whether জনসংখ্যা বিশেষত যদি প্রশ্নে জনসংখ্যা সাধারণত আপনার জন্য পরিবর্তনশীল দেওয়া বিতরণ করা হয় না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.