বিশাল নমুনা দিয়ে টি-টেস্ট কিভাবে করবেন?


11

আমার দুটি জনসংখ্যা রয়েছে, একটিতে এন = 38,704 (পর্যবেক্ষণের সংখ্যা) এবং অন্যটি এন = 1,313,662। এই ডেটা সেটগুলিতে continuous 25 ভেরিয়েবল থাকে, সমস্ত অবিচ্ছিন্ন। আমি প্রতিটি ডাটা সেটে প্রত্যেকটির গড় গ্রহণ করেছি এবং সূত্রটি ব্যবহার করে পরীক্ষার পরিসংখ্যানগুলি গণনা করেছি

t = গড় পার্থক্য / স্ট্যান্ড ত্রুটি

সমস্যাটি স্বাধীনতার ডিগ্রির। Df = N1 + N2-2 সূত্রে আমাদের সারণীটি পরিচালনা করতে পারে তার চেয়ে বেশি স্বাধীনতা পাবে'll এ সম্পর্কে কোন পরামর্শ? কীভাবে এখানে টি স্ট্যাটিস্টিক চেক করবেন। আমি জানি যে টি-টেস্টটি নমুনা পরিচালনা করার জন্য ব্যবহৃত হয় তবে আমরা যদি এটি বড় নমুনাগুলিতে প্রয়োগ করি তবে কী হবে what

উত্তর:


20

chl ইতিমধ্যে একই ডেটা সেট সহ 25 টি পরীক্ষা পরিচালনা করার সময় একাধিক তুলনার ফাঁদ উল্লেখ করেছে। এটি পরিচালনা করার একটি সহজ উপায় হ'ল পরীক্ষার সংখ্যার (এই ক্ষেত্রে 25) দ্বারা বিভাজন করে পি মান প্রান্তিকিকে সামঞ্জস্য করা। আরও সুনির্দিষ্ট সূত্রটি হ'ল: সমন্বিত পি মান = 1 - (1 - পি মান) ^ (1 / এন)। যাইহোক, দুটি পৃথক সূত্র প্রায় একই সমন্বিত পি মান অর্জন করে।

আপনার হাইপোথিসিস পরীক্ষা অনুশীলন নিয়ে আরও একটি বড় সমস্যা রয়েছে is আপনি অবশ্যই একটি প্রকার I ত্রুটি (মিথ্যা পজিটিভ) এ চলে যাবেন যার মাধ্যমে আপনি 99.9999% স্তরে অত্যন্ত তাত্পর্যপূর্ণ কিছু সত্যই তুচ্ছ পার্থক্য উদঘাটন করবেন। এর কারণ এটি যখন আপনি এত বড় আকারের একটি নমুনা নিয়ে কাজ করেন (এন = 1,313,662), আপনি 0 এর খুব কাছাকাছি একটি স্ট্যান্ডার্ড ত্রুটি পাবেন। এটি কারণ 1,313,662 = 1,146 এর বর্গমূল। সুতরাং, আপনি স্ট্যান্ডার্ড বিচ্যুতি 1,146 দ্বারা ভাগ করবেন। সংক্ষেপে, আপনি মিনিট পার্থক্যগুলি ক্যাপচার করবেন যা পুরোপুরি অনিবার্য হতে পারে।

আমি আপনাকে এই অনুমানের পরীক্ষার কাঠামো থেকে দূরে সরে যাওয়ার পরিবর্তে কার্যকর আকারের ধরণের বিশ্লেষণের পরামর্শ দেব। এই কাঠামোর মধ্যে পরিসংখ্যানের দূরত্বের পরিমাপ হল স্ট্যান্ডার্ড বিচ্যুতি। স্ট্যান্ডার্ড ত্রুটির বিপরীতে, আদর্শ বিচ্যুতিটি নমুনার আকার দ্বারা কৃত্রিমভাবে সঙ্কুচিত হয় না। এবং, এই পদ্ধতির সাহায্যে আপনার ডেটা সেটগুলির মধ্যে উপাদানগুলির পার্থক্য সম্পর্কে আরও ভাল ধারণা পাওয়া যাবে। প্রভাবের আকারটি গড় গড় পার্থক্যের আশেপাশের আত্মবিশ্বাসের ব্যবধানের উপরেও অনেক বেশি আলোকপাত করে যা পরিসংখ্যানগত তাত্পর্য সম্পর্কিত অনুমানের পরীক্ষার ফোকাসের চেয়ে অনেক বেশি তথ্যপূর্ণ যা প্রায়শই মোটেই তাত্পর্যপূর্ণ নয়। আশা করি এইটি কাজ করবে.


4
মূল ধারণাগুলি আনার জন্য +1: (1) আমরা গ্যারান্টি দিতে পারি যে ডেটাসেটগুলি এই বড় হলে এবং (2) আরও কিছু বিশ্লেষণ সম্ভবত আরও উপযুক্ত এবং কার্যকর হওয়ার সম্ভাবনা রয়েছে means তবে বিশ্লেষণের উদ্দেশ্য সম্পর্কে আমরা জানি না, তাই নির্দিষ্ট প্রস্তাবনা দেওয়ার বিষয়ে আমাদের সতর্ক হওয়া উচিত।
whuber

ধন্যবাদ গীতান..আপনি পেয়েছি..আমার মনে হয় আমি এ থেকে যা নিচ্ছি তা হ'ল স্ট্যান্ডার্ড বিচ্যুতি হ'ল একটি ভাল পরিমাপ যখন আমার মতো বড় আকারের নমুনাগুলি থাকে ... দয়া করে আমাকে কিছু মিস না করে আমাকে জানান।
আয়ুষ বিয়ানি

1
আয়ুষ ... তুমি ঠিক বলেছ মূলত এটি। এবং, এটি হ'ল কারণ আপনার স্ট্যান্ডার্ড ত্রুটিটি এত ছোট হয়ে যাবে (বড় আকারের নমুনার আকারের কারণে)। এটি আপনার পরীক্ষা এবং নিয়ন্ত্রণ গোষ্ঠীর মধ্যে পরিসংখ্যানের দূরত্বকে বাড়িয়ে তোলে। এবং, আপনাকে শেষ পর্যন্ত টাইপ আই ত্রুটির দিকে চালিত করে তোলে (এমন একটি পার্থক্য উন্মোচন করবে যা অমীমাংসিত হতে পারে তাই ছোট)। বৃহত্তর নমুনাগুলির সাথে হাইপোথিসিস পরীক্ষায় এটি একটি সাধারণ সমস্যা।
সিম্পা

14

শিক্ষার্থীর টি- বিতরণ স্বাধীনতার ডিগ্রি আরও বাড়ার সাথে সাথে স্ট্যান্ডার্ড সাধারণ বিতরণটি আরও কাছাকাছি হয়। 1313662 + 38704 - 2 = 1352364 ডিগ্রি স্বাধীনতার সাথে, টি- ডিস্ট্রিবিউশনটি স্ট্যান্ডার্ড সাধারণ বিতরণ থেকে পৃথক করা যাবে, যেমন নীচের ছবিতে দেখা যাবে (সম্ভবত আপনি যদি চূড়ান্ত লেজের মধ্যে না থাকেন এবং আগ্রহী না হন তবে এমনকি ক্ষুদ্রতর থেকে একেবারে ক্ষুদ্র পি- মানগুলি পৃথক করে )। সুতরাং আপনি টি- বিতরণের জন্য টেবিলের পরিবর্তে মানক সাধারণ বিতরণের জন্য টেবিলটি ব্যবহার করতে পারেন ।

বিকল্প পাঠ


বলছি, উত্তরের জন্য ধন্যবাদ। বিশ্লেষণ করার জন্য আমার কাছে একটি ডেটা রয়েছে। আমি কীভাবে এটিতে ডেটা সংযুক্ত করি। আপনাকে লোকেদের জিজ্ঞাসা করার জন্য প্রচুর .. প্রত্যাশার জন্য ধন্যবাদ। একটি তাত্ক্ষণিক জবাব প্রত্যাশা।
আয়ুষ বিয়ানি

4
তাই না? আপনি প্রশ্নটিতে বলেছেন যে আপনি ইতিমধ্যে টি-স্ট্যাটিস্টিকগুলি গণনা করেছেন, এবং চিএল নমুনা আর কোড সরবরাহ করেছে। আপনি আরো কি করতে চান? যাইহোক, আমি নিশ্চিত নই যে আপনার কাছে কোনও প্রম্পট জবাব আশা করার বা অনুরোধ করার কোনও অধিকার আছে; আপনি জানেন যে এর জন্য আমরা কোনও অর্থ পাব না।
অনস্টপ

1
@ ইউউশ আপনার পূর্ববর্তী প্রশ্নের জন্য, আমি আপনার প্রশ্নের সম্পূর্ণ উত্তর সরবরাহ করেছি (আইএমএইচও) - তখন আমি আপনার মন্তব্যে কিছুটা ফলোআপ দিয়েছিলাম যখন থামার আগে আমি ভেবেছিলাম যে আপনি অন্য কোনও প্রশ্ন জিজ্ঞাসা করছেন যা এখানে মন্তব্য বিকল্পের উদ্দেশ্য নয় is । সুতরাং, আমি প্রস্তাব দিচ্ছি যে আপনার প্রশ্নটি তাত্ত্বিক বিবেচনার সাথে সম্পর্কিত বা প্রয়োগ করা ডেটা বিশ্লেষণের সাথে সম্পর্কিত হয় (তবে পরবর্তী ক্ষেত্রে, আমাদের একটি পুনরুত্পাদনযোগ্য উদাহরণ দিন) বা আপনার প্রশ্নগুলি পৃথক করুন either বিটিডাব্লু, আপনি এখনও উত্তরগুলি দরকারী বলে গ্রহণ করতে পারেন (আবার, আপনার মূল প্রশ্নটি, মন্তব্যগুলি অনুসরণ করবে না)।
chl

2
@ আইয়ুশ আহ, এবং আমি কেবল বুঝতে পেরেছি যে আপনাকে যে জবাব প্রদান করা হয়েছে তার কোনওটিই আপনি কখনও ভোট দেবেন না (যদিও আপনার কাছে এখন যথেষ্ট প্রতিনিধি রয়েছে)।
chl

@ চিএল - হ্যাঁ .. তবে আমি আমার এই দোষটি বুঝতে পেরেছি এবং আসার পোস্টগুলিতে এটি নিশ্চিত করে সংশোধন করব..এটি উল্লেখ করার জন্য ধন্যবাদ ..
কিছুদিনের জন্য আমাকে নির্দ্বিধায়

10

টিz- রএনএন>30এনz- র

কেবল নিশ্চিত হওয়া, আপনার ডেটা সেটে যেমন 25 টি ভেরিয়েবল রয়েছে, আপনি 25 টি পরীক্ষা করছেন? যদি এটি হয় তবে আপনার সম্ভবত একাধিক তুলনা সংশোধন করা দরকার যাতে আই ত্রুটির হার টাইপটি বাড়ানো না হয় (এই সাইটে সম্পর্কিত থ্রেডটি দেখুন)।

বিটিডাব্লু, আর সফ্টওয়্যার আপনাকে যে পি-মানগুলি সন্ধান করছে তা দেয়, টেবিলগুলির উপর নির্ভর করার দরকার নেই:

> x1 <- rnorm(n=38704)
> x2 <- rnorm(n=1313662, mean=.1)
> t.test(x1, x2, var.equal=TRUE)

    Two Sample t-test

data:  x1 and x2 
t = -17.9156, df = 1352364, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.1024183 -0.0822190 
sample estimates:
  mean of x   mean of y 
0.007137404 0.099456039 
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.