একাধিক প্রতিরোধের জন্য সর্বনিম্ন নমুনার আকারের জন্য থাম্বের বিধি


72

সামাজিক বিজ্ঞানের একটি গবেষণা প্রস্তাবের প্রসঙ্গে, আমাকে নিম্নলিখিত প্রশ্ন জিজ্ঞাসা করা হয়েছিল:

একাধিক রিগ্রেশনের জন্য সর্বনিম্ন নমুনার আকার নির্ধারণ করার সময় আমি সর্বদা 100 + মি (যেখানে মি প্রেডিক্টরের সংখ্যা) চলে এসেছি। এটা কি উপযুক্ত?

আমি প্রায় একইভাবে বিভিন্ন থাম্বের নিয়ম সহ একই প্রশ্ন পাই rules আমি বিভিন্ন পাঠ্যপুস্তকেও থাম্বের এই জাতীয় নিয়মগুলি বেশ কিছুটা পড়েছি। আমি মাঝে মাঝে আশ্চর্য হই যে উদ্ধৃতিগুলির ক্ষেত্রে কোনও নিয়মের জনপ্রিয়তা কতটা কম সেট করা হয় তার উপর ভিত্তি করে। তবে, সিদ্ধান্ত গ্রহণকে সহজ করার ক্ষেত্রে আমি উত্তম হিউরিস্টিক্সের মূল্য সম্পর্কেও সচেতন।

প্রশ্নাবলী:

  • গবেষণামূলক গবেষণার নকশা প্রয়োগকারী গবেষকগণের প্রেক্ষাপটে ন্যূনতম নমুনা আকারের জন্য থাম্বের সহজ নিয়মগুলির ব্যবহার কী?
  • আপনি একাধিক প্রতিরোধের জন্য ন্যূনতম নমুনা আকারের জন্য থাম্বের বিকল্প নিয়মের পরামর্শ দিতে চান?
  • বিকল্পভাবে, একাধিক প্রতিরোধের জন্য ন্যূনতম নমুনার আকার নির্ধারণের জন্য আপনি কোন বিকল্প কৌশলগুলি পরামর্শ করবেন? বিশেষত, কোনও স্ট্যাটিস্টিস্টিয়ান দ্বারা কোনও কৌশল সহজেই প্রয়োগ করা যেতে পারে এমন মান ডিগ্রি হিসাবে নির্ধারিত হলে ভাল হবে।

উত্তর:


36

আমি ন্যূনতম নমুনা মাপ উত্পাদন করার জন্য সহজ সূত্রগুলির অনুরাগী নই। খুব কমপক্ষে, যে কোনও সূত্রের প্রভাবের আকার এবং আগ্রহের প্রশ্নগুলি বিবেচনা করা উচিত। এবং কাট-অফের উভয় পক্ষের মধ্যে পার্থক্য ন্যূনতম is

অপ্টিমাইজেশনের সমস্যা হিসাবে নমুনা আকার

  • আরও বড় নমুনা ভাল।
  • নমুনা আকার প্রায়শই ব্যবহারিক বিবেচনা দ্বারা নির্ধারিত হয়।
  • নমুনা আকারকে একটি অপ্টিমাইজেশান সমস্যায় এক হিসাবে বিবেচনা করা উচিত যেখানে অতিরিক্ত অংশগ্রহণকারীদের লাভের সময়, অর্থ, প্রচেষ্টা এবং এইভাবে অতিরিক্ত ব্যয়কারীদের গ্রহণের ব্যয়টি ওজন করা হয়।

থাম্বের রাফ রুল

দক্ষতা পরীক্ষা, দৃষ্টিভঙ্গি স্কেল, ব্যক্তিত্বের ব্যবস্থা এবং এই জাতীয় কিছু জড়িত পর্যবেক্ষণমূলক মনস্তাত্ত্বিক স্টাডিজের সাধারণ প্রেক্ষাপটে অঙ্গুলির খুব রুক্ষ নিয়মের শর্তে, আমি মাঝে মাঝে ভাবি:

  • n = 100 পর্যাপ্ত হিসাবে
  • n = 200 হিসাবে ভাল
  • n = 400 + দুর্দান্ত হিসাবে

থাম্বের এই নিয়মগুলি এই সম্পর্কিত স্তরের পারস্পরিক সম্পর্কের সাথে যুক্ত 95% আত্মবিশ্বাসের অন্তরগুলিতে ভিত্তি করে তৈরি হয়েছে এবং আমি আগ্রহের সম্পর্কগুলি তাত্ত্বিকভাবে বুঝতে চাই যে যথাযথতার ডিগ্রি। তবে এটি কেবল একটি হিউরিস্টিক।

জি পাওয়ার 3

একাধিক অনুভূতি একাধিক অনুমান পরীক্ষা করে

  • যে কোনও শক্তি বিশ্লেষণের প্রশ্নে প্রভাবের আকারগুলির বিবেচনার প্রয়োজন।
  • একাধিক প্রতিরোধের জন্য পাওয়ার বিশ্লেষণকে আরও জটিল করে তুলেছে যে সামগ্রিক আর-স্কোয়ার্ড এবং প্রতিটি স্বতন্ত্র সহগের জন্য একটি সহ একাধিক প্রভাব রয়েছে। অধিকন্তু, বেশিরভাগ গবেষণায় একাধিক রিগ্রেশন অন্তর্ভুক্ত থাকে। আমার জন্য, এটি সাধারণ হিউরিস্টিকের উপর বেশি নির্ভর করার আরও কারণ এবং আপনি যে ন্যূনতম প্রভাবের আকারটি সনাক্ত করতে চান তা নিয়ে চিন্তাভাবনা করার কারণ এটি।

  • একাধিক রিগ্রেশন সম্পর্কিত, আমি প্রায়শই অন্তর্নিহিত পারস্পরিক সম্পর্ক ম্যাট্রিক্স অনুমানের নির্ভুলতার ডিগ্রি বিবেচনায় আরও চিন্তা করব।

প্যারামিটার অনুমানের নির্ভুলতা

আমি কেন কেলি এবং প্যারামিটার অনুমানের নির্ভুলতার সহকর্মীদের আলোচনা পছন্দ করি।

  • প্রকাশনাগুলির জন্য কেন কেলির ওয়েবসাইট দেখুন
  • @ দিমিত্রিজ দ্বারা উল্লিখিত হিসাবে, কেলি এবং ম্যাক্সওয়েল (2003) বিনামূল্যে পিডিএফ একটি দরকারী নিবন্ধ আছে।
  • কেন কেল্লি MBESSপ্যাকেজটির মূল্যায়ণে নির্ভুলতার সাথে নমুনা আকার সম্পর্কিত বিশ্লেষণ সম্পাদন করতে আরে প্যাকেজটি তৈরি করেছিলেন ।

17

আমি একটি শক্তি ইস্যু হিসেবে এই মনে করতে পছন্দ করি না, বরং জিজ্ঞাসা প্রশ্ন "কত বড় উচিত যাতে আপাত হতে বিশ্বাস করা যাবে"? এর সাথে যোগাযোগ করার একটি উপায় হ'ল এবং মধ্যে অনুপাত বা পার্থক্য বিবেচনা করা , পরবর্তীটি দ্বারা প্রদত্ত অ্যাডজাস্ট করা being এবং "সত্য" এর আরও নিরপেক্ষ অনুমান তৈরি করে ।আর 2 আর 2 আর 2 ডি আর 2 1 - ( 1 - আর 2 ) এন - 1nR2R2Radj2R2 আর21(1R2)n1np1R2

কিছু আর কোডের ফ্যাক্টর জন্য সমাধান করতে ব্যবহার করা যেতে পারে যে যেমন যে হওয়া উচিত শুধুমাত্র একটি ফ্যাক্টর চেয়ে ছোট বা শুধুমাত্র দ্বারা ছোট । এন - 1 আর 2 একটি আর 2pn1Radj2kR2k

require(Hmisc)
dop <- function(k, type) {
  z <- list()
  R2 <- seq(.01, .99, by=.01)
  for(a in k) z[[as.character(a)]] <-
    list(R2=R2, pfact=if(type=='relative') ((1/R2) - a) / (1 - a) else
         (1 - R2 + a) /  a)
  labcurve(z, pl=TRUE, ylim=c(0,100), adj=0, offset=3,
           xlab=expression(R^2), ylab=expression(paste('Multiple of ',p)))
}
par(mfrow=c(1,2))
dop(c(.9, .95, .975), 'relative')
dop(c(.075, .05, .04, .025, .02, .01), 'absolute')

এখানে চিত্র বর্ণনা লিখুন লেজেন্ড: মধ্যে অবনতির থেকে একটি আপেক্ষিক ড্রপ অর্জন করা থেকে একটি নির্দেশিত আপেক্ষিক ফ্যাক্টর (বাম প্যানেল, 3 কারণের) অথবা পরম পার্থক্য (ডান প্যানেল দ্বারা, 6 হ্রাস)। আর 2R2R2Radj2

যদি কেউ ইতিমধ্যে মুদ্রণ এ দেখে থাকে দয়া করে আমাকে জানান।


1
+1 টি। আমি সন্দেহ করি যে আমি বরং মৌলিক এবং সুস্পষ্ট কিছু মিস করছি, তবে কেন কে মানদণ্ড হিসাবে অনুমান করার জন্য আমাদের ক্ষমতাটি ব্যবহার করা উচিত ? কম থাকলেও আমাদের ইতিমধ্যে to এ অ্যাক্সেস রয়েছে । সেখানে ব্যাখ্যা করতে কেন এই ন্যূনতমরূপে পর্যাপ্ত সম্পর্কে ভাবতে সঠিক উপায় একটি উপায় আছে কি যে এটি তোলে বাহিরে একটি ভাল অনুমান ? R^2R2Radj2NNR^2R2
গুং

@ ফ্র্যাঙ্কহারেল: দেখুন এখানে লেখক মনে করছেন যে উপরে আপনার পোস্টে থাকা প্লটগুলি একইভাবে 260-263 ব্যবহার করা হচ্ছে।
ব্যবহারকারী 60

5
রেফারেন্সের জন্য ধন্যবাদ। @ গুং এটি একটি ভাল প্রশ্ন। একটি (দুর্বল) উত্তর হ'ল কিছু ধরণের মডেলগুলিতে আমাদের কাছে have থাকে না, এবং কোনও পরিবর্তনশীল নির্বাচন করা থাকলে আমাদের কাছে অ্যাডজাস্টেড সূচকও নেই। তবে মূল ধারণাটি হ'ল যদি পক্ষপাতহীন হয়, তবে নমুনা আকারের যথাযথতা এবং ন্যূনতম ওভারফিটিংয়ের কারণে র‌্যাঙ্ক পারস্পরিক সম্পর্কের মতো ভবিষ্যদ্বাণীমূলক বৈষম্যের অন্যান্য সূচকগুলিও পক্ষপাতহীন হওয়ার সম্ভাবনা রয়েছে। Radj2R2
ফ্র্যাঙ্ক হ্যারেল

12

(+1) আমার মতে, প্রশ্নে প্রকৃত পক্ষে একটি গুরুত্বপূর্ণ।

ম্যাক্রো-একনোমেট্রিক্সে আপনার কাছে সাধারণত মাইক্রো, আর্থিক বা আর্থসামাজিক পরীক্ষাগুলির তুলনায় অনেক কম নমুনা আকার থাকে। একজন গবেষক যখন কমপক্ষে সম্ভাব্য অনুমান সরবরাহ করতে পারেন তখন বেশ ভাল অনুভূত হয়। আমার ব্যক্তিগত সর্বনিম্ন সম্ভাব্য নিয়মটি ( একটি অনুমানিত প্যারামিটারের ডিগ্রি স্বাধীনতার)। অধ্যয়নের অন্যান্য প্রয়োগ ক্ষেত্রগুলিতে আপনি সাধারণত ডেটা সহ আরও ভাগ্যবান (যদি এটি খুব ব্যয়বহুল না হয় তবে কেবল আরও ডেটা পয়েন্ট সংগ্রহ করুন) এবং আপনি কোনও নমুনার অনুকূল আকার কী (এটির জন্য কেবল সর্বনিম্ন মান নয়) জিজ্ঞাসা করতে পারেন। পরবর্তী সমস্যাটি এ থেকে আসে যে উচ্চ মানের মানেরগুলির চেয়ে আরও কম মানের (গোলমাল) ডেটা আরও ভাল নয়।4m4

নমুনা মাপের বেশিরভাগটি হাইপোথিসিসের জন্য পরীক্ষার শক্তির সাথে সংযুক্ত যা আপনি একাধিক রিগ্রেশন মডেল ফিট করার পরে পরীক্ষা করতে যাচ্ছেন।

একটি দুর্দান্ত ক্যালকুলেটর রয়েছে যা একাধিক রিগ্রেশন মডেল এবং পর্দার পিছনে কিছু সূত্রের জন্য কার্যকর হতে পারে । আমি মনে করি যে এ জাতীয় একটি প্রাথমিক ক্যালকুলেটর সহজেই অ-পরিসংখ্যানবিদ দ্বারা প্রয়োগ করা যেতে পারে।

সম্ভবত কে। কেলি এবং এসইম্যাক্সওয়েল নিবন্ধটি অন্যান্য প্রশ্নের উত্তর দিতে কার্যকর হতে পারে তবে সমস্যাটি অধ্যয়ন করার জন্য আমার প্রথমে আরও সময় প্রয়োজন।


11

আপনার থাম্বের নিয়মটি খুব ভাল নয় যদি খুব বড় হয়। নিন : আপনার নিয়মে কেবল পর্যবেক্ষণের সাথে ভেরিয়েবল ফিট করা ঠিক আছে । আমি কষ্টের সাথে তাই মনে করি!mm=500500600

একাধিক প্রতিরোধের জন্য, আপনার ন্যূনতম নমুনার আকার প্রস্তাব করার জন্য কিছু তত্ত্ব রয়েছে। যদি আপনি সাধারণ সর্বনিম্ন স্কোয়ারগুলি ব্যবহার করতে যাচ্ছেন, তবে আপনার যে অনুমানের প্রয়োজন হবে তার একটি হ'ল "সত্যিকারের অবশিষ্টাংশ" স্বতন্ত্র। এখন যখন আপনি ভেরিয়েবলের জন্য ন্যূনতম স্কোয়ারের মডেলটি ফিট করেন , আপনি আপনার অভিজ্ঞতাগত অবশিষ্টাংশগুলিতে (কমপক্ষে স্কোয়ার বা "সাধারণ" সমীকরণ দ্বারা প্রদত্ত) উপর লিনিয়ার সীমাবদ্ধতা চাপিয়ে দিচ্ছেন । এর দ্বারা বোঝা যায় যে অনুশীলনীয় অবশিষ্টাংশগুলি স্বতন্ত্র নয় - একবার আমরা যখন সেগুলির মধ্যে জানি , অবশিষ্ট কেটে নেওয়া যেতে পারে, যেখানে নমুনার আকার। সুতরাং আমাদের এই অনুমানের লঙ্ঘন আছে। এখন নির্ভরতার ক্রমটি হ'ল । সুতরাং আপনি যদি চয়নmm+1nm1m+1nএন=কে(এম+1)কে(1)O(m+1n)n=k(m+1)কিছু সংখ্যক জন্য , তারপরে অর্ডারটি দ্বারা দেওয়া হবে । সুতরাং চয়ন করে আপনিও কত সংখ্যক নির্ভরতা আপনি সহ্য করতে ইচ্ছুক বেছে নিচ্ছেন। "কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য" প্রয়োগ করার জন্য আপনি যেভাবে করেন ঠিক আমি নির্বাচন করি - ভাল, এবং আমাদের কাছে "পরিসংখ্যান গণনা" বিধি (অর্থাৎ পরিসংখ্যানবিদগণের গণনা পদ্ধতি )।k10-20301,2,...,26,27,28,29,O(1k)kk1020301,2,,26,27,28,29,


আপনি বলছেন 10 থেকে 20 টি ভাল, তবে এটিও ত্রুটি বৈকল্পের আকারের উপর নির্ভর করবে (সম্ভবত অন্যান্য জিনিসের তুলনায়)? উদাহরণস্বরূপ, ধরুন এখানে কেবলমাত্র একজন ভবিষ্যদ্বাণীকারী পরিবর্তনশীল ছিল। যদি এটি জানা ছিল যে ত্রুটির বৈকল্পিকতা সত্যই ক্ষুদ্র ছিল, তবে মনে হচ্ছে 3 বা 4 ডেটা পয়েন্টগুলি নির্ভরযোগ্যভাবে opeাল এবং আটকানোর জন্য অনুমান করার জন্য যথেষ্ট হতে পারে। অন্যদিকে, যদি এটি জানা ছিল যে ত্রুটির প্রকরণটি বিশাল ছিল, তবে 50 টি পয়েন্ট এমনকি অপর্যাপ্ত হতে পারে। আমি কি কিছু ভুল বুঝছি?
999

আপনি কি দয়া করে আপনার প্রস্তাবিত সমীকরণের জন্য কোনও রেফারেন্স সরবরাহ করতে পারেন n=k(m+1)?
সোসি

6

মনোবিজ্ঞানে:

সবুজ (1991) ইঙ্গিত দেয় যে (যেখানে এম স্বতন্ত্র চলকের সংখ্যা) একাধিক পারস্পরিক সম্পর্ক পরীক্ষা করার জন্য এবং পৃথক ভবিষ্যদ্বাণীকারীদের পরীক্ষার জন্য ।এন > 104 + মিN>50+8mN>104+m

অন্যান্য নিয়ম যা ব্যবহার করা যায় তা হ'ল ...

হ্যারিস (1985) বলেছেন যে অংশগ্রহণকারীদের সংখ্যা কমপক্ষে দ্বারা ভবিষ্যদ্বাণীকারীদের সংখ্যার বেশি হওয়া উচিত ।50

ভ্যান ভুরিস এবং মরগান (2007) ( পিডিএফ ) 6 বা ততোধিক ভবিষ্যদ্বাণী ব্যবহারকারীদের নিখুঁত ন্যূনতম হওয়া উচিত । যদিও প্রতি পরিবর্তনশীল অংশগ্রহণকারীদের জন্য যাওয়া ভাল ।301030


1
আপনার প্রথম 'বিধি' এর মধ্যে মি নেই।
Dason

তাঁর প্রথম থাম্বের নিয়মটি রচনা হিসাবে লেখা হয়েছে N = 50 + 8 m, যদিও এটি জিজ্ঞাসা করা হয়েছিল যে 50 টি শব্দটি সত্যই প্রয়োজন কিনা
সোসি

আমি থাম্বের একটি নতুন এবং আরও জটিল নিয়ম যুক্ত করেছি যা নমুনার প্রভাবের আকারটি বিবেচনা করে। এটি গ্রীন (1991) দ্বারা উপস্থাপন করা হয়েছিল।
সোসি 17

2
গ্রিন (1991) এবং হ্যারিসের (1985) রেফারেন্সগুলির জন্য সম্পূর্ণ উদ্ধৃতিগুলি কী কী?
হাটসেপসুট

2

আমি একমত যে পাওয়ার ক্যালকুলেটরগুলি বিশেষত পাওয়ারের উপর বিভিন্ন কারণের প্রভাব দেখতে কার্যকর। সেই দিক থেকে, আরও বেশি ইনপুট তথ্য অন্তর্ভুক্ত ক্যালকুলেটরগুলি আরও ভাল। লিনিয়ার রিগ্রেশন এর জন্য, আমি এখানে রিগ্রেশন ক্যালকুলেটরটি পছন্দ করি যার মধ্যে এক্স এর মধ্যে ত্রুটি, এক্স এর মধ্যে পারস্পরিক সম্পর্ক এবং আরও অনেক কিছু রয়েছে।


0

আমি এই পরিবর্তে সাম্প্রতিক কাগজটি পেয়েছি (2015) ভ্যারিয়েবলের জন্য মাত্র 2 টি পর্যবেক্ষণই যথেষ্ট, যতক্ষণ না আমাদের আগ্রহ যতক্ষণ না অনুমিত রিগ্রেশন কো-কোফিয়েনটিস এবং স্ট্যান্ডার্ড ত্রুটির (এবং ফলাফলের আত্মবিশ্বাসের অন্তরগুলির অভিজ্ঞতাজনিত কভারেজের) যথার্থতার উপরে থাকে এবং আমরা ব্যবহার স্থায়ী :R2

( পিডিএফ )

অবশ্যই, কাগজ দ্বারা স্বীকৃত হিসাবে, (আপেক্ষিক) নিরপেক্ষতা পর্যাপ্ত পরিসংখ্যানগত ক্ষমতা থাকা আবশ্যক নয়। তবে, পাওয়ার এবং নমুনা আকারের গণনাগুলি সাধারণত প্রত্যাশিত প্রভাবগুলি নির্দিষ্ট করে তৈরি করা হয়; একাধিক প্রতিরোধের ক্ষেত্রে, এটি রিগ্রেশন সহগের মান বা রেজিস্ট্রারগুলির মধ্যে পারস্পরিক সম্পর্ক ম্যাট্রিক্সের উপর একটি অনুমানকে বোঝায় এবং ফলাফলটি অবশ্যই তৈরি করা উচিত। বাস্তবে, এটি ফলাফলের সাথে এবং নিজেদের মধ্যে রেজিস্ট্রারদের পারস্পরিক সম্পর্কের শক্তির উপর নির্ভর করে (স্পষ্টতই, ফলাফলের সাথে পারস্পরিক সম্পর্কের জন্য আরও শক্তিশালী, যখন মাল্টিকোল্লাইনারিটির সাথে বিষয়গুলি আরও খারাপ হয়)। উদাহরণস্বরূপ, দুটি নিখুঁতভাবে কলিনারি ভেরিয়েবলের চরম ক্ষেত্রে, আপনি পর্যবেক্ষণের সংখ্যা নির্বিশেষে এমনকি এমনকি কেবল ২ টি কোভারিয়েট দিয়েও রিগ্রেশন করতে পারবেন না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.