লজিস্টিক রিগ্রেশন এবং টি-টেস্টের শক্তি কীভাবে তুলনা করে?


18

লজিস্টিক রিগ্রেশন এবং টি-টেস্টের সমতুল্য কি সমান? যদি তা হয় তবে সেগুলি "ডেটা ঘনত্বের সমতুল্য" হওয়া উচিত যার দ্বারা আমি বোঝাতে চাইছি একই সংখ্যার অন্তর্নিহিত পর্যবেক্ষণগুলি .05 এর একটি নির্দিষ্ট আলফা দেওয়া একই শক্তি অর্জন করে। দুটি ক্ষেত্রে বিবেচনা করুন:

  1. [প্যারাম্যাট্রিক টি-টেস্ট]: দ্বিপদী পর্যবেক্ষণ থেকে 30 টি অঙ্কন করা হয় এবং ফলস্বরূপ মানগুলি গড় হয়। এটি গ্রুপ এ এর ​​জন্য 30 বার করা হয় (যার ঘটনার দশম পিআর রয়েছে) এবং বি বি গ্রুপের জন্য 30 বার করা হয় (যার মধ্যে .75 এর দ্বিপদী জনসংযোগ রয়েছে)। এটি প্রতি গ্রুপে 30 টি উপার্জন করে যা দ্বিপদী বিতরণ থেকে 1,800 অঙ্কনের সংক্ষিপ্তসার উপস্থাপন করে। মানে তুলনা করতে একটি 58 ​​ডিএফ টি-পরীক্ষা করা হয়।
  2. [লজিস্টিক রিগ্রেশন]: একটি লজিস্টিক রিগ্রেশন একটি ডামি কোডেড opeাল এবং গ্রুপের সদস্যপদ উপস্থাপন করে এবং প্রতিটি ১,৮০০ ড্রয়ের সাথে সম্পন্ন হয়।

আমার প্রশ্নের দুটি অংশ রয়েছে:

  1. .05 এর একটি সেট আলফা দেওয়া, এই পদ্ধতিগুলির শক্তি একই বা পৃথক হবে? কেন? আমি কীভাবে এটি প্রমাণ করতে পারি?
  2. প্রশ্নের প্রথম প্রশ্নের উত্তরটি কি নমুনা মাপের টি-টেস্টে চলেছে, টি-টেস্টে প্রতিটি গ্রুপের নমুনা আকার, অন্তর্নিহিত দ্বিপদী সম্ভাব্যতা বা অন্য কোনও কারণের সাথে সংবেদনশীল? যদি তা হয় তবে আমি কীভাবে জানতে পারি যে (সিমুলেশন ছাড়াই) শক্তিটি সত্যই আলাদা এবং কোন ধরণের পরিবর্তনগুলি ক্ষমতার মধ্যে কী ধরনের পরিবর্তন আনবে? বিকল্পভাবে, কাজ করা আর কোড সরবরাহ করুন যা সিমুলেশন ব্যবহার করে সমস্যার সমাধান করে।

উত্তর:


19

যদি আমি সঠিকভাবে গণনা করি, লজিস্টিক রিগ্রেশন টি-টেস্টের মতো একই ক্ষমতাযুক্ত। এটি দেখতে, এর লগ সম্ভাবনাটি লিখুন এবং তার হেসিয়ান এর প্রত্যাশাটিকে তার বিশ্বব্যাপী সর্বোচ্চ (এটির নেতিবাচক এমএল সমাধানের ভেরিয়েন্স-কোভারিয়েন্স ম্যাট্রিক্স অনুমান করে) গণনা করুন। সাধারণ লজিস্টিক প্যারামিটারাইজেশন নিয়ে বিরক্ত করবেন না: প্রশ্নে দু'টি সম্ভাব্যতার সাথে এটিকে পরামিতি করা সহজ। বিবরণটি কীভাবে আপনি লজিস্টিক রিগ্রেশন সহগের তাত্পর্যটি পরীক্ষা করেন তার উপর নির্ভর করবে (বেশ কয়েকটি পদ্ধতি রয়েছে)।

এই পরীক্ষাগুলির অনুরূপ ক্ষমতাগুলি খুব আশ্চর্যজনক হওয়া উচিত নয়, কারণ এমএল অনুমানের জন্য চি-বর্গ তত্ত্বটি লগের সম্ভাবনার একটি সাধারণ অনুমানের উপর ভিত্তি করে এবং টি-টেস্ট অনুপাতের বিতরণে একটি সাধারণ অনুমানের উপর ভিত্তি করে। বিষয়টির জটিলতাটি হ'ল উভয় পদ্ধতিই দুটি অনুপাতের একই অনুমান করে এবং উভয় অনুমানের ক্ষেত্রে একই স্ট্যান্ডার্ড ত্রুটি রয়েছে।


একটি বাস্তব বিশ্লেষণ আরও বিশ্বাসযোগ্য হতে পারে। আসুন একটি নির্দিষ্ট গোষ্ঠীতে (এ বা বি) মানগুলির জন্য কিছু সাধারণ পরিভাষা গ্রহণ করি:

  • হল 1 এর সম্ভাব্যতা।p
  • প্রতিটি অঙ্কনের আকারের আকার।n
  • অঙ্কনের সেটের সংখ্যা।m
  • হ'ল ডেটার পরিমাণ।N=mn
  • (থেকে সমান 0 বা 1 ) এর মানতম মধ্যে ফলাফলের আমি তম স্বপক্ষে সেট।kij01jthith
  • বেশী মোট সংখ্যা হয় আমি তম স্বপক্ষে সেট।kiith
  • এর মোট সংখ্যা।k

লজিস্টিক রিগ্রেশন মূলত এমএল অনুমানক । এটির লগারিদম দ্বারা প্রদত্তp

log(L)=klog(p)+(Nk)log(1p).

প্যারামিটার এর সাথে সম্পর্কিত এর ডেরাইভেটিভগুলিp

লগ(এল)পি=পি-এন-1-পি এবং

-2লগ(এল)পি2=পি2+ +এন-(1-পি)2

প্রথম শূন্য উৎপাদনের এমএল অনুমান সেট পি = / এন এবং প্লাগিং দ্বিতীয় মত প্রকাশের পারস্পরিক মধ্যে ভ্যারিয়েন্স উৎপাদ পি ( 1 - পি ) / এন , যা মান ত্রুটি বর্গ হয়।পি^=/এনপি^(1-পি^)/এন

টি পরিসংখ্যাত তথ্য স্বপক্ষে সেট দ্বারা গ্রুপকৃত উপর ভিত্তি করে estimators থেকে প্রাপ্ত হবে; যথা, অর্থের পার্থক্য হিসাবে (গ্রুপ এ থেকে একটি এবং দ্বিতীয় গ্রুপ বি থেকে) এই পার্থক্যের স্ট্যান্ডার্ড ত্রুটি দ্বারা বিভক্ত, যা মাধ্যমের মানক বিচ্যুতি থেকে প্রাপ্ত। তারপরে একটি নির্দিষ্ট গোষ্ঠীর জন্য গড় এবং মানক বিচ্যুতিটি দেখি। গড় সমান , যা এমএল মূল্নির্ধারক অভিন্ন পি । প্রশ্নে স্ট্যান্ডার্ড বিচ্যুতি হ'ল ড্রয়ের মানেটির প্রমিত বিচ্যুতি; এটি হ'ল, এটি k i / n এর সেটটির মানক বিচ্যুতি । এখানে বিষয়টির জটিলতা রয়েছে, তাই আসুন কিছু সম্ভাবনাগুলি ঘুরে দেখি।/এনপি^আমি/এন

  1. মনে করুন ডেটা একেবারে আঁকায় ভাগ করা হয়নি: এটি হ'ল এবং মি = এনআমি ড্র মাধ্যম। তাদের নমুনা ভ্যারিয়েন্স সমান এন / ( এন - 1 ) বার পি ( 1 - পি ) । এটি থেকে এটি অনুসরণ করে যে স্ট্যান্ডার্ড ত্রুটিটি L এর একটি ফ্যাক্টর বাদে এমএল স্ট্যান্ডার্ড ত্রুটির সাথে সমান এন=1মি=এনআমিএন/(এন-1)পি^(1-পি^) , যা মূলত1যখনএন=1800 হয়। অতএব - এই ক্ষুদ্রতম পার্থক্য বাদে - লজিস্টিক রিগ্রেশন ভিত্তিক কোনও পরীক্ষা একটি টেস্টের মতো হবে এবং আমরা মূলত একই শক্তি অর্জন করব।এন/(এন-1)1এন=1800

  2. যখন ডেটাগুলি শ্রেণিবদ্ধ করা হয়, তখন এর (সত্য) প্রকরণটি পি ( 1 - পি ) / এন এর সমান হয় কারণ পরিসংখ্যান k আমি এন বার্নোল্লি ( পি ) ভেরিয়েবলের যোগফলকে প্রতিনিধিত্ব করে , প্রতিটি ভেরিয়েন্ট পি ( 1 - পি) সহ ) । সুতরাং এই মানগুলির মিটার গড়ের প্রত্যাশিত মান ত্রুটি হল পি ( 1 - পি ) / এন / মি = এর বর্গমূলআমি/এনপি(1-পি)/এনআমিএনপিপি(1-পি)মি , ঠিক আগের মতো।পি(1-পি)/এন/মি=পি(1-পি)/এন

সংখ্যা 2 ইঙ্গিত পরীক্ষা শক্তি কিভাবে স্বপক্ষে ভাগ করা হয় (যে সঙ্গে কেমন, সঙ্গে appreciably পরিবর্তিত হতে করা উচিত নয় এবং এন সাপেক্ষে বৈচিত্রময় মিটার = এন নমুনা সমন্বয় থেকে একটি মোটামুটি ছোট প্রভাব থেকে), পৃথক্ সম্ভবত বৈকল্পিকতা (যদি আপনি এতটা নির্বোধ না হন তবে প্রতিটি দলের মধ্যে অঙ্কের কয়েকটি সেট ব্যবহার করতে পারেন)মিএনমিএন=এন

এম = 900 , এন = 1 (মূলত লজিস্টিক রিগ্রেশন) জড়িত থেকে পি = 0.74 (10,000 পুনরাবৃত্তিগুলির সাথে) এর সাথে তুলনা করার সীমাবদ্ধ সিমুলেশন ; মি = এন = 30 ; এবং এম = 2 , এন = 450 (স্যাম্পল ভেরিয়েন্স অ্যাডজাস্টমেন্ট সর্বাধিক করে তোলা) এটি সহ্য করে: শক্তি ( α = 0.05 এপি=0.70পি=0.74মি=900,এন=1মি=এন=30মি=2,এন=450α=0.05, প্রথম দিকের ক্ষেত্রে একতরফা) ০.০৯ এবং তৃতীয় ক্ষেত্রে, যেখানে সমন্বয় ফ্যাক্টর একটি উপাদান পরিবর্তন করে (এখন 1798 বা 58 এর পরিবর্তে স্বাধীনতার মাত্র দুটি ডিগ্রি রয়েছে), এটি 0.36 এ নেমে আসে। থেকে পি = 0.52 এর সাথে তুলনা করা অন্য একটি পরীক্ষা যথাক্রমে 0.22, 0.21 এবং 0.15 এর শক্তি দেয়: আবার, আমরা ড্রগুলিতে (= লজিস্টিক রিগ্রেশন) কোনও গ্রুপিং থেকে 30 টি গ্রুপে বিভক্ত হওয়ার থেকে সামান্য ড্রপ পর্যবেক্ষণ করি এবং যথেষ্ট ড্রপ ডাউন মাত্র দুটি গ্রুপ।পি=0.50পি=0.52

এই বিশ্লেষণের নৈতিকতা হ'ল :

  1. আপনি হারান অনেক যখন আপনি আপনার পার্টিশন না সংখ্যক ডেটা মান মি "আকর্ষণ" অপেক্ষাকৃত ছোট ছোট দলের।এনমি
  2. আপনি অল্প সংখ্যক গোষ্ঠী ব্যবহার করে প্রশংসনীয় শক্তি হারাতে পারেন ( ছোট, এন - প্রতিটি গ্রুপে ডেটা পরিমাণ - বড় largeমিএন
  3. আপনার ডেটা মানগুলিকে একেবারে "ড্র" তে গ্রুপিং না করা সেরা । কেবল তাদের যেমন রয়েছে তেমনি বিশ্লেষণ করুন (লজিস্টিক রিগ্রেশন এবং টি-টেস্টিং সহ কোনও যুক্তিসঙ্গত পরীক্ষা ব্যবহার করে)।এন

1
@ সানকুলসু এটি একটি লজ্জার বিষয় যা আমরা আপডেটটি জানাতে পারি না ...
chl

2
@ সিএল .. আমি সম্মত, আমি (+২) দিতে চাই :-), আসলে আমি এই আপডেট হওয়া পর্যন্ত এই প্রশ্নটি সম্পর্কে এত গভীরভাবে কখনও ভাবিনি।
সানকুলসু

যথারীতি বিল হুবারের একটি ট্যুর ডি ফোর্স। দ্বিতীয়টি প্রশ্নবিদ্ধ হয়ে তাকান যে কীভাবে লজিস্টিক রিগ্রেশন দিয়ে টি পরীক্ষার জন্য পাওয়ারের তুলনা করা যায়। তবে দেখে মনে হচ্ছে যে সাধারণতা উভয় পদ্ধতির অনুপাত পরীক্ষার কাজে
ফেলেছে

8

এখানে আর-তে কোড রয়েছে যা whuber উত্তরের অনুকরণ চিত্রিত করে । আমার আর কোড উন্নত করার বিষয়ে মতামত স্বাগত চেয়ে বেশি।

N <- 900            # Total number data points
m <- 30;            # Size of draw per set
n <- 30;            # No of sets

p_null <- 0.70;     # Null hypothesis
p_alternate <- 0.74 # Alternate hypothesis
tot_iter <- 10000;

set.seed(1);        # Initialize random seed
null_rejected <- 0; # Set counter to 0
for (iter in 1:tot_iter)
{
    draws1 <- matrix(0,m,n);
    draws2 <- matrix(0,m,n);
    means1 <- matrix(0,m);
    means2 <- matrix(0,m);

    for (obs in 1:m)
    {
        draws1[obs,] <- rbinom(n,1,p_null);
        draws2[obs,] <- rbinom(n,1,p_alternate);

        means1[obs,] <- mean(draws1[obs,]);
        means2[obs,] <- mean(draws2[obs,]);
    }
    if (t.test(means1,means2,alternative="l")$p.value <= 0.05)
    {
        null_rejected <- null_rejected + 1; 
    }
}
power <- null_rejected / tot_iter

1
এই ভাগ করার জন্য আপনাকে ধন্যবাদ! (আমি আপনার সমস্ত প্যারামিটারগুলিকে ভেরিয়েবল তৈরি করার এবং সেগুলি স্পষ্টভাবে মন্তব্য করার স্টাইল পছন্দ করি)) আমি আজ ভোটের বাইরে আছি :-( তাই আমাকে এটির
উত্তোলনের

2
replicate()rbinom() {*}apply()

@ সিএল ধন্যবাদ এই প্রশ্নগুলি আমি আর শিখতে ব্যবহার করছি! সুতরাং, আপনার মতামত মূল্যবান।

@ সিক্রিক্যান্ট এলওএল আমি কেবল যোগ করছিলাম: "বিটিডাব্লু আপনি যেভাবে আর শিখেন তা আমি পছন্দ করি!"
chl

আমি বিভ্রান্ত; এটি কি কেবল টেস্টের শক্তি দেয় না?
রাসেলপিয়েরেস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.