লিনিয়ার রিগ্রেশন ক্ষেত্রে শ্রেণিবদ্ধের জন্য পরিসংখ্যানগত তাত্পর্য কীভাবে পরীক্ষা করবেন?


18

যদি লিনিয়ার রিগ্রেশনটিতে আমার স্পষ্টতাল পরিবর্তনশীল থাকে ... আমি কীভাবে শ্রেণিবদ্ধ ভেরিয়েবলের স্থায়ীত্বের পরিচয় জানব?

ধরা যাক যে ফ্যাক্টর এর 10 টি স্তর রয়েছে ... সেখানে 10 টি বিভিন্ন ফলস্বরূপ টি-ভ্যালু থাকবে, একটি ফ্যাক্টর ভেরিয়েবল এর ছত্রছায়ায় ...এক্স 1X1X1

এটি আমার কাছে মনে হয় যে পরিসংখ্যানের স্বতন্ত্রতা প্রতিটি স্তরের ফ্যাক্টর ভেরিয়েবলের জন্য পরীক্ষা করা হয়? কোন?

@ ম্যাক্রো: আপনার পরামর্শ অনুসরণ করে আমি নিম্নলিখিত উদাহরণটি তৈরি করেছি:

দেখে মনে হচ্ছে যে এক্স 3 কার্যকর এবং নীচে মডেল তুলনা থেকে অবশ্যই মডেলটিতে অন্তর্ভুক্ত করা উচিত।

তবে আসলে এটি ভুল ...

n=100    
x1=1:n
x2=(1:n)^2 
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)

lm2=lm(y~x1+x2) 
summary(lm2)

anova(lm1, lm2)

> anova(lm1, lm2)
Analysis of Variance Table

Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1     96  82.782                                  
2     97 146.773 -1    -63.99 74.207 1.401e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

1
@ লুনা, কেন এটি ভুল? এটি প্রদর্শিত হয় যে আপনি এস x3তৈরি করতে ব্যবহার করেছেন y, সুতরাং এটি মডেলটিতে অন্তর্ভুক্ত করা উচিত এবং ভ্যালু সেই সিদ্ধান্তে সম্মত হয়। p
ম্যাক্রো

@ সেথ - আপনি ঠিক বলেছেন। আমি কেবল মডেল তুলনায় সাধারণত আনোভা ব্যবহার করার একটি খেলনা উদাহরণ দিচ্ছিলাম। সুতরাং এটি আমার মূল প্রশ্নের সাথে যুক্ত নয়।
লুনা

@ ম্যাক্রো - আপনি ঠিক বলেছেন। এখন আমি বিন্দু দেখতে। ধন্যবাদ!
লুনা

আর 'গাড়ি' প্যাকেজ ( পিডিএফ ) থেকে 'আনোভা' ফাংশন আপনাকে একটি শ্রেণিবদ্ধ ভেরিয়েবলের সামগ্রিক তাত্পর্য পরীক্ষা করতে দেয়। এটি প্রচুর বিভিন্ন প্যাকেজ এবং প্রকারের রিগ্রেশন নিয়ে কাজ করে।
এস কে 4 শেণ্ডাল

উত্তর:


28

আপনি সঠিক যে এই মূল্যগুলি কেবল আপনাকে জানায় যে প্রতিটি স্তরের গড় রেফারেন্স স্তরের গড়ের চেয়ে উল্লেখযোগ্যভাবে পৃথক কিনা । অতএব, তারা কেবলমাত্র স্তরের মধ্যে যুগলতর পার্থক্য সম্পর্কে আপনাকে জানায় । সামগ্রিকভাবে শ্রেণিবদ্ধ ভবিষ্যদ্বাণীটি তাৎপর্যপূর্ণ কিনা তা পরীক্ষা করার জন্য ভবিষ্যদ্বাণীকের স্তরের মাধ্যমগুলির মধ্যে কোনও ভিন্নধর্ম আছে কিনা তা পরীক্ষার সমতুল্য। যখন মডেলটিতে অন্য কোনও ভবিষ্যদ্বাণী নেই, এটি একটি ধ্রুপদী আনোভা সমস্যা isp

যখন মডেলটিতে অন্যান্য ভবিষ্যদ্বাণী থাকে। শ্রেণিবদ্ধ ভবিষ্যদ্বাণীটির তাত্পর্য পরীক্ষা করার জন্য আপনার কাছে দুটি বিকল্প রয়েছে:

(1) সম্ভাবনা অনুপাতের পরীক্ষা: ধরা যাক আপনার একটি ফলাফল , পরিমাণগত ভবিষ্যদ্বাণী এবং স্তরের পূর্বাভাসকারী রয়েছে । শ্রেণীবদ্ধ ভবিষ্যদ্বাণী ছাড়াই মডেল হ'লএক্স আমি 1 , , এক্স আই পি সি আই কেYiXi1,...,XipCik

Yi=β0+β1Xi1+...+βpXip+εi

ইন Rআপনার সাথে এই মডেল ফিট করতে পারে lm()কমান্ড সাথে, লগ সম্ভাবনা নিষ্কর্ষ logLikকমান্ড। এই লগ-সম্ভাবনা কল করুন । এরপরে, আপনি শ্রেণিবদ্ধ ভবিষ্যদ্বাণীটির সাথে মডেলটি ফিট করতে পারেন:L0

Yi=β0+β1Xi1+...+βpXip+j=1k1αjBj+εi

যেখানে একটি ডামি পরিবর্তনশীল যা হয় যদি এবং অন্যথায়। 'ম স্তর রেফারেন্স স্তর, যা কেন সেখানে মাত্র হয় সমষ্টি পদ। আপনি যদি শ্রেণিবদ্ধ ভেরিয়েবলটি পাস করেন তবে স্বয়ংক্রিয়ভাবে আপনার জন্য এই ডামি কোডিং করবে । আপনি এই মডেলটিকে একইভাবে ফিট করতে পারেন এবং উপরের মতো লগের সম্ভাবনাটি বের করতে পারেন। এই লগ-সম্ভাবনা কল করুন । তারপরে, নাল অনুমানের অধীনে যে এর কোনও প্রভাব নেই,Bj1Di=j0kk1Rlm()L1Di

λ=2(L1L0)

স্বাধীনতার ডিগ্রি সহ একটি বিতরণ রয়েছে । সুতরাং, আপনি নিরূপণ করতে পারেন ব্যবহার -value মধ্যে তাত্পর্য জন্য পরীক্ষা।χ2k1p1-pchisq(2*(L1-L0),df=k-1)R

(2) -test:F বিবরণ (যা ছাড়া বর্গের অঙ্কের বদলে লগ-likelihoods ব্যবহার করা হয় LRT মতই) মধ্যে যাওয়া ছাড়া, আমি কিভাবে আপনাকে এই কাজটি ব্যাখ্যা করব R। আপনি যদি "পূর্ণ" মডেলটি (যেমন সমস্ত ভবিষ্যদ্বাণীবিদদের সাথে মডেলগুলি যেমন শ্রেণীবদ্ধ ভবিষ্যদ্বাণী সহ) কমান্ডটি Rব্যবহার করে lm()(এটি কল করুন g1) এবং শ্রেণিবদ্ধ ভবিষ্যদ্বাণী ছাড়াই মডেলটি (এটি কল করুন g0), তবে anova(g1,g0)পরীক্ষার জন্য এই অনুমানটি পরীক্ষা করা হবে ভাল হিসাবে আপনি.

দ্রষ্টব্য: আমি এখানে দু'টি পদ্ধতির উল্লেখ করেছি ত্রুটির স্বাভাবিকতা প্রয়োজন। এছাড়াও, সম্ভাবনা অনুপাত পরীক্ষা নেস্টেড তুলনাগুলির জন্য ব্যবহৃত একটি খুব সাধারণ সরঞ্জাম, যার কারণেই আমি এখানে এটি উল্লেখ করেছি (এবং কেন এটি আমার আগে ঘটে) যদিও টেষ্টটি লিনিয়ার রিগ্রেশন মডেলগুলির তুলনায় আরও বেশি পরিচিত।F


অনেক ধন্যবাদ ম্যাক্রো। আমি দেখতে পেলাম যে আমার ডেটা অত্যন্ত নরমাল। কিউকিউ প্লটটি নিম্নরূপ: বক্ররেখাটি সরাসরি 45 ডিগ্রি লাইনের নিচে থাকে। বক্ররেখা সেই সরলরেখার স্পর্শকাতর। এবং বক্রাকারটি দেখতে f (x) = - x ^ 2 (আকৃতি অনুসারে) এর বক্রের মতো লাগে। আমি কোন ধরণের সমস্যার মুখোমুখি হচ্ছি? আমি কীভাবে এটি ঠিক করব? ধন্যবাদ!
লুনা

1
@ লুনা, আপনার ডেটা অত্যন্ত নরমাল বা অবশিষ্টাংশগুলি অত্যন্ত অ-স্বাভাবিক? এছাড়াও, আমি মনে করি না যে পুরো পয়েন্টগুলি 45 ডিগ্রি লাইনের নিচে থাকা সম্ভব।
ম্যাক্রো

ওহ আসলে আপনি ঠিক বলেছেন ... আমি কিউকিউ প্লটের দিকে আরও একবার নজর রেখেছি। এটি 45 ডিগ্রি লাইনের নীচে থাকা পয়েন্টগুলির পুরো সেট নয়। এটি f (x) = - x ^ 2 এর আকারযুক্ত বক্ররেখা 45 ডিগ্রি লাইনের "স্পর্শক"। "স্পর্শক" দ্বারা আমার বোঝানো উচিত ছিল যে "স্পর্শক" পয়েন্টের চারপাশের এই পয়েন্টগুলি আসলে 45 ডিগ্রি লাইনের উপরে, যদিও সামান্য। সুতরাং, দর্শনীয়ভাবে বলতে গেলে, বেশিরভাগ ডেটা (~ 98%) 45 ডিগ্রি লাইনের নীচে থাকে ... মডেল তুলনা করার আগে এই সমস্যাটি সমাধান করার জন্য প্রথমে আমি কী করব? ধন্যবাদ!
লুনা

2
যদি আপনার নমুনার আকারটি বেশ বড় হয় তবে আপনার ত্রুটি বিতরণ যতক্ষণ দীর্ঘ-লেজযুক্ত না হয় ততক্ষণ ভ্যালুগুলি যুক্তিযুক্ত হওয়া উচিত (কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য অনুসারে)। আপনি যদি কেবল বিচ্ছিন্নভাবে শ্রেণিবদ্ধ পরিবর্তনশীল পরীক্ষা করতে চান তবে আপনি একটি প্যারামিমেটিক অ্যানোভা ব্যবহার করতে পারেন: en.wikedia.org/wiki/… তবে, যেমন আমি বলেছি, এটি সত্যিই উত্থাপিত প্রশ্নের থেকে সম্পূর্ণ ভিন্ন প্রশ্ন হয়ে উঠছে এবং আরও সঠিকভাবে একটি নতুন প্রশ্ন হিসাবে উত্থাপিত বা সম্পর্কিত প্রশ্নের জন্য সাইট অনুসন্ধান করে উত্তর দেওয়া। পি
ম্যাক্রো

1
@ ড্রাস ২ কে, হ্যাঁ এটি সঠিক।
ম্যাক্রো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.