সাধারণ লিনিয়ার রিগ্রেশন এএনওভা এফ-পরীক্ষার পিছনে যুক্তিযুক্ত


17


আমি সরল লিনিয়ার রিগ্রেশন অ্যানালাইসিসে আনোভা এফ-পরীক্ষার পিছনে যুক্তি বোঝার চেষ্টা করছি। আমার কাছে প্রশ্নটি নীচের মত। যখন F মান, অর্থাত্ MSR/MSEবড় হয় আমরা মডেলটিকে তাৎপর্যপূর্ণ হিসাবে গ্রহণ করি। এর পিছনে যুক্তি কী?


@ ক্যান টেল আপনি এখানে ফর্ম্যাট করার বিষয়ে কিছু সহায়তা পেতে পারেন: stats.stackexchange.com/editing-help

উত্তর:


21

সরলতম ক্ষেত্রে, যখন আপনি যদি শুধুমাত্র একটি predictor (সাধারণ রিগ্রেশন) থাকতে বলে , -test আপনি বলে কিনা তা সহ একটি বৃহত্তর ভ্যারিয়েন্স পরিলক্ষিত অংশ ব্যাখ্যা করে নাল মডেল (শুধুমাত্র পথিমধ্যে) সাথে তুলনা করে। তারপরে এই ধারণাটি পরীক্ষা করার জন্য এটি যুক্ত করা হয়েছে যে ব্যাখ্যা করা ভিন্নতা (মোট বৈকল্পিক, টিএসএস, বিয়োগ অবশিষ্টাংশগুলি, আরএসএস) যথেষ্ট পরিমাণে "উল্লেখযোগ্য পরিমাণ" হিসাবে বিবেচিত হবে is আমরা এখানে একটি ভবিষ্যদ্বাণীকারী বা ব্যাখ্যামূলক ভেরিয়েবলের সাথে একটি মডেল তুলনা করছি একটি বেসলাইন যা কেবল "গোলমাল" (গ্র্যান্ড মানে ছাড়া কিছুই নয়)। এফ এক্স 1 ওয়াইX1FX1Y

তেমনি, আপনি একাধিক রিগ্রেশন সেটিংয়ে একটি পরিসংখ্যান গণনা করতে পারেন : এই ক্ষেত্রে এটি মডেলের অন্তর্ভুক্ত সমস্ত ভবিষ্যদ্বাণীকারীদের একটি পরীক্ষার পরিমাণ , যা এইচটি ফ্রেমওয়ার্কের অধীনে এর অর্থ আমরা আশ্চর্য হয়েছি যে প্রতিক্রিয়া পূর্বাভাস দেওয়ার ক্ষেত্রে তাদের কোনওটি কার্যকর কিনা? পরিবর্তনশীল। এই কারণেই আপনি এমন পরিস্থিতিগুলির মুখোমুখি হতে পারেন যেখানে পুরো মডেলের জন্য টেষ্টটি তাত্পর্যপূর্ণ যেখানে প্রতিটি রিগ্রেশন সহগের সাথে যুক্ত কিছু বা স্টেটস নয়।Fটি জেডFtz

মত পরিসংখ্যাত সৌন্দর্যF

F=(TSSRSS)/(p1)RSS/(np),

যেখানে হল মডেল পরামিতির সংখ্যা এবং পর্যবেক্ষণের সংখ্যা। এই পরিমাণটি একটি সমালোচনামূলক বা মূল্যবোধের জন্য একটি বিতরণ উল্লেখ করা উচিত । এটি সাধারণ রিগ্রেশন মডেলের জন্যও প্রযোজ্য এবং স্পষ্টতই শাস্ত্রীয় আনোভা কাঠামোর সাথে কিছু উপমা বহন করে।এন এফ পি - 1 , এন - পি পিpnFp1,npp

সাইড নোট. যখন আপনার একাধিক ভবিষ্যদ্বাণী রয়েছে, তখন আপনি ভাবতে পারেন যে কেবলমাত্র সেই ভবিষ্যদ্বাণীকারীদের একটি উপসেট বিবেচনা করলে মডেল ফিটের গুণমান "হ্রাস" হয় whether এটি এমন পরিস্থিতির সাথে মিলে যায় যেখানে আমরা নেস্টেড মডেলগুলি বিবেচনা করি । এটি ঠিক উপরেরগুলির মতো একই পরিস্থিতি, যেখানে আমরা একটি প্রদত্ত রিগ্রেশন মডেলকে নাল মডেলের সাথে তুলনা করি (কোনও ভবিষ্যদ্বাণী অন্তর্ভুক্ত নেই)। বর্ণিত বৈকল্পিকতা হ্রাসের মূল্যায়ন করার জন্য, আমরা উভয় মডেল থেকে স্কোয়ারের অবশিষ্টাংশের (আরএসএস) তুলনা করতে পারি (অর্থাত্ মডেলটিতে উপস্থিত ভবিষ্যদ্বাণীকারীদের প্রভাবের জন্য অ্যাকাউন্ট তৈরি করার পরে কী অব্যক্ত থাকে)। আসুন এবং বেস মডেলটি চিহ্নিত করুন (M0M1pপ্যারামিটার) এবং একটি অতিরিক্ত পূর্বাভাসকারী ( পরামিতি) সহ একটি মডেল , তারপরে যদি হয় ছোট, আমরা বিবেচনা করব যে ছোট মডেল বৃহত্তর একটি হিসাবে ভাল অভিনয় করে। ব্যবহারের জন্য একটি ভাল পরিসংখ্যান যেমন এসএস, , তাদের স্বাধীনতার ডিগ্রি দ্বারা ভারিত ( সংখ্যার জন্য , এবং ডিনোমিনেটরের জন্য )। যেমনটি ইতিমধ্যে বলা হয়েছে, এটি দেখানো যেতে পারে যে এই পরিমাণটি স্বাধীনতার এবং ডিগ্রি সহ একটি (বা ফিশার-সেনেডেকার) বিতরণ অনুসরণ করে । যদি পালনকৃতq=p+1RSSM1RSSM0(RSSM1RSSM0)/RSSM0pqnpFpqnpFপ্রদত্ত pha (সাধারণত, ) এর সাথে সম্পর্কিত কোয়ান্টাইলের চেয়ে বড় , তারপরে আমরা উপসংহারে পৌঁছাতে পারি যে বৃহত্তর মডেলটি "আরও ভাল কাজ" করে। (এটি কোনওভাবেই বোঝায় না যে মডেলটি ব্যবহারিক দৃষ্টিকোণ থেকে সঠিক!)Fαα=0.05

উপরে ধারণা একটি সাধারণীকরণ ছাড়া কিছুই না সম্ভাবনা অনুপাত পরীক্ষা

আপনি যদি আর ব্যবহার করে থাকেন তবে আপনি উপরের ধারণাগুলির সাথে এটি খেলতে পারেন:

df <- transform(X <- as.data.frame(replicate(2, rnorm(100))), 
                                   y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df))         # "ANOVA view"
summary(lm(y ~ V1, df))       # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0)               # test of V2

@ সিএইচএল - সবার আগে, সুন্দর উত্তর! এটি তার নিজের প্রশ্নের জন্য ওয়ারেন্ট হতে পারে তাই আমাকে জানান ... তবে রেগ্রেশন মডেলগুলির জন্য আমি আনোভা টেবিলগুলি সম্পর্কে যে বিবরণগুলি পড়েছি তা সাধারণত টেবিলে তিনটি সারি উল্লেখ করে: ভবিষ্যদ্বাণীকারী, ত্রুটি এবং মোট। যাইহোক, আর-এ anova()ফাংশনটি মডেলের প্রতিটি পূর্বাভাসীর জন্য পৃথক সারি প্রদান করে। উদাহরণস্বরূপ, anova(lm0)উপরে একটি সারি ফেরৎ V1, V2এবং Residuals(এবং কোন মোট)। যেমন, আমরা এই মডেলের জন্য দুটি এফ * পরিসংখ্যান পাই। এটি কীভাবে আনোভা টেবিলে উল্লিখিত এফ * পরিসংখ্যানটির ব্যাখ্যা বদলাবে?
চেজ

@ চেজ হ্যাঁ, আমার মনে থাকা আনোভা সারণীটিও এইভাবে সাজানো হয়েছে। নির্দ্বিধায় প্রশ্ন জিজ্ঞাসা করুন; অন্যান্য ব্যবহারকারীরা সে সম্পর্কে কী ভাবছেন তা শুনতে আমি পছন্দ করব। আমি সাধারণত anova()জিএলএম তুলনার জন্য ব্যবহার করি । যখন কোনও কোনও lmবা aovঅবজেক্টে প্রয়োগ করা হয় , তখন এটি মডেলের প্রতিটি শর্তের জন্য পৃথক প্রভাব (এসএস) প্রদর্শন করে এবং টিএসএস দেখায় না। (আমি এটিকে অন্যভাবে প্রয়োগ করতে পারি, যথা একটি আনোভা লাগানোর পরে aov(), আমি summary.lm()চিকিত্সার বৈপরীত্যের ধারণাটি ব্যবহার করতে পারি)) তবে, এর মধ্যে summary.lm()এবং summary.aov()বিশেষত সিক্যুয়াল ফিটিং সম্পর্কিত কিছু সূক্ষ্ম বিষয় রয়েছে ।
chl

@Chase আমি প্রায় @Gavin থেকে এই খুব সুন্দর প্রতিক্রিয়া পুনরাবিষ্কার আর এর LM () আউটপুট ব্যাখ্যা
chl

@ সিএইচএল - আমার কাছ থেকে কিছুটা নিটপিক করছে। এফ-পরীক্ষার পিছনে অন্তর্নিহিততা এবং এটি কীভাবে "সঠিক পথে চলে যায়" সম্পর্কে একটি দুর্দান্ত উত্তর । তবে আপনাকে কেন এই বিশেষ পরীক্ষাটি বেছে নেওয়া উচিত তার যুক্তি ব্যাখ্যা করে না। উদাহরণস্বরূপ, কেন আমরা প্রেসের পরিসংখ্যান ব্যবহার করব না? যা - তুমি সম্ভাবনা অনুপাত এ hinted করে একটি লজিক্যাল আত্মপক্ষ সমর্থন আছে - এফ পরীক্ষা মতো সমস্ত মডেলের তার প্রযোজ্যতা অত: পর।
সম্ভাব্যতা ব্লগ 13

পছন্দ করুন আমার ধারণাটি মূলত মডেল তুলনার পিছনে যুক্তি প্রদর্শন করার জন্য ছিল, যার মধ্যে সাধারণ রিগ্রেশন মডেলটি কেবল একটি নির্দিষ্ট কেস ("খুব নাল" মডেলের সাথে তুলনা করুন), যা এলআরটি সম্পর্কে দ্রুত নোটকেও অনুপ্রাণিত করে। আমি আপনার সাথে একমত, যদি আমরা এইচটি-র জন্য খাঁটি নেইমন-পিয়ারসন পদ্ধতির লাইনে কাজ করি। যাইহোক, আমি মূলত থিওরি অফ এলএমগুলির শর্তে ভাবছিলাম, যেখানে এসএসের সরাসরি জ্যামিতিক ব্যাখ্যা আছে এবং যেখানে মডেল তুলনা বা একমুখী
আনোভা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.