ক্লাসিক রৈখিক মডেল - মডেল নির্বাচন


16

আমার কাছে একটি ক্লাসিক রৈখিক মডেল রয়েছে, যেখানে 5 টি সম্ভাব্য রেজিস্ট্রার রয়েছে। তারা একে অপরের সাথে সম্পর্কযুক্ত নয়, এবং প্রতিক্রিয়াটির সাথে বেশ কম সম্পর্ক রয়েছে। আমি এমন একটি মডেল পৌঁছেছি যেখানে 3 জন রেজিস্ট্রারদের তাদের টি স্ট্যাটিস্টিক (পি <0.05) এর জন্য উল্লেখযোগ্য সহগ রয়েছে। বাকি 2 ভেরিয়েবলের দুটি বা উভয় যুক্ত করা যোগ করা ভেরিয়েবলের জন্য টি স্ট্যাটিস্টিকের জন্য p মান> 0.05 দেয়। এটি আমাকে 3 পরিবর্তনশীল মডেলটিকে "সেরা" বিশ্বাস করতে পরিচালিত করে।

যাইহোক, আর-তে আনোভা (ক, খ) কমান্ড ব্যবহার করে যেখানে ক the টি ভেরিয়েবল মডেল এবং বি পূর্ণ মডেল, এফ পরিসংখ্যানের জন্য পি মান <0.05, যা আমাকে 3 ভেরিয়েবলের চেয়ে সম্পূর্ণ মডেলটি পছন্দ করতে বলেছে মডেল. আমি কীভাবে এই আপাত দ্বন্দ্বের পুনর্মিলন করতে পারি?

ধন্যবাদ পিএস সম্পাদনা: আরও কিছু পটভূমি। এটি হোমওয়ার্ক তাই আমি বিবরণ পোস্ট করব না, তবে আমাদের রেজিস্ট্রাররা কী উপস্থাপন করে তার বিবরণ দেওয়া হয় না - সেগুলি কেবল 1 থেকে 5 নম্বরে গণ্য করা হয়েছে "আমাদেরকে" ন্যায়সঙ্গত প্রমাণ দিয়ে একটি উপযুক্ত মডেল বের করতে "বলা হয়।


6
কোনও মডেল বোঝাতে একটি উপযুক্ত মডেল নেওয়া যেতে পারে যা কার্যকরভাবে সমস্ত পূর্বনির্ধারিত ভেরিয়েবলগুলি ব্যবহার করে (ননলাইনারিটির জন্য অ্যাকাউন্টিং ইত্যাদি)। আমি আশা করি যে আপনার প্রশিক্ষক বুঝতে পেরেছেন যে পদক্ষেপের পরিবর্তনশীল নির্বাচনটি অবৈধ। কয়েকজন করে।
ফ্র্যাঙ্ক হ্যারেল

1
হাই আবারো এবং ধন্যবাদ। পিছনে পিছনে সব জন্য দুঃখিত। নির্দেশাবলী আরও বলে যে "অগত্যা একটি" সেরা "মডেল নেই এবং আপনাকে অবশ্যই সমস্ত ভবিষ্যদ্বাণীকারীকে অন্তর্ভুক্ত করতে হবে না"। এছাড়াও, কোন প্রান্তিকতা বা ননলাইনারিটি নেই। আসলে, 5 টি ভবিষ্যদ্বাণীকারী একটি সাধারণ বিতরণ থেকে স্বতন্ত্র সিমুলেশন দ্বারা উত্পাদিত হয়। ফলস্বরূপ, ভবিষ্যদ্বাণীকারী এবং প্রতিক্রিয়া মধ্যে পারস্পরিক সম্পর্কও ছোট (বৃহত্তম বৃহত্তম 0.1 এর চেয়ে কম)। সত্যই আমার অন্তর্নিহিততা বলে যে "সেরা" মডেলটি কেবলমাত্র নমুনার গড় হতে পারে (সামঞ্জস্য করা r স্কোয়ার 0.03 এর চেয়ে কম)
পি সেল্লাজ

@ পি সেল্লাজ: এই যে সিমুলেটেড ডেটা ব্যবহার করে গৃহকর্ম হ'ল, আপনার স্বজ্ঞাততা এখানে আপনাকে ভালভাবে পরিবেশন করতে পারে। আপনার স্বজ্ঞানের জন্য একটি যুক্তিসঙ্গত ব্যাখ্যা লিখুন।
Zach

1
আর2

1
সাধারণভাবে এটি সঠিক যে একটি ভাল কাজ করার জন্য সমস্ত ভবিষ্যদ্বাণীকারীকে অন্তর্ভুক্ত করতে হবে না। তবে ডেটাগুলি আপনাকে কোন ভবিষ্যদ্বাণী ব্যবহার করবে তা জানাতে অক্ষম।
ফ্রাঙ্ক হ্যারেল

উত্তর:


18

সমস্যাটি তখনই শুরু হয়েছিল যখন আপনি একটি হ্রাসমান মডেল চেয়েছিলেন এবং ভবিষ্যদ্বাণীকারীদের বাছাইয়ের জন্য বিষয় জ্ঞানের চেয়ে ডেটা ব্যবহার করেছিলেন। পরিবর্তনশীল নির্বাচনের জন্য দণ্ডিত করতে একযোগে সঙ্কলন ছাড়াই ধাপে ধাপে পরিবর্তনশীল নির্বাচনটি প্রায়শই ব্যবহৃত হলেও এটি একটি অবৈধ পন্থা। এ নিয়ে অনেক কিছু লেখা হয়েছে। 3-ভেরিয়েবল মডেলটি "সেরা" এবং পূর্বনির্ধারিত পূর্বাভাসীদের মূল তালিকাটি ব্যবহার না করার কোনও কারণ নেই বলে বিশ্বাস করার কোনও কারণ নেই। ভেরিয়েবলগুলি নির্বাচন করতে পি-মানগুলি ব্যবহারের পরে গণনা করা পি-মানগুলি বৈধ নয়। ক্রিয়ামূলক ইমেজিং সাহিত্যে একে "ডাবল ডিপিং" বলা হয়।

এখানে একটি সাদৃশ্য রয়েছে। ধরুন যে কেউ 6 টি চিকিত্সার তুলনা করতে আগ্রহী, তবে চিকিত্সাগুলি "পৃথক", তা চয়ন করার জন্য পেয়ারওয়াস টি-টেস্ট ব্যবহার করে, ফলস্বরূপ 4 টি চিকিত্সার সেট হ্রাস পেয়েছে। বিশ্লেষক তারপরে 3 ডিগ্রির স্বাধীনতার সাথে সামগ্রিক পার্থক্যের জন্য পরীক্ষা করেন। এই এফ পরীক্ষায় স্ফীতভাবে টাইপ আই ত্রুটি থাকবে। 5 ডিএফ সহ মূল এফ পরীক্ষাটি বেশ কার্যকর।

দেখুন http://www.stata.com/support/faqs/stat/stepwise.html এবং আরও তথ্যের জন্য।


1
আপনার উত্তর দেওয়ার জন্য ধন্যবাদ. আমি মূল প্রশ্নটি একটি সম্পাদনা যুক্ত করেছি। আমি আশা করি ঠিক আছে। পরবর্তী কোনও পরামর্শই সর্বাধিক স্বাগত জানাবে।
পি সেলাজ

6

একটি উত্তর হবে "বিষয় জ্ঞান ছাড়া এটি করা যাবে না"। দুর্ভাগ্যক্রমে, এটি সম্ভবত আপনার কার্যভারে এফ পেতে পারে। যদি না আমি তোমার প্রফেসর হতাম। তাহলে এটি একটি এ পেত

আর2

তারপর আছে

সমস্ত 5 ভবিষ্যদ্বাণী একটি সাধারণ বিতরণ থেকে স্বতন্ত্র সিমুলেশন দ্বারা উত্পাদিত হয়।

ঠিক আছে, আপনি যদি এটি জানেন তবে (যা আপনার প্রশিক্ষক আপনাকে বলেছিলেন) এবং যদি "স্বতন্ত্র" দ্বারা আপনি "ডিভির সাথে সম্পর্কিত না" বলে বোঝেন তবে আপনি জানেন যে সেরা মডেলটি কোনও ভবিষ্যদ্বাণীকারী ছাড়া একটি, এবং আপনার স্বজ্ঞাততা সঠিক।


হাই পিটার, এবং ধন্যবাদ। এন 900 হয়। ডেটা সব সিমুলেশন দ্বারা উত্পাদিত হয়েছিল। আমি এটি জানি কারণ আমাদের নিজেরাই সিমুলেটনগুলি করতে হয়েছিল। এই হোমওয়ার্কটি যতটা উদ্বিগ্ন তাদের যথার্থ ডেটা উপস্থাপন করার কথা । ১০০ টি সিমুলেশন পরিচালিত হয়েছিল, এবং প্রতিক্রিয়ার বৃহত্তম পারস্পরিক সম্পর্কযুক্ত ৫ টি (এছাড়াও সিমুলেটেড তবে শুধুমাত্র একবার) প্রার্থী রেজিস্ট্রার হিসাবে নির্বাচিত হয়েছিল।
পি সেলাজ

1
কেবলমাত্র নিশ্চিত হয়ে নিন যে আপনি কোনও এক্স এবং ওয়াইয়ের মধ্যে কোনও সংযোগ স্থাপন করবেন না। অন্যরা যেমন বলেছে একটি রিগ্রেশন মডেল অপ্রাসঙ্গিক এবং সামগ্রিক গড় যথেষ্ট sufficient
ফ্রাঙ্ক হ্যারেল

1
হ্যাঁ, তারা সম্পূর্ণ স্বাধীন। আমরা প্রার্থী রেজিস্ট্রার হিসাবে বৃহত্তম 5 সম্পর্কিত সম্পর্কিত তথ্য নির্বাচন করেছি, সেখান থেকে আমাদের "একটি উপযুক্ত মডেল তৈরি করতে হবে, ন্যায্যতা প্রদান করা" তবে আমাদের "সমস্ত 5 ভবিষ্যদ্বাণীকারীকে অবশ্যই অন্তর্ভুক্ত করতে হবে না"।
পি সেলাজ

মনে হচ্ছে আপনার অধ্যাপক হয় ক) সম্পূর্ণ বিভ্রান্ত বা খ) বেশ আকর্ষণীয় কিছু করছেন। যা বলা মুশকিল। যদি তিনি / ফ্রেঞ্চহরেল এবং আমি এবং অন্যরা নির্দেশ করে চলেছে যে সাজানোর জিনিসটি প্রদর্শন করার জন্য এটি উদ্দেশ্য করে, তবে ভাল! (এটি খ হবে)। ওটো, যদি সে এইটিকে "আসল" রিগ্রেশন হিসাবে চিহ্নিত করে তবে উহ-ওহ এটি একটি)।
পিটার ফ্লুম - মনিকা পুনরায়

1
কাগজপত্রগুলি চিহ্নিত করা হয় তখন আমি আপনাকে তা
জানাব

4

আপনি ক্রস বৈধতা চেষ্টা করতে পারেন। আপনার নমুনার একটি সাবসেট চয়ন করুন, এফ বা টি পরীক্ষার সাহায্যে সেই সাবসেটের জন্য "সেরা" মডেলটি সন্ধান করুন, তারপরে এটি পুরো ডেটা সেটটিতে প্রয়োগ করুন (পূর্ণ ক্রস বৈধকরণ এর চেয়ে জটিল হতে পারে তবে এটি একটি ভাল শুরু হবে) be এটি ধাপে ধাপে টেস্টিংয়ের কিছু সমস্যা কমাতে সহায়তা করে।

এই ধারণাটির সুন্দর সামান্য অনুকরণের জন্য ডেভিড ফ্রিডম্যানের স্ক্রিনিং রিগ্রেশন সমীকরণের একটি নোট দেখুন ।


2

caretপ্যাকেজে ব্যবহৃত পদ্ধতিটি আমি সত্যিই পছন্দ করি : পুনরাবৃত্ত বৈশিষ্ট্য নির্মূল। আপনি ভিনগেটে এটি সম্পর্কে আরও পড়তে পারেন তবে এখানে প্রাথমিক প্রক্রিয়াটি রয়েছে: পরিবর্তনশীল নির্বাচন

মৌলিক ধারণাটি হ'ল গুরুত্বহীন ভেরিয়েবলগুলি নির্মূল করার জন্য একটি মানদণ্ড (যেমন টি স্ট্যাটিস্টিকস) ব্যবহার করা এবং এটি কীভাবে মডেলের ভবিষ্যদ্বাণীপূর্ণ নির্ভুলতার উন্নতি করে তা দেখুন। ক্রস-বৈধকরণের মতো আপনি পুরোপুরি পুনরায় মডেলিং লুপে মোড়কে রাখেন। এখানে বর্ণিত একটি উদাহরণ যা আপনার বর্ণনার সাথে একইভাবে ভেরিয়েবলকে র‌্যাঙ্ক করতে একটি রৈখিক মডেল ব্যবহার করে:

#Setup
set.seed(1)
p1 <- rnorm(50)
p2 <- rnorm(50)
p3 <- rnorm(50)
p4 <- rnorm(50)
p5 <- rnorm(50)
y <- 4*rnorm(50)+p1+p2-p5

#Select Variables
require(caret)
X <- data.frame(p1,p2,p3,p4,p5)
RFE <- rfe(X,y, sizes = seq(1,5), rfeControl = rfeControl(
                    functions = lmFuncs,
                    method = "repeatedcv")
                )
RFE
plot(RFE)

#Fit linear model and compare
fmla <- as.formula(paste("y ~ ", paste(RFE$optVariables, collapse= "+")))
fullmodel <- lm(y~p1+p2+p3+p4+p5,data.frame(y,p1,p2,p3,p4,p5))
reducedmodel <- lm(fmla,data.frame(y,p1,p2,p3,p4,p5))
summary(fullmodel)
summary(reducedmodel)

এই উদাহরণে, অ্যালগরিদম সনাক্ত করে যে সেখানে 3 "গুরুত্বপূর্ণ" ভেরিয়েবল রয়েছে তবে এটি কেবল তাদের 2 টি পেয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.