একাধিক লিনিয়ার রিগ্রেশন মডেল অন্তর্ভুক্ত করতে ভেরিয়েবল নির্বাচন করা


35

আমি বর্তমানে একাধিক লিনিয়ার রিগ্রেশন ব্যবহার করে একটি মডেল তৈরির জন্য কাজ করছি। আমার মডেলটির সাথে ঘুরপাক খাওয়ার পরে, আমি নিশ্চিত না যে কীভাবে পরিবর্তনশীল রাখতে হবে এবং কোনটি অপসারণ করতে হবে তা সেরাভাবে নির্ধারণ করব।

আমার মডেলটি ডিভির জন্য 10 ভবিষ্যদ্বাণী নিয়ে শুরু হয়েছিল। সমস্ত 10 ভবিষ্যদ্বাণী ব্যবহার করার সময়, চারটি উল্লেখযোগ্য হিসাবে বিবেচিত হত। যদি আমি কেবল কিছু স্পষ্টত-ভুল-ভবিষ্যদ্বাণীকে অপসারণ করি তবে আমার কিছু ভবিষ্যদ্বাণী যা প্রাথমিকভাবে উল্লেখযোগ্য ছিল না তা উল্লেখযোগ্য হয়ে ওঠে। যা আমাকে আমার প্রশ্নের দিকে নিয়ে যায়: কোন ভবিষ্যদ্বাণীকারীদের তাদের মডেলটিতে অন্তর্ভুক্ত করবেন তা নির্ধারণের ক্ষেত্রে কীভাবে যায়? আমার কাছে মনে হয়েছিল আপনার একবারে সমস্ত ভবিষ্যদ্বাণীকারীদের সাথে মডেলটি চালানো উচিত, তাত্পর্যপূর্ণ নয় এমনগুলি মুছে ফেলুন এবং তারপরে পুনরায় কাজ করুন। তবে যদি কেবলমাত্র সেই ভবিষ্যদ্বাণীকারীদের মধ্যে কিছুকে অপসারণ করা অন্যকে তাৎপর্যপূর্ণ করে তোলে তবে আমি এই ভেবে ভেবে অবাক হয়ে যাচ্ছি যে আমি এই সমস্ত ক্ষেত্রে ভুল পদ্ধতি অবলম্বন করছি।

আমি বিশ্বাস করি যে এই থ্রেডটি আমার প্রশ্নের অনুরূপ, তবে আমি নিশ্চিত নই যে আমি আলোচনাকে সঠিকভাবে ব্যাখ্যা করছি। সম্ভবত এটি একটি পরীক্ষামূলক ডিজাইনের বিষয়, তবে কারও কারও কাছে তারা ভাগ করে নিতে পারেন এমন কিছু অভিজ্ঞতা রয়েছে।


এর উত্তরটি আপনার লক্ষ্য এবং প্রয়োজনীয়তার উপর নির্ভর করে: আপনি কি সহজ সমিতি খুঁজছেন, বা আপনি ভবিষ্যদ্বাণীটির লক্ষ্যে রয়েছেন; আপনি ব্যাখ্যার উপর কতটা উচ্চ; প্রক্রিয়াটিকে প্রভাবিত করতে পারে এমন অন্যান্য প্রকাশনা থেকে আপনার ভেরিয়েবলের কোনও তথ্য আছে কি না; ভেরিয়েবলের ইন্টারঅ্যাকশন বা ট্রান্সফর্মড ভার্সন সম্পর্কে কীভাবে: আপনি সেগুলি অন্তর্ভুক্ত করতে পারেন; ইত্যাদি। একটি ভাল উত্তর পেতে আপনি যা করার চেষ্টা করছেন সে সম্পর্কে আপনাকে আরও বিশদ নির্দিষ্ট করতে হবে।
নিক সাব্বে

আপনি যা চেয়েছিলেন তার উপর ভিত্তি করে, এটি পূর্বাভাসের জন্য। অন্যান্য ভেরিয়েবলের উপর প্রভাব কেবল সম্ভাব্য সমিতি সরবরাহ করে। তাদের মধ্যে কোনও মিথস্ক্রিয়া নেই। শুধুমাত্র একটি মান রূপান্তরিত করা দরকার, এবং এটি সম্পন্ন হয়েছে।
cryptic_star

1
এমন কোন তত্ত্ব আছে যা বলে যে কোন ভবিষ্যদ্বাণীকারীদের আপনার অন্তর্ভুক্ত করা উচিত? আপনি যদি পরিমাপ করেছেন এমন প্রচুর ভেরিয়েবল এবং কোনও তত্ত্ব নেই তবে আমি পর্যবেক্ষণের একটি সেট রাখার পরামর্শ দেব যাতে আপনি এটি তৈরি করতে ব্যবহৃত হয়নি এমন ডেটাতে আপনার মডেলটি পরীক্ষা করতে পারেন। একই ডেটাতে কোনও মডেল পরীক্ষা ও বৈধ করা সঠিক নয়।
মিশেল

ক্রস বৈধকরণ (নিক সাবে আলোচনা হিসাবে), দণ্ডিত পদ্ধতি (ডিকরান মার্সুপিয়াল), বা পূর্ব তত্ত্বের ভিত্তিতে পরিবর্তনশীল নির্বাচন করা (মিশেল) সমস্ত বিকল্প। তবে নোট করুন যে চলক নির্বাচন অভ্যন্তরীণভাবে একটি খুব কঠিন কাজ। এটি এতটা সম্ভাব্য কারণ কেন তা বুঝতে, আমার উত্তরটি এখানে পড়তে সহায়তা করতে পারে: স্বয়ংক্রিয়-মডেল-নির্বাচনের জন্য অ্যালগরিদম । শেষ অবধি, সমস্যাটি ডব্লিউ / এই ক্রিয়াকলাপের যৌক্তিক কাঠামো, এটি স্বীকৃতি দেওয়ার মতো নয় যে কম্পিউটারটি এটি স্বয়ংক্রিয়ভাবে আপনার জন্য করে বা আপনি নিজে নিজে এটি করেন do
গুং - মনিকা পুনরায়

এই পোস্টের উত্তরগুলিও দেখুন: stats.stackexchange.com/questions/34769/…
জোকেল

উত্তর:


19

আমার মন্তব্যে আপনার প্রতিক্রিয়ার ভিত্তিতে:

আপনি ভবিষ্যদ্বাণী খুঁজছেন। সুতরাং, আপনার সহগের তাত্পর্যগুলি ()) এর সত্যিকারের উপর নির্ভর করা উচিত নয়। আপনি ভাল হবে

  • আপনার ভবিষ্যদ্বাণী সবচেয়ে ভাল প্রয়োজন বর্ণনা করে এমন একটি মানদণ্ড বাছুন (উদাঃ মিসক্লাসিফিকেশন রেট, আরওসি এর এউসি, ওজন সহ এর কিছু ফর্ম, ...)
  • জন্য সুদ প্রতিটি মডেল , এই নির্ণায়ক নির্ণয় করা। এটি করা যেতে পারে যেমন ক্রসওয়েডিয়েশন (সাধারণত দশগুণ) এর মাধ্যমে একটি বৈধতা সেট সরবরাহ করে (যদি আপনি ভাগ্যবান বা ধনী হন), বা আপনার আগ্রহের মানদণ্ড মঞ্জুরি দেয় এমন অন্য যে কোনও বিকল্প দেয়। যদি সম্ভব হয় তবে প্রতিটি মডেলের মানদণ্ডের এসইয়ের একটি অনুমানও খুঁজে বার করুন (যেমন ক্রসওয়েডিয়েটেজে বিভিন্ন ভাঁজের উপরের মানগুলি ব্যবহার করে)
  • এখন আপনি মানদণ্ডের সেরা মান সহ মডেলটি বাছাই করতে পারেন, যদিও এটি সাধারণত সবচেয়ে মূল্যবান মডেল (নূন্যতম ভেরিয়েবল) বেছে নেওয়ার পরামর্শ দেওয়া হয় যা সেরা মানের এক SE এর মধ্যে থাকে।

প্রতিটি মডেলের আগ্রহের লেখাগুলি : এতে বেশ ধরা পড়ে। 10 সম্ভাব্য ভবিষ্যদ্বাণী সহ, এটি সম্ভাব্য মডেলের একটি ট্রাক বোঝা। যদি আপনি এর জন্য সময় বা প্রসেসর পেয়ে থাকেন (বা যদি আপনার ডেটা যথেষ্ট ছোট হয় যাতে মডেলগুলি দ্রুত পর্যাপ্ত ফিট হয়ে যায় এবং দ্রুত মূল্যায়িত হয়): একটি বল আছে। যদি তা না হয় তবে আপনি শিক্ষিত অনুমান, ফরোয়ার্ড বা পশ্চাদপদ মডেলিং (তবে তাৎপর্যের পরিবর্তে মানদণ্ডটি ব্যবহার করে) বা আরও ভাল: এই জাতীয় কিছু অ্যালগরিদম ব্যবহার করুন যা মডেলগুলির একটি যুক্তিসঙ্গত সেট বেছে নেয়। একটি অ্যালগরিদম যা এটি করে তা হল শাস্তিযুক্ত দমন, বিশেষত লাসোর রিগ্রেশন। আপনি যদি আর ব্যবহার করে থাকেন তবে কেবল প্যাকেজ গ্ল্যামনেট প্লাগ করুন এবং আপনি যেতে প্রস্তুত।


+1, তবে আপনি কেন ব্যাখ্যা করতে পারবেন যে কেন আপনি "সবচেয়ে মূল্যবান মডেল (সর্বনিম্ন ভেরিয়েবল) বেছে নেবেন যে সর্বোত্তম মানের এক এসই মধ্যে?"
রোল্যান্ডো 2

পার্সিমনি হ'ল বেশিরভাগ পরিস্থিতিতে, একটি পছন্দসই সম্পত্তি: এটি ব্যাখ্যার উচ্চতা বাড়িয়ে তোলে এবং মডেলটি ব্যবহারের জন্য আপনাকে কোনও নতুন বিষয়ের জন্য প্রয়োজনীয় পরিমাপের পরিমাণ হ্রাস করে। গল্পের অন্য দিকটি হ'ল আপনার মাপদণ্ডের জন্য আপনি যা পান সেটি এসইয়ের সাথে একটি অনুমান মাত্র: আমি বেশ কয়েকটি প্লট দেখেছি কিছু টিউনিং প্যারামিটারের বিরুদ্ধে মানদণ্ডের অনুমান দেখায় যেখানে 'সেরা' মানটি কেবল ব্যতিক্রমী ছিল শিখর. যেমন, 1 এসই-রুল (যা স্বেচ্ছাসেবী, তবে একটি স্বীকৃত অনুশীলন) আপনাকে আরও পার্সিমনি সরবরাহের অতিরিক্ত মূল্য দিয়ে এ থেকে রক্ষা করে।
নিক সাবে

13

এর কোনও সহজ উত্তর নেই। আপনি যখন কিছু অ-তাৎপর্যপূর্ণ ব্যাখ্যামূলক ভেরিয়েবলগুলি সরিয়ে ফেলেন, অন্যদের সাথে যা সম্পর্কিত হয় তা উল্লেখযোগ্য হয়ে উঠতে পারে। এতে কোনও ভুল নেই, তবে এটি বিজ্ঞানের চেয়ে মডেল নির্বাচন কমপক্ষে আংশিক শিল্প তৈরি করে। এই কারণেই পরীক্ষাগুলি এই সমস্যাটি এড়াতে ব্যাখ্যামূলক ভেরিয়েবলগুলি প্রত্যেকের কাছে অর্থকোনাল রাখার লক্ষ্য করে।

Ditionতিহ্যগতভাবে বিশ্লেষকরা একবারে মডেলটির সাথে একবারে ভেরিয়েবলগুলি সংযোজন এবং বিয়োগ করতেন (আপনি যা করেছেন তার সমান) এবং স্বতন্ত্রভাবে বা ছোট গ্রুপে টি বা এফ পরীক্ষার মাধ্যমে তাদের পরীক্ষা করে। এটির সাথে সমস্যাটি হ'ল আপনি বিয়োগ করতে (বা যুক্ত) করতে ভেরিয়েবলের কিছু সংমিশ্রণ মিস করতে পারেন যেখানে তাদের সম্মিলিত প্রভাব (বা অ-প্রভাব) কোলাইনারিটির দ্বারা লুকিয়ে রয়েছে।

আধুনিক কম্পিউটিং পাওয়ার সাথে ব্যাখ্যামূলক ভেরিয়েবলের সমস্ত 2 ^ 10 = 1024 সম্ভাব্য সংমিশ্রণগুলি মাপসই করা সম্ভব এবং সম্ভাব্য মানদণ্ডগুলির মধ্যে একটি হিসাবে সেরা মডেল বাছাই করা সম্ভব যেমন এআইসি, বিআইসি, বা ভবিষ্যদ্বাণীমূলক শক্তি (উদাহরণস্বরূপ, মানগুলি পূর্বাভাস দেওয়ার ক্ষমতা) আপনি আপনার মডেল ফিট করার জন্য যে সেটটি পৃথক করেছেন সেটি ডেটার একটি পরীক্ষার উপসেট)। তবে, যদি আপনি 1024 মডেলগুলির পরীক্ষা করতে চলেছেন (স্পষ্টভাবে বা স্পষ্টভাবে) আপনার ক্লাসিকাল পদ্ধতির থেকে আপনার পি-মানগুলি পুনর্বিবেচনা করতে হবে - সতর্কতার সাথে আচরণ করুন ...


উভয় পক্ষের প্লাস এবং বিয়োগের মাধ্যমে উচ্চ স্তরের হাঁটার জন্য ধন্যবাদ। এটি আমার সন্দেহের বিষয়টি অনেকটাই নিশ্চিত করেছে।
cryptic_star

11

যদি আপনি কেবল ভবিষ্যদ্বাণীমূলক পারফরম্যান্সে আগ্রহী হন, তবে প্রশিক্ষণের নমুনার অতিরিক্ত-ফিট করা এড়াতে সম্ভবত সমস্ত বৈশিষ্ট্য ব্যবহার করা এবং রিজ-রিগ্রেশন ব্যবহার করা ভাল। এটি "রিগ্রেশন সাবসেট সিলেকশন" সম্পর্কিত মিলার মনোগ্রাফের পরিশিষ্টে মূলত প্রদত্ত পরামর্শ , সুতরাং এটি যুক্তিসঙ্গত বংশের সাথে আসে!

এর কারণ হ'ল আপনি যদি ডেটাটির নির্দিষ্ট নমুনার (যেমন এআইসি, বিআইসিসি, ক্রস-বৈধকরণ ইত্যাদি) উপর ভিত্তি করে পারফরম্যান্সের প্রাক্কলনের উপর ভিত্তি করে কোনও উপসেট চয়ন করেন তবে নির্বাচনের মানদণ্ডের সীমাবদ্ধ বৈকল্পিকতা থাকবে এবং তাই এটি সম্ভব বাছাইয়ের মাপদণ্ড নিজেই ফিট করে fit অন্য কথায়, আপনি নির্বাচনের মানদণ্ডকে হ্রাস করার সাথে সাথে সাধারণকরণের কর্মক্ষমতা উন্নত হবে, তবে এমন একটি পয়েন্ট আসবে যেখানে আপনি নির্বাচনের মানদণ্ডকে যত কম করবেন, তত খারাপতর সাধারণীকরণ হয়। আপনি যদি দুর্ভাগ্য হন তবে আপনি সহজেই একটি রিগ্রেশন মডেল দিয়ে শেষ করতে পারেন যা আপনি শুরু করেছেন তার চেয়ে খারাপ সম্পাদন করে (অর্থাত্ সমস্ত বৈশিষ্ট্যের একটি মডেল)।

এটি বিশেষত যখন ডেটাসেটটি ছোট থাকে (সুতরাং নির্বাচনের মানদণ্ডের উচ্চতর বৈকল্পিকতা থাকে) এবং যখন মডেলের সম্ভাব্য পছন্দগুলি থাকে (যেমন বৈশিষ্ট্যগুলির সংমিশ্রণ পছন্দ করে) likely নিয়মিতকরণ ওভার-ফিটিংগুলির পক্ষে কম প্রবণ বলে মনে হচ্ছে কারণ এটি একটি স্কেলার পরামিতি যা সুর করা দরকার এবং এটি মডেলের জটিলতার আরও সীমাবদ্ধ দৃষ্টিভঙ্গি দেয়, অর্থাত্ স্বাধীনতার কম কার্যকর ডিগ্রি যা নির্বাচনের মানদণ্ডকে অতিরিক্ত মানিয়ে যায় to ।


0

লিপস লাইব্রেরি ব্যবহার করুন। আপনি যখন ভেরিয়েবলগুলি প্লট করেন তখন y-axis R ^ 2 অ্যাডজাস্ট করা দেখায়। সর্বাধিক আর R 2 এ বাক্সগুলি কালো যেখানে আপনি দেখুন। এটি আপনার একাধিক লিনিয়ার রিগ্রেশন জন্য আপনার ব্যবহার করা চলকগুলি প্রদর্শন করবে।

নীচে ওয়াইন উদাহরণ:

library(leaps)
regsubsets.out <-
  regsubsets(Price ~ Year + WinterRain + AGST + HarvestRain + Age + FrancePop,
         data = wine,
         nbest = 1,       # 1 best model for each number of predictors
         nvmax = NULL,    # NULL for no limit on number of variables
         force.in = NULL, force.out = NULL,
         method = "exhaustive")
regsubsets.out

#----When you plot wherever R^2 is the highest with black boxes,
#so in our case AGST + HarvestRain + WinterRain + Age and the dependent var.is Price----#
summary.out <- summary(regsubsets.out)
as.data.frame(summary.out$outmat)
plot(regsubsets.out, scale = "adjr2", main = "Adjusted R^2")

এটি তথাকথিত 'সেরা উপগ্রহ' নির্বাচন থেকে খুব আলাদা বলে মনে হচ্ছে না, যা সমস্যাগুলি জানে।
গুং - মনিকা পুনরায়

leaps স্পষ্টতই 'সেরা উপগ্রহগুলি' গণনা করে, যদিও এটি আপনাকে বিভিন্ন আকারের সাবসেটগুলির মধ্যে কীভাবে নির্বাচন করবেন তা পরামর্শ দেয় না। (এটি আপনার এবং আপনার পরিসংখ্যানের
পাদ্রিদের

যথেষ্ট মজার বিষয়, leaps"অ্যালান মিলার দ্বারা রচিত ফোরট্রান code77 কোডের উপর ভিত্তি করে [...] যা তাঁর বই 'রিগ্রেশন-এর সাবসেট সিলেকশন' বইয়ে আরও বিস্তারিতভাবে বর্ণনা করা হয়েছে", যা এই প্রশ্নের অন্য উত্তরে ডিকরান উল্লেখ করেছেন :-)
jorijnsmit

0

আপনি আকাইকে তথ্য মাপদণ্ডে পদক্ষেপটি ব্যবহার করতে পারেন। নীচে উদাহরণ। https://en.wikipedia.org/wiki/Akaike_information_criterion

StepModel = step(ClimateChangeModel)

ধাপে ধাপে নির্বাচন পদ্ধতিতে প্রচুর সুপরিচিত সমস্যা রয়েছে। এটি একটি ভাল পরামর্শ নয়।
গুং - মনিকা পুনরায়

@ গাংয়ের সাথে একমত হওয়ার বিষয়ে কিছু সমস্যা stats.stackexchange.com/questions/69452/…
এসআইস্লাম

-2

কেন পরস্পরের সম্পর্ক বিশ্লেষণ না করে প্রথমে ডিগ্রির সাথে মূল সংশ্লেষকেই অন্তর্ভুক্ত করুন?


2
এটি সাধারণত কোন ভেরিয়েবলগুলি নির্বাচন করা বাছাই করার একটি দুর্বল উপায়, দেখুন উদাহরণস্বরূপ, রিগ্রেশনটির জন্য ভবিষ্যদ্বাণীকারী নির্বাচন করতে পারস্পরিক সম্পর্ক ম্যাট্রিক্স ব্যবহার করা কি সঠিক? একটি পারস্পরিক সম্পর্ক বিশ্লেষণ একাধিক রিগ্রেশন থেকে একেবারে পৃথক, কারণ পরবর্তী ক্ষেত্রে "পার্টিলিওলিং আউট" (রিগ্রেশন opালুগুলি অন্য ভেরিয়েবলগুলি বিবেচনায় নেওয়া হলে সম্পর্কটি দেখায়) সম্পর্কে চিন্তা করা দরকার , তবে একটি সম্পর্কযুক্ত ম্যাট্রিক্স এটি দেখায় না।
সিলভারফিশ


1
@ জেনারালআব্রিয়াল এটি আমাকে আঘাত করে যে এটি একটি প্রশ্নের উত্তর, যদিও একটি সংক্ষিপ্ত উত্তর দিন। এটি সমস্যার কোনও ভাল সমাধান নয়, তবে এটি আপ / ডাউনভোটগুলিই। (আমি মনে করি "কেন নয়" লেখকের কাছ থেকে স্পষ্টতার জন্য অনুরোধের চেয়ে বাজে প্রশ্ন হিসাবে অভিহিত হয়েছে।)
সিলভারফিশ

-4

আমার উপদেষ্টা এই সম্পর্কে আরও একটি সম্ভাব্য উপায় অফার। আপনার সমস্ত ভেরিয়েবল একবার চালান, এবং তারপরে যা কিছু থ্রেশহোল্ড পূরণ করতে ব্যর্থ হয় তাদের মুছে ফেলুন (আমরা আমাদের প্রান্তিকিকে পি <.25 হিসাবে সেট করি)। সমস্ত ভেরিয়েবলগুলি .25 মানের নীচে না আসা পর্যন্ত সেভাবে পুনরাবৃত্তি চালিয়ে যান, তারপরে সেই মানগুলি উল্লেখ করুন যা উল্লেখযোগ্য।


1
হাই অ্যালি, @ পেটার এলিস তার উত্তরের দ্বিতীয় অনুচ্ছেদে এটি উল্লেখ করেছেন। তাঁর দ্বিতীয় বাক্যে এই কৌশলটি যে সমস্যাটি প্রবর্তন করে তা coversেকে দেয়। আপনার কি কোনও তত্ত্ব আছে, যা আপনাকে বলছে যে কোন মডেলকে ভবিষ্যদ্বাণী করা উচিত?
মিশেল

হ্যাঁ, @ মিশেল এই পদ্ধতির দায়বদ্ধতার বিষয়টি আন্ডারস্কোর করা ঠিক। এটি খুব স্বেচ্ছাসেবী ফলাফল উত্পাদন করতে পারে।
রোল্যান্ডো 2

হ্যাঁ, এর পিছনে একটি তত্ত্ব রয়েছে, যা আমরা প্রসারিত হওয়ার আশা করছি। বিশেষত, আমরা কীভাবে নির্দিষ্ট সামাজিক সংকেতগুলি (যেমন বক্তৃতা) ইন্টারঅ্যাক্ট করে তা দেখছি। আমরা সচেতন যে কোনটি ইতিমধ্যে ক্লাউট করে না। তবে আমরা সূক্ষ্ম-বর্ণযুক্ত সংস্করণ সরবরাহ করার চেষ্টা করছি to সুতরাং, বক্তব্যকে প্রশ্ন, মতামত, মূল্যায়ন ইত্যাদিতে
ভাগ

2
ঠিক আছে, সুতরাং আপনি অনুসন্ধান বিশ্লেষণ করছেন। :) আপনি বিভিন্ন সমন্বয় চেষ্টা করতে পারেন, তবে আপনাকে নতুন ডেটা দিয়ে শেষ হওয়া মডেলটি পরীক্ষা করতে হবে to সংজ্ঞা অনুসারে, আপনি যা করছেন তা দিয়ে আপনার কাছে আপনার ডেটার জন্য "সেরা" মডেল থাকবে তবে আপনি যদি অন্য সেট ডেটা সংগ্রহ করেন তবে এটি কাজ করতে পারে না।
মিশেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.