কেন এআইসি ব্যবহার করে মডেল নির্বাচন প্রয়োগ করা আমাকে ভেরিয়েবলগুলির জন্য অ-উল্লেখযোগ্য পি-মান দেয়


14

আমার কাছে এআইসি সম্পর্কে কিছু প্রশ্ন রয়েছে এবং আশা করি আপনি আমাকে সহায়তা করতে পারেন। আমি আমার ডেটাতে এআইসির ভিত্তিতে মডেল নির্বাচন (পশ্চাৎপদ বা ফরোয়ার্ড) প্রয়োগ করেছি। এবং নির্বাচিত কিছু ভেরিয়েবলের একটি পি-মানগুলি> 0.05 দিয়ে শেষ হয়েছিল। আমি জানি যে লোকেরা বলছে যে আমাদের পি-ভ্যালুর পরিবর্তে এআইসির ভিত্তিতে মডেলগুলি নির্বাচন করা উচিত, সুতরাং দেখে মনে হয় যে এআইসি এবং পি-মান দুটি পার্থক্য ধারণা cep কেউ আমাকে বলতে পারল পার্থক্য কী? আমি এতক্ষণ যা বুঝতে পেরেছি তা হ'ল:

  1. AIC ব্যবহার করে পশ্চাদপদ নির্বাচনের জন্য ধরুন আমাদের কাছে 3 টি ভেরিয়েবল রয়েছে (var1, var2, var3) এবং এই মডেলের AIC হ'ল AIC *। এই তিনটি ভেরিয়েবলের যেকোন একটি বাদ দিয়ে যদি এআইসির সমাপ্তি ঘটে না যা এআইসি * এর চেয়ে উল্লেখযোগ্যভাবে কম (ডিএফ = 1 দিয়ে চ-বর্গ বিতরণের ক্ষেত্রে), তবে আমরা বলব এই তিনটি চলকই চূড়ান্ত ফলাফল।

  2. তিনটি ভেরিয়েবল মডেলের একটি ভেরিয়েবলের (যেমন ভার 1) এর জন্য একটি উল্লেখযোগ্য পি-মান বলতে বোঝায় যে সেই ভেরিয়েবলের স্ট্যান্ডার্ডাইজড এফেক্ট আকারটি 0 (ওয়াল্ড বা টি-টেস্ট অনুসারে) থেকে উল্লেখযোগ্যভাবে পৃথক।

এই দুটি পদ্ধতির মধ্যে মৌলিক পার্থক্য কী? আমার সেরা মডেলটিতে (এআইসির মাধ্যমে প্রাপ্ত) অ-উল্লেখযোগ্য পি-মান রয়েছে এমন কিছু ভেরিয়েবলগুলি কীভাবে ব্যাখ্যা করব?

উত্তর:


13

এআইসি এবং এর রূপগুলি প্রতিটি আর-রেসারের পি-মানগুলিতে পরিবর্তনের আরও কাছাকাছি । আরও স্পষ্টভাবে, তারা লগ-সম্ভাবনার সংস্করণযুক্ত সংস্করণ।R2

আপনি চি-স্কোয়ার্ড ব্যবহার করে এআইসির পার্থক্য পরীক্ষা করতে চান না। আপনি চি-স্কোয়ার্ড ব্যবহার করে লগ-সম্ভাবনার পার্থক্যগুলি পরীক্ষা করতে পারেন (যদি মডেলগুলি নিস্ট করা থাকে)। এআইসির জন্য, কম ভাল (এটি বেশিরভাগ বাস্তবায়নে, যাইহোক)। আর কোনও সামঞ্জস্যের প্রয়োজন নেই।

আপনি যদি সম্ভব পারেন তবে আপনি স্বয়ংক্রিয়ভাবে মডেল নির্বাচনের পদ্ধতিগুলি এড়াতে চান। আপনার যদি অবশ্যই এটি ব্যবহার করা হয় তবে লাসো বা লার চেষ্টা করুন।


2
উত্তরের জন্য ধন্যবাদ. হ্যাঁ তুমিই ঠিক. এআইসি কোনও পরীক্ষা প্রয়োগ করে না, পরিবর্তে, এটি মডেলটি কতটা ভাল নমুনার সাথে ফিট করে এবং 2 * সংখ্যা_ফ_প্যারামিটারের সাথে -2 * লগলিস্টিভেন্সি যুক্ত করে মডেলটিকেও সহজ রাখা যায় কিনা তার একটি সহজ পরিমাপ দেয়। সম্ভবত এটি ব্যাখ্যা করে যে কেন অ-উল্লেখযোগ্য পি-মানগুলির সাথে ভেরিয়েবলগুলি নির্বাচিত মডেলটিতে রাখা হয়েছিল?
tiantianchen

আমাদের কাছে প্রায় একই রকম এআইসি সহ দুটি মডেল থাকলে আমাদের কোন মডেলটি বেছে নেওয়া উচিত, তবে একটিতে আমাদের অন্যটির তুলনায় আরও উল্লেখযোগ্য পদ রয়েছে?
আগুস কামাচো


11

χ12

সুতরাং এটি খুব কমই অবাক হয় যদি আপনি এটি পি-ভ্যালুগুলির জন্য কিছু ছোট কাট অফ ব্যবহার করে তুলনা করেন যা মাঝে মাঝে এতে কাটফটের চেয়ে উচ্চতর পি-মানগুলির সাথে ভেরিয়েবল অন্তর্ভুক্ত করে।


ওয়াল চি-স্কোয়ারের মাধ্যমে আপনি কি আমাকে ইউআরএল বা এআইসি এবং পি-মানগুলির মধ্যে সংযোগের জন্য উল্লেখ করতে পারেন? ধন্যবাদ।
meh

2 টির মানটিকে সমালোচনামূলক মান হিসাবে ব্যবহার করে এটি তুলনামূলকভাবে সহজ, যা 15.73% এর পি-মান প্রান্তিকের সাথে সামঞ্জস্য করে (যখন পরীক্ষার স্বাধীনতার ডিগ্রি 1 হয়, যেমন লিনিয়ার রিগ্রেশন ব্যবহার করে স্টেপওয়াইজ সিলেকশনের ক্ষেত্রে যেমন হয় মডেল এবং অবিচ্ছিন্ন পরিবর্তনশীল)। এটি 1-chi2cdf (2,1) হিসাবে গণনা করা যেতে পারে।
জর্জ 16

সংযোগটি সোজা থাকলেও @aginensky একটি প্রকৃত রেফারেন্স দেখেনি। আমি কল্পনা করতে পারি আমি গুগল করতে পারি, স্থির থাকি।
Glen_b -মিনিকা

@aginensky লিন্ডসে, জে কে এবং জোনস, বি। (1998) চিকিত্সা তথ্যগুলিতে প্রয়োগ করা সাধারণ রৈখিক মডেলগুলির মধ্যে নির্বাচন করা। মেডিসিনে পরিসংখ্যান , 17, 59-68। ... পৃষ্ঠাগুলির মাঝখানে দেখুন 62. আরও কিছু হবে।
গ্লেন_বি -রিনস্টেট মনিকা

@ গ্লেন_বি- ধন্যবাদ, এর আগে আমি এর আগে আর কখনও দেখিনি।
মেহ

9

নোট করুন যে পি-মান বা এআইসি উভয়ই ধাপে ধাপে মডেল নির্বাচনের জন্য ডিজাইন করা হয়নি, প্রকৃতপক্ষে উভয় (তবে বিভিন্ন অনুমান) অন্তর্নিহিত অনুমানগুলি ধাপে ধাপে পদক্ষেপের প্রথম পদক্ষেপের পরে লঙ্ঘিত হয়। @ পিটারফ্লম যেমন উল্লেখ করেছেন, আপনি যদি স্বয়ংক্রিয় মডেল নির্বাচনের প্রয়োজনীয়তা অনুভব করেন তবে লাসো এবং / বা এলএআরই আরও ভাল বিকল্প। সেই পদ্ধতিগুলি যথাযথভাবে বৃহত্তর প্রাক্কলনগুলি টানায় (যা ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে পরিণত হয়) এবং তাই ধাপে ধাপের চেয়ে কম পক্ষপাতদুষ্ট বলে মনে হয় (এবং বাকি পক্ষপাতটি আরও রক্ষণশীল হতে থাকে)।

এআইসির সাথে একটি বড় সমস্যা যা প্রায়শই উপেক্ষা করা হয় তা হ'ল এআইসি মানগুলির মধ্যে পার্থক্যের আকার, "নিম্নতর ভাল" এবং সেখানে থামানো সাধারণভাবে দেখা যায় (এবং স্বয়ংক্রিয় প্রক্রিয়া কেবল এটির উপর জোর দেয়)। আপনি যদি 2 টি মডেলের তুলনা করছেন এবং এআইসির মানগুলি খুব আলাদা, তবে নীচের AIC সহ মডেলটির জন্য একটি স্পষ্ট অগ্রাধিকার রয়েছে তবে প্রায়শই আমাদের কাছে AIC মানগুলির সাথে 2 (বা আরও) মডেল থাকবে যা একে অপরের নিকটে থাকে এই ক্ষেত্রে কেবলমাত্র সর্বনিম্ন এআইসির মান সহ মডেলটি ব্যবহার করা মূল্যবান তথ্য মিস করবে (এবং এই মডেলটিতে থাকা বা না থাকা শর্তাদি সম্পর্কে অন্যান্য বিষয়গুলির মূল্যায়ন করা অর্থহীন বা আরও খারাপ হবে)। ডেটা নিজেই বাইরে থেকে তথ্য (যেমন ভবিষ্যদ্বাণীকারী ভেরিয়েবলগুলির সেট সংগ্রহ করা কতটা শক্ত / ব্যয়বহুল) কোনও গুণমানের খুব বেশি ক্ষতি ছাড়াই ব্যবহার করতে আরও কিছুটা আকাঙ্ক্ষিত একটি মডেল তৈরি করতে পারে slightly অন্য পদ্ধতির অনুরূপ মডেলের একটি ওজনযুক্ত গড় ব্যবহার করা (এটি সম্ভবত রিজ রিগ্রেশন বা লাসোর মতো দন্ডিত পদ্ধতিতে একই রকম চূড়ান্ত পূর্বাভাসের ফলস্বরূপ ঘটবে, তবে মডেলটির দিকে পরিচালিত চিন্তার প্রক্রিয়াটি বুঝতে সহায়তা করবে)।


আপনার উত্তরের জন্য @ গ্রেগসনোকে ধন্যবাদ। আমি জিজ্ঞাসা করতে পারি যে পি-মান এবং এআইসি ভিত্তিক মডেল নির্বাচনের জন্য (বিভিন্ন) অনুমানগুলি কী কী? দ্বি-দিকনির্দেশ (এগিয়ে / পিছিয়ে) প্রয়োগ করা বা একটি কম সাবটসেট কম বেশি চেষ্টা করে ফরোয়ার্ড বা পশ্চাৎ পদক্ষেপ নির্বাচনটি ব্যবহার করে সরল সরকারী মডেল সন্ধানের সমস্যার সমাধান করবে? (যদিও ওভারফিটিংয়ের সমস্যাটি সবসময় এআইসি / পি-মান পদ্ধতিতে বিদ্যমান থাকে এবং ল্যাসো এবং / বা এলএআর আরও ভাল বিকল্প)
tiantianchen

যেহেতু পি-ভ্যালু বা এআইসি দুটিই মডেল নির্বাচনের জন্য ডিজাইন করা হয়নি, তাই তাদের মডেল নির্বাচনের জন্য ধারনা নেই। উভয়ই একক তুলনা করার জন্য ডিজাইন করা হয়েছিল, এক ধাপে ধাপে রিগ্রেশনে কত তুলনা হয় তা চিন্তা করুন, আপনি কি সত্যই মনে করেন যে "সেরা" পদক্ষেপটি প্রতিবার নেওয়া হয়েছে?
গ্রেগ তুষার

@ গ্রেগসনো AIC শেখার জন্য আমার উল্লেখটি হ'ল - stat.cmu.edu/~larry/=stat705/Lecture16.pdf যা এআইসিকে মডেল বাছাইয়ের ব্যবসায় এনেছে বলে মনে হচ্ছে। এছাড়াও, যখন আমি টাইম সিরিজের আরিমা মডেলগুলিতে এআইসি ব্যবহার করে দেখেছি এটি সর্বদা মডেল নির্বাচনের জন্য ব্যবহৃত হত।
মেহ

@aginensky, হ্যাঁ, এআইসি (এবং অন্যান্য) মডেল নির্বাচনের জন্য ব্যবহৃত হয়। এটি এও প্রমাণ করে না যে মডেল নির্বাচনের জন্য এআইসি ডিজাইনেফ ছিলেন, বা এটি মডেল নির্বাচনের জন্য এমনকি উপযুক্ত বা স্বয়ংক্রিয় মডেল নির্বাচন একটি অর্থবহ প্রশ্নের উত্তর দেয়। আমি এর আগে হাতুড়ি হিসাবে স্ক্রু ড্রাইভার ব্যবহার করেছি, এর অর্থ এই নয় যে এটি সাধারণভাবে একটি ভাল ধারণা।
গ্রেগ স্নো

"এই গবেষণাপত্রে বর্ণিত হয়েছে যে কীভাবে পরিসংখ্যানগত মডেল নির্বাচনের সমস্যাটি পদ্ধতিগতভাবে পরিচালনা করা যেতে পারে ১৯ 1971১ সালে লেখক দ্বারা প্রবর্তিত তথ্য মানদণ্ড (এআইসি) ব্যবহার করে" আকাইকে থেকে, "পরিসংখ্যানের মডেল সনাক্তকরণের নতুন চেহারা"। সুতরাং এআইসি হ'ল একটি হাতুড়ি যে কোনও সমস্যার জন্য ব্যবহৃত হয় যা কোনও স্ক্রু ড্রাইভার দ্বারা সবচেয়ে ভাল সমাধান করা হয়, এটি এই হাতুড়ির ডিজাইনারের দৃষ্টিভঙ্গি ছিল যে একটি হাতুড়ি এই সমস্যাটি সমাধানের সঠিক উপায়। সঠিকভাবে বা ভুলভাবে, এআইসি মডেল নির্বাচনের জন্য ডিজাইন করা হয়েছিল। আমি এআইসির ভিন্ন দৃষ্টিভঙ্গি দেখে আনন্দিত হব। এই উত্তর দিতে নির্দ্বিধায়, কিন্তু আমি সম্পন্ন করেছি।
meh

1

এআইসির সাথে আমার অভিজ্ঞতা হ'ল যদি ভেরিয়েবলগুলি অ-তাৎপর্যপূর্ণ বলে মনে হয় তবে এখনও ছোট এআইসির সাথে মডেলটিতে উপস্থিত হয় তবে সেগুলি সম্ভব বিভ্রান্তিকর হতে পারে।

আমি আপনাকে বিভ্রান্ত করার জন্য পরীক্ষা করার পরামর্শ দিচ্ছি। এই জাতীয় অ-তাত্পর্যপূর্ণ ভেরিয়েবলগুলি অপসারণ করে কিছু অবশিষ্ট অনুমানের সহগের 25% এরও বেশি দ্বারা পরিবর্তন করতে পারে।


দয়া করে ব্যাখ্যা করুন যে কীভাবে "বিভ্রান্তির জন্য পরীক্ষা করতে পারে"।
জিম

0

আমি মনে করি MuMIn প্যাকেজ ব্যবহার করে সেরা মডেল নির্বাচন। এটি ফলস্বরূপ ফলাফল হবে এবং আপনাকে সর্বনিম্ন এআইসির মানগুলি খুঁজতে হবে না। উদাহরণ:

d<-read.csv("datasource")
library(MuMIn)
fit<-glm(y~x1+x2+x3+x4,family=poisson,data=d)
get.models(dredge(fit,rank="AIC"))[1]

2
আপনি কী কোডটি ব্যবহার করতে পারেন তা বলার বিষয়টি আসলেই প্রশ্নের উত্তর দিচ্ছে না যদি না আপনি ব্যাখ্যা করতে না পারেন যে কীভাবে প্রশ্নটি সংখ্যায়িকভাবে সমাধান করা হয়। যে কোনও ক্ষেত্রেই প্রশ্নটির কিছুই নির্দিষ্ট সফ্টওয়্যার সম্পর্কিত নয়।
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.