এআইসি এবং শোয়ার্জের মানদণ্ড বোঝা


13

আমি একটি লজিস্টিক মডেল চালাচ্ছি। প্রকৃত মডেল ডেটাসেটে 100 টিরও বেশি ভেরিয়েবল রয়েছে তবে আমি একটি পরীক্ষা ডেটা সেট বেছে নিচ্ছি যেখানে প্রায় 25 টি ভেরিয়েবল রয়েছে। এর আগে আমি একটি ডেটাসেটও তৈরি করেছিলাম যার মধ্যে 8-9 ভেরিয়েবল ছিল। আমাকে বলা হচ্ছে যে মডেলটির তুলনা করতে এআইসি এবং এসসি মান ব্যবহার করা যেতে পারে। আমি পর্যবেক্ষণ করেছি যে ভেরিয়েবলের কম পি মান (উদাঃ 0053) থাকলেও মডেলটির উচ্চতর এসসি মান ছিল। আমার অন্তর্দৃষ্টি অনুসারে এমন একটি মডেল যার ভেরিয়েবলগুলি ভাল তাত্পর্যপূর্ণ স্তর রয়েছে তার ফল কম হওয়া উচিত এসসি এবং এআইসি মান। তবে তা হচ্ছে না। কেউ দয়া করে এটি স্পষ্ট করতে পারেন। সংক্ষেপে আমি নিম্নলিখিত প্রশ্নগুলি জিজ্ঞাসা করতে চাই:

  1. ভেরিয়েবলের সংখ্যাটির এসসি এআইসির সাথে কি কোনও সম্পর্ক আছে?
  2. আমি পি মান বা কম এসি এআইসি মানগুলিতে মনোনিবেশ করা উচিত?
  3. এসসি এআইসির মান হ্রাস করার সাধারণ উপায়গুলি কী কী?

উত্তর:


15

আপনার প্রশ্নের যথাযথভাবে উত্তর দেওয়া বেশ কঠিন, তবে আমার কাছে মনে হচ্ছে আপনি দুটি মানদণ্ড (তথ্য মানদণ্ড এবং পি-মান) তুলনা করছেন যা একই তথ্য দেয় না। সমস্ত তথ্যের মানদণ্ডের জন্য (এআইসি, বা শোয়ার্জ মানদণ্ড), আপনার মডেলের ফিট যত কম সেগুলি (পরিসংখ্যানগত দিক থেকে) যতটা তারা ফিটের অভাব এবং মডেলের পরামিতিগুলির সংখ্যার মধ্যে বাণিজ্য-প্রতিফলনকে প্রতিফলিত করে ; উদাহরণস্বরূপ, আকাইকে মাপদণ্ড , যেখানে readsকে পি2log()+2kkপরামিতি সংখ্যা। তবে, এআইসির বিপরীতে, এসসি সামঞ্জস্যপূর্ণ: নমুনার আকার বাড়ার সাথে ভুলভাবে একটি বড় মডেল বেছে নেওয়ার সম্ভাবনা 0 তে রূপান্তরিত হয়। এগুলি মডেলগুলির সাথে তুলনা করার জন্য ব্যবহৃত হয়, তবে আপনি উল্লেখযোগ্য ভবিষ্যদ্বাণীকারীদের সাথে একটি মডেল ভালভাবে পর্যবেক্ষণ করতে পারেন যা দুর্বল ফিট (বৃহত্তর অবলম্বন বিচ্যুতি) সরবরাহ করে। আপনি যদি কম এআইসির সাথে আলাদা কোনও মডেল অর্জন করতে পারেন তবে এটি একটি দুর্বল মডেলের প্রস্তাবক। এবং, যদি আপনার নমুনার আকার বড় হয়, মানগুলি এখনও কম হতে পারে যা মডেল ফিট সম্পর্কে খুব বেশি তথ্য দেয় না। কমপক্ষে দেখুন, কেবলমাত্র একটি ইন্টারসেপ্টের সাথে মডেল এবং কোভারিয়েটগুলির সাথে মডেলটির তুলনা করার সময় এআইসি কোনও উল্লেখযোগ্য হ্রাস দেখায়। তবে, যদি আপনার আগ্রহ ভবিষ্যদ্বাণীকারীদের সেরা উপসেট সন্ধানের মধ্যে থাকে তবে আপনাকে অবশ্যই পরিবর্তনশীল নির্বাচনের পদ্ধতির দিকে নজর দিতে হবে।p

আমি তাকান সুপারিশ করবে শাস্তি রিগ্রেশন , যা পরিবর্তনশীল নির্বাচন সম্পাদন করতে সমস্যা overfitting এড়াতে পারেন। এটি ফ্র্যাঙ্ক হ্যারেলের রেগ্রেশন মডেলিং কৌশলগুলিতে (পৃষ্ঠা 207 ff।), বা মুনস এট আল আলোচনা করা হয়েছে, অতিশক্তির জন্য ডায়াগনস্টিক এবং প্রাগনস্টিক ভবিষ্যদ্বাণী মডেলগুলিকে সরাসরি সামঞ্জস্য করার সর্বাধিক সম্ভাবনা অনুমান: ক্লিনিকাল উদাহরণ , জে ক্লিন এপিড (2004) 57 ( 12)।

আরও দেখুন ডিজাইন ( lrm) এবং stepPlr ( step.plr) আর প্যাকেজ হিসাবে অথবা শাস্তি প্যাকেজ। আপনি এই এসইতে পরিবর্তনশীল নির্বাচনের সাথে সম্পর্কিত প্রশ্নগুলি ব্রাউজ করতে পারেন ।


হাই চিএল, ধন্যবাদ জবাবের জন্য..আমি স্বীকার করেছি যে আমি আপনার উত্তর থেকে কিছু তথ্য পেয়েছি .. আমাকে আমার বোঝার সুযোগ দিন এবং তারপরে আপনি দয়া করে মন্তব্য করতে পারেন। (1) আমি একটি ইঙ্গিত পেয়েছি যে পি নমুনাগুলি নীচে যেতে পারে যদি আপনার নমুনার আকার বড় হয় ...-- তা কি ?? আমার বোধগম্য পি মানগুলি কেবলমাত্র আপনার নাল হাইপোথিসিসকে প্রত্যাখ্যান করা হয়েছে তা কেবল তা দেখাতে পারে। (২) আমি এখন বুঝতে পেরেছি যে কেবলমাত্র বাধা দেওয়া এবং covariates সহ আমার এআইসি মানগুলিতে পার্থক্য দেখা উচিত। আমি মনে করি যখন আমরা বলি যে আমরা কম এআইসি চাই আমরা একই ডেটাসেটের জন্য বোঝাতে চাই। আমি আমার মন্তব্যে চরিত্রের চরিত্রটি পেয়ে যাচ্ছি তাই আপনারা একবার উত্তর দিন দয়া করে আবার মন্তব্য করবেন,
আয়ুষ বিয়ানি

1
@ আইয়ুশ (১) পরীক্ষার পরিসংখ্যান (যেমন ওয়াল্ড) নমুনার আকারের উপর নির্ভর করে (নমুনার আকার বাড়ার সাথে মানক ত্রুটি হ্রাস পায় এবং আপনি আরও বড় নমুনার সাথে কম পি-মান পেতে পারেন)। (২) হ্যাঁ, যদিও এআইসি অ-নেস্টেড মডেলগুলির তুলনা করতে ব্যবহার করা যেতে পারে, তবে আমি ক্রমবর্ধমান জটিলতার বিভিন্ন মডেলের তুলনা করার উপায় হিসাবে এটি ভাবছিলাম।
chl

ধন্যবাদ আবার..আমি পি মানটির সারমর্মটি পাই। কিছু 5 মিনিট পিছনে আমি একটি মডেল চালিয়েছিলাম যা আমাকে সমস্ত ভেরিয়েবলের জন্য .05 এর নীচে পি মান দিচ্ছে তবে 28238.407 এর এআইসি কেবলমাত্র বাধা এবং 21507.933 কোভারিয়েট সহ। আমার একটি কেসও রয়েছে যার মধ্যে এআইসি 16035.xy কেবলমাত্র বাধা সহ এবং covariates 4234.xy এর সাথে রয়েছে। দুটি ক্ষেত্রে তুলনা করে আপনার মতামত কী? দয়া করে মনে রাখবেন যে দ্বিতীয় মডেলটিতে 25 টি ভেরিয়েবলের 25 টি বিভিন্ন ভেরিয়েবল ছিল so সুতরাং দ্বিতীয়টি যদিও আরও ভেরিয়েবল ছিল (20 এর তুলনায় 25) কম এআইসি ছিল। যদিও p মান সকলের জন্য ছিল না। দয়া করে পরামর্শ দিন..এর পরে জিজ্ঞাসা করার জন্য..ধন্যবাদ।
আয়ুষ বিয়ানি

@ আয়ুষ কীভাবে ভেরিয়েবল নির্বাচন করা হয়েছিল তা না জেনে মডেল মানের সম্পর্কে উত্তর দেওয়া কঠিন। কেবলমাত্র একটি ইন্টারসেপ্ট এবং কিছু সংখ্যক কোভারিয়েট সহ একটি মডেলের মধ্যে এআইসির ব্যবধান আপনাকে সেই ভবিষ্যদ্বাণীকারীদের "ব্যাখ্যামূলক শক্তি" সম্পর্কে একটি ইঙ্গিত দেয় (আপনার দ্বিতীয় দেখানো মামলায় অবশিষ্ট বিশৃঙ্খলা আরও বড় পরিমাণে হ্রাস পেয়েছে বলে মনে হয় এবং এআইসির জন্য শাস্তি হয়েছে) আমি আমার প্রতিক্রিয়াতে যেমন বলেছি প্যারামিটার)। এটি কোনওভাবেই এই ভবিষ্যদ্বাণীকারীদের প্রাসঙ্গিকতা সম্পর্কে সম্পূর্ণ উত্তর নয়। আমি আপনাকে আরও নির্দিষ্ট প্রশ্ন (আইএমও) জিজ্ঞাসা করার পরামর্শ দেব, যেমন আপনার নির্দিষ্ট অধ্যয়নের জন্য জিএলএমগুলিতে পরিবর্তনশীল নির্বাচন সম্পর্কে able
chl

8

এসসি এবং এআইসি একসাথে গ্রুপিং করা ভুল । এগুলি খুব আলাদা জিনিস, যদিও লোকেরা তাদের ভারী ব্যবহার করে। আপনি যখন ভবিষ্যদ্বাণী করছেন তখন এআইসি অর্থবহ হয়, এই দৃশ্যে এসসি ব্যবহার করা ভুল ফলাফলের দিকে (সমস্ত সময় নয়) ডেকে আনতে পারে। একইভাবে, আপনি যদি পার্সিমনি (ওকামের রেজার) নীতিটি দিয়ে মডেল নির্বাচন করতে আগ্রহী হন তবে আরও ভাল। আমি তাত্ত্বিক বিবরণে যেতে চাই না, তবে সংক্ষেপে: এসসি - পার্সিমোনিয়াস মডেলগুলির পক্ষে ভাল যখন আপনি আপনার ডেটা ব্যাখ্যা করার জন্য সহজতম মডেলের সমতুল্য কিছু চান, এআইসি - আপনি যখন ভবিষ্যদ্বাণী করতে চান। এআইসিকে ধরে নেই যে আপনার সত্যিকারের মডেল যেখানে মডেল স্পেসে রয়েছে সেখানে এসসি রয়েছে।

দ্বিতীয়ত, পি-ভ্যালু এবং তথ্য মানদণ্ড একসাথে ব্যবহার করাও সিএলএর দ্বারা বর্ণিত হিসাবে বিভ্রান্তিমূলক হতে পারে ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.