এআইসির মানটির ব্যাখ্যা


9

আমি লজিস্টিক মডেলগুলির জন্য যে এআইসির আদর্শ মানগুলি দেখেছি তা হাজারে, কমপক্ষে শত শত। উদাহরণস্বরূপ http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ এ এআইসি 727.39

যদিও সর্বদা বলা হয়ে থাকে যে কেবলমাত্র মডেলগুলির তুলনা করতে এআইসি ব্যবহার করা উচিত, আমি বুঝতে চেয়েছিলাম একটি নির্দিষ্ট এআইসির মান কী বোঝায়। সূত্র অনুসারে, AIC=2log(L)+2K

যেখানে, এলএল অনুমানক থেকে এল = সর্বাধিক সম্ভাবনা, কে পরামিতিগুলির সংখ্যা

উপরের উদাহরণে কে = 8

সুতরাং, সহজ গাণিতিক সহ:

727.9 = -2*log(L)+ 2*8
Hence, 711.39 = -2*log(L)
Hence, log (L)= 711.39/-2 = -355.695
Hence, L = exp(-355.695) = 3.3391E-155

সুতরাং, যদি আমার বোধগম্যতা সঠিক হয় তবে এটি এমএলই ফিটিং করে ডেটা ফিটিংয়ের দ্বারা চিহ্নিত ফাংশনটির সম্ভাবনা। এটি সত্যই সত্যই কম বলে মনে হচ্ছে।

আমি এখানে কি মিস করছি?


যদি আমরা এটিকে হিসাবে দেখি
pmf(observed data;parameter estimates)
বিজেআরএন

দুঃখিত, কাট-অফ হয়ে গেছে, যদি আমরা এটি সেভাবে দেখি, তবে এটি পরামর্শ দেয় যে বড় সংখ্যক রেকর্ডের সাথে পর্যবেক্ষণ করা ডেটা সঠিকভাবে পাওয়া প্যারামিটারের অনুমানের পক্ষে এতটা সম্ভব ছিল না।
Björn

উত্তর:


9

কোনও মডেলের ক্ষেত্রে "সাধারণ" বা সঠিক সম্ভাবনা বলে কোনও জিনিস নেইএআইসির সাথে একই , এটি বেশ কয়েকটি পরামিতির জন্য দণ্ডিত নেতিবাচক লগ হওয়ার সম্ভাবনা। এআইসির নীচের মানটি "আরও ভাল" মডেলটির পরামর্শ দেয় তবে এটি মডেলের ফিটের তুলনামূলক পরিমাপ। এটি মডেল নির্বাচনের জন্য ব্যবহৃত হয়, অর্থাৎ এটি আপনাকে একই ডেটাসেটের উপর নির্ভর করে বিভিন্ন মডেলের তুলনা করতে দেয় ।

জিইপি বাক্সটি স্মরণ করুন যা বলেছিল যে "সমস্ত মডেল ভুল, তবে কিছু দরকারী", আপনি এমন কোনও মডেল সন্ধান করতে আগ্রহী নন যা আপনার ডেটাতে উপযুক্ত উপযুক্ত কারণ এটি অসম্ভব এবং অনেক ক্ষেত্রে এই জাতীয় মডেলটি খুব দরিদ্র, অতিরিক্ত মানানসই হতে পারে । পরিবর্তে, আপনি যে সবচেয়ে ভাল পেতে পারেন তার সন্ধান করছেন, সবচেয়ে দরকারী। এআইসির পিছনে সাধারণ ধারণাটি হ'ল কম সংখ্যক প্যারামিটার সহ মডেলটি আরও ভাল, ওকামের রেজার যুক্তির সাথে এককভাবে কী সামঞ্জস্যপূর্ণ , আমরা জটিলটির চেয়ে সাধারণ মডেলটিকেই পছন্দ করি।

আপনি নিম্নলিখিত কাগজপত্র চেক করতে পারেন:

অ্যান্ডারসন, ডি।, এবং বার্নহ্যাম, কে। (2006) এআইসির পৌরাণিক কাহিনী এবং ভুল ধারণা।

বার্নহ্যাম, কেপি, এবং অ্যান্ডারসন, ডিআর (2004)। মাল্টিমোডেল ইনফারেন্স মডেল নির্বাচনে এআইসি এবং বিআইসি বোঝা। সমাজতাত্ত্বিক পদ্ধতি ও গবেষণা, 33 (2), 261-304।

এবং এই থ্রেড:

"সম্ভাবনা" এবং "সম্ভাবনা" এর মধ্যে পার্থক্য কী?

অপরটির চেয়ে এআইসি বা বিআইসিকে পছন্দ করার কোনও কারণ আছে কি?



3

এআইসি অত্যন্ত জেনারেলাইজড ("সিউডো") । আমি সম্ভাব্যতা অনুপাত স্কেলে এআইসিকে বলতে চাই, যদিও এটি traditionalতিহ্যবাহী নয়, অর্থাত্ এআইসি = ated ডিএফ জেনারেলাইজড পদক্ষেপগুলির মধ্যে । যদিও আমরা এখনও ঠিক জানি না যে মডেলটিকে অত্যন্ত বৈষম্য বলে বিবেচনা করার জন্য কতটা বড় হতে হবে, কমপক্ষে ইউনিটবিহীন।R2χ2χ22×R21exp(χ2/n)R2R2


3

এটি সত্যই সত্যই কম বলে মনে হচ্ছে। আমি এখানে কি মিস করছি?

লগ-সম্ভাবনার ব্যবহারের সাথে জড়িত এআইসির মতো পরিমাণগুলি কেবল এই জাতীয় অন্যান্য পরিমাণের তুলনায় অর্থবোধক । মনে রাখবেন সম্ভাবনা ফাংশনটি কেবলমাত্র একটি স্কেলিং ধ্রুবক পর্যন্ত সংজ্ঞায়িত করা হয়, তাই এটি ইচ্ছামতো উপরে বা নীচে স্কেল করা যায়। ফলস্বরূপ, লগ-সম্ভাবনা কেবলমাত্র একটি অবস্থান ধ্রুবক পর্যন্ত সংজ্ঞায়িত করা হয় এবং এটি ইচ্ছামত বা নীচে স্থানান্তরিত হতে পারে। এটি এআইসির পক্ষেও রয়েছে, যেহেতু এই পরিমাণটি কেবল লগ-সম্ভাবনা, পরামিতিগুলির সংখ্যার উপর একটি জরিমানা দ্বারা স্থানান্তরিত। এই কারণেই বলা হয় যে কেবলমাত্র মডেলদের তুলনা করতে এআইসি ব্যবহার করা উচিত।

কম্পিউটারের রুটিনগুলিতে সম্ভাবনা ফাংশনটি সাধারণত অযৌক্তিক ধ্রুবকগুলি অপসারণ না করে সরাসরি নমুনা ঘনত্ব থেকে সংজ্ঞায়িত করা হয়, সুতরাং এই ক্ষেত্রে স্কেলিংয়ের সমস্যাটি কোনও কারণ হতে পারে না। ইন আর ব্লগাররা পোস্ট আপনি লিঙ্ক, সেখানে ছিল ডেটা লজিস্টিক রিগ্রেশন ব্যবহৃত বিন্দু। আপনার দেওয়া নম্বরগুলি থেকে লগ-সম্ভাবনা হ'ল:n=800

^=(727.92×8)/(2)=355.95.

সুতরাং, ডেটা পয়েন্টের জন্য গড় লগ-সম্ভাবনা হ'ল , যা একক ডেটা পয়েন্টের জন্য সম্ভাবনা মানের সাথে যায়। এটি বিশেষত কম নয় এবং কোনও অ্যালার্মের কারণ হওয়া উচিত নয়।^/n=0.44493750.6408643


0

আপনি সঠিকভাবে উল্লেখ করেছেন যে আপনি যদি আর-এর দ্বারা রিপোর্টিত এআইসি ব্যবহার করে সম্ভাবনাটি আবার-গণনা করেন তবে আপনি হাস্যকরভাবে কম সম্ভাবনা পাবেন। কারণটি হ'ল আর এর দ্বারা প্রতিবেদন করা এআইসির মান (একে এআইক্রিপ বলুন) সত্যিকারের এআইসি (এআইসিক্রিউ) নয়। AICrep এবং AICtrue একটি ধ্রুবক দ্বারা পৃথক হয় যা পরিমাপ করা ডেটার উপর নির্ভর করে তবে যা নির্বাচিত মডেলটির থেকে পৃথক। সুতরাং AICrep থেকে ব্যাক-গণনা করার সম্ভাবনাটি ভুল হবে। এটা পার্থক্য যে শ্রেষ্ঠ মডেল নির্বাচন উপযোগী AICs যখন বিভিন্ন মডেলের একই তথ্য মাপসই ব্যবহার করা হয় মধ্যে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.