পরিবর্তনশীল নির্বাচনের জন্য বিরোধী পদ্ধতি: এআইসি, পি-মান বা উভয়ই?


13

আমি যা বুঝি সেগুলি থেকে, পি-মানগুলির উপর ভিত্তি করে পরিবর্তনশীল নির্বাচন (কমপক্ষে রিগ্রেশন প্রসঙ্গে) অত্যন্ত ত্রুটিযুক্ত। এটি এআইসির উপর ভিত্তি করে পরিবর্তনশীল নির্বাচন (বা অনুরূপ) হিসাবে একই কারণেও ত্রুটিযুক্ত হিসাবে বিবেচিত হয়, যদিও এটি কিছুটা অস্পষ্ট বলে মনে হয় (যেমন আমার প্রশ্ন এবং এই বিষয়ে এখানে কিছু লিঙ্কগুলি দেখুন: "পদক্ষেপের মডেল নির্বাচন" আসলে কী? )।

তবে বলুন যে আপনি আপনার মডেলটিতে ভবিষ্যদ্বাণীকারীদের সেরা সেট চয়ন করতে এই দুটি পদ্ধতির একটিতে যান।

বার্নহ্যাম এবং অ্যান্ডারসন ২০০২ (মডেল নির্বাচন ও মাল্টিমোডেল ইনফারেন্স: একটি প্রাকটিক্যাল ইনফরমেশন-থিওরিটিক অ্যাপ্রোচ, পৃষ্ঠা )৩) উল্লেখ করেছে যে কেউ এআইসির ভিত্তিতে পরিবর্তনশীল নির্বাচনকে অনুমানের পরীক্ষার উপর ভিত্তি করে মিশ্রণ করা উচিত নয় : "নাল হাইপোথেসিস এবং তথ্য-তাত্ত্বিক পদ্ধতির পরীক্ষা করা উচিত একসাথে ব্যবহার করা হবে না; এগুলি পৃথক বিশ্লেষণের দৃষ্টান্ত "

অন্যদিকে, জুউর এট আল। ২০০৯ (বাস্তুতন্ত্রের মিশ্রিত প্রভাবগুলির মডেলগুলি R এর সাথে পৃষ্ঠা, পৃষ্ঠা 541) প্রথমে অনুকূল মডেলটি সন্ধানের জন্য এআইসি ব্যবহারের পক্ষে বলে মনে হচ্ছে এবং তারপরে হাইপোথিসিস টেস্টিং ব্যবহার করে "সূক্ষ্ম সুরকরণ" সম্পাদন করুন : "অসুবিধাটি হ'ল এআইসি রক্ষণশীল হতে পারে , এবং এআইসি একটি অনুকূল মডেল নির্বাচন করার পরে আপনাকে কিছু সূক্ষ্ম সুরকরণ (একের কাছ থেকে অনুমানের পরীক্ষার ব্যবহারগুলি ব্যবহার করে) প্রয়োগ করতে হবে ""

আপনি দেখতে পাচ্ছেন যে এটি উভয় বইয়ের পাঠককে কোন পদ্ধতির অনুসরণ করতে হবে তা নিয়ে বিভ্রান্ত করে।

1) এগুলি কি পরিসংখ্যানগত চিন্তার কেবল আলাদা "শিবির" এবং পরিসংখ্যানবিদদের মধ্যে মতবিরোধের বিষয়? এই পদ্ধতির মধ্যে এখন একটি কি কেবল "পুরানো" তবে লেখার সময় এটি উপযুক্ত হিসাবে বিবেচিত হত? বা একটি কি শুরু থেকে সহজ সরল?

2) এই দৃশ্যের উপযুক্ত হতে পারে এমন কোনও দৃশ্যের মধ্যে কী থাকবে? উদাহরণস্বরূপ, আমি একটি জৈবিক পটভূমি থেকে এসেছি, যেখানে আমি প্রায়শই নির্ধারণ করার চেষ্টা করছি যে কোনটি, যদি কোনও হয় তবে ভেরিয়েবলগুলি আমার প্রতিক্রিয়াটিকে প্রভাবিত করে বা চালিত করে। আমার প্রায়শই বেশিরভাগ প্রার্থীর ব্যাখ্যামূলক ভেরিয়েবল থাকে এবং আমি চেষ্টা করি যেগুলি "গুরুত্বপূর্ণ" (অপেক্ষাকৃত শর্তে)। এছাড়াও, নোট করুন যে প্রার্থী পূর্বাভাসকারী ভেরিয়েবলগুলির সেটটি ইতিমধ্যে কিছু জৈবিক প্রাসঙ্গিকতা হিসাবে বিবেচিতদের মধ্যে হ্রাস পেয়েছে তবে এটিতে এখনও 5-20 প্রার্থী পূর্বাভাসক অন্তর্ভুক্ত থাকতে পারে।


3
আমি আশ্চর্য হই যে এআইসির নির্বাচনের পরে হাইপোথিসিস টেস্টিংয়ের সাথে সূক্ষ্ম সুরের জন্য জুয়ারের পরিসংখ্যানগত যুক্তি কী হবে। এটি মডেল বিল্ডিংয়ের সুসংগত কৌশল বলে মনে হয় না। তবে আমি সেগুলি সম্পর্কে যথেষ্ট জানি না।
রিচার্ড হার্ডি

2
আমার কুণ্ডলীটি হ'ল জুর এট আল এর পরামর্শ খারাপ (আপনি মডেল নির্বাচনের জন্য কেন কখনও তাৎপর্য পরীক্ষা ব্যবহার করবেন?), যদিও আমি নিশ্চিত নই যে, বার্নহ্যাম এবং অ্যান্ডারসনের বক্তব্যও সঠিক কিনা। এটি একটি ভাল প্রশ্ন, তবে এর উত্তর দেওয়ার জন্য আমি এখন পর্যন্ত যে প্রযুক্তিগত বিবরণ পড়েছি তার থেকে আরও গভীরভাবে পড়তে হবে।
কোডিওলজিস্ট

প্যানেল বিক্রয় পূর্বাভাস দেওয়ার জন্য আমি দুটি পদ্ধতিই মডেলগুলিতে ব্যবহার করেছি। AIC ভিত্তিক পদক্ষেপের পশ্চাদপসরণ রিগ্রেশন আমার অভিজ্ঞতা থেকে আরও ভাল ফলাফল দেয় বলে মনে হয়েছিল।
সৌপ্তিক ধর

1
@ সৌপ্তিকধর, আপনি যখন "আরও ভাল" ফলাফলগুলি বলবেন, ঠিক কোন উপায়ে আপনার অর্থ?
টাইলেন

উত্তরটি বিশ্লেষণের লক্ষ্য নির্ভর করে? একটি পর্যবেক্ষণ গবেষণায়, এটি ডেটাসেটের ভিত্তিতে সর্বাধিক প্রশংসনীয় মডেল সন্ধান করা আকাঙ্ক্ষিত হতে পারে, উদাহরণস্বরূপ "এআইসির ভিত্তিতে পরিবর্তনশীল নির্বাচন" এর উপর নির্ভর করে। যাইহোক, যদি লক্ষ্যটি পরীক্ষা করার জন্য একটি অনুমান করা যায়, তবে আমাদের অনুমানের আগ্রহের পরিবর্তনশীলগুলির জন্য পর্যাপ্ত প্রক্সির মেয়াদে মডেলটি হাইপোথিসিসের একটি আবিষ্কার হিসাবে ইতিমধ্যে শুরু থেকেই নির্দিষ্ট করা হয়েছে সুতরাং এর কোনও স্থান নেই পরিবর্তনশীল নির্বাচন আইএমএইচও?
রোডল্ফ

উত্তর:


6

একটি সংক্ষিপ্ত উত্তর।

এরকম পদ্ধতির ডেটা চালিত মডেল নির্বাচন বা টিউনিং, তারপর নির্বাচিত / টিউন মডেলের উপর মান আনুমানিক পদ্ধতি (a la Zuur ব্যবহার । এট , এবং অন্যান্য অনেক সম্মানিত যেমন Crawley, যেমন বাস্তুবিদ), হবে সবসময় overoptimistic ফলাফল দিতে : মাত্রাতিরিক্ত সংকীর্ণ আস্থা বিরতি (দুর্বল কভারেজ), অতিমাত্রায় ছোট পি-মান (উচ্চ ধরণের আই ত্রুটি)। এটি কারণ আদর্শ মানানসই পদ্ধতিগুলি ধরে নেয় মডেলটি একটি পূর্বনির্ধারিত নির্দিষ্ট করা হয় ; তারা মডেল টিউনিং প্রক্রিয়াটিকে আমলে নেয় না।

এ কারণেই ফ্র্যাঙ্ক হ্যারেল ( রিগ্রেশন মডেলিং স্ট্র্যাটেজিজ ) এর মতো গবেষকরা স্টেপওয়াস রিগ্রেশন জাতীয় তথ্য-চালিত নির্বাচন কৌশলগুলি তীব্রভাবে অস্বীকার করেছেন এবং সতর্কতা অবলম্বন করেছেন যে মডেল জটিলতার কোনও হ্রাস ("মাত্রা হ্রাস") করতে হবে, যেমন ভবিষ্যদ্বাণীকারী ভেরিয়েবলের একটি পিসিএ গণনা করা এবং ভবিষ্যদ্বাণীকারী হিসাবে প্রথম কয়েকটি পিসিএ অক্ষ নির্বাচন করে) কেবলমাত্র ভবিষ্যদ্বাণী ভেরিয়েবলগুলি দেখে।

আপনি যদি কেবলমাত্র সেরা ভবিষ্যদ্বাণীমূলক মডেল সন্ধান করতে আগ্রহী হন (এবং আপনার ভবিষ্যদ্বাণীটির অনিশ্চয়তার কোনও প্রকারের নির্ভরযোগ্য অনুমানের বিষয়ে আগ্রহী নন, যা অনুমানের ক্ষেত্রের মধ্যে পড়ে!) তবে ডেটা-চালিত মডেলটির সুরটি ঠিক আছে (যদিও ধাপে ধাপে নির্বাচন খুব কমই সহজলভ্য বিকল্প); মেশিন লার্নিং / স্ট্যাটিস্টিকাল লার্নিং অ্যালগরিদমগুলি সেরা ভবিষ্যদ্বাণীপূর্ণ মডেলটি পাওয়ার চেষ্টা করার জন্য অনেকগুলি টিউন করে। "পরীক্ষা" বা "নমুনা ছাড়াই" ত্রুটির একটি পৃথক, আউট-আউট স্যাম্পল বা অন্য কোনও টিউনিং পদ্ধতি ক্রস-বৈধকরণ পদ্ধতিতে তৈরি করা দরকার as

এই বিষয়ে মতামত historicalতিহাসিক বিবর্তন হয়েছে বলে মনে হয়; অনেকগুলি ক্লাসিক স্ট্যাটিস্টিকাল পাঠ্যপুস্তক, বিশেষত যেগুলি রিগ্রেশনকে কেন্দ্র করে, বর্তমান পদক্ষেপের পদ্ধতিগুলি অনুসরণ করে মডেল নির্বাচনের প্রভাবগুলি বিবেচনায় না নিয়ে স্ট্যান্ডার্ড ইনফেরেন্টিয়াল পদ্ধতি অনুসরণ করে [উদ্ধৃতি প্রয়োজন ...]

পরিবর্তনশীল গুরুত্বের পরিমাণ নির্ধারণের বিভিন্ন উপায় রয়েছে এবং সমস্তই পরিবর্তনশীল-নির্বাচনের পরবর্তী জালে পড়ে না।

  • বার্নহ্যাম এবং অ্যান্ডারসন এআইসির ওজন যোগ করার পরামর্শ দিচ্ছেন; এই পদ্ধতির বিষয়ে বেশ কিছুটা মতবিরোধ আছে।
  • আপনি পুরো মডেলটি ফিট করতে পারেন (যথাযথভাবে স্কেলড / ইউনিটলেস প্রেডিক্টরের সাথে) এবং আনুমানিক মাত্রা [জৈবিক প্রভাব আকার] বা জেড-স্কোর ["স্পষ্টতা" / পরিসংখ্যানগত প্রভাবের আকার] দ্বারা ভবিষ্যদ্বাণীদেরকে স্থান দিতে পারেন ।

1

আমি একটি জৈবিক ব্যাকগ্রাউন্ড থেকে এসেছি এবং একজন ভাড়াটে বায়োস্ট্যাটিস্টিশিয়ান, একটি বিশ্ববিদ্যালয়ের হাসপাতালে কর্মরত। আমি এই সম্পর্কে প্রচুর পড়েছি, বিশেষত সম্প্রতি, www এর উপর বিশেষ করে হ্যারেলের মতামত এবং তাঁর বই রিগ্রেশন মডেলিং কৌশলগুলি সহ। তাকে আর উদ্ধৃত করা নয়, তবে অভিজ্ঞতা থেকে বলছি: এটি অত্যন্ত ক্ষেত্রের সাথে সম্পর্কিত, আমি মনে করি এটিই প্রথম স্তর যার জন্য দায়বদ্ধ হতে হবে। দ্বিতীয় স্তরটি হ'ল একটি ভাল যুক্তিযুক্ত পন্থা পাওয়া, যার অর্থ আপনার ভবিষ্যদ্বাণীকারীরা বৈজ্ঞানিক অভিজ্ঞতার দ্বারা আপনি যা ভবিষ্যদ্বাণী করতে চান তা প্রকাশ করার জন্য মূল অর্থবহ হওয়া উচিত। তৃতীয়টি ইন্টারঅ্যাকশনগুলির জন্য অ্যাকাউন্ট করা হবে, যা অত্যন্ত গুরুত্বপূর্ণ, এবং পরিসংখ্যানগত পদ্ধতির গৃহীত বা অন্তর্দৃষ্টি দ্বারা সমাধান করা যেতে পারে। হাসপাতালের ডেটা নিয়ে আমার ক্ষেত্রে কেবল চতুর্থ পদ্ধতিটিই বেছে নেওয়া হয়, প্রায়শই প্রায় x * 10 ^ 3 ডেটাপয়েন্ট এবং এক্স * 10 ^ 1 পর্যবেক্ষণ যেমন eg

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.