মডেল নির্বাচন বা নিয়মিতকরণের পরে জিএলএম


12

আমি এই প্রশ্নটি দুটি অংশে বলতে চাই। উভয়ই জেনারেলাইজড লিনিয়ার মডেলের সাথে লেনদেন করে তবে প্রথমটি মডেল নির্বাচনের সাথে এবং অন্যান্যগুলি নিয়মিতকরণের সাথে ডিল করে।

পটভূমি: আমি পূর্বাভাস এবং বর্ণনা উভয় জন্য GLMs (লিনিয়ার, লজিস্টিক, গামা রিগ্রেশন) মডেল ব্যবহার করি। যখন আমি " সাধারণ জিনিসগুলি একটি প্রতিরোধের সাথে করায়" উল্লেখ করি তখন আমি মূলত (i) সহগের আশেপাশের আত্মবিশ্বাসের সাথে বর্ণনাকে বোঝাতে চাইছি, (ii) পূর্বাভাসের চারপাশে আত্মবিশ্বাসের বিরতি এবং (iii) সহগের রৈখিক সংমিশ্রণ সম্পর্কিত অনুমানের পরীক্ষা যেমন " চিকিত্সা এ এবং চিকিত্সা বি মধ্যে পার্থক্য আছে? "।

আপনি কি নীচের প্রতিটিের অধীনে সাধারণ তত্ত্ব ব্যবহার করে বৈধভাবে এই জিনিসগুলি করার ক্ষমতা হারাবেন? এবং যদি তা হয় তবে খাঁটি ভবিষ্যদ্বাণী করার জন্য ব্যবহৃত মডেলগুলির জন্য কি এই জিনিসগুলি সত্যই ভাল?

I. যখন কোনও জিএলএম কিছু মডেল বাছাই প্রক্রিয়াটির মাধ্যমে ফিট করে থাকে (এককভাবে এটি এআইসি ভিত্তিক ধাপে ধাপে ধাপে ধাপে ধাপে বলে)।

২। যখন কোনও জিএলএম নিয়মিতকরণ পদ্ধতির মাধ্যমে ফিট হয়ে থাকে (তখন আর-তে গ্ল্যামনেট ব্যবহার করে বলুন)।

আমার ইন্দ্রিয় যে আই জন্য উত্তর টেকনিক্যালি যে আপনি "এর জন্য একটি বুটস্ট্র্যাপ ব্যবহার করা উচিত নয় স্বাভাবিক জিনিষ এক একটি রিগ্রেশন কিছু করে ", কিন্তু কোন এক সত্যিই যে মেনে চলে।

যোগ করুন:
কয়েকটি প্রতিক্রিয়া পাওয়ার পরে এবং অন্য কোথাও পড়ার পরে, আমার এটি গ্রহণ করা (অন্য কারও উপকারের পাশাপাশি সংশোধন পাওয়ার জন্য)।

I.
A) RE: ত্রুটি সাধারণকরণ। নতুন ডেটাতে ত্রুটি হারগুলি সাধারণ করতে, যখন কোনও হোল্ড আউট সেট নেই, ক্রস বৈধকরণ কাজ করতে পারে তবে নেস্ট লুপগুলি ব্যবহার করে - প্রতিটি ফোল্ডের জন্য আপনাকে প্রক্রিয়াটি সম্পূর্ণরূপে পুনরাবৃত্তি করতে হবে - সুতরাং কোনও বৈশিষ্ট্য নির্বাচন, প্যারামিটারের টিউনিং ইত্যাদি হওয়া আবশ্যক প্রতিটি সময় স্বাধীনভাবে সম্পন্ন। এই ধারণাটি কোনও মডেলিং প্রচেষ্টা (দণ্ডিত পদ্ধতি সহ) ধরে রাখা উচিত।

খ) আরই: হাইপোথিসিস টেস্টিং এবং জিএলএমের আত্মবিশ্বাসের অন্তরগুলি।জেনারালাইজড রৈখিক মডেলের জন্য মডেল নির্বাচন (বৈশিষ্ট্য নির্বাচন, প্যারামিটার টিউনিং, ভেরিয়েবল নির্বাচন) এবং হোল্ড আউট সেট বিদ্যমান থাকাকালীন কোনও পার্টিশনে মডেলটিকে প্রশিক্ষণ দেওয়া এবং তারপরে বাকী ডেটা বা পুরো ডেটা সেটে মডেলটি ফিট করা অনুমোদিত এবং হাইপোথিসিস টেস্টগুলি সম্পাদন করতে সেই মডেল / ডেটা ব্যবহার করুন ইত্যাদি a যদি কোনও হোল্ড আউট সেট বিদ্যমান না থাকে তবে যতক্ষণ না প্রতিটি বুটস্ট্র্যাপ নমুনার জন্য সম্পূর্ণ প্রক্রিয়া পুনরাবৃত্তি হয় ততক্ষণ একটি বুটস্ট্র্যাপ ব্যবহার করা যেতে পারে। এটি হাইপোথিসিস পরীক্ষাগুলি সীমাবদ্ধ করে যেগুলি করা যেতে পারে যদিও সম্ভবত একটি পরিবর্তনশীল সর্বদা উদাহরণ হিসাবে নির্বাচিত হবে না।

গ) আরআর: ভবিষ্যতের ডেটা সেটগুলিতে পূর্বাভাসের বিষয়ে নয়, তারপরে তত্ত্ব দ্বারা পরিচালিত একটি উদ্দেশ্যমূলক মডেল এবং কয়েকটি হাইপোথিসিস পরীক্ষাগুলি ফিট করুন এবং এমনকি মডেলটিতে সমস্ত পরিবর্তনশীল রেখে যাওয়ার বিষয়টি বিবেচনা করুন (তা উল্লেখযোগ্য বা না) (হোসমার এবং লেমশোর লাইনে)। এটি ছোট পরিবর্তনশীল সেট ধ্রুপদী ধরণের রিগ্রেশন মডেলিং এবং তারপরে সিআই এবং হাইপোথিসিস পরীক্ষার ব্যবহারের অনুমতি দেয়।

ডি) আরই: দণ্ডিত রিগ্রেশন। কোনও পরামর্শ নেই, সম্ভবত এটি কেবল পূর্বাভাসের জন্য উপযুক্ত বিবেচনা করুন (বা উপরের বি হিসাবে অন্য ডেটা সেট সেট করার জন্য বৈশিষ্ট্য নির্বাচনের একধরণের হিসাবে) যেহেতু প্রবর্তিত পক্ষপাতটি সিআই এবং হাইপোথিসিস পরীক্ষাকে বোকামি করে তোলে - এমনকি বুটস্ট্র্যাপের সাথেও।


1
লোকেরা কখনও কখনও এটি করে - অজান্তে (অর্থাত্ স্ট্যাটিস্টিক্সের অপব্যবহার করে, কারণ তারা পছন্দসই ফলাফল পেয়েছে) এবং জেনে-শুনে (তারা বুটস্ট্র্যাপ করেছিল এবং এটি ফলাফলকে প্রভাবিত করে না)। আপনার বক্তব্য বৈধ, এবং অধ্যাপক হ্যারেল তাঁর বইয়ের প্রিফেসে এটি উল্লেখ করেছেন যে বুটস্ট্র্যাপ উপকারী।
সানকুলসু

1
আপনার পয়েন্ট (II) এর জন্য "হ্যাঁ" এর মতো কিছু এখানে রয়েছে: arxiv.org/abs/1001.0188
অ্যালেক্স

উত্তর:


5

আপনি ডেভিড ফ্রিডম্যানের কাগজটি " স্ক্রিনিং রিগ্রেশন সমীকরণের একটি নোট " দেখতে পারেন u

সিমুলেশনটিতে সম্পূর্ণ অসম্পর্কিত ডেটা ব্যবহার করে তিনি দেখান যে, যদি পর্যবেক্ষণের সংখ্যার তুলনায় অনেক ভবিষ্যদ্বাণী থাকে, তবে একটি মানদণ্ডের স্ক্রিনিং পদ্ধতিটি একটি চূড়ান্ত রিগ্রেশন তৈরি করে যার মধ্যে অনেকগুলি (সুযোগের চেয়ে বেশি) উল্লেখযোগ্য ভবিষ্যদ্বাণীকারী এবং একটি অত্যন্ত গুরুত্বপূর্ণ এফ থাকে পরিসংখ্যাত। চূড়ান্ত মডেল পরামর্শ দেয় যে ফলাফলটি পূর্বাভাস দেওয়ার ক্ষেত্রে এটি কার্যকর, তবে এই সাফল্য উত্সাহজনক। তিনি এসেম্পোটোটিক গণনা ব্যবহার করে এই ফলাফলগুলিও চিত্রিত করেছেন। প্রস্তাবিত সমাধানগুলির মধ্যে একটি নমুনার স্ক্রিনিং করা এবং সম্পূর্ণ ডেটা সেটটিতে মডেলটি নির্ধারণ করা এবং কমপক্ষে কমপক্ষে একটি অনুক্রমের অর্ডার ব্যবহার করে ভবিষ্যদ্বাণীকারীদের চেয়ে বেশি পর্যবেক্ষণ।


দ্রষ্টব্য: বুটস্ট্র্যাপটি কার্যকর সমাধান হওয়ার জন্য, আপনাকে কোনও পুরো স্ক্রিনিংয়ের আগে শুরু করে পুরো প্রক্রিয়াটি বুটস্ট্র্যাপ করতে হবে, বুটস্ট্র্যাপযুক্ত নমুনাটি স্ক্রিন করতে হবে, তারপরে সহগের গণনা করুন। তবে এখন প্রতিটি প্রতিরোধের মধ্যে আপনার পূর্বাভাসীর বিভিন্ন সেট রয়েছে এবং সেগুলির কোনওটির জন্য কীভাবে ডিস্ট্রিবিউশন গণনা করা যায় তা পরিষ্কার নয়। ফলাফলের পূর্বাভাসিত মানগুলির জন্য বুটস্ট্র্যাপিং আত্মবিশ্বাসের ব্যবধানগুলি কার্যকর হতে পারে।
চার্লি

@ চর্লি: [আমি কী আপনাকে সঠিকভাবে পড়েছি যে আপনি কেবল আই-এর সাথে কথা বলছেন ((মডেল নির্বাচন) II নয়। (দণ্ডিত)] আপনি কি বলছেন যে পূর্বাভাস অন্তরগুলির জন্য, মডেল নির্বাচন ব্যবহার করা এবং সেই মডেলটি থেকে ভবিষ্যদ্বাণীগুলি বুটস্ট্র্যাপ করা বৈধ, তবে অন্য কোনও কিছুর জন্য আপনাকে পুরো প্রক্রিয়াটি বুটস্ট্র্যাপ করতে হবে?
বি_মিনার

@ চর্লি একটি নমুনায় স্ক্রিনিংয়ের প্রস্তাবিত সমাধান সম্পর্কে। এটি কি ডেটা বিভাজন, (আব) এক সেট (মডেল নির্বাচন ইত্যাদি) ব্যবহার করে এবং তারপর সেই মডেলটিকে অবশিষ্ট ডেটা প্রয়োগ করে - এবং সেই মডেলটির সাথে যে অনুমানের পরীক্ষার জন্য traditionalতিহ্যবাহী তত্ত্ব ব্যবহার করে ফিট ছিল, সেই তথ্যটি কী? ইত্যাদি?
বি_মিনার

আমি কেবলমাত্র মডেল নির্বাচনের কথা ভাবছিলাম, তবে এটি মূলত কারণ আমি শাস্তিযুক্ত দমন সম্পর্কে খুব বেশি জানি না। আমি বলব যে মডেল থেকে ভবিষ্যদ্বাণীগুলির অনুমানের জন্য আপনাকে পুরো প্রক্রিয়াটি বুটস্ট্র্যাপ করতে হবে। পুরো বিষয়টি হ'ল যে কোনও একটি নমুনায়, আপনি সম্ভবত কিছু ভেরিয়েবল অন্তর্ভুক্ত করে অন্যকে ছেড়ে চলে যাওয়ার সময় মজাদার সংশ্লেষগুলি খুঁজে পেতে পারেন magn এটির কাছাকাছি যাওয়ার একমাত্র উপায় হ'ল একাধিক নমুনা --- অর্থাৎ বুটস্ট্র্যাপ দেখুন। অবশ্যই, কেউ আসলে এটি করে না।
চার্লি

ঠিক আছে, আপনি মডেল নির্বাচন পদ্ধতি ব্যবহার করে আপনার মডেলটি উপস্থিত করতে আপনার নমুনার একটি অংশ ব্যবহার করেন, তারপরে অন্য পার্টিশন বা সম্পূর্ণ নমুনার উপর নিজের অনুমিতি করুন।
চার্লি

2

1) সম্পর্কিত, হ্যাঁ, আপনি এটি হারাবেন। উদাহরণস্বরূপ হ্যারেল রিগ্রেশন মডেলিং কৌশলগুলি, উইলির দ্বারা প্রকাশিত একটি বই বা ডেভিড ক্যাসেলের সাথে উপস্থাপিত একটি কাগজ যা "স্টপিং স্টেপওয়াইজ" নামে পরিচিত উপলব্ধ রয়েছে www.nesug.org/proceedings/nesug07/sa/sa07.pdf


আমি এই কাগজটি দেখেছি - খুব আকর্ষণীয়। দুটি প্রশ্ন। 1) লজিস্টিক রিগ্রেশন নিতে দেয়। মনে হচ্ছে সিআই বা হাইপোথিসিস টেস্টগুলি পরিচালনা করার একমাত্র উপায় হোস্টার এবং লেমশো (বিগ পি এর সাথে কোনও ডেটা সেটকে বাদ দিয়ে) স্টাইলে মডেল তৈরি করা? সুতরাং আপনি কেবল পয়েন্ট অনুমানের জন্য মডেলটি "ব্যবহার" করে রেখে চলেছেন? 2) আপনার কাগজ লসো অন্যান্য বিকল্পের মধ্যে আলোচনা করে। আপনি কি মনের মত হন যে এটি পরবর্তী অনুমানের পরীক্ষার অনুমতি দেয় বা "সহজভাবে" মডেল নির্বাচনের আরও ভাল বিকল্প হিসাবে দেওয়া হয়?
বি_মিনার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.