পোইসন রিগ্রেশন মডেলগুলি বৈধ করার জন্য ব্যয় ফাংশন


12

আমি সংগৃহীত ডেটা গণনা করার জন্য, আমি মডেলগুলি তৈরি করতে পোইসন রিগ্রেশন ব্যবহার করি। আমি glmআর-তে ফাংশনটি ব্যবহার করে এটি করি, যেখানে আমি ব্যবহার করি family = "poisson"। সম্ভাব্য মডেলগুলি মূল্যায়নের জন্য (আমার কাছে বেশ কয়েকটি ভবিষ্যদ্বাণী রয়েছে) আমি এআইসি ব্যবহার করি। এ পর্যন্ত সব ঠিকই. এখন আমি ক্রস-বৈধতা সম্পাদন করতে চাই। আমি ইতিমধ্যে প্যাকেজ cv.glmথেকে ফাংশনটি ব্যবহার করে এটি করতে সফল হয়েছি boot। থেকে ডকুমেন্টেশন এর cv.glmআমি দ্বিপদ তথ্য আপনি একটি নির্দিষ্ট খরচ ফাংশন ব্যবহার করতে একটি অর্থপূর্ণ ভবিষ্যদ্বাণী ভুল পান প্রয়োজন যে যেমন দেখতে পাচ্ছি। তবে, কোন ব্যয়ের কাজটি উপযুক্ত কিনা তা এখনও আমার কোনও ধারণা নেই family = poissonএবং একটি বিস্তৃত গুগল অনুসন্ধানে কোনও নির্দিষ্ট ফলাফল পাওয়া যায় নি। আমার প্রশ্ন হ'ল cv.glmপোয়েসন গ্ল্যামসের ক্ষেত্রে ব্যয় ফাংশনটি উপযুক্ত কিনা সে সম্পর্কে কারও কাছে কিছু আলোকপাত করা উচিত ।


1
ফাংশন cv.glmnetপ্যাকেজের মধ্যে glmnetব্যবহার type.measure="deviance"পইসন পরিবারের জন্য।
সি সি

কঠোরভাবে, ডকুমেন্টেশনগুলি দেখায় যে বাইনারি ডেটার জন্য একটি নির্দিষ্ট ব্যয় ফাংশনটি ব্যবহার করা বোধগম্য।
করোন

@ কোরোন ক্রমাগত ডেটা নয়, বা বাইনারি ডেটা নয় not সুতরাং আমি গণনা ডেটা জন্য উপযুক্ত একটি ব্যয় ফাংশন খুঁজছিলাম।
পল হিমস্ট্র্রা

1
আমি মনে করি না ডেটাগুলির স্বতন্ত্রতা এখানে বড় পার্থক্য করে, যদি না আপনার গণনা খুব কম হয়। বিষয়টি বরং ডেটা বিতরণের বিষয়ে is বাইনারি তথ্যের জন্য ভবিষ্যদ্বাণীটি 0 এবং 1 এর মধ্যে একটি ধারাবাহিক সম্ভাবনা, তবে প্রতিক্রিয়া সর্বদা 0 বা 1 হয় their আপনি কি ধারাবাহিকতা নিয়ে বিশেষত চিন্তিত? আমি ধারাবাহিকতার জন্য আমার
উত্তরটিতে

উত্তর:


12

আপনার বিশেষ ক্ষেত্রে বিশেষ কিছু মনে করে, আমি মনে করি ডিফল্ট (মানে স্কোয়ার ত্রুটি) ব্যবহার করার জন্য লগগুলির ত্রুটির অর্থ বা চি-স্কোয়ার ত্রুটিটি ব্যবহার করার জন্য একটি ভাল যুক্তি রয়েছে।

ব্যয় ফাংশনের উদ্দেশ্য হ'ল ভুল অনুমানের সাথে আপনি কতটা "বিচলিত" তা প্রকাশ করা, বিশেষত কোনটি "অন্যায়" আপনাকে সবচেয়ে বেশি বিরক্ত করে। এটি বাইনারি প্রতিক্রিয়াগুলির জন্য বিশেষত গুরুত্বপূর্ণ, তবে যে কোনও পরিস্থিতিতে তা কার্যকর হতে পারে।

বর্গ ত্রুটি গড় (প্রতিক্রিয়াগুলির)

C=1ni(YiY^i)2

এমএসই ব্যবহার করে আপনি উপরের এবং নীচের ত্রুটিগুলির জন্য সমান সংবেদনশীল এবং বড় এবং ছোট ভবিষ্যদ্বাণীগুলির জন্য সমান সংবেদনশীল। এটি করা খুব সুন্দর একটি স্ট্যান্ডার্ড জিনিস, এবং তাই আমি মনে করি না বেশিরভাগ পরিস্থিতিতেই তা ভ্রান্ত হবে।

স্কয়ার ত্রুটি গড় (লগ প্রতিক্রিয়াগুলির)

C=1ni(lnYilnY^i)2

যেহেতু আপনি গণনা ডেটা নিয়ে কাজ করছেন, এটি যুক্তিযুক্ত হতে পারে যে আপনি প্রতিসাম্য বা আকার উদাসীন নন। 10 এর পূর্বাভাসের জন্য 10 গুনে বাইরে থাকা 1000 এর পূর্বাভাসের থেকে খুব আলাদা This এটি কিছুটা "প্রমিত" ব্যয় ফাংশন, কারণ আপনি লিংক ফাংশনের সাথে ব্যয় মেলেছেন। এটি নিশ্চিত করে যে সেই ব্যয়গুলি মডেলটিতে ধরে নেওয়া ভেরিয়েন্স বিতরণটির সাথে মেলে।

চি-স্কোয়ার ত্রুটি

C=1ni(YiY^i)2Y^i

তৃতীয় উপায় হ'ল চি-স্কোয়ার ত্রুটিটি ব্যবহার করা। আপনি যদি আপনার জিএলএমকে অন্য গণনাভিত্তিক মডেলগুলির সাথে তুলনা করছেন - বিশেষত যদি আপনার জিএলএমের কোনও কারণ রয়েছে তবে এটি বিশেষত আবেদনকারী হতে পারে। ত্রুটি লগ প্রতিক্রিয়াগুলির অনুরূপ, এটি আকারের সাথে স্কেল করবে তবে এটি পূর্বাভাসিত গণনার চারপাশে প্রতিসাম্য। আপনি এখন শতাংশ ত্রুটির উপর ভিত্তি করে ফিটের ন্যূন্যের মূল্যায়ন করছেন।


বিবেচনার উপর

প্রশ্নটি ডকুমেন্টেশনের উদাহরণকে উদ্ধৃত করে যেখানে তাদের বাইনারি প্রতিক্রিয়া ভেরিয়েবল রয়েছে, সুতরাং একটি ভিন্ন ব্যয় ফাংশন ব্যবহার করুন। বাইনারি প্রতিক্রিয়ার বিষয়টি হ'ল জিএলএম 0 এবং 1 এর মধ্যে একটি আসল সংখ্যার পূর্বাভাস দেবে, যদিও প্রতিক্রিয়া সর্বদা 0 বা 1 এর মধ্যে থাকে তবে এই সংখ্যাটি যতটা কাছাকাছি সঠিক প্রতিক্রিয়ায় ততই ভাল বলে বলা ঠিক হবে পূর্বাভাস, তবে প্রায়শই লোকেরা এটি চায় না। যুক্তি হ'ল একজনকে প্রায়শই 0 বা 1 এর মতো আচরণ করা আবশ্যক এবং তাই 0 এর পূর্বাভাস হিসাবে 0.5 এর চেয়ে কম কিছু গ্রহণ করবে। সেক্ষেত্রে এটি "ভুল" পূর্বাভাসের সংখ্যা গণনা করা সহজভাবে বোঝায়। এখানে যুক্তিটি হ'ল সত্য / মিথ্যা প্রশ্নের জন্য আপনি কেবল সঠিক বা ভুল হতে পারেন - অন্যায়ের কোনও গ্রেড নেই।

Y^


লগের রূপান্তরিত প্রতিক্রিয়ার গড় বর্গক্ষেত্রের ত্রুটির গড় বর্গ ত্রুটির সাথে কাজ করার পরিবর্তে, জিএলএমগুলি 1 / ভেরিয়েন্স ওয়েট ব্যবহার করে ওজনযুক্ত গড় বর্গক্ষেত্র ত্রুটি ব্যবহার করা ভাল (পিসন = এর জন্য আর এর গ্ল্যাম আউটপুটের $ ওয়েট স্লট দ্বারা প্রদত্ত) 1 / ই (ওয়াই))। এটি কোনও প্রকার জিএলএমের জন্য বিশ্বাস করি এটি কাজ করে।
টম Wenseleers
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.