লজিস্টিক রিগ্রেশন এবং কুকের দূরত্বের অবশিষ্টাংশ


10
  1. লজিস্টিক রিগ্রেশন যেমন ত্রুটির শর্তগুলির ধ্রুবক প্রকরণ এবং অবশিষ্টাংশের স্বাভাবিকতা সম্পর্কিত ত্রুটিগুলি সম্পর্কে কোনও বিশেষ অনুমান রয়েছে?

  2. এছাড়াও সাধারণত যখন আপনার পয়েন্ট থাকে যা কুকের দূরত্ব 4 / n এর চেয়ে বড় হয়, আপনি কি সেগুলি সরাবেন? আপনি যদি এগুলি অপসারণ করেন, তবে মুছে ফেলা পয়েন্টগুলির সাথে মডেলটি ভাল কিনা তা আপনি কীভাবে বলতে পারবেন?

উত্তর:


12

আমি আপনাকে একটি সম্পূর্ণ উত্তর দিতে পারি কিনা জানি না, তবে আমি আপনাকে এমন কিছু ধারণা দিতে পারি যা সহায়ক হতে পারে। প্রথমত, সমস্ত পরিসংখ্যানের মডেল / পরীক্ষার অনুমান থাকে। যাইহোক, লজিস্টিক রিগ্রেশন খুব বেশি ধরে নেয় না যে অবশিষ্টাংশগুলি সাধারণত বিতরণ করা হয় বা তাত্পর্যটি স্থির থাকে। বরং, ধরে নেওয়া হয় যে ডেটাগুলি দ্বি-দ্বি, হিসাবে বিতরণ করা হয়, অর্থাত্ কোভারিয়েট মানগুলির সঠিক সেটটিতে পর্যবেক্ষণের সংখ্যার সমান বার্নুলি ট্রায়ালগুলির সংখ্যার সাথে এবং কোভারিয়েট মানগুলির সেটের সাথে সম্পর্কিত সম্ভাবনা। মনে রাখবেন যে দ্বিপদীটির ভিন্নতা n পি (বি(এনএক্সআমি,পিএক্সআমি) । সুতরাং, যদিকোভেরিয়েটের বিভিন্ন স্তরে এন এর পরিবর্তিত হয় তবে বৈকল্পিকগুলিও তত ভাল হবে। তদ্ব্যতীত, যদি কোনও সমবায়ু প্রতিক্রিয়ার ভেরিয়েবলের সাথে সম্পর্কিত হয়, তবে সম্ভাব্যতাগুলি পৃথক হবে এবং এইভাবে, বৈকল্পিকগুলিও ঘটবে। এগুলি লজিস্টিক রিগ্রেশন সম্পর্কিত গুরুত্বপূর্ণ তথ্য। এনপি(1-পি)এন

আর2আর2আর2আর2s 'যা একই ধরণের তথ্য সরবরাহ করতে বিকাশ করা হয়েছে তবে এগুলি প্রায়শই ত্রুটিযুক্ত হিসাবে বিবেচিত হয় এবং প্রায়শই ব্যবহৃত হয় না। বিদ্যমান বিভিন্ন সিউডো- এর সংক্ষিপ্তসার জন্য , এখানে দেখুন । তাদের মধ্যে কিছু আলোচনা এবং সমালোচনার জন্য এখানে দেখুন । আরেকটি সম্ভাবনা হ'ল বিটা জ্যাকক্নাইফ করা বা আউটলিয়ারদের ছাড়া এটি ছাড়া কীভাবে তাদের বাদ দেওয়া তাদের নমুনা বিতরণকে স্থিতিশীল করতে ভূমিকা রাখে তা অন্তর্ভুক্ত রয়েছে see আবার, এটি কেবল বর্ণনামূলক হবে (অর্থাত্ কোন মডেল - এর, আপনার ডেটার উপসেট - পছন্দ করতে) তা জানানোর জন্য এটি কোনও পরীক্ষা গঠন করে না এবং তারতম্যটি নীচে নামতে হবে। এই বিষয়গুলি সত্য, উভয় সিউডো- আর 2 এর জন্যআর2আর2s এবং jackknifed বিতরণ, কারণ আপনি চূড়ান্ত প্রদর্শিত হয় তার উপর ভিত্তি করে এই তথ্যগুলি বাদ দেওয়ার জন্য আপনি সেই ডেটা নির্বাচন করেছেন।


8

1) লজিস্টিক রিগ্রেশনের ত্রুটি সম্পর্কিত ত্রুটি সম্পর্কিত কোনও ত্রুটি যেমন ত্রুটির শর্তগুলির ধ্রুবক বৈকল্পিকতা এবং অবশিষ্টাংশের স্বাভাবিকতা সম্পর্কে কি আছে?

লজিস্টিক রিগ্রেশন মডেলগুলির প্রচলিত অর্থে "ত্রুটি" থাকে না। এটি উভয়ই পাল্টা স্বজ্ঞাত এবং পদ্ধতিগতভাবে বেমানান। মডেল আউটপুটগুলি সম্ভাব্যতা বা ঝুঁকিযুক্ত যেখানে পর্যবেক্ষণকৃত ফলাফলগুলি 0/1 ইভেন্ট সূচক। পদ্ধতিগতভাবে, আপনি খুব উচ্চ বা খুব কম ফিটযুক্ত সম্ভাবনার ডোমেনগুলিকে কম-জোর দিয়েছিলেন (অবশিষ্ট দূরত্বে খুব অল্প পরিমাণে অবদান রাখছেন) যখন মডেল ফিটিং অ্যালগরিদম এই জাতীয় অঞ্চলে যথেষ্ট উচ্চ গুরুত্ব দেয়। স্কোয়ার দূরত্ব সাধারণত লজিস্টিক রিগ্রেশন মডেলটি ক্যালিব্রেট করার একটি দুর্বল উপায়।

ফিট টেস্টের বিকল্প ধার্মিকতা হ'ল হোসমার-লেমশো পরীক্ষা, যাতে ফিটেড মানগুলি লাগানো ঝুঁকির ডেস্কের ভিত্তিতে বাইনযুক্ত পার্টিশন তৈরি করতে ব্যবহৃত হয়। এই পরীক্ষার বিষয়ে আপনি অ্যালান এগ্রেস্টির শ্রেণিবদ্ধ ডেটা বিশ্লেষণ বা হোসমার এবং লেমেশোর লজিস্টিক রিগ্রেশন বইটি পড়তে পারেন। আরেকটি প্রক্রিয়া হ'ল স্টুডেনজড রেসিডুয়ালগুলি ব্যবহার করা যেখানে গড় বৈকল্পিক সম্পর্কগুলি তাদের লাগানো বিপরীত পরিবর্তনের মাধ্যমে অবশিষ্টাংশগুলিকে পুনরূদ্ধার করতে ব্যবহৃত হয় । লজিস্টিক রিগ্রেশন এর জন্য এটি

Rগুলিটিতোমার দর্শন লগ করা=ওয়াই-μμ(1-μ)

২) এছাড়াও সাধারণত যখন আপনার পয়েন্ট থাকে যা কুকের দূরত্ব ৪ / এন এর চেয়ে বড় হয়, আপনি কি সেগুলি সরাবেন? আপনি যদি এগুলি অপসারণ করেন, তবে মুছে ফেলা পয়েন্টগুলির সাথে মডেলটি ভাল কিনা তা আপনি কীভাবে বলতে পারবেন?

সংবেদনশীলতা বিশ্লেষণের উপর ভিত্তি করে পয়েন্টগুলি আমি কখনই সরিয়ে নেই। আমি যদি 100 জন এবং তাদের উপার্জনের এলোমেলো নমুনা করি এবং 1 জন একজন ধনকুবের হয়ে পড়ে, তবে আমার সবচেয়ে নিরাপদ অনুমান যে 1 বিলিয়নিয়ার জনসংখ্যার 1/100 তম প্রতিনিধিত্ব করে।


আপনি কেন ধরে নেবেন যে 1 বিলিয়নিয়ার জনসংখ্যার 1/100 তম প্রতিনিধিত্ব করে? আপনি সম্ভবত জনসংখ্যার কোটিপতিদের অনুপাতের একটি বাহ্যিক অনুমান পেতে সক্ষম হবেন!
কেজেটিল বি হালওয়ারসেন

6

আমি সাধারণভাবে উপরে অ্যাডমোর মন্তব্যের সাথে একমত - এই ধারণা করে যে 1 বিলিয়নিয়ার জনসংখ্যার এক / 100 তম পুরোপুরি ঠিক আছে represents যাইহোক, যদি 1 বিলিয়নেয়ারের উপস্থিতি ডেটাটিকে এতটা স্কিউ করে দেয় যে অন্যান্য 99 জন ব্যক্তির ভবিষ্যদ্বাণী প্রভাবিত হয়, আমি 1 বিলিয়নেয়ারকে সরিয়ে ফেলব। আমি বরং সবার চেয়ে আউটিলারের পূর্বাভাস দিয়ে ভুল করব।

এই কথাটি বলার পরে, আপনি যদি কুক এর ডি মানগুলি (যেমন, কোনও কিছুই> 4 / ডিএফ) ব্যবহার করে ডেটা পয়েন্টগুলি সরিয়ে ফেলেন তবে উন্নতি পরীক্ষা করতে আপনি উভয় মডেলের জন্য আরওসি বক্ররেখার অধীনে অঞ্চল ব্যবহার করতে পারেন।


1
(+1) প্রতিক্রিয়া এবং আয়ের লগ-প্রতিক্রিয়াগুলির সাথে প্রাকৃতিক স্প্লিনের সাথে সম্পর্কের মডেলিং করা, সম্ভবত আয়ের আগেই রূপান্তরকরণ, অন্যদের জন্য অত্যধিক পরিমাণে কোটিপতিদের প্রভাবিত ভবিষ্যদ্বাণী এড়ানোর অন্য উপায়। তাকে অপসারণ করার পরামর্শ দেয় যে আপনি অন্য ধনকুবেরের জন্য পূর্বাভাস না দেওয়ার জন্য খুশি (যথেষ্ট ন্যায্য) বরং তাদের সম্পর্কে ভুল পূর্বাভাস দেওয়ার জন্য খুশি।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

হাস্যকরভাবে, যখন বাইনারি ইভেন্টগুলির পূর্বাভাস দেওয়ার কথা আসে তবে এটি সত্য যে প্রভাবশালী পর্যবেক্ষণগুলি বাদ দেওয়া ঝুঁকি পূর্বাভাসগুলির আরও ভাল ক্রমাঙ্কন করতে পারে। তবে প্রভাবশালী পর্যবেক্ষণগুলি বাদ দিলে ঝুঁকি পূর্বাভাসের বৈষম্য হ্রাস পাবে । পরেরটি তর্কযোগ্যভাবে আরও গুরুত্বপূর্ণ। যখন কোনও নির্দিষ্ট ইভেন্টের ঝুঁকি পূর্বাভাসের কথা আসে (যার মধ্যে 0 বা 1 হয়, ধারাবাহিকভাবে মূল্যবান হয় না ) সর্বোত্তম ধরণের ভবিষ্যদ্বাণী মামলাগুলির 'ভবিষ্যদ্বাণীগুলিকে 1 এর কাছাকাছি এবং নিয়ন্ত্রণ' এর পূর্বাভাসকে 0 এর দিকে ঠেলে দেবে উচ্চ প্রভাব পয়েন্টগুলি প্রায়শই কার্যকর এই করছেন।
আদমো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.