লজিস্টিক রিগ্রেশনের জন্য নমুনাটি কি 1 এবং 0 এর প্রকৃত অনুপাত প্রতিফলিত করে?


23

মনে করুন আমি লজিস্টিক রিগ্রেশন মডেল তৈরি করতে চাই যা গাছের বৈশিষ্ট্যগুলির ভিত্তিতে (ফে উচ্চতা) গাছের উপর নির্ভর করে কিছু প্রাণী প্রজাতির সংঘটন হওয়ার সম্ভাবনাটি অনুমান করতে পারে। সর্বদা হিসাবে, আমার সময় এবং অর্থ সীমাবদ্ধ, অতএব আমি কেবলমাত্র একটি সীমাবদ্ধ নমুনার আকার সংগ্রহ করতে সক্ষম।

আমার নীচের প্রশ্নগুলি রয়েছে: আমার নমুনায় 1 এবং 0 এর অনুপাত 1 এবং 0 এর প্রকৃত অনুপাত প্রতিবিম্বিত করা উচিত? (কমপক্ষে আনুমানিক) আমি লক্ষ্য করেছি যে ভারসাম্যপূর্ণ নমুনা (1 এবং 0 এর সমান সংখ্যক) দিয়ে লজিস্টিক রিগ্রেশন মডেল সম্পাদন করা একটি সাধারণ অনুশীলন - তবে এই জাতীয় মডেলগুলি পরাবাস্তববাদীভাবে ঘটনার উচ্চ সম্ভাবনা দেয় - তাই না?

এমন কোন নিবন্ধ / পাঠ্যপুস্তিকা রয়েছে যা আমি ** এই ধারণাকে সমর্থন করার জন্য ব্যবহার করতে পারি , যে মডেলগুলি 1 এবং 0 এর প্রকৃত অনুপাত প্রতিফলিত করে না সেগুলি " ভুল "? **

এবং পরিশেষে: 1: 1 টি নমুনা তৈরি করা এবং পরবর্তীকালে ইমাই এট আল অনুসারে তাউ দিয়ে মডেলটি সংশোধন করা কি সম্ভব ? 2007?

কোসুক ইমেই, গ্যারি কিং এবং অলিভিয়া লাউ। 2007. "রিলজিট: কোচুক ইমাই, গ্যারি কিং, এবং অলিভিয়া লাউতে দ্বৈতক্ষেত্র নির্ভরশীল ভেরিয়েবলগুলির জন্য বিরল ইভেন্টস লজিস্টিক রিগ্রেশন," জেলিগ: প্রত্যেকের স্ট্যাটিস্টিকাল সফ্টওয়্যার, "http: //gking.harvard.edu/zelig ig

এখানে চিত্র বর্ণনা লিখুন

বিন্দু গাছগুলিকে উপস্থাপন করে (লাল = অধিকৃত, ধূসর = অবারিত)। আমি 100% যথাযথতা (1 এর) সহ সমস্ত দখলকৃত গাছগুলি সনাক্ত করতে সক্ষম কিন্তু বনের সমস্ত গাছ আমি পরিমাপ করতে পারি না। প্রতিটি নমুনা কৌশল (অনুপাত) এর জন্য মডেলটি আলাদা।

উত্তর:


15

যদি এই জাতীয় মডেলের লক্ষ্য পূর্বাভাস হয়, তবে ফলাফলের পূর্বাভাস দেওয়ার জন্য আপনি অদম্য লজিস্টিক রিগ্রেশন ব্যবহার করতে পারবেন না: আপনি ঝুঁকি নিয়েই পূর্বাভাস করবেন। লজিস্টিক মডেলগুলির শক্তি হ'ল বিজোড় অনুপাত (ওআর) - "ঝাল" যা একটি ঝুঁকি ফ্যাক্টর এবং একটি লজিস্টিক মডেলের বাইনারি ফলাফলের মধ্যে সংযোগ পরিমাপ করে - ফলাফল নির্ভর নমুনার জন্য অদম্য। সুতরাং যদি নিয়ন্ত্রণগুলির ক্ষেত্রে 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 অনুপাতের ক্ষেত্রে নমুনা দেওয়া হয় তবে এটি সহজভাবে বিবেচনা করে না: স্যাম্পলিং নিঃশর্ত হিসাবে যতক্ষণ না কোনও ক্ষেত্রে দৃশ্যের অপরিবর্তিত থাকে OR এক্সপোজারে (যা বার্কসনের পক্ষপাতিত্ব প্রবর্তন করবে)। প্রকৃতপক্ষে, ফলাফল নির্ভর স্যাম্পলিং একটি ব্যয় সাশ্রয় করার প্রচেষ্টা যখন সম্পূর্ণ সাধারণ এলোমেলো নমুনা ঠিক হয় না।

কেন ঝুঁকি পূর্বাভাসগুলি লজিস্টিক মডেল ব্যবহার করে ফলাফল নির্ভর নমুনা থেকে পক্ষপাতদুষ্ট? ফলাফল নির্ভর নমুনা লজিস্টিক মডেলটিতে বিরতি প্রভাবিত করে। এটি অ্যাসোসিয়েশনের এস-আকৃতির বক্ররেখাকে জনসাধারণের সাধারণ এলোমেলো নমুনায় কেস স্যাম্পলিংয়ের লগ-প্রতিক্রিয়া এবং ছদ্মবেশে একটি কেস নমুনা দেওয়ার লগ-প্রতিক্রিয়াগুলির পার্থক্যের দ্বারা "এক্স-অক্ষকে স্লাইড আপ" করে তোলে আপনার পরীক্ষামূলক ডিজাইনের জনসংখ্যা op (সুতরাং আপনার নিয়ন্ত্রণে যদি 1: 1 টি কেস থাকে তবে এই ছদ্ম জনসংখ্যার ক্ষেত্রে কেস স্যাম্পল করার 50% সম্ভাবনা রয়েছে)। বিরল ফলাফলগুলিতে, এটি বেশ বড় পার্থক্য, 2 বা 3 এর একটি কারণ।

আপনি যখন এই জাতীয় মডেলগুলির "ভুল" হওয়ার কথা বলছেন তখন আপনাকে লক্ষ্যটি অনুমান করা (ডান) বা ভবিষ্যদ্বাণী (ভুল) কিনা সেদিকে মনোযোগ দিতে হবে। এটি মামলার ফলাফলের অনুপাতকেও সম্বোধন করে। আপনি এই বিষয়টির চারপাশে যে ভাষাটি দেখতে চান তা হ'ল এই জাতীয় গবেষণাকে "কেস কন্ট্রোল" অধ্যয়ন বলা, যা সম্পর্কে ব্যাপকভাবে লেখা হয়েছে। সম্ভবত বিষয়টিতে আমার প্রিয় প্রকাশনা হ'ল ব্র্রেস্লো এবং ডে যা ক্যান্সারের বিরল কারণগুলির জন্য ঘটনাক্রমে ঝুঁকির কারণ হিসাবে চিহ্নিত হয়েছিল (ঘটনাগুলির বিরলতার কারণে পূর্বে অক্ষম)। কেস কন্ট্রোল স্টাডিজ অনুসন্ধানগুলির ঘন ঘন ভুল ব্যাখ্যার আশেপাশে কিছু বিতর্ক সৃষ্টি করে: বিশেষত আরআর (বিআরএন্ডিং অনুসন্ধানগুলি) এর সাথে বিভক্ত হওয়া এবং নমুনা এবং জনসংখ্যার মধ্যস্থতাকারী হিসাবে "স্টাডি বেস" যা অনুসন্ধানগুলিকে বাড়িয়ে তোলে।তাদের একটি দুর্দান্ত সমালোচনা সরবরাহ করে। কোনও সমালোচক অবশ্য দাবি করেনি কেস-কন্ট্রোল স্টাডিজ সহজাতভাবে অবৈধ, মানে আপনি কীভাবে পারেন? তারা অসংখ্য সুযোগে জনস্বাস্থ্য উন্নত করেছে। মিটেনেনের নিবন্ধটি উল্লেখ করে বলা যায় যে, আপনি এমনকি নির্ভরশীল ঝুঁকিপূর্ণ মডেলগুলি বা ফলাফলগুলি নির্ভরশীল নমুনায় অন্যান্য মডেলগুলি ব্যবহার করতে পারেন এবং ফলাফল এবং জনসংখ্যার স্তরের সন্ধানের মধ্যে বেশিরভাগ ক্ষেত্রে পার্থক্য বর্ণনা করতে পারেন: এটি সাধারণত খারাপ নয় কারণ সাধারণত একটি শক্ত পরামিতি ব্যাখ্যা করা.

ঝুঁকি পূর্বাভাসে ওভারস্যাম্পলিং পক্ষপাত কাটিয়ে ওঠার সম্ভবত সেরা ও সহজ উপায় হ'ল ভারযুক্ত সম্ভাবনা ব্যবহার করে। স্কট এবং ওয়াইল্ড ওজন নিয়ে আলোচনা করে এটি দেখান যে ইন্টারসেপ্ট শব্দটি এবং মডেলের ঝুঁকি পূর্বাভাসগুলি সংশোধন করে। জনসংখ্যার মামলার অনুপাত সম্পর্কে অগ্রাধিকার সম্পর্কে জ্ঞান থাকলে এটিই সেরা উপায় । যদি ফলাফলটির প্রকোপটি আসলে 1: 100 হয় এবং আপনি 1: 1 ফ্যাশনে নিয়ন্ত্রণের ক্ষেত্রে কেস নমুনা করেন, জনসংখ্যার ধারাবাহিক পরামিতি এবং নিরপেক্ষ ঝুঁকি পূর্বাভাসগুলি পেতে আপনি কেবলমাত্র 100 এর মাত্রা দ্বারা ওজন নিয়ন্ত্রণ করেন। এই পদ্ধতির ক্ষতিটি হ'ল এটি অন্য কোথাও ত্রুটির সাথে অনুমান করা হলে জনসংখ্যার বিস্তারের অনিশ্চয়তার জন্য দায়বদ্ধ নয়। এটি লম্পলি এবং ব্র্রেসো মুক্ত গবেষণার একটি বিশাল ক্ষেত্রদুটি পর্যায়ের নমুনা এবং দ্বিগুণ শক্তিশালী অনুমানকারী সম্পর্কে কিছু তত্ত্ব নিয়ে খুব এগিয়ে এসেছিল। আমি মনে করি এটি অত্যন্ত আকর্ষণীয় জিনিস stuff জেলিগের প্রোগ্রামটি কেবল ওজন বৈশিষ্ট্যটির বাস্তবায়ন বলে মনে হচ্ছে (যা আর এর গ্ল্যাম ফাংশন ওজনকে মঞ্জুরি দেয় বলে কিছুটা অপ্রয়োজনীয় বলে মনে হয়)।


(+1) সাধারণ কেস-নিয়ন্ত্রণের নমুনার জন্য ইন্টারসেপ্ট সামঞ্জস্য করার সবচেয়ে সহজ উপায় হিসাবে পূর্বের সংশোধন কি উল্লেখযোগ্য?
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

@ স্কোর্টচি আপনি কি বায়েশিয়ার লজিস্টিক রিগ্রেশনটিকে ইন্টেসেপ্টের আগে কোনও তথ্যবহুল দিয়ে বোঝাতে চান? বা সীমাবদ্ধ অপ্টিমাইজেশন? আমি আসলে কি হতে পারে তার সাথে পরিচিত নই।
অ্যাডমো

1
এখানে কেবল সাধারণ গণনা: stats.stackexchange.com/a/68726/17230 । (আমি এখন এই বিষয়টি সম্পর্কে নিশ্চিত নই যে আমি কোথায় এই পরিভাষাটি গ্রহণ করেছি বা এটি কতটা মানিক)) আমি শুনেছি ভুল-নির্দিষ্ট মডেলগুলির জন্য ওজন আরও ভাল কাজ করে।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

@ স্কার্টচি আহ, এটি বেশ সহজ হবে! ততক্ষণ ত্রুটি অনুমানের প্রয়োজন হয় না হিসাবে এটি পূর্বাভাসের জন্য ঠিক থাকতে হবে। ওজন আপনাকে ইন্টারসেপ্ট এবং opeালের জন্য আলাদা এসই দেবে তবে এই পদ্ধতিটি কোনওটিই প্রভাব ফেলবে না।
অ্যাডমো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.