শতাংশের তুলনায় একটি রৈখিক মডেল তৈরি করছেন?


20

মনে করুন আমি কোনও ধরণের অনুপাত বা শতাংশের পূর্বাভাস দেওয়ার জন্য একটি মডেল তৈরি করতে চাই। উদাহরণস্বরূপ, আসুন আমি বলি যে আমি কোন পার্টিতে অংশ নেবে এমন ছেলেদের তুলনায় বনামের সংখ্যা সম্পর্কে ভবিষ্যদ্বাণী করতে চাই এবং মডেলটিতে আমি যে পার্টির বৈশিষ্ট্যগুলি ব্যবহার করতে পারি সেগুলি পার্টির জন্য বিজ্ঞাপনের পরিমাণ, ভেন্যুর আকার, সেখানে কিনা things পার্টিতে যে কোনও অ্যালকোহল থাকবে etc. ইত্যাদি (এটি কেবল একটি তৈরির উদাহরণ the

আমার প্রশ্নটি: একটি অনুপাত বনাম শতাংশের পূর্বাভাস দেওয়ার মধ্যে পার্থক্য কী এবং আমি যে মডেলটি পছন্দ করি তার উপর নির্ভর করে কীভাবে আমার মডেল পরিবর্তন হবে? এক অন্য চেয়ে ভাল? অন্য কারও কারও কারও কারও চেয়ে ভালো? (অনুপাতের তুলনায় শতাংশের নির্দিষ্ট সংখ্যা সম্পর্কে আমি সত্যিই মাথা ঘামাই না; আমি কেবল চিহ্নিত করতে সক্ষম হতে চাই যে কোন দলগুলিতে "বয় পার্টি" বনাম "গার্ল পার্টি" হওয়ার সম্ভাবনা বেশি বেশি।) উদাহরণস্বরূপ, আমি চিন্তা:

  • যদি আমি শতাংশের পূর্বাভাস দিতে চাই (বলুন, # boys / (# boys + # girls)তবে যেহেতু আমার নির্ভরশীল বৈশিষ্ট্যটি 0 থেকে 1 এর মধ্যে সীমাবদ্ধ তাই আমার সম্ভবত লিনিয়ার রিগ্রেশনের পরিবর্তে লজিস্টিক রিগ্রেশন জাতীয় কিছু ব্যবহার করা উচিত)।
  • যদি আমি অনুপাতের পূর্বাভাস দিতে চাই (বলে, # boys / # girlsবা # boys / (1 + # girls)শূন্যের ত্রুটি বিভাজনগুলি এড়ানোর জন্য), তবে আমার নির্ভরশীল বৈশিষ্ট্যটি ইতিবাচক, সুতরাং আমি কি লিনিয়ার রিগ্রেশন ব্যবহারের আগে সম্ভবত কোনও ধরণের (লগ?) রূপান্তর প্রয়োগ করব? (বা অন্য কোনও মডেল? ধনাত্মক, অ-গণনা ডেটার জন্য কোন ধরণের রিগ্রেশন মডেল ব্যবহার করা হয়?)
  • অনুপাতের পরিবর্তে শতাংশের পূর্বাভাস (বলা) আরও ভাল, এবং যদি তাই হয় তবে কেন?

আপনার নির্দিষ্ট অ্যাপ্লিকেশন এবং আপনি কী মডেল করার চেষ্টা করছেন তার উপর নির্ভর করে আপনার কম্পোজিশনাল ডেটা অ্যানালাইসিস ( en.wikedia.org/wiki/Compositional_data ) ব্যবহার করা উচিত ; বৈশিষ্ট্যগুলি (স্বতন্ত্র ভেরিয়েবল) unityক্যের সাথে মিলিত হওয়ার সময় কিছু সূক্ষ্ম বিষয় বিবেচনা করতে হবে। জন আইচিসনের কাজ দয়া করে দেখুন।
সিটিব্রাউন

উত্তর:


9

আমি এর আগে কখনও অনুপাতের জন্য কোনও রিগ্রেশন মডেল দেখিনি, তবে শতাংশের জন্য রিগ্রেশন (বা আরও সাধারণভাবে, একটি ভগ্নাংশ) বেশ সাধারণ। কারণটি হতে পারে যে কোনও ভগ্নাংশ বা সম্ভাবনার শর্তে সম্ভাবনা (আপনার পরামিতি প্রদত্ত ডেটার সম্ভাবনা) লিখতে সহজ : প্রতিটি উপাদানগুলির (বনাম ) বিভাগে থাকার সম্ভাবনা । হিসেব তারপর আনুমানিক ভগ্নাংশ।পিএকজনবিপি

তবে দ্রষ্টব্য: ভগ্নাংশের জন্য রৈখিক মডেল তৈরি করা মানসম্মত নয় ; আরও সাধারণ হ'ল একটি জেনারাইজড লিনিয়ার মডেল , যা একটি বিভাজক, ননলাইনার 'লিংক' ফাংশন সহ লিনিয়ার মডেল যা পছন্দসই মডেলের পরিসর (এখানে ) নিয়ন্ত্রণ করে।[0,1]

ভগ্নাংশের জন্য সর্বাধিক সাধারণ মডেলটি (যেমন আপনি উল্লেখ করেছেন) লজিস্টিক রিগ্রেশন, যা আপনাকে আসল লাইনে রেজিস্ট্রারগুলি ব্যবহার করতে দেয় তবে [0,1] লাইভ করার জন্য একটি ভগ্নাংশ বাধা দেয়। তবে লজিস্টিক রিগ্রেশন প্রযুক্তিগতভাবে বাইনারি ডেটার জন্য একটি মডেল, যার অর্থ আপনি কয়েকটি ইভেন্টের ধারাবাহিক পর্যবেক্ষণ করেন যেখানে প্রতিটি ইনপুট (স্বতন্ত্র ভেরিয়েবলগুলির সেট) বা এর একটি স্বাধীন পর্যবেক্ষণ উত্পন্ন করে । আপনার জনসংখ্যাকে মাত্র দুটি পৃথক শ্রেণিতে বিভক্ত করা হয়েছে (যেমন, এবং জনসংখ্যার প্রতিটি সদস্যের জন্য আপনার পৃথক রেজিস্ট্রার নেই), আপনি দ্বিপদী রিগ্রেশন চাইবেন । 01

বলা হচ্ছে, অনুপাতের জন্য আপনাকে সাধারণত জেনারেলাইজড লিনিয়ার মডেল (জিএলএম) লিখতে বাধা দেওয়ার কিছুই নেই। (লজিস্টিক এবং দ্বিপদী রিগ্রেশন এছাড়াও জিএলএম)) আপনাকে ইনপুট স্পেস থেকে সম্ভাব্য অনুপাতের (যেমন, ) স্পেসে ম্যাপিং একটি ফাংশন বাছাই করতে হবে , তারপরে ফলাফল অনুপাতের ক্ষেত্রে আপনার সম্ভাবনাটি লিখুন।লগ


15

প্রথম উত্তর প্রতিধ্বনিত। রূপান্তর করতে বিরক্ত করবেন না - কেবল গণনা এবং covariates সরাসরি মডেল করুন।

যদি আপনি এটি করেন এবং ছেলে মেয়েটির কাছে দ্বিপদী (বা সমানভাবে লজিস্টিক) রিগ্রেশন মডেল ফিট করেন তবে আপনি যদি এই জাতীয় মডেলগুলির জন্য সাধারণ লিঙ্ক ফাংশনটি চয়ন করেন তবে স্পষ্টতই ইতিমধ্যে মেয়েদের কাছে ছেলেদের (কোভেরিয়েট স্মুথড লগড) অনুপাত ফিট করা হবে। এটি লিনিয়ার প্রেডিকটার।

অনুপাত বা অনুপাতের চেয়ে সরাসরি মডেল গণনা করার প্রাথমিক কারণ হ'ল আপনি তথ্য হারাবেন না। স্বতঃস্ফূর্তভাবে আপনি 1 (ছেলেদের থেকে মেয়েদের) একটি পর্যবেক্ষণ অনুপাতের তুলনায় অনেক বেশি আত্মবিশ্বাসী হবেন যদি এটি 2 এবং 2 না দেখে 100 ছেলে এবং 100 মেয়েকে দেখে আসে তবে ফলস্বরূপ, আপনার যদি কোভেরিয়েরেট থাকে তবে আপনার আরও কিছু হবে তাদের প্রভাবগুলি সম্পর্কিত তথ্য এবং সম্ভাব্যত আরও ভাল ভবিষ্যদ্বাণীমূলক মডেল।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.