মনে করুন আমি কোনও ধরণের অনুপাত বা শতাংশের পূর্বাভাস দেওয়ার জন্য একটি মডেল তৈরি করতে চাই। উদাহরণস্বরূপ, আসুন আমি বলি যে আমি কোন পার্টিতে অংশ নেবে এমন ছেলেদের তুলনায় বনামের সংখ্যা সম্পর্কে ভবিষ্যদ্বাণী করতে চাই এবং মডেলটিতে আমি যে পার্টির বৈশিষ্ট্যগুলি ব্যবহার করতে পারি সেগুলি পার্টির জন্য বিজ্ঞাপনের পরিমাণ, ভেন্যুর আকার, সেখানে কিনা things পার্টিতে যে কোনও অ্যালকোহল থাকবে etc. ইত্যাদি (এটি কেবল একটি তৈরির উদাহরণ the
আমার প্রশ্নটি: একটি অনুপাত বনাম শতাংশের পূর্বাভাস দেওয়ার মধ্যে পার্থক্য কী এবং আমি যে মডেলটি পছন্দ করি তার উপর নির্ভর করে কীভাবে আমার মডেল পরিবর্তন হবে? এক অন্য চেয়ে ভাল? অন্য কারও কারও কারও কারও চেয়ে ভালো? (অনুপাতের তুলনায় শতাংশের নির্দিষ্ট সংখ্যা সম্পর্কে আমি সত্যিই মাথা ঘামাই না; আমি কেবল চিহ্নিত করতে সক্ষম হতে চাই যে কোন দলগুলিতে "বয় পার্টি" বনাম "গার্ল পার্টি" হওয়ার সম্ভাবনা বেশি বেশি।) উদাহরণস্বরূপ, আমি চিন্তা:
- যদি আমি শতাংশের পূর্বাভাস দিতে চাই (বলুন,
# boys / (# boys + # girls)
তবে যেহেতু আমার নির্ভরশীল বৈশিষ্ট্যটি 0 থেকে 1 এর মধ্যে সীমাবদ্ধ তাই আমার সম্ভবত লিনিয়ার রিগ্রেশনের পরিবর্তে লজিস্টিক রিগ্রেশন জাতীয় কিছু ব্যবহার করা উচিত)। - যদি আমি অনুপাতের পূর্বাভাস দিতে চাই (বলে,
# boys / # girls
বা# boys / (1 + # girls)
শূন্যের ত্রুটি বিভাজনগুলি এড়ানোর জন্য), তবে আমার নির্ভরশীল বৈশিষ্ট্যটি ইতিবাচক, সুতরাং আমি কি লিনিয়ার রিগ্রেশন ব্যবহারের আগে সম্ভবত কোনও ধরণের (লগ?) রূপান্তর প্রয়োগ করব? (বা অন্য কোনও মডেল? ধনাত্মক, অ-গণনা ডেটার জন্য কোন ধরণের রিগ্রেশন মডেল ব্যবহার করা হয়?) - অনুপাতের পরিবর্তে শতাংশের পূর্বাভাস (বলা) আরও ভাল, এবং যদি তাই হয় তবে কেন?