লিনিয়ার রিগ্রেশন-এ শতাংশের ফলাফল ব্যবহারে সমস্যাগুলি কী?


11

আমার একটি গবেষণা রয়েছে যেখানে অনেকগুলি ফলাফল শতাংশের মতো উপস্থাপিত হয় এবং আমি এই ফলাফলগুলিতে কিছু শ্রেণিবদ্ধ ভেরিয়েবলের প্রভাব মূল্যায়নের জন্য একাধিক লিনিয়ার রিগ্রেশন ব্যবহার করছি।

আমি ভাবছিলাম, যেহেতু একটি লিনিয়ার রিগ্রেশন ধরে নিচ্ছে যে ফলাফলটি একটি ধারাবাহিক বিতরণ, সুতরাং এই জাতীয় মডেলটি শতাংশে প্রয়োগ করার ক্ষেত্রে কি পদ্ধতিগত সমস্যা আছে, যা 0 থেকে 100 এর মধ্যে সীমাবদ্ধ?


1
এই শতাংশগুলি কি অবিচ্ছিন্ন (উদাহরণস্বরূপ দুধে ক্রিমের শতাংশের মতো), বা পৃথক (দ্বিপদী অনুপাতের মতো, মোট গণনার বাইরে কোনও বিভাগে একটি গণনা)?
গ্লেন_বি -রিনস্টেট মনিকা

1
আহ ... আমি পার্থক্য পাই না তারা দুজন কি একটানা না? যাইহোক আমি মনে করি দ্বিতীয়টি আমার ডেটা আরও ভালভাবে বর্ণনা করে, যেহেতু আমরা মোটামুটি লোকের কথা বলছি।
বাকাবুরগ

গণনা দ্বারা বিভক্ত গণনার বিতরণ অবশ্যই বিযুক্ত। প্রকৃতপক্ষে, অঙ্কটি সাধারণত দ্বিপদী হিসাবে মডেল করা হয়, ডিনোমিনেটর শর্তযুক্ত (ধ্রুবক হিসাবে বিবেচিত) হয়, সুতরাং অনুপাতটি সাধারণত একটি মাপকাঠি দ্বিপদী হিসাবে গণ্য হয়। যাইহোক, ডিনোমিনেটর অন্যথায় এলোমেলো পরিবর্তনশীল হলেও তার অনুপাতের স্থানটি গণনাযোগ্য
হওয়ায় অনুপাতটি

উত্তর:


17

আমি বিচ্ছিন্ন বা অবিচ্ছিন্ন সম্ভাবনার সাথে সম্পর্কিত বিষয়গুলি সমাধান করব:

  1. গড়ের বর্ণনা সহ একটি সমস্যা

    আপনার একটি সীমাবদ্ধ প্রতিক্রিয়া আছে। তবে আপনি যে মডেলটিকে ফিট করছেন তা আবদ্ধ নয়, এবং ঠিক আবদ্ধ হয়েই এটি বিস্ফোরিত হতে পারে; আপনার লাগানো মানগুলির মধ্যে কিছু অসম্ভব হতে পারে এবং ভবিষ্যদ্বাণী করা মানগুলি অবশেষে অবশ্যই হবে।

    সীমানার কাছে যাওয়ার সাথে সাথে সত্যিকারের সম্পর্কটি মাঝের চেয়ে চুপচাপ হয়ে উঠতে হবে, তাই এটি কোনও ফ্যাশনে বাঁকানো আশা করা যায়।

  2. বৈকল্পিকের বর্ণনায় একটি সমস্যা

    গড়ের সীমাটি কাছে যাওয়ার সাথে সাথে বৈকল্পিকতা হ্রাস পাবে এবং অন্যান্য জিনিস সমান হবে। গড় এবং বাউন্ডের মধ্যে কম জায়গা রয়েছে, সুতরাং সামগ্রিক পরিবর্তনশীলতা হ্রাস পেতে থাকে (অন্যথায় গড়টি সীমাটির কাছাকাছি না থাকলেও গড়ে আরও বেশি দূরে থাকায় পয়েন্টগুলি দ্বারা সীমা থেকে দূরে টানা থাকে।

(প্রকৃতপক্ষে, যদি কোনও আশেপাশের সমস্ত জনসংখ্যার মানগুলি ঠিক আবদ্ধ হয়, তবে তারতম্যটি শূন্য হত))

এমন একটি মডেল যা এই ধরনের সীমাবদ্ধতার সাথে ডিল করে তাদের এই জাতীয় প্রভাবগুলি বিবেচনায় নেওয়া উচিত।

যদি অনুপাতটি একটি কাউন্ট ভেরিয়েবলের জন্য হয়, অনুপাতের বিতরণের জন্য একটি সাধারণ মডেল হ'ল দ্বিপদী জিএলএম। গড় অনুপাত এবং ভবিষ্যদ্বাণীকারীদের সম্পর্কের ফর্মের জন্য বেশ কয়েকটি বিকল্প রয়েছে তবে সর্বাধিক সাধারণ হ'ল লজিস্টিক জিএলএম (অন্যান্য কয়েকটি পছন্দ সাধারণ ব্যবহারে রয়েছে)।

যদি অনুপাতটি অবিচ্ছিন্ন থাকে (দুধে ক্রিমের শতাংশের মতো), তবে অনেকগুলি বিকল্প রয়েছে। বিটা রিগ্রেশন মোটামুটি সাধারণ পছন্দ বলে মনে হচ্ছে। আবার এটি গড় এবং ভবিষ্যদ্বাণীকারীদের মধ্যে একটি লজিস্টিক সম্পর্ক ব্যবহার করতে পারে বা এটি অন্য কোনও কার্যকরী ফর্ম ব্যবহার করতে পারে।

আরও দেখুন 0 এবং 1 এর মধ্যে একটি ফলাফল (অনুপাত বা ভগ্নাংশ) জন্য রিগ্রেশন


1
+1 এবং আমি এই বিষয়টিতে সম্ভবত আমাদের "মাস্টার" থ্রেড হিসাবে দেখা যেতে পারে তার লিঙ্ক যুক্ত করার স্বাধীনতা নিয়েছিলাম (গুং এর উত্তর এছাড়াও বিটা এবং লজিস্টিক বিকল্পগুলি অন্তর্ভুক্ত করে)।
অ্যামিবা

2
একটি সাধারণ সাধারণ যুক্তি হ'ল যদি এর অর্থ 0 হয় তবে এটি কেবল তখনই সম্ভব যখন সমস্ত মান 0 হয় এবং একইভাবে 1 = 100% এবং সমস্ত মান 1 হয়। সুতরাং অনুপাতের উপর ভিত্তি করে নির্বিশেষে প্রকরণটি চূড়ান্ত 0 হতে হবে গণনা বা পরিমাপ। যদিও এটি সম্ভব যে সমস্ত অন্যান্য মান কিছু ধ্রুবক, বাস্তবে এটি খুব বিরল। সুতরাং 0 এবং 1 এর মধ্যে কিছু মানের জন্য বৈকল্পিকতা সর্বোচ্চ হবে
নিক কক্স

বর্ণিত 2 টি সমস্যার জন্য আপনি কি কিছু রেফারেন্স সরবরাহ করতে সক্ষম হবেন?
ব্যবহারকারী1607

3

ফলাফলটি 0 এবং 1 এর মধ্যে হওয়ার সময় এটি ঠিক একই জিনিস এবং সেই ক্ষেত্রে সাধারণত লজিস্টিক রিগ্রেশন জাতীয় জেনারেলাইজড লিনিয়ার মডেল (জিএলএম) দিয়ে পরিচালনা করা হয়। ইন্টারনেটে লজিস্টিক রিগ্রেশন (এবং অন্যান্য জিএলএম) এর জন্য প্রচুর দুর্দান্ত প্রাইমার রয়েছে এবং এই বিষয়টিতে অ্যাগ্র্রেস্টির একটি সুপরিচিত বইও রয়েছে।

বিটা রিগ্রেশন একটি কার্যক্ষম তবে আরও জটিল বিকল্প। সম্ভাবনা হ'ল লজিস্টিক রিগ্রেশন আপনার অ্যাপ্লিকেশনটির জন্য দুর্দান্ত কাজ করবে এবং সাধারণত বেশিরভাগ পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার দিয়ে প্রয়োগ করা সহজতর হবে।

সাধারণ ন্যূনতম স্কোয়ার রিগ্রেশন কেন ব্যবহার করবেন না? আসলে লোকেরা কখনও কখনও "লিনিয়ার সম্ভাব্যতা মডেল" (এলপিএম) নামে থাকে। এলপিএমগুলি "খারাপ" হওয়ার সর্বাধিক সুস্পষ্ট কারণ হ'ল ফলাফলকে নির্দিষ্ট সীমার মধ্যে থাকাতে সীমাবদ্ধ করার সহজ উপায় নেই এবং আপনি 1 (বা 100% বা অন্য কোনও সীমাবদ্ধ উপরের আবদ্ধ) এর উপরে এবং 0 (বা নীচের নীচে ভবিষ্যদ্বাণী পেতে পারেন) কিছু অন্যান্য নিম্ন আবদ্ধ)। একই কারণে, উপরের সীমানার নিকটবর্তী ভবিষ্যদ্বাণীগুলি নিয়মতান্ত্রিকভাবে খুব বেশি থাকে এবং নীচের গণ্ডির নিকটে ভবিষ্যদ্বাণীগুলি খুব কম থাকে। গণিতের অন্তর্নিহিত লিনিয়ার রিগ্রেশন স্পষ্টভাবে ধরে নেয় যে এর মতো প্রবণতাগুলির অস্তিত্ব নেই। লজিস্টিক রিগ্রেশনের চেয়ে সাধারণত কোনও এলপিএম ফিট করার কোনও দুর্দান্ত কারণ নেই।

একদিকে যেমন দেখা গেছে যে এলপিএম সহ সমস্ত ওএলএস রিগ্রেশন মডেলকে একটি বিশেষ ধরণের জিএলএম হিসাবে সংজ্ঞায়িত করা যেতে পারে এবং এই প্রসঙ্গে এলপিএমগুলি লজিস্টিক রিগ্রেশন সম্পর্কিত related


4
যদিও সামগ্রিকভাবে এই উত্তরটির বেশিরভাগ অংশ সার্থক মনে হচ্ছে তবে এতে কিছু ভুল তথ্য রয়েছে যা পাঠকদের বিভ্রান্ত করতে পারে। প্রথম অনুচ্ছেদে লজিস্টিক রিগ্রেশনের অ্যাকাউন্টটি লিনিয়ার রিগ্রেশন অনুসারে নির্ভরশীল ভেরিয়েবলের লগ-জাতীয় রূপান্তরের বর্ণনার মতো শোনাচ্ছে: এটি লজিস্টিক রিগ্রেশন নয়। সহগের ব্যাখ্যাটিও খুব একটা সঠিক নয়। "এলপিএম" এর সাথে আরও একটি গুরুত্বপূর্ণ সমস্যাটি হ'ল ডেটা যখন চূড়ান্ততার কাছাকাছি থাকে, তখন তারা সম্ভবত অবশিষ্টাংশগুলির অসম্পূর্ণ বিতরণ প্রদর্শন করে, যা আইগ্রীড অব ধারনার একটি গুরুত্বপূর্ণ লঙ্ঘন।
হোবার

আমি প্রতিকূল অনুপাত এবং এই জাতীয় মধ্যে পেতে উপযুক্ত মনে করি না। আমি কেবল সেই জিনিসগুলি সরিয়ে ফেলি এবং তারপরে ওপিকে এটি পড়তে দেওয়া হবে। অবশিষ্টাংশ সম্পর্কে ভাল পয়েন্ট।
শ্যাডট্যালকার

(+1) আপনার গঠনমূলক প্রতিক্রিয়ার জন্য আপনাকে ধন্যবাদ!
whuber

2

এটি বিটা রিগ্রেশন (যার জন্য আমি বুঝতে পেরেছি একটি আর প্যাকেজ রয়েছে) তদন্ত করার উপযুক্ত হতে পারে, যা এই জাতীয় সমস্যার পক্ষে উপযুক্ত বলে মনে হয়।

http://www.jstatsoft.org/v34/i02/paper


7
ফলাফলটি শতাংশ হওয়ার পরে লিনিয়ার রিগ্রেশন কেন ভোগ করে এমন কিছু প্রধান কারণগুলিতে আপনি যদি আঘাত করেন তবে আপনি উত্তর দিন আরও ভাল।
অ্যালেক্সিস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.