লিনিয়ার রিগ্রেশন যখন ওয়াই আবদ্ধ এবং বিচ্ছিন্ন থাকে


14

প্রশ্নটি সোজাসুজি: ওয়াইয়ের সাথে আবদ্ধ এবং বিযুক্ত হয়ে গেলে লিনিয়ার রিগ্রেশন ব্যবহার করা কি উপযুক্ত (যেমন পরীক্ষার স্কোর 1 ~ 100, কিছু প্রাক-সংজ্ঞায়িত র‌্যাঙ্কিং 1 ~ 17)? এই ক্ষেত্রে, লিনিয়ার রিগ্রেশন ব্যবহার করা কি "ভাল নয়", বা এটি ব্যবহার করা সম্পূর্ণ ভুল?

উত্তর:


10

যখন কোনও প্রতিক্রিয়া বা ফলাফল সীমাবদ্ধ থাকে, নীচে মডেলকে ফিট করার ক্ষেত্রে বিভিন্ন প্রশ্ন দেখা দেয়: Y

  1. যে কোনও মডেল যা এই সীমার বাইরে প্রতিক্রিয়ার জন্য মানগুলির পূর্বাভাস দিতে পারে তা নীতিগতভাবে সন্দেহজনক। অত: পর একটি রৈখিক মডেল সমস্যাযুক্ত হিসাবে সেখানে কোনো সীমার মধ্যে রাখার হয় হতে পারে ভবিষ্যতবক্তা জন্য এবং কোফিসিয়েন্টস যখনই নিজেদের এক বা উভয় নির্দেশাবলী মধ্যে সীমাবদ্ধ আছে। যাইহোক, সম্পর্কটি কামড় না দেওয়ার জন্য যথেষ্ট দুর্বল হতে পারে এবং / বা ভবিষ্যদ্বাণীগুলি ভবিষ্যদ্বাণীকারীদের পর্যবেক্ষণ বা প্রশংসনীয় পরিসীমা ছাড়িয়ে যেতে পারে। একটি চূড়ান্তভাবে, যদি প্রতিক্রিয়াটি কিছুটা শব্দ হয় তবে এটি কোন মডেলের ফিট করে তা খুব কমই গুরুত্ব দেয় ।Y^=XbXbX+

  2. যেহেতু প্রতিক্রিয়া তার সীমা অতিক্রম করতে পারে না, একটি অনৈখিক সম্পর্ক প্রায়শই ভবিষ্যদ্বাণীিত প্রতিক্রিয়াগুলির সাথে অ্যাসেম্পোটোটিকভাবে সীমার কাছে যাওয়ার জন্য বন্ধুত্বপূর্ণ হয়। সিগময়েড কার্ভস বা পৃষ্ঠসমূহ যেমন লজিট বা প্রবিট মডেলগুলির দ্বারা পূর্বাভাস দেওয়া এই ক্ষেত্রে আকর্ষণীয় এবং এখন ফিট করা খুব কঠিন নয়। সাক্ষরতার মতো প্রতিক্রিয়া (বা ভগ্নাংশটি কোনও নতুন ধারণা গ্রহণ করে) প্রায়শই সময় এবং নির্দ্বিধায় প্রায় কোনও ভবিষ্যদ্বাণীকের সাথে এই জাতীয় সিগময়েড বক্ররেখা দেখায়।

  3. একটি সীমাবদ্ধ প্রতিক্রিয়াতে প্লেইন বা ভ্যানিলা রিগ্রেশনটিতে প্রত্যাশিত বৈকল্পিক বৈশিষ্ট্য থাকতে পারে না। প্রয়োজনীয়ভাবে গড় প্রতিক্রিয়া নিম্ন এবং উপরের সীমার কাছে যাওয়ার সাথে, বৈকল্পিকটি সর্বদা শূন্যের কাছে পৌঁছায়।

অন্তর্নিহিত উত্পাদনের প্রক্রিয়াটি কী কাজ করে এবং জ্ঞান অনুসারে একটি মডেল চয়ন করা উচিত। ক্লায়েন্ট বা শ্রোতা নির্দিষ্ট মডেল পরিবারগুলির সম্পর্কে জানে কিনা তা অনুশীলনেও গাইড করতে পারে।

নোট করুন যে আমি ইচ্ছাকৃত কম্বল রায়গুলি যেমন ভাল / ভাল নয়, উপযুক্ত / উপযুক্ত নয়, সঠিক / ভুল হিসাবে এড়িয়ে চলেছি। সমস্ত মডেল সর্বোত্তমভাবে অনুমান এবং যা অনুমানের আবেদন, বা একটি প্রকল্পের জন্য যথেষ্ট ভাল, ভবিষ্যদ্বাণী করা এত সহজ নয়। আমি সাধারণত আবদ্ধ প্রতিক্রিয়াগুলির জন্য প্রথম পছন্দ হিসাবে লগইট মডেলগুলির পক্ষে থাকি, তবে এমনকি সেই পছন্দটিও আংশিকভাবে অভ্যাসের উপর ভিত্তি করে থাকে (উদাহরণস্বরূপ আমার খুব ভাল কারণ ছাড়াই প্রবিট মডেলগুলি এড়ানো) এবং আংশিকভাবে যেখানে আমি ফলাফলগুলি রিপোর্ট করব, সাধারণত পাঠকদের কাছে যা, পরিসংখ্যানগতভাবে ভাল অবহিত করা উচিত।

আপনার পৃথক আকারের স্কেলের উদাহরণগুলি 1-100 স্কোরের জন্য (আমি যে অ্যাসাইনমেন্টগুলিতে চিহ্নিত করি, 0 অবশ্যই সম্ভব!) বা র‌্যাঙ্কিং 1-17। এর মতো স্কেলগুলির জন্য, আমি সাধারণত [0, 1] এর আকারের প্রতিক্রিয়াগুলিতে ফিট করে অবিচ্ছিন্ন মডেলগুলির বিষয়ে চিন্তা করব। তবে, অর্ডিনাল রিগ্রেশন মডেলগুলির অনুশীলনকারীরা আছেন যারা আনন্দের সাথে এই জাতীয় মডেলগুলিকে মোটামুটি বিপুল সংখ্যক বিচ্ছিন্ন মানগুলির সাথে আঁশগুলিতে ফিট করে। তারা যদি খুব মনোযোগী হয় তবে তারা জবাব দিলে আমি খুশি।


8

আমি স্বাস্থ্যসেবা গবেষণায় কাজ করি। আমরা রোগীর-প্রতিবেদনিত ফলাফলগুলি সংগ্রহ করি, যেমন শারীরিক ক্রিয়া বা হতাশাজনক লক্ষণগুলি এবং এগুলি আপনার উল্লিখিত বিন্যাসে প্রায়শই স্কোর করা হয়: স্কেলের সমস্ত পৃথক প্রশ্নের সংক্ষিপ্তসার করে 0 থেকে N স্কেল উত্পন্ন।

আমি যে সাহিত্যের পর্যালোচনা করেছি তার সিংহভাগ সবেমাত্র একটি রৈখিক মডেল ব্যবহার করেছেন (বা ডেটা পুনরাবৃত্তি পর্যবেক্ষণ থেকে স্টেম যদি শ্রেণিবদ্ধ লিনিয়ার মডেল)। আমি এখনও কেউ (নিকটবর্তী) লজিট মডেলের জন্য @ নিককক্সের পরামর্শ ব্যবহার করতে দেখেছি, যদিও এটি নিখুঁতভাবে প্রশংসনীয় মডেল।

আইটেম প্রতিক্রিয়া তত্ত্ব প্রয়োগ করার জন্য আমাকে অন্য একটি কল্পনাযোগ্য পরিসংখ্যানের মডেল হিসাবে আঘাত করে। এখানেই আপনি কিছু সুপ্ত বৈশিষ্ট্য ধরে নিয়েছেন লজিস্টিক বা অর্ডারযুক্ত লজিস্টিক মডেল ব্যবহার করে প্রশ্নের প্রতিক্রিয়া সৃষ্টি করে। এই নিকট উত্থাপিত সীমাবদ্ধতা এবং সম্ভাব্য অ-লৈখিকতার বিষয়গুলি সহজাতভাবে পরিচালনা করে।θ

নীচের গ্রাফটি আমার আসন্ন গবেষণামূলক কাজ থেকে উদ্ভূত হয়েছে। আমি এখানেই লিনিয়ার মডেল (লাল) কে ডিপ্রেশনাল লক্ষণ প্রশ্ন স্কোরের সাথে ফিট করে যা জেড স্কোরগুলিতে রূপান্তরিত করেছি, এবং একই প্রশ্নগুলিতে নীল রঙে একটি (ব্যাখ্যামূলক) আইআরটি মডেল। মূলত, উভয় মডেলের সহগগুলি একই স্কেল (মানে স্ট্যান্ডার্ড বিচ্যুতিতে) are সহগের আকারের ক্ষেত্রে আসলে বেশ কয়েকটি চুক্তি রয়েছে। নিক যেমন চিহ্নিত করেছেন, সমস্ত মডেল ভুল wrong তবে লিনিয়ার মডেলটি ব্যবহার করা খুব বেশি ভুল হতে পারে না।

এখানে চিত্র বর্ণনা লিখুন

এটি বলেছিল যে প্রায় সমস্ত বর্তমান আইআরটি মডেলগুলির একটি মৌলিক অনুমান হ'ল প্রশ্নটির বৈশিষ্ট্য দ্বিপদী, অর্থাত্ এর সমর্থনটি to । হতাশাজনক লক্ষণগুলির ক্ষেত্রে এটি সম্ভবত সত্য নয়। একবিচ্ছিন্ন সুপ্ত বৈশিষ্ট্যের মডেলগুলি এখনও বিকাশের অধীনে রয়েছে এবং মানক সফ্টওয়্যার এগুলি মানায় না। স্বাস্থ্যসেবা গবেষণার অনেকগুলি বৈশিষ্ট্য যা আমরা আগ্রহী তা সম্ভবত একতরফা হতে পারে, যেমন: হতাশাজনক লক্ষণগুলি, সাইকোপ্যাথোলজির অন্যান্য দিকগুলি, রোগীর সন্তুষ্টি। সুতরাং আইআরটি মডেলটিও ভুল হতে পারে।

(দ্রষ্টব্য: মডেল উপরে ছিল হইয়া usint ফিল Chalmers, ' mirtআর গ্রাফে প্যাকেজ ব্যবহার করে উত্পাদিত ggplot2এবং ggthemesরঙ স্কিম Stata ডিফল্ট বর্ণবিন্যাস থেকে স্বপক্ষে।।)


6
কেবলমাত্র লিনিয়ার মডেলগুলি ব্যাপকভাবে ব্যবহৃত হয়, তার মানে এই নয় যে তারা উপযুক্ত। অনেকে লিনিয়ার মডেল ব্যবহার করেন কারণ এটি কেবল তারা জানেন বা এতে আরামদায়ক হন।
Qwr

1
চিকিত্সা সাহিত্য বিশেষত দুর্বল অনুশীলনের সাথে ছড়িয়ে পড়ে যা "এই ক্ষেত্র / জার্নাল এটাই করে" টাইপ ধারণাবিদ্যা দ্বারা প্রচারিত। একটি সাধারণ নিয়ম হিসাবে, আমি চিকিত্সা গবেষণায় সাধারণত উপস্থিতি দেখা গেলেও কিছু ব্যবহার করতে বা ব্যর্থ করব না।
এলএসসি

1

পূর্বাভাসিত মানগুলি একবার দেখুন এবং পরীক্ষা করুন যে তারাগুলির মূল ওয়াইগুলির মতো প্রায় একই বিতরণ আছে। যদি এটি হয় তবে লিনিয়ার রিগ্রেশন সম্ভবত ঠিক আছে। এবং আপনি আপনার মডেল উন্নতি করে সামান্য লাভ করবে।


1

একটি লিনিয়ার রিগ্রেশন এই জাতীয় ডেটা "পর্যাপ্তরূপে" বর্ণনা করতে পারে তবে এটি অসম্ভব। রৈখিক প্রতিরোধের অনেক অনুমান এই ধরণের ডেটাতে এমন একটি ডিগ্রীতে লঙ্ঘিত হয় যে লিনিয়ার রিগ্রেশন অসুস্থ-পরামর্শে পরিণত হয়। আমি উদাহরণ হিসাবে কয়েকটি অনুমান বেছে নেব,

  1. সাধারণতা - এমনকি এই জাতীয় ডেটার স্বতন্ত্রতা উপেক্ষা করেও, এই জাতীয় ডেটা স্বাভাবিকতার চরম লঙ্ঘন প্রদর্শন করে কারণ বিতরণগুলি সীমানা দ্বারা "কাটা" হয় "
  2. হোমোসেসডেস্টিটি - এই জাতীয় ডেটা সমকামিতা লঙ্ঘন করে। প্রান্তগুলির তুলনায় প্রকৃত গড়টি পরিসরের কেন্দ্রের দিকে থাকলে ভেরিয়েন্সগুলি বৃহত্তর হয়।
  3. লিনিয়ারিটি - যেহেতু Y এর ব্যাপ্তি সীমাবদ্ধ তাই অনুমানটি স্বয়ংক্রিয়ভাবে লঙ্ঘিত হয়।

এই ধারনাগুলির লঙ্ঘন হ্রাস করা হয় যদি ডেটাটি প্রান্ত থেকে দূরে সীমাটির কেন্দ্রস্থলে পড়ে around তবে সত্যই, লিনিয়ার রিগ্রেশন হ'ল এই জাতীয় ডেটার অনুকূল সরঞ্জাম নয়। আরও ভাল বিকল্প হতে পারে দ্বিপদী রিগ্রেশন, বা পোয়েসন রিগ্রেশন।


2
পিসন রিগ্রেশন দ্বিগুণ সীমাবদ্ধ প্রতিক্রিয়াগুলির জন্য প্রার্থী তা দেখা শক্ত।
নিক কক্স

0

যদি প্রতিক্রিয়াটি কেবল কয়েকটি বিভাগে নিয়ে যায়, তবে আপনার প্রতিক্রিয়া পরিবর্তনশীল যদি সাধারণ হয় তবে আপনি শ্রেণিবদ্ধকরণ পদ্ধতি বা অর্ডিনাল রিগ্রেশন ব্যবহার করতে সক্ষম হতে পারেন ।

সরল লিনিয়ার রিগ্রেশন আপনাকে বিচ্ছিন্ন বিভাগ বা সীমিত প্রতিক্রিয়া ভেরিয়েবল দেয় না। লজিস্টিক রিগ্রেশন এর মতো লগিট মডেল ব্যবহার করে পরবর্তীগুলি স্থির করা যায়। 100 ক্যাটাগরির 1-100 সহ পরীক্ষার স্কোরের মতো কোনও কিছুর জন্য আপনি নিজের ভবিষ্যদ্বাণীটি আরও সহজ করতে পারেন এবং একটি সীমাবদ্ধ প্রতিক্রিয়ার পরিবর্তনশীল ব্যবহার করতে পারেন।


0

একটি সিডিএফ ব্যবহার করুন (পরিসংখ্যান থেকে ক্রমবর্ধমান বিতরণ ফাংশন)। যদি আপনার মডেলটি y = xb + e হয় তবে এটিকে y = cdf (xb + e) ​​এ পরিবর্তন করুন। 0 এবং 1 এর মধ্যে পড়তে আপনাকে আপনার নির্ভরশীল ভেরিয়েবল ডেটা পুনরুদ্ধার করতে হবে যদি এটি ইতিবাচক সংখ্যা হয় তবে তাদের দ্বারা সর্বাধিক ভাগ করুন এবং আপনার মডেলের পূর্বাভাসগুলি নিন এবং একই সংখ্যাটি দিয়ে গুণ করুন। তারপরে ফিট পরীক্ষা করে দেখুন এবং সীমাবদ্ধ ভবিষ্যদ্বাণীগুলি জিনিসগুলিতে উন্নতি করে কিনা তা দেখুন।

আপনার পক্ষে পরিসংখ্যানগুলির যত্ন নিতে আপনি সম্ভবত একটি ক্যানড অ্যালগরিদম ব্যবহার করতে চান।


1
এটি দুটি সত্যকে বিভ্রান্ত করে বলে মনে হচ্ছে: (1) সীমিত প্রতিক্রিয়াগুলি লজিট, প্রবিট এবং অনুরূপ মডেলগুলি প্রয়োগ করতে (2) সিডিএফ-এর জন্য 0 এবং 1 এর মধ্যেও পৃথক হতে হবে, যেমন একটি ভগ্নাংশের প্রতিক্রিয়ার চিকিত্সা করার ক্ষেত্রে, আপনি আর এর সিডিএফ মডেলিং করবেন না।
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.