কোয়ান্টাইল রিগ্রেশনের তুলনায় লিনিয়ার রিগ্রেশন সুবিধা কী কী?


15

রৈখিক রিগ্রেশনের মডেল অনুমানের একটি গুচ্ছ করে নির্মিত হয় সমাংশক রিগ্রেশন এবং যদি রৈখিক নির্ভরণ অনুমানের পূরণ করা, তারপর আমার সংস্কার (এবং কিছু খুব সীমিত অভিজ্ঞতা) হল এই নয় যে মধ্যমা রিগ্রেশন রৈখিক রিগ্রেশনের প্রায় অভিন্ন ফলাফল দিতে হবে।

সুতরাং, লিনিয়ার রিগ্রেশন এর কি সুবিধা রয়েছে? এটি অবশ্যই আরও পরিচিত, তবে তা ছাড়া অন্য কিছু?


3
'বেশি পরিচিত' করার জন্য আমি 'ব্যাখ্যামূলকতা' এবং 'স্থিতিশীলতা' যুক্ত করব, তবে আমার জন্য রৈখিক প্রতিরোধের একটি সুবিধা হ'ল এটি আপনাকে গড়র সম্পর্কে কী বলে এবং এর অর্থ কীভাবে নমুনা জনসংখ্যার প্রতিনিধিত্ব করে (অবশিষ্টগুলি খুব তথ্যপূর্ণ) । লিনিয়ার রিগ্রেশন যেমন তার অনুমানগুলি পূরণ হয় এবং যখন তা পূরণ না হয় তখন ভাল মান থাকে has
জাস্টগেটিন স্টারটেড

5
আমি যুক্তি দিয়ে বলব যে এই দুটি থ্রেডে একটি গুরুত্বপূর্ণ বিষয় আলোচনা করা হয়েছে: stats.stackexchange.com/questions/153348/… এবং stats.stackexchange.com/questions/146077/… - দক্ষতা, এবং সম্ভবত কিছুটা এমনকি সর্বোত্তমতাও অনুমান
ক্রিস্টোফ হ্যাঙ্ক

1
আরও, তবে গৌণ, বিন্দু হিসাবে, কেউ সম্ভবত স্পষ্ট, বদ্ধ ফর্ম সমাধানগুলির সহজলভ্যতা যোগ করতে পারে যা জন্য উপলব্ধ নয়, বলুন, এলএডি, যা অনুশীলনকারীদের জন্য এই জাতীয় কৌশলগুলি কম আবেদন করতে পারে।
ক্রিস্টোফ হ্যাঙ্ক

1
একটি উত্তর একটি একক জনসংখ্যার প্যারামিটার অনুমানের সহজ ক্ষেত্রে তুলনা করার মতো হতে পারে, তারপরে দেখানো হয় যে গুশিয়ান ত্রুটিগুলির সাথে কমপক্ষে স্কোয়ার ত্রুটিগুলি আরও ভাল সম্পাদন করে এবং কমপক্ষে পরম অবশিষ্টাংশগুলি (অনুমানগুলিও ব্যবহার করে) বিভিন্ন ধরণের ত্রুটির জন্য আরও ভাল সম্পাদন করে। তবে, এই প্রশ্নটি আরও জটিল রৈখিক মডেল সম্পর্কে এবং সমস্যাটি আরও জটিল এবং বিস্তৃত হতে শুরু করে। সাধারণ সমস্যার অন্তর্নিহিততা (একক গড় / মধ্যম অনুমান করা) একটি বড় মডেলের জন্য কাজ করে, তবে এটি দ্বারা কতটা কাজ করা উচিত? এবং কীভাবে তুলনা করবেন, বিদেশী, বিতরণ, গণনার বিরুদ্ধে দৃust়তা?
সেক্সটাস এম্পেরিকাস

2
আমার ক্ষেত্রে, আমি প্রতিক্রিয়াশীল ভেরিয়েবল (উদাহরণস্বরূপ গ্রাহক ব্যয়) অকার্যকর হয়ে উঠলে এবং প্রযুক্তিগত রূপান্তর / লিংক-ফাংশন পদক্ষেপের প্রবর্তন পুরো বিশ্লেষণকে অস্পষ্ট করে দেয় এমন অ প্রযুক্তিগত লোকদের বোঝাতে কোয়ান্টাইল রিগ্রেশনটি আমি খুব ভাল পেয়েছি। সেই অর্থে আমি " মিডিয়ান রিগ্রেশন লিনিয়ার রিগ্রেশন হিসাবে প্রায় অভিন্ন ফলাফল দেবে " এই দৃ contest় প্রতিদ্বন্দ্বিতা করব কিছুটা ওভারসিম্লিফাইং হিসাবে; এটি সম্ভব হয় না, বিশেষত যখন সম্ভাব্য স্কিউড প্রতিক্রিয়ার ভেরিয়েবলগুলি নিয়ে কাজ করে।
usεr11852

উত্তর:


10

এটি প্রায়শই বলা হয়ে থাকে যে কমপক্ষে স্কোয়ার অবশিষ্টাংশকে ন্যূনতম করা একেবারে নিখুঁত অবশিষ্টাংশগুলিকে ন্যূনতম করার চেয়ে পছন্দ করা হয় কারণ এটি কম্পিউটারের তুলনায় সহজ । তবে, অন্যান্য কারণে এটি আরও ভাল হতে পারে। যথা, যদি অনুমানগুলি সত্য হয় (এবং এটি এতটা অস্বাভাবিক নয়) তবে এটি এমন একটি সমাধান সরবরাহ করে যা (গড়) আরও নির্ভুল।

সর্বাধিক সম্ভাবনা

স্বল্প স্কোয়ার রিগ্রেশন এবং কোয়ান্টাইল রিগ্রেশন (পরম অবশিষ্টাংশগুলি হ্রাস করে যখন করা হয়) গাউসিয়ান / ল্যাপ্লেস বিতরণ ত্রুটিগুলির সম্ভাবনা কার্যকে সর্বাধিকীকরণ হিসাবে দেখা যায় এবং এই অর্থে এটি খুব বেশি সম্পর্কিত।

  • গাউসীয় বিতরণ:

    f(x)=12πσ2e(xμ)22σ2

    বর্গাকার অবশিষ্টাংশের যোগফলকে কমিয়ে আনার সময় লগ-সম্ভাবনা সর্বাধিক করা যায়

    logL(x)=n2log(2π)nlog(σ)12σ2i=1n(xiμ)2sum of squared residuals

  • ফাঁক বিতরণ:

    f(x)=12be|xμ|b

    নিখুঁত অবশিষ্টাংশের যোগফলকে হ্রাস করার সময় লগ-সম্ভাবনা সর্বাধিক করা যায়

    logL(x)=nlog(2)nlog(b)1bi=1n|xiμ|sum of absolute residuals

দ্রষ্টব্য: ল্যাপ্লেস বিতরণ এবং নিখুঁত অবশিষ্টাংশগুলির যোগফল মধ্যকার সাথে সম্পর্কিত তবে এটি নেতিবাচক এবং ইতিবাচক অবশিষ্টাংশগুলিকে বিভিন্ন ওজন দিয়ে অন্য কোয়ান্টাইলগুলিতে সাধারণীকরণ করা যেতে পারে।

জ্ঞাত ত্রুটি বিতরণ

আমরা যখন ত্রুটি-বিতরণ জানি (যখন অনুমানগুলি সম্ভবত সত্য হয়) তখন সম্পর্কিত সম্ভাবনা ফাংশনটি চয়ন করা বোধগম্য হয়। এই ফাংশনটি হ্রাস করা আরও অনুকূল।

খুব প্রায়ই ত্রুটিগুলি প্রায় (প্রায়) সাধারণ বিতরণ করা হয়। যে ক্ষেত্রে লিস্ট স্কোয়ার ব্যবহার মাপদণ্ড এটি ভাল উপায় μ (যা সম্পর্কিত উভয় মিন ও মিডিয়ান)। এটি সবচেয়ে ভাল উপায় কারণ এতে সর্বনিম্ন নমুনা বৈকল্পিকতা রয়েছে (সমস্ত পক্ষপাতদুষ্ট অনুমানকারীদের মধ্যে সর্বনিম্ন )। অথবা আপনি আরও জোরালোভাবে বলতে পারেন: এটি কে স্টক্যাস্টিকালি বা অনির্দিষ্ট প্রভাবশালী (ইন চিত্রণ দেখতে এই প্রশ্নের নমুনা মধ্যমা বিতরণের এবং নমুনা গড় তুলনা)।

সুতরাং, যখন ত্রুটিগুলি স্বাভাবিক বিতরণ করা হয়, তখন নমুনা গড়টি নমুনার মধ্যকের চেয়ে বন্টন মিডিয়ানের আরও ভাল অনুমানকারী । সর্বনিম্ন স্কোয়ারের রিগ্রেশন কোয়ান্টাইলগুলির আরও অনুকূল অনুমানক। এটি সর্বনিম্ন অবশিষ্টাংশের সর্বনিম্ন যোগফল ব্যবহার করার চেয়ে ভাল।

কারণ এতগুলি সমস্যা সাধারণ বিতরণ ত্রুটিগুলির সাথে মোকাবিলা করে ন্যূনতম স্কোয়ার পদ্ধতির ব্যবহার খুব জনপ্রিয়। অন্যান্য ধরণের বিতরণগুলির সাথে কাজ করার জন্য কেউ জেনারেলাইজড লিনিয়ার মডেলটি ব্যবহার করতে পারেন । এবং, পুনরুদ্ধারযোগ্য ন্যূনতম স্কোয়ারগুলির পদ্ধতি, যা জিএলএমগুলি সমাধান করার জন্য ব্যবহার করা যেতে পারে, সেগুলি ল্যাপ্লেস বিতরণের জন্যও কাজ করে (যেমন নিখুঁত বিচ্যুতির জন্য ), যা মিডিয়ান (বা সাধারণ সংস্করণে অন্যান্য কোয়ান্টাইলগুলিতে) সন্ধানের সমতুল্য।

অজানা ত্রুটি বিতরণ

বলিষ্ঠতা

মিডিয়ান বা অন্যান্য কোয়ান্টাইলগুলির সুবিধা রয়েছে যে তারা বিতরণের ধরণের বিষয়ে খুব দৃ .়। প্রকৃত মানগুলি খুব বেশি গুরুত্ব দেয় না এবং কোয়ান্টাইলগুলি কেবল অর্ডারটি যত্ন করে। সুতরাং বিতরণটি যাই হোক না কেন, নিরঙ্কুশ অবশিষ্টগুলি (যা কোয়ান্টাইলগুলি সন্ধানের সমতুল্য) হ্রাস করা খুব ভালভাবে কাজ করছে।

প্রশ্নটি এখানে জটিল এবং বিস্তৃত হয়ে যায় এবং বিতরণ ফাংশন সম্পর্কে আমাদের কী ধরণের জ্ঞান আছে বা নেই তা নির্ভর করে। উদাহরণস্বরূপ, কোনও বিতরণ প্রায় সাধারণ বিতরণ হতে পারে তবে কেবলমাত্র কিছু অতিরিক্ত বিদেশী ers বাইরের মানগুলি মুছে ফেলে এটি মোকাবেলা করা যেতে পারে। চূড়ান্ত মানগুলির এই অপসারণ এমনকি কাচি বিতরণের লোকেশন প্যারামিটার অনুমান করতেও কাজ করে যেখানে কাটা কাটা গড়টি মধ্যকের চেয়ে আরও ভাল অনুমানকারী হতে পারে। সুতরাং অনুমানগুলি ধরে রাখলে কেবল আদর্শ পরিস্থিতিই নয়, কিছু কম আদর্শ অ্যাপ্লিকেশনগুলির জন্যও (উদাহরণস্বরূপ অতিরিক্ত বহিরাগত) এমন ভাল শক্তিশালী পদ্ধতি থাকতে পারে যা এখনও নিখুঁত অবশিষ্টাংশের যোগফলের পরিবর্তে স্কোয়ার অবশিষ্টাংশগুলির যোগফলের কিছু ফর্ম ব্যবহার করে।

আমি কল্পনা করেছিলাম যে কাটা কাটা অবশিষ্টাংশগুলির সাথে রিগ্রেশন গণনাগতভাবে আরও জটিল হতে পারে। সুতরাং এটি প্রকৃতপক্ষে কোয়ান্টাইল রিগ্রেশন হতে পারে যা সংখ্যার তুলনায় সরল (সাধারণ ন্যূনতম স্কোয়ারের চেয়ে সহজ নয়, তবে কাটা কাটা ন্যূনতম স্কোয়ারের চেয়ে সহজ ) কারণগুলির কারণে ঘটে থাকে

পক্ষপাতদুষ্ট / পক্ষপাতিত্বহীন

অন্য একটি বিষয় পক্ষপাতদুষ্ট বনাম পক্ষপাতদুষ্ট অনুমানকারী is উপরোক্ত ক্ষেত্রে আমি গড়ের সর্বাধিক সম্ভাবনার প্রাক্কলনটি অর্থাত্ ন্যূনতম স্কোয়ার সমাধানকে একটি ভাল বা পছন্দনীয় অনুমানক হিসাবে বর্ণনা করেছি কারণ এটি প্রায়শই সমস্ত পক্ষপাতদুষ্ট অনুমানকারীদের (যখন ত্রুটিগুলি সাধারণ বিতরণ করা হয়) এর সর্বনিম্নতম বৈকল্পিক থাকে। তবে, পক্ষপাতদুষ্ট অনুমানক আরও ভাল হতে পারে (স্কোয়ার ত্রুটির নিম্ন প্রত্যাশিত যোগফল)।

এটি প্রশ্নটিকে আবার বিস্তৃত এবং জটিল করে তুলেছে। এগুলি প্রয়োগ করার জন্য অনেকগুলি বিভিন্ন অনুমানক এবং বিভিন্ন পরিস্থিতি রয়েছে। স্কোয়ারড রেসিডুয়ালস লস ফাংশনের একটি অভিযোজিত পরিমাণের ব্যবহার প্রায়শই ত্রুটি হ্রাস করতে ভাল কাজ করে (যেমন নিয়মিতকরণের সমস্ত ধরণের পদ্ধতি), তবে এটি সমস্ত ক্ষেত্রে ভালভাবে কাজ করার প্রয়োজন নাও হতে পারে। স্বজ্ঞাতভাবে এটি কল্পনা করা অবাক হওয়ার মতো নয় যেহেতু স্কোয়্যার অবশিষ্টাংশের ক্ষতির ফাংশন প্রায়শই সমস্ত পক্ষপাতদুষ্ট অনুমানকারীদের জন্য ভাল কাজ করে, অনুকূল পক্ষপাতদুষ্ট অনুমানকারী সম্ভবত স্কোয়ার অবশিষ্টাংশ লোকসান ফাংশনের যোগফলের কাছাকাছি কিছু।


আমরা যখন ত্রুটি-বিতরণ জানি তখন এটি সম্পর্কিত সম্ভাব্যতা ফাংশনটি বেছে নেওয়ার জন্য অর্থবোধ করে। এই ফাংশনটি হ্রাস করা আরও অনুকূল। এটি ভুল বলে না, তবে সম্ভবত যোগ্যতা অর্জন করা উচিত। অবশ্যই, এটি আমার ক্ষতির সাথে আরও একবার সম্পর্কিত (যে আপনি উত্তর দিয়েছিলেন) বিভিন্ন লোকসানের কার্যকারিতার আওতায় অনুকূল অনুমানের উপর।
রিচার্ড হার্ডি

এটি সবচেয়ে ভাল উপায় কারণ এটিতে সর্বনিম্ন নমুনা বৈকল্পিক রয়েছে। বৈকল্পিক সাধারণত কোনও বোধগম্য ক্ষতির কাজ নয় কারণ এটি পক্ষপাতদুষ্টকে উপেক্ষা করে; একটি বুদ্ধিমান অংশটি স্কোয়ার ত্রুটি (ওরফে মানে স্কোয়ার ত্রুটি) প্রত্যাশিত হবে যা ভেরিয়েন্স এবং পক্ষপাত উভয়ের অ্যাকাউন্ট গ্রহণ করে। সর্বনিম্ন স্কোয়ারের রিগ্রেশন কোয়ান্টাইলগুলির আরও অনুকূল অনুমানক। মিডিয়ান - হ্যাঁ, তবে অন্যরাও? এবং যদি হ্যাঁ, তবে কেন? যাই হোক না কেন, আপনার খুব সুন্দর উত্তর!
রিচার্ড হার্ডি

1
এই বিষয়টিকে এত বিস্তৃত করুন প্রকৃতপক্ষে ত্রুটি = বৈকল্পিক + পক্ষপাত। আমি ধরে নিয়েছি যে নমুনার গড়ের পক্ষপাতিত্বটি নমুনা মিডিয়েনের সমান (বা আরও সাধারণ: ন্যূনতম স্কোয়ারের অবশিষ্টাংশের যোগফল এবং সর্বনিম্ন অবশিষ্টাংশের সংখ্যার সমান পক্ষপাত থাকে) have এটি বিভিন্ন ত্রুটি বিতরণ সত্য হিসাবে দেওয়া (যেমন: প্রতিসম ত্রুটি বিতরণ), তবে প্রকৃতপক্ষে অন্যান্য ক্ষেত্রে প্রশ্নগুলি আরও জটিল হয়ে ওঠে। (মূল বক্তব্যটি হ'ল ত্রুটিগুলি প্রায়শই স্বাভাবিক বিতরণ করা হয় এবং এটি সর্বনিম্ন স্কোয়ারগুলির প্রতিরোধকে অনুকূল করে তোলে)
Sextus Empiricus

1
একই (প্রশ্নের জটিলতা) সত্য হয় যখন আমরা মধ্যস্থতাকে বিবেচনা করি না, তবে পরিবর্তে কিছু অন্য কোয়ান্টাইল। সাধারণ বিতরণ ত্রুটির ক্ষেত্রে আমি বিশ্বাস করি যে এমএলই কোয়ান্টাইল যা-ই হোক না কেন তার জন্য সবচেয়ে ভাল ফলাফল দেয় তবে আমি স্বীকার করি যে এটি স্বজ্ঞাততা। আবার সমস্যাটি খুব বিস্তৃত (নমুনাগুলির সংখ্যার উপর নির্ভরতা, ত্রুটির বিতরণের ধরণ এবং এটি সম্পর্কে নিশ্চিততা ইত্যাদি)।
সেক্সটাস এম্পেরিকাস

1
একটি ভাঙা ঘড়ি দিনে ঠিক দু'বার ঠিক থাকে, আমি এমএলইকে একটি ভাঙা ঘড়ি বলব না। অবশ্যই, আপনি যখন সমস্যাটি ভালভাবে জানেন তখন সামগ্রিক ত্রুটিটি উন্নত করতে আপনি পক্ষপাত হ্রাস করার কিছু বৈকল্পিক প্রবর্তন করতে পারেন। এটি অগত্যা কোনও পৃথক (কোয়ান্টাইল) ধরণের রিগ্রেশনগুলিতে অগ্রসর হয় না, আপনি কেবল কিছুটা জ্যাম বা মধুও ন্যূনতম স্কোয়ারের রুটি এবং মাখনের জন্য রাখতে পারেন। আপনি যদি কোনও ভাঙা ঘড়ির সাথে এমএলইয়ের তুলনা করতে চান তবে এটি এমন একটি ঘড়ি যা আমরা সবচেয়ে বেশি সময় ব্যবহার করি around
সেক্সটাস এম্পিরিকাস

2

লিনিয়ার রিগ্রেশন (এলআর) এর গুণাগুণগুলি গণনা করার সময় সর্বনিম্ন স্কোয়ার অপ্টিমাইজেশনে সিদ্ধ হয়। এটি রিগ্রেশন মডেল থেকে বিচ্যুতির একটি প্রতিসাম্য বোঝায়। কোয়ান্টাইল রিগ্রেশন (কিউআর) এর একটি ভাল ব্যাখ্যা https://data.library.virginia.edu/getting-st সূত্র-with-quantile-regression/ এ রয়েছে ।

এলআর অনুমানগুলি (অনুমানের জন্য প্রয়োজনীয়: পি-মানগুলি, আত্মবিশ্বাসের অন্তরগুলি ইত্যাদি) সন্তুষ্ট কিউআর এবং এলআর পূর্বাভাসগুলি একই রকম হবে। তবে যদি অনুমানগুলি দৃ strongly়ভাবে লঙ্ঘিত হয় তবে আপনার স্ট্যান্ডার্ড এলআর অনুমানটি ভুল হবে। সুতরাং একটি 0.5 কোয়ান্টাইল (মিডিয়ান) রিগ্রেশন এলআরের তুলনায় একটি সুবিধা উপস্থাপন করে। এটি অন্যান্য কোয়ান্টাইলের জন্য রিগ্রেশন প্রদানের ক্ষেত্রে আরও নমনীয়তা দেয়। লিনিয়ার মডেলগুলির সমতুল্য একটি এলআর থেকে গণনা করা একটি আত্মবিশ্বাস হবে (যদিও আইআইডি দৃ strongly়ভাবে লঙ্ঘন করা থাকলে এটি ভুল হবে)।

তাহলে এলআরের সুবিধা কী? অবশ্যই এটি গণনা করা সহজ তবে যদি আপনার ডেটা সেটটি যুক্তিযুক্ত আকারের হয় তবে এটি খুব বেশি লক্ষণীয় নয়। তবে আরও গুরুত্বপূর্ণ বিষয়, এলআর অনুমান অনুমানগুলি এমন তথ্য সরবরাহ করে যা অনিশ্চয়তা হ্রাস করে। ফলস্বরূপ, ভবিষ্যদ্বাণীগুলিতে এলআর আত্মবিশ্বাসের ব্যবধানগুলি সাধারণত সংকীর্ণ হবে। সুতরাং যদি অনুমানগুলির জন্য শক্তিশালী তাত্ত্বিক সমর্থন থাকে তবে সংক্ষিপ্ত আত্মবিশ্বাসের বিরতিগুলি একটি সুবিধা হতে পারে।


2

E(Y|X)YXE(Y|X)=Xββ

কোয়ান্টাইল রিগ্রেশন মিডিয়ান সহ শর্তাধীন বিতরণের যে কোনও কোয়ান্টাইল অনুমান করতে ব্যবহার করা যেতে পারে। এটি শর্তাধীন বিতরণ সম্পর্কে গড়ের চেয়ে সম্ভাব্য অনেক বেশি তথ্য সরবরাহ করে। শর্তসাপেক্ষ বিতরণ যদি প্রতিসম নয় বা লেজগুলি সম্ভবত ঘন হয় (যেমন ঝুঁকি বিশ্লেষণ), লাইনারি রিগ্রেশনটির সমস্ত অনুমানগুলি সন্তুষ্ট হলে কোয়ান্টাইল রিগ্রেশন ইভিইএন সহায়ক is

অবশ্যই, রৈখিক প্রতিরোধের তুলনায় কোয়ান্টাইল অনুমান করা সংখ্যাসূচকভাবে আরও নিবিড় তবে এটি সাধারণত অনেক বেশি শক্তিশালী (যেমন মিডিয়ান বাহ্যিকদের গড়ের চেয়ে বেশি শক্তিশালী)। লিনিয়ার রিগ্রেশন না থাকাকালীন এটি উপযুক্ত - যেমন সেন্সর করা ডেটার জন্য। ভেরিয়েন্স-কোভারিয়েন্স ম্যাট্রিক্সের সরাসরি অনুমানগুলি কঠিন বা গুণগতভাবে ব্যয়বহুল হতে পারে বলে অনুমানটি আরও জটিল হতে পারে। এই ক্ষেত্রে, কেউ বুটস্ট্র্যাপ করতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.