কোয়ান্টাইল রিগ্রেশন কীভাবে "কাজ করে"?


25

আমি কোয়ান্টাইল রিগ্রেশনটির একটি স্বজ্ঞাত, অ্যাক্সেসযোগ্য ব্যাখ্যা পাওয়ার আশা করছি।

ধরা যাক, আমার কাছে ফলাফল এর একটি সাধারণ ডেটাसेट রয়েছে এবং ।এক্স 1 , এক্স 2YX1,X2

যদি উদাহরণস্বরূপ, আমি .25, .5, .75 এ কোয়ান্টাইল রিগ্রেশন চালাই এবং ।β0,.25,β1,.25...β2,.75

হয় মান কেবল ক্রম দ্বারা পাওয়া মান, এবং একটি রৈখিক রিগ্রেশনের উদাহরণ, যা তারা পেয়েছে সমাংশক কাছাকাছি / এ এর উপর ভিত্তি করে করণ?yβy

বা কোয়ান্টাইল থেকে দূরত্ব বাড়ার সাথে সাথে ওঠার ওজন সহ সমস্ত নমুনা অনুমানগুলিতে অবদান রাখে ?β

নাকি একেবারে আলাদা কিছু? আমি এখনও একটি অ্যাক্সেসযোগ্য ব্যাখ্যা খুঁজে পাইনি।


3
গণিত সম্পর্কে আপনি এই দুটি উত্তরকে সহায়ক বলে মনে করতে পারেন: stats.stackexchange.com/questions/102906/… , stats.stackexchange.com/questions/88387/…
অ্যান্ডি

উত্তর:


21

আমি কোয়েঙ্কার অ্যান্ড হলক (2001, অর্থনৈতিক দৃষ্টিভঙ্গির জার্নাল) এবং কোয়েঙ্কার এর নামবিহীন পাঠ্যপুস্তকের প্রস্তাব দিই ।

  1. প্রারম্ভিক বিন্দু এমন পর্যবেক্ষণ যা কোনও ডেটা সেটের মিডিয়ান হ'ল পরম ত্রুটির যোগফলকে কম করে দেয় । এটি হ'ল 50% কোয়ান্টাইল একটি নির্দিষ্ট অপ্টিমাইজেশান সমস্যার সমাধান (এটির মান খুঁজে পেতে যা পরম ত্রুটির যোগফলকে কমিয়ে দেয়)।
  2. এই থেকে, এটা যে কোন এটি সহজ -quantile একটি নির্দিষ্ট কম সমস্যার সমাধান হয় যথা asymmetrically একটি সমষ্টি কমানোর জন্য, ভরযুক্ত , পরম ত্রুটি ওজন যে উপর নির্ভর করে দিয়ে ।τττ
  3. অবশেষে, রিগ্রেশন-এর পদক্ষেপটি তৈরি করার জন্য, আমরা এই মিনিমাইজেশন সমস্যার সমাধানটিকে ভবিষ্যদ্বাণীক ভেরিয়েবলের রৈখিক সংমিশ্রণ হিসাবে মডেল করি, সুতরাং এখন সমস্যাটি একটি একক মান নয়, তবে রিগ্রেশন প্যারামিটারের একটি সেট সন্ধান করার একটি।

সুতরাং আপনার স্বজ্ঞাততাটি বেশ সঠিক: সমস্ত লক্ষ্যমাত্রা of অনুমানে অবদান রাখে , আমরা লক্ষ্যমাত্রার উপর নির্ভর করে অসমমিতিক ওজন সহ ric ।τβτ


আপনার পয়েন্ট 1) সম্পর্কিত, এই কি সত্যই অনুমান করা হবে না যে Y প্রতিসৃতভাবে বিতরণ করা হয়েছে? ওয়াই যদি {1, 1, 2, 4, 10 like এর মতো হয় তবে মিডিয়ান 2 অবশ্যই নিখুঁত ত্রুটি হ্রাস করবে না। কোয়ান্টাইল রিগ্রেশন কি সর্বদা ধরে নেয় যে Y প্রতিসামিতভাবে বিতরণ করা হয়েছে? ধন্যবাদ!
বেন

1
@ বেন: না, প্রতিসাম্য প্রয়োজন হয় না। মূল বিষয়টি হ'ল মিডিয়ান প্রত্যাশিত পরম ত্রুটিটি হ্রাস করে । আপনার যদি মান 1, 2, 4, 10 এবং সম্ভাবনা 0.4, 0.2, 0.2, 0.2 সহ একটি বিস্তৃত বিতরণ থাকে তবে 2 এর পয়েন্ট সংক্ষিপ্তসারটি প্রত্যাশিত পরম ত্রুটিটিকে অবশ্যই হ্রাস করে । একটি সিমুলেশন আর কোডের কয়েকটি লাইন:foo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")
এস কোলাসা - মনিকা পুনরায় ইনস্টল করুন

(এবং হ্যাঁ, "উত্তরের
পরিমাণগুলি

Derp। আমি কি ভাবছিলাম. ধন্যবাদ এটি এখন উপলব্ধি করে।
বেন

19

কোয়ান্টাইল রিগ্রেশন-এর প্রাথমিক ধারণাটি এই তথ্য থেকে আসে যে বিশ্লেষক ডেটা বিতরণে আগ্রহী, বরং এটি কেবলমাত্র ডেটা বোঝাতে। গড় দিয়ে শুরু করা যাক।

y=XβE(Y|X=x)=xβargminβ(yxβ)(yXβ)

অন্যদিকে মিডিয়ান রিগ্রেশন এমন একটি লাইন সন্ধান করে যা আশা করে যে অর্ধেক ডেটা পাশে রয়েছে। এই ক্ষেত্রে লক্ষ্য ফাংশনটি হ'লযেখানেপ্রথম নিয়ম।| |argminβ|yXβ||.|

কোয়ান্টাইল রিগ্রেশনের ফলাফলকে মিডিয়ানের ধারণা প্রসারিত করা। পেছনের ধারণাটি এমন একটি লাইন খুঁজে বের করা যা সমেত ডেটা ছাড়িয়ে যায়।α

এখানে আপনি একটি ছোট ভুল করেছেন, কিউ-রিগ্রেশন এমন পরিমাণের তথ্য অনুসন্ধান করার মতো নয় যে তারপরে সেই উপসেটের (বা এমনকি আরও চ্যালেঞ্জযুক্ত সীমানা) একটি লাইনে ফিট করে।

কিউ-রিগ্রেশন এমন একটি রেখার সন্ধান করে যা ডেটাটিকে একটি ক্রুপে একটি qu কোয়ান্টিল এবং বিশ্রামে বিভক্ত করে । টার্গেট ফাংশন, কি-রিগ্রেশনটির চেক ফাংশনটি হ'ল β α = ARG মিনিট β { α | y - এক্স β | আমি ( y > এক্স β ) + ( 1 - α ) | y - এক্স β | আমি ( y < এক্স β ) }α

β^α=argminβ{α|yXβ|I(y>Xβ)+(1α)|yXβ|I(y<Xβ)}.

আপনি যেহেতু দেখেন এই চতুর টার্গেট ফাংশনটি কোয়ান্টাইলকে একটি অপ্টিমাইজেশান সমস্যায় অনুবাদ করার চেয়ে বেশি কিছু নয়।

তদুপরি, যেমন আপনি দেখতে পাচ্ছেন, কি-রিগ্রেশন একটি নির্দিষ্ট কোয়ান্টির ( ) জন্য সংজ্ঞায়িত এবং তারপরে সমস্ত কোয়ান্টাইলগুলি খুঁজে পেতে বাড়ানো যেতে পারে। অন্য কথায়, কি-রিগ্রেশন প্রতিক্রিয়ার বিতরণ (শর্তাধীন) পুনরুত্পাদন করতে পারে।βα


এই উত্তর উজ্জ্বল।
জিনুয়া ওয়াং
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.