নেতিবাচক আর-স্কোয়ারের অর্থ কী?


17

ধরা যাক আমার কাছে কিছু ডেটা রয়েছে এবং তারপরে আমি একটি মডেল (একটি অ-লিনিয়ার রিগ্রেশন) দিয়ে ডেটা ফিট করি। তারপরে আমি আর-স্কোয়ার ( আর2 ) গণনা করি ।

আর-স্কোয়ারটি নেতিবাচক হলে তার অর্থ কী? তার মানে কি আমার মডেলটি খারাপ? আমি জানি যে এর ব্যাপ্তি আর2[-1,1] হতে পারে। যখন আর20 হয় তখন এর অর্থ কী?


4
এর অর্থ হল যে আপনি কিছু ভুল করেছেন কারণ আর 2 সংজ্ঞায়িত [ 0 , 1 ] এর মধ্যে রয়েছে । আর 2 স্থায়ী অন্যদিকে নেতিবাচক, যা আপনি নিরাপদে মানে অনুমান করতে পারেন আপনার মডেল ডেটাতে একটি খুব দরিদ্র ফিট হতে পারে। যখন আর 2 ঠিক এর মানে হল যে শূন্য হয় ˉ Y শুধু ভাল একটি predictor হিসাবে Y লিস্ট স্কোয়ার রিগ্রেশন লাইন নিজেই হিসাবে। আর2[0,1]আর2 আর2Y¯Y
dsaxton


এবং এছাড়াও stats.stackexchange.com/questions/171240/…


@ গুং আমি সম্ভবত এটি প্রশ্নের সেই সদৃশ হওয়ার পরামর্শ দিচ্ছিলাম ... আপনি কি এগুলি যথেষ্ট স্বতন্ত্র বলে মনে করেন? (এই প্রশ্নটি যদি অন্যটির চেয়ে আরও সুন্দর মনে হয় কারণ কোনও বিভ্রান্তিকর এসপিএসএস বাক্য গঠন নেই তবে অন্য থ্রেডের উত্তরগুলি খুব ভাল এবং এই প্রশ্নটিও আবশ্যক বলে মনে হয় seem)
সিলভারফিশ

উত্তর:


37

নেতিবাচক হতে পারে, এর ঠিক অর্থ হল:আর2

  1. মডেল আপনার ডেটা খুব খারাপভাবে ফিট করে
  2. আপনি কোনও বিরতি সেট করেন নি

লোকেরা বলে যে 0 এবং 1 এর মধ্যে, এটি ক্ষেত্রে নয়। যদিও শব্দ তাতে 'ছক' এটা মত শব্দ হতে পারে সঙ্গে কিছু জন্য একটি নেতিবাচক মান গণিতশাস্ত্র নিয়ম ভঙ্গ, এটি একটি মধ্যে ঘটতে পারে আর 2 একটি পথিমধ্যে ছাড়া মডেল। কেন বুঝতে, আমাদের কীভাবে আর 2 দেখতে হবেআর2আর2আর2 গণনা ।

এটি কিছুটা দীর্ঘ - যদি আপনি উত্তরটি না বুঝে বুঝতে চান তবে শেষ পর্যন্ত যান। অন্যথায়, আমি এটি সহজ কথায় লেখার চেষ্টা করেছি।

: প্রথম, এর 3 ভেরিয়েবল সংজ্ঞায়িত করি , টি এস এস এবং এস এসRSSTSSESS

আরএসএস গণনা করা হচ্ছে :

প্রতিটি স্বতন্ত্র ভেরিয়েবল জন্য আমাদের নির্ভরশীল ভেরিয়েবল y থাকে । আমরা সেরা ফিটের একটি রৈখিক রেখা তৈরি করি, যা x এর প্রতিটি মানের জন্য y এর মান পূর্বাভাস দেয় । আসুন মান কল Y লাইন অনুমান Y । আপনার লাইনটি কী ভবিষ্যদ্বাণী করে এবং প্রকৃত y মানটি কী তার মধ্যে ত্রুটিটি বিয়োগফল হিসাবে গণনা করা যায়। এই সমস্ত পার্থক্য স্কোয়ার এবং যোগ করা হয়, যা স্কোয়ার আর এস এস এর অবশিষ্টাংশ যোগ করে ।xyyxyy^yRSS

একটি সমীকরণ মধ্যে নির্বাণ যে RSS=(yy^)2

টিএসএস গণনা করা হচ্ছে :

আমরা এর গড় মান গণনা করতে পারি , যাকে বলা হয় ˉ y । যদি আমরা plot y কে ষড়যন্ত্র করি , তবে এটি ডেটাগুলির মাধ্যমে কেবল একটি অনুভূমিক রেখা কারণ এটি ধ্রুবক। আমরা কি এটা দিয়ে যদিও করতে পারেন, বিয়োগ হয় ˉ Y (এর গড় মান Y প্রতিটি প্রকৃত মূল্য থেকে) Y । ফলাফলটি স্কোয়ার এবং একসাথে যুক্ত করা হয়, যা টি এস এস এর স্কোয়ারের মোট যোগফল দেয় ।yy¯y¯y¯yyTSS

একটি সমীকরণ মধ্যে নির্বাণ যে TSS=(yy¯)2

ESS গণনা করা হচ্ছে :

মধ্যে পার্থক্য Y (মান Y লাইন দ্বারা পূর্বাভাস) এবং গড় মান ˉ Y ছক এবং যোগ করা হয়। এই বর্গের ব্যাখ্যা সমষ্টি, যা সমান Σ ( Y - ˉ Y ) 2Y^YY¯Σ(Y^-Y¯)2

মনে রাখবেন, , কিন্তু আমরা একটি যোগ করতে পারেন + + Y - Y তা, কারণ এটি নিজেই আউট বাতিল করে। অতএব, টি এস এস = Σ ( Y - Y + + Y - ˉ Y ) 2 । এই বন্ধনী সম্প্রসারণ করা হচ্ছে, আমরা পেতে টি এস এস = Σ ( Y - Y ) 2 + +টিএসএস=Σ(Y-Y¯)2+ +Y^-Y^টিএসএস=Σ(Y-Y^+ +Y^-Y¯)2টিএসএস=Σ(Y-Y^)2+ +2*Σ(Y-Y^)(Y^-Y¯)+ +Σ(Y^-Y¯)2

যখন, এবং শুধুমাত্র যখন লাইন একটি পথিমধ্যে সঙ্গে অঙ্কিত হয়, নিম্নলিখিত সবসময় সত্য: । অতএব, টি এস এস = Σ ( Y - Y ) 2 + + Σ ( Y - ˉ Y ) 2 , যা আপনি শুধু মানে নজর করতে পারেন যে টি এস এস = আর এস এস + +2*Σ(Y-Y^)(Y^-Y¯)=0টিএসএস=Σ(Y-Y^)2+ +Σ(Y^-Y¯)2 । যদি আমরা টি এস এস দ্বারা সমস্ত পদ বিভাজিত করেপুনরায় সাজাই, আমরা 1 - আর এস এস পেতে পারিটিএসএস=আরএসএস+ +এসএসটিএসএস1-আরএসএসটিএসএস=এসএসটিএসএস

এখানে গুরুত্বপূর্ণ অংশটি রয়েছে :

আপনার মডেল দ্বারা কতটা বৈকল্পিক ব্যাখ্যা করা হয়েছে তা হিসাবে সংজ্ঞায়িত করা হয়েছে (আপনার মডেলটি কতটা ভাল)। সমীকরণ আকারে, এটি আর 2 = 1 - আর এস এসআর2 । চেনা চেনা? যখন লাইনটি একটি বিরতি দিয়ে প্লট করা হয়, আমরা এটিআর2=এসএসহিসাবে প্রতিস্থাপন করতে পারিআর2=1-আরএসএসটিএসএস । যেহেতু অঙ্ক এবং রক্ষক উভয়ই বর্গক্ষেত্রের যোগফল, তাইআর2অবশ্যই ধনাত্মক হতে হবে।আর2=এসএসটিএসএসআর2

কিন্তু

আমরা একটি পথিমধ্যে উল্লেখ না কখন অগত্যা সমান না 0 । এর অর্থ এই যে টি এস এস = আর এস এস + + এস এস + + 2 * Σ ( Y - Y ) ( Y - ˉ Y )2*Σ(Y-Y^)(Y^-Y¯)0টিএসএস=আরএসএস+ +এসএস+ +2*Σ(Y-Y^)(Y^-Y¯)

দ্বারা সমস্ত পদ বিভাজন করে আমরা পাই 1 - আর এস এসটিএসএস1-আরএসএসটিএসএস=এসএস+ +2*Σ(Y-Y^)(Y^-Y¯)টিএসএস

পরিশেষে, আমরা পেতে প্রতিস্থাপন । এবার, সংখ্যার এটিতে একটি পদ রয়েছে যা বর্গের যোগফল নয়, তাই এটি নেতিবাচক হতে পারে। এটিআর2নেতিবাচক করেতুলবে। কখন এই হবে? 2*Σ(Y - Y )( Y - ˉ Y )নেতিবাচক হবে যখনY - Y নেতিবাচক এবং Y - ˉ Y ইতিবাচক হয়, অথবা তদ্বিপরীত। এটি তখন ঘটে যখন ˉ y এর অনুভূমিক রেখাটিসেরা ফিটের লাইনের চেয়ে ডেটাটিকে আরও ভালভাবে ব্যাখ্যা করে।আর2=এসএস+ +2*Σ(Y-Y^)(Y^-Y¯)টিএসএসআর22*Σ(Y-Y^)(Y^-Y¯)Y-Y^Y^-Y¯Y¯

যখন নেতিবাচক হয় তার একটি অতিরঞ্জিত উদাহরণ এখানে (উত্স: হিউস্টন ক্লিয়ার লেকের বিশ্ববিদ্যালয়)আর2

যখন আর ^ 2 নেতিবাচক হয় তার একটি অতিরঞ্জিত উদাহরণ (উত্স: হিউস্টন ক্লিয়ার লেকের বিশ্ববিদ্যালয়)

সহজভাবে করা:

  • যখন , তখন একটি অনুভূমিক রেখা আপনার মডেলের চেয়ে ডেটা আরও ভাল করে ব্যাখ্যা করে ।আর2<0

আপনি সম্পর্কেও জিজ্ঞাসা করেছিলেন ।আর2=0

  • যখন , তখন একটি অনুভূমিক রেখা আপনার মডেলটির পাশাপাশি ডেটা সমানভাবে ব্যাখ্যা করে।আর2=0

এটির মাধ্যমে এটি করার জন্য আমি আপনাকে প্রশংসা করি। যদি আপনি এটি সহায়ক বলে মনে করেন তবে আপনার এখানে fcop এর উত্তরটিও উত্সাহিত করা উচিত যা আমাকে উল্লেখ করতে হয়েছিল, কারণ এটি কিছুক্ষণ হয়ে গেছে।


5
2(yy^)(y^y¯)=0 when, and only when, there is an intercept set?
Owen

6

Neither answer so far is entirely correct, so I will try to give my understanding of R-Squared. I have given a more detailed explanation of this on my blog post here "What is R-Squared"

Sum Squared Error

The objective of ordinary least squared regression is to get a line which minimized the sum squared error. The default line with minimum sum squared error is a horizontal line through the mean. Basically, if you can't do better, you can just predict the mean value and that will give you the minimum sum squared error

গড় মাধ্যমে অনুভূমিক রেখা

আর-স্কোয়ার্ড পরিমাপের একটি উপায় যা সংক্ষিপ্ত স্কোয়ার ত্রুটির উপর ভিত্তি করে আপনি গড় লাইন থেকে কতটা ভাল করেছেন। আর-স্কোয়ার্ডের সমীকরণটি

আর-স্কোয়ারের সমীকরণ

এখন এসএস রিগ্রেশন এবং এসএস টোটাল উভয়ই স্কোয়ারের পদগুলির যোগফল। উভয়ই সদা ইতিবাচক থাকে। এর অর্থ আমরা 1 নিচ্ছি এবং একটি ইতিবাচক মান বিয়োগ করছি। সুতরাং সর্বাধিক আর-বর্গক্ষেত্রের মানটি ধনাত্মক 1, তবে সর্বনিম্ন নেতিবাচক অনন্ত inf হ্যাঁ, এটি সঠিক, আর-স্কোয়ারের পরিধিটি ইনফিনিটি এবং 1 এর মধ্যে -1 এবং 1 এবং 0 এবং 1 এর মধ্যে নয়

কি সমষ্টি স্কোয়ার ত্রুটি

সমষ্টিগত স্কোয়ার ত্রুটিটি প্রতিটি বিন্দুতে ত্রুটিটি গ্রহণ করছে, এটি স্কোয়ার করছে এবং সমস্ত স্কোয়ার যুক্ত করছে। মোট ত্রুটির জন্য, এটিটি দৈর্ঘ্যের মধ্য দিয়ে অনুভূমিক রেখাটি ব্যবহার করে, কারণ এটি যদি আপনার কাছে অন্য কোনও তথ্য না থাকে তবে সর্বনিম্ন যোগফলের ত্রুটি দেয়, অর্থাত্ কোনও রিগ্রেশন করতে পারে না।

এখানে চিত্র বর্ণনা লিখুন

একটি সমীকরণ হিসাবে এটি এই

সমষ্টিগত মোট ত্রুটি সমীকরণ sum

এখন রিগ্রেশন সহ, আমাদের উদ্দেশ্যটি গড়ের চেয়ে ভাল করা। উদাহরণস্বরূপ এই রেগ্রেশন রেখাটি অনুভূমিক রেখাটি ব্যবহার করার চেয়ে কম যোগফলের স্কোয়ার ত্রুটি দেয়।

এখানে চিত্র বর্ণনা লিখুন

রিগ্রেশন যোগফলের স্কোয়ার ত্রুটির সমীকরণটি এটি

এখানে চিত্র বর্ণনা লিখুন

আদর্শভাবে, আপনার শূন্য রিগ্রেশন ত্রুটি হবে, অর্থাত আপনার রিগ্রেশন লাইনটি পুরোপুরি ডেটার সাথে মেলে। সেক্ষেত্রে আপনি একটি আর-স্কোয়ার্ড মান পাবেন

1 এর স্কোয়ার মান

নেতিবাচক আর স্কোয়ার

উপরের সমস্ত তথ্য বেশ মানক। এখন নেতিবাচক আর-স্কোয়ারের কী হবে?

ঠিক আছে এটি প্রমাণিত হয়েছে যে আপনার রিগ্রেশন সমীকরণকে গড় মানের চেয়ে কম যোগফলের ত্রুটি দিতে হবে error এটি সাধারণত ভাবা হয় যে আপনি যদি গড় মানের চেয়ে ভাল ভবিষ্যদ্বাণী করতে না পারেন তবে আপনি কেবল গড় মানটি ব্যবহার করবেন, তবে কারণ হিসাবে বাধ্য করার মতো কিছুই নেই। আপনি উদাহরণস্বরূপ সবকিছুর জন্য মধ্যমা পূর্বাভাস দিতে পারেন।

প্রকৃত অনুশীলনে, সাধারণ সর্বনিম্ন স্কোয়ার রিগ্রেশন সহ, নেতিবাচক আর-স্কোয়ার্ড মান পাওয়ার সর্বাধিক সাধারণ সময়টি যখন আপনি এমন একটি বিন্দুকে জোর করেন যখন রিগ্রেশন লাইনের মধ্য দিয়ে যেতে হবে। এটি সাধারণত ইন্টারসেপ্ট সেট করে করা হয় তবে আপনি কোনও পয়েন্টের মাধ্যমে রিগ্রেশন লাইনকে জোর করতে পারেন।

যখন আপনি এটি করেন যে রিগ্রেশন লাইনটি সেই বিন্দুটির মধ্য দিয়ে যায় এবং এখনও সেই বিন্দুটি অতিক্রম করার সময় ন্যূনতম যোগফল স্কোয়ার ত্রুটি পাওয়ার চেষ্টা করে।

নির্দিষ্ট বিন্দু

ডিফল্টরূপে, রিগ্রেশন সমীকরণগুলি রেগ্রেশন রেখাটি যে বিন্দুটি মধ্য দিয়ে যায় সে হিসাবে গড় x এবং গড় y ব্যবহার করে। তবে যদি আপনি এটিকে এমন এক বিন্দু দিয়ে জোর করে থাকেন যা রেগ্রেশন লাইনটি সাধারণত খুব দূরে থাকে তবে আপনি সমভূমিক রেখা ব্যবহারের চেয়ে উচ্চতর যোগফলের স্কোয়ার ত্রুটি পেতে পারেন

নীচের চিত্রটিতে, উভয় রিগ্রেশন রেখাগুলি 0 টির সাথে আধ্যাত্মিক চাপ প্রয়োগ করতে বাধ্য হয়েছিল। এটি উত্স থেকে দূরে থাকা ডেটাগুলির জন্য একটি নেতিবাচক আর-স্কোয়ার তৈরি করেছে।

নেতিবাচক আর স্কোয়ার

শীর্ষ পয়েন্টগুলির জন্য, লালগুলি, রিগ্রেশন লাইনটি সেরা সম্ভাব্য রিগ্রেশন লাইন যা উত্সের মধ্য দিয়েও যায়। এটি কেবল ঘটে যায় যে এই রিগ্রেশন লাইনটি অনুভূমিক রেখা ব্যবহার করার চেয়ে খারাপ এবং তাই একটি নেতিবাচক আর-স্কোয়ার দেয়।

অপরিবর্তিত আর-স্কোয়ার্ড

এখানে একটি বিশেষ কেস নেই যার উল্লেখ নেই, যেখানে আপনি একটি অপরিবর্তিত আর-স্কোয়ার পেতে পারেন। এটি যদি আপনার ডেটা সম্পূর্ণরূপে অনুভূমিক হয় তবে আপনার মোট যোগফলের স্কোয়ার ত্রুটি শূন্য। ফলস্বরূপ আপনার আর-স্কোয়ার সমীকরণে শূন্য দ্বারা বিভক্ত একটি শূন্য থাকবে যা অপরিবর্তিত।

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন


একটি খুব স্পষ্ট উত্তর, এই ধরণের আরও অনেক উত্তর দেখতে চাই!
বেন

0

পূর্ববর্তী মন্তব্যকারী হিসাবে দ্রষ্টব্য, r ^ 2 [0,1] এর মধ্যে, [-1, + 1] এর মধ্যে নয়, সুতরাং এটি নেতিবাচক হওয়া অসম্ভব। আপনি একটি মান বর্গাকার এবং একটি নেতিবাচক নম্বর পেতে পারেন। সম্ভবত আপনি আর এর দিকে তাকিয়ে আছেন? এটি [-1, + 1] এর মধ্যে হতে পারে, যেখানে শূন্যের অর্থ হল ভেরিয়েবলগুলির মধ্যে কোনও সম্পর্ক নেই, -1 এর অর্থ একটি নিখুঁত নেতিবাচক সম্পর্ক রয়েছে (যেমন একটি ভেরিয়েবল বৃদ্ধি পায়, অন্যটি হ্রাস পায়), এবং +1 একটি নিখুঁত ধনাত্মক সম্পর্ক (উভয় ভেরিয়েবল একযোগে উপরে বা নীচে যায়)।

যদি আপনি সত্যিই আর ^ 2 এর দিকে তাকাচ্ছেন, তবে পূর্ববর্তী মন্তব্যকারী যেমন বর্ণনা করেছেন, আপনি সম্ভবত আসল r ^ 2 নয়, সামঞ্জস্য হওয়া r ^ 2 দেখছেন। পরিসংখ্যানটির অর্থ কী তা বিবেচনা করুন: আমি আচরণগত বিজ্ঞানের পরিসংখ্যান শিখি এবং আমি আমার শিক্ষার্থীদের আর of 2 এর অর্থ সম্পর্কে শেখাতে সবচেয়ে সহজ উপায়টি "% বৈকল্পিকতা দ্বারা ব্যাখ্যা করা"। সুতরাং আপনার যদি r ^ 2 = 0.5 থাকে, মডেল নির্ভরশীল (ফলাফল) পরিবর্তনশীলের পরিবর্তনের 50% ব্যাখ্যা করে। আপনার যদি নেতিবাচক আর ^ 2 থাকে তবে এর অর্থ এই হবে যে মডেলটি ফলাফলের পরিবর্তনশীলটির নেতিবাচক% ব্যাখ্যা করে, যা কোনও স্বজ্ঞাত যুক্তিযুক্ত পরামর্শ নয়। তবে, অ্যাডজাস্ট করা r ^ 2 নমুনার আকার (এন) এবং ভবিষ্যদ্বাণীকের সংখ্যা (পি) বিবেচনায় নেয়। এটি গণনার জন্য একটি সূত্র এখানে। আপনার যদি খুব কম আর ^ 2 থাকে তবে negativeণাত্মক মান পাওয়া যুক্তিযুক্তভাবে সহজ। মঞ্জুর, নিয়মিত আর ^ 2 এর চেয়ে একটি নেতিবাচক অ্যাডজাস্টেড আর ^ 2 এর বেশি স্বজ্ঞাত অর্থ নেই, তবে পূর্ববর্তী মন্তব্যকারী যেমন বলেছেন, এর অর্থ কেবলমাত্র আপনার সাধারণ মডেল খুব দুর্বল, যদি কেবল সরল নিরর্থক না হয়।


3
বৈষম্যের শতকরা শতাংশ সম্পর্কে ব্যাখ্যা করা হয়েছে, সম্ভবত বৈকল্পিক (ESS> TSS) বাড়াতে মডেলটি এতটা দুর্বল থাকলে , কেউ একটি নেতিবাচক হতে পারেআর2, কোথায় আর2প্রকৃত এবং লাগানো মানগুলির মধ্যে স্কোয়ার পারস্পরিক সম্পর্কের পরিবর্তে বর্ণিত% বৈকল্পিক হিসাবে সংজ্ঞায়িত করা হয়। এটি ওএলএস দ্বারা অনুমান করা একটি বাধা সহ একটি রিগ্রেশনে নাও ঘটতে পারে তবে এটি কোনও বাধা বা সম্ভবত অন্যান্য ক্ষেত্রে ছাড়াই কোনও রিগ্রেশনে ঘটতে পারে।
রিচার্ড হার্ডি

4
আর2 অসম্ভব <0 নমুনায় তবে নমুনার বাইরে গণনা করার সময় নেতিবাচক হতে পারে , যেমন সমস্ত রিগ্রেশন সহগকে ঠিক করার পরে একটি হোল্ডআউট নমুনায়। উপরে বর্ণিত হিসাবে এটি এলোমেলো পূর্বাভাসের চেয়ে খারাপ প্রতিনিধিত্ব করে।
ফ্রাঙ্ক হ্যারেল 20 '

@ ফ্র্যাঙ্কহারেল, আপনি কি নিশ্চিত যে এটির নমুনা থাকা দরকার? মঞ্জুর, আপনি মডেলটি গড়ের চেয়ে খারাপতর উত্পাদন করতে বেশ দৃ strongly়তার সাথে উপেক্ষা করতে হবে, তবে কেবলমাত্র নমুনাযুক্ত ডেটা দিয়ে আপনি কেন এটি করতে পারবেন না তা আমি দেখছি না।
ম্যাট ক্রাউস

আমি নমুনা ধরে নিয়েছি মানে নমুনা যার উপর সহগের অনুমান করা হয়েছিল। তাহলে নেতিবাচক হতে পারে না।
ফ্রাঙ্ক হ্যারেল

1
@ ফ্র্যাঙ্কহারেল, ধরুন মডেলটি সত্যিই নৃশংস - আপনি কিছু বিরতি-না-কম ফাংশন ফিট করেপাপ(ω*এক্স+ +φ)একটি তির্যক রেখা। করা উচিত নয়আর2এখানেও নেতিবাচক হতে পারেন, এমনকি ইন-স্যাম্পল ডেটার জন্যও? আমি যখন এটি করি তখন মতলব আমাকে যথেষ্ট পরিমাণে নেতিবাচক সংখ্যা দেয় ...
ম্যাট ক্রাউস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.