একটি উচ্চ


23

পরিসংখ্যানগুলিতে আমরা লিনিয়ার রিগ্রেশনগুলি করছি, সেগুলির খুব সূচনা। সাধারণভাবে, আমরা জানি যে উচ্চতর উন্নত, তবে কোনও উচ্চতর একটি অকেজো মডেল হওয়ার মতো পরিস্থিতি কি কখনও পাওয়া যায় ?আর 2আর2R2


8
Stats.stackexchange.com/questions/13314 এ উত্তর আপনাকে কিছু ধারণা দিতে পারে।
whuber

2
সেখানে এক পরিস্থিতি নিয়ে আলোচনা করেন এখানে , একটি উদাহরণ দিয়ে। উদাহরণস্বরূপ, যদি আপনি সেখানে উদাহরণে coin2 উপর coin1 ফলাফল regressed, আপনি পেতে চাই 85% বেশি, কিন্তু যে আপাত সম্পর্ক সম্পূর্ণরূপে 'জাল'। আর2
গ্লেন_বি -রিনস্টেট মনিকা

2
কোনও মডেল নয়। অতএব আপনার উচিত বলা উচিত "... একটি উচ্চ আর 2 একটি অকেজো মডেল থেকে আসে" বা "... একটি উচ্চ আর 2 একটি অকেজো মডেল হবে" এর চেয়ে অনুরূপ কিছু something আর2আর2আর2
রিচার্ড হার্ডি


একটি প্রাসঙ্গিক থ্রেড: stats.stackexchange.com/q/414349/121522
মনিকা

উত্তর:


43

হ্যাঁ। একটি পরিসংখ্যানগত মডেল মূল্যায়নের জন্য মানদণ্ডটি হাতের নির্দিষ্ট সমস্যার উপর নির্ভর করে এবং বা পরিসংখ্যানগত তাৎপর্যের কোনও যান্ত্রিক ফাংশন নয় (যদিও তারা বিবেচনা করে)। প্রাসঙ্গিক প্রশ্নটি হ'ল, "মডেল কি আপনাকে ডেটা বুঝতে সহায়তা করে?"আর2

উচ্চ আর 2 সহ অর্থহীন সংবিধানআর2

  1. উচ্চ পাওয়ার সহজ উপায়টি হ'ল বাম জুতোতে ডান জুতাগুলি রিগ্রিজ করার সমতুল্য কিছু করা। আমাকে আপনার ডান জুতোর আকার বলুন এবং আমি আপনার বাম জুতার আকারটি খুব নির্ভুলতার সাথে পূর্বাভাস দিতে পারি। বিশাল আর 2 ! কী দুর্দান্ত পরিসংখ্যানের মডেল! বাদে এর অর্থ হ'ল ডু পু। আপনি কোনও রিগ্রেশনের বাম এবং ডানদিকে একই পরিবর্তনশীল রেখে দুর্দান্ত আর 2 পেতে পারেন তবে এই বিশাল আর 2 রিগ্রেশনটি অবশ্যই নিরর্থক হবে।আর2আর2আর2R2

  2. অন্যান্য ক্ষেত্রে রয়েছে যেখানে ডানদিকে কোনও ভেরিয়েবল সহ ধারণামূলকভাবে করা ভুল কাজ (এমনকি এটি উত্থাপন করে )। ধরা যাক আপনি কিছু সংখ্যালঘু গোষ্ঠীর সাথে বৈষম্যমূলক আচরণ করা এবং চাকরি পাওয়ার সম্ভাবনা কম থাকলে আপনি অনুমান করার চেষ্টা করছেন। আপনি করা উচিত নয় জন্য কিনা কোম্পানী কাজের আবেদন পর একটি কল ফেরত দিলেন কারণ সংখ্যালঘুদের কাজ অ্যাপ্লিকেশন সাড়া হচ্ছে সম্ভাবনা কম চ্যানেল, যার মাধ্যমে বৈষম্য ঘটে হতে পারে নিয়ন্ত্রণ! ভুল নিয়ন্ত্রণ যুক্ত করা আপনার প্রতিরোধকে অর্থহীন করে দিতে পারে।R2

  3. আপনি আরও রেজিস্টার যুক্ত করে সর্বদা বাড়িয়ে দিতে পারেন ! আমার যতটুকু আর -2 পছন্দ না পাওয়া পর্যন্ত আমি ডানদিকে নিবন্ধগুলি যুক্ত করতে পারি keep শ্রম উপার্জনের পূর্বাভাস দেওয়ার জন্য, আমি শিক্ষার নিয়ন্ত্রণ, বয়স নিয়ন্ত্রণ, চতুর্থাংশ স্থির প্রভাব, জিপ কোড স্থির প্রভাব, পেশা নির্দিষ্ট প্রভাব, দৃ fixed় স্থির প্রভাব, পারিবারিক স্থির প্রভাব, পোষা স্থির প্রভাব, চুলের দৈর্ঘ্য ইত্যাদি যোগ করতে পারি ... কিছু সময় নিয়ন্ত্রণগুলি বোঝা বন্ধ করুন কিন্তু আর 2 উপরে যেতে থাকে। রেজিস্ট্রার হিসাবে সমস্ত কিছু যুক্ত করা "রান্নাঘর সিঙ্ক" রিগ্রেশন হিসাবে পরিচিত। আপনি উচ্চ আর 2 পেতে পারেন তবে ডেটা ব্যাপকভাবে উপকার করতে পারেন: আপনার মডেলটি মডেলটি অনুমান করার জন্য ব্যবহৃত নমুনার পুরোপুরি ভবিষ্যদ্বাণী করে (উচ্চতর আর রয়েছেআর2আর2আর2আর2 ) তবে আনুমানিক মডেলটি নতুন ডেটাতে মারাত্মকভাবে ব্যর্থ হয়।আর2

  4. বহু ধারণাযুক্ত কার্ভ ফিটিংয়ে একই ধারণা দেখা যায়। আমাকে এলোমেলো ডেটা দিন, এবং আমি সম্ভবত 200 ডিগ্রি বহুভুজ লাগিয়ে দুর্দান্ত পেতে পারি । যদিও নতুন উপাত্তগুলিতে, আনুমানিক বহুবচনটি অত্যধিক ফিটনের কারণে কাজ করতে ব্যর্থ হবে। আবার আনুমানিক মডেলটির জন্য হাই আর 2 কিন্তু অনুমানযুক্ত মডেলটি অকেজো।আর2আর2

  5. পয়েন্ট (৩-৪) এজন্য আমরা সামঞ্জস্য করেছি , যা আরও রেজিস্ট্রার যুক্ত করার জন্য কিছু শুল্ক প্রদান করে, তবে অ্যাডজাস্ট করা আর সাধারণত তথ্যের চেয়ে বেশি পরিমাণে ফিট করে রস দেওয়া যায় can এটিতেও আশ্চর্যজনকভাবে অযৌক্তিক বৈশিষ্ট্য রয়েছে যা এটি নেতিবাচক হতে পারে।আর2আর2

আমি উদাহরণও দিতে পারলাম যেখানে কম ঠিক আছে (যেমন সম্পদের মূল্য নির্ধারণের মডেলগুলিতে বিটা অনুমান করা) তবে এই পোস্টটি ইতিমধ্যে বেশ দীর্ঘ হয়ে গেছে got সংক্ষেপে বলতে গেলে, সামগ্রিক প্রশ্নটি এমন কিছু হওয়া উচিত, "সমস্যাটি এবং পরিসংখ্যান সম্পর্কে আমি কী জানি তা জেনে কী এই মডেলটি আমাকে ডেটা বোঝার / ব্যাখ্যা করতে সহায়তা করে?" আর 2 এই প্রশ্নের উত্তর দেওয়ার জন্য একটি সরঞ্জাম হতে পারে তবে এটি এতটা সহজ নয় কারণ উচ্চতর আর 2 সহ মডেলগুলি সর্বদা ভাল alwaysআর2আর2আর2


অনেক ভাল পয়েন্টের জন্য +1। আমি সুরটি সম্পর্কে কী বলব তা জানার চেষ্টা করছি ....
Rolando2

2
+1 টি। আপনার "সর্বদা বৃদ্ধি" হওয়া উচিত যদিও কিছুটা পেডেন্টিক হওয়া "কখনই হ্রাস" হওয়া উচিত নয়। ধরে নিলাম যে কোনও একটি ব্যাখ্যাযোগ্য ভেরিয়েবল যুক্ত করেছে যা নির্ভরশীল ভেরিয়েবলের চেয়ে পৃথক একই থাকবে। : ডিআর2
usεr11852

2
আর2

7

"উচ্চতর ভাল" আর-স্কোয়ারের পক্ষে থাম্বের একটি খারাপ নিয়ম।

ডন মরিসন কয়েক বছর আগে কিছু বিখ্যাত নিবন্ধ লিখেছিলেন যে শূন্যের নিকটে পৌঁছানো আর-স্কোয়ারগুলি এখনও শিল্পের উপর নির্ভর করে কার্যকর এবং লাভজনক উভয়ই হতে পারে। উদাহরণস্বরূপ, ১০০ মিলিয়ন পরিবারকে ম্যাগাজিনের সাবস্ক্রিপশন মেইলিংয়ের প্রত্যক্ষ বিপণনের পূর্বাভাসে, স্বল্প একক অঙ্কের আর-স্কোয়ারগুলি লাভজনক প্রচারণা (একটি আরওআই ভিত্তিতে) উত্পাদন করতে পারে যদি মেইলিং প্রতিক্রিয়াটির শীর্ষ 2 বা 3 ডেসিলের উপর ভিত্তি করে থাকে সম্ভাবনা।

আর এক সমাজবিজ্ঞানী (যার নাম আমাকে এড়িয়ে চলেছে) তথ্য-প্রকারে আর-স্কোয়ারগুলি বিভাগের সমীক্ষা গবেষণায় উল্লেখ করা হয়েছে যে, 10-20% পরিসরে আর-স্কোয়ারগুলি আদর্শ ছিল, যেখানে ব্যবসায়ের তথ্যের জন্য 40-60% পরিসরে আর-স্কোয়ার রয়েছে প্রত্যাশিত ছিল। তারা মন্তব্য করে গিয়েছিল যে ৮০-৯০% বা তার বেশি স্কোরগুলি সম্ভবত মৌলিক প্রতিরোধ অনুমানের লঙ্ঘন ছিল। তবে এই লেখকের বিপণন মিশ্রণ, টাইম সিরিজের ডেটা বা "কার্যকারণ" বৈশিষ্ট্যগুলির একটি সম্পূর্ণ সেট (যেমন, দাম, প্রচার, স্থান এবং পণ্যটির ক্লাসিক 4 "পিএস") রয়েছে এমন মডেলগুলির সাথে কোনও অভিজ্ঞতা নেই যা আর- স্কোয়ার 100% এ পৌঁছেছে।

এটি বলেছিল, এমনকি বোধগম্য, বেঞ্চমার্কিংয়ের নিয়মগুলি যেমন প্রযুক্তিগতভাবে নিরক্ষরদের সাথে কথা বলার সময় মারাত্মকভাবে কার্যকর হয় না, যাদের ভবিষ্যদ্বাণীমূলক মডেল সম্পর্কে প্রথম প্রশ্ন সর্বদা থাকবে, "আর-স্কোয়ারটি কী?"


7

অন্যান্য উত্তরগুলি আর-বর্গক্ষেত্রের মানগুলি স্থির / নকল / বিভ্রান্তিকর / ইত্যাদির বিভিন্ন উপায়ে দুর্দান্ত তাত্ত্বিক ব্যাখ্যা সরবরাহ করে .. এখানে একটি হাতের বিক্ষোভ যা সর্বদা আমার সাথে আটকে থাকে, এতে কোডড থাকে r:

y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))

এটি আর-স্কোয়ার্ড মান> 0.90 সরবরাহ করতে পারে provide পর্যাপ্ত রেজিস্ট্রার যুক্ত করুন এবং এলোমেলো মানগুলি এলোমেলো মানগুলি "ভবিষ্যদ্বাণী" করতে পারে।


1
আকর্ষণীয়: বিপরীতে set.seed(1)এবং set.seed(2)
প্যাট্রিকটি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.