পরিসংখ্যানগুলিতে আমরা লিনিয়ার রিগ্রেশনগুলি করছি, সেগুলির খুব সূচনা। সাধারণভাবে, আমরা জানি যে উচ্চতর উন্নত, তবে কোনও উচ্চতর একটি অকেজো মডেল হওয়ার মতো পরিস্থিতি কি কখনও পাওয়া যায় ?আর 2
পরিসংখ্যানগুলিতে আমরা লিনিয়ার রিগ্রেশনগুলি করছি, সেগুলির খুব সূচনা। সাধারণভাবে, আমরা জানি যে উচ্চতর উন্নত, তবে কোনও উচ্চতর একটি অকেজো মডেল হওয়ার মতো পরিস্থিতি কি কখনও পাওয়া যায় ?আর 2
উত্তর:
হ্যাঁ। একটি পরিসংখ্যানগত মডেল মূল্যায়নের জন্য মানদণ্ডটি হাতের নির্দিষ্ট সমস্যার উপর নির্ভর করে এবং বা পরিসংখ্যানগত তাৎপর্যের কোনও যান্ত্রিক ফাংশন নয় (যদিও তারা বিবেচনা করে)। প্রাসঙ্গিক প্রশ্নটি হ'ল, "মডেল কি আপনাকে ডেটা বুঝতে সহায়তা করে?"
উচ্চ পাওয়ার সহজ উপায়টি হ'ল বাম জুতোতে ডান জুতাগুলি রিগ্রিজ করার সমতুল্য কিছু করা। আমাকে আপনার ডান জুতোর আকার বলুন এবং আমি আপনার বাম জুতার আকারটি খুব নির্ভুলতার সাথে পূর্বাভাস দিতে পারি। বিশাল আর 2 ! কী দুর্দান্ত পরিসংখ্যানের মডেল! বাদে এর অর্থ হ'ল ডু পু। আপনি কোনও রিগ্রেশনের বাম এবং ডানদিকে একই পরিবর্তনশীল রেখে দুর্দান্ত আর 2 পেতে পারেন তবে এই বিশাল আর 2 রিগ্রেশনটি অবশ্যই নিরর্থক হবে।
অন্যান্য ক্ষেত্রে রয়েছে যেখানে ডানদিকে কোনও ভেরিয়েবল সহ ধারণামূলকভাবে করা ভুল কাজ (এমনকি এটি উত্থাপন করে )। ধরা যাক আপনি কিছু সংখ্যালঘু গোষ্ঠীর সাথে বৈষম্যমূলক আচরণ করা এবং চাকরি পাওয়ার সম্ভাবনা কম থাকলে আপনি অনুমান করার চেষ্টা করছেন। আপনি করা উচিত নয় জন্য কিনা কোম্পানী কাজের আবেদন পর একটি কল ফেরত দিলেন কারণ সংখ্যালঘুদের কাজ অ্যাপ্লিকেশন সাড়া হচ্ছে সম্ভাবনা কম চ্যানেল, যার মাধ্যমে বৈষম্য ঘটে হতে পারে নিয়ন্ত্রণ! ভুল নিয়ন্ত্রণ যুক্ত করা আপনার প্রতিরোধকে অর্থহীন করে দিতে পারে।
আপনি আরও রেজিস্টার যুক্ত করে সর্বদা বাড়িয়ে দিতে পারেন ! আমার যতটুকু আর -2 পছন্দ না পাওয়া পর্যন্ত আমি ডানদিকে নিবন্ধগুলি যুক্ত করতে পারি keep শ্রম উপার্জনের পূর্বাভাস দেওয়ার জন্য, আমি শিক্ষার নিয়ন্ত্রণ, বয়স নিয়ন্ত্রণ, চতুর্থাংশ স্থির প্রভাব, জিপ কোড স্থির প্রভাব, পেশা নির্দিষ্ট প্রভাব, দৃ fixed় স্থির প্রভাব, পারিবারিক স্থির প্রভাব, পোষা স্থির প্রভাব, চুলের দৈর্ঘ্য ইত্যাদি যোগ করতে পারি ... কিছু সময় নিয়ন্ত্রণগুলি বোঝা বন্ধ করুন কিন্তু আর 2 উপরে যেতে থাকে। রেজিস্ট্রার হিসাবে সমস্ত কিছু যুক্ত করা "রান্নাঘর সিঙ্ক" রিগ্রেশন হিসাবে পরিচিত। আপনি উচ্চ আর 2 পেতে পারেন তবে ডেটা ব্যাপকভাবে উপকার করতে পারেন: আপনার মডেলটি মডেলটি অনুমান করার জন্য ব্যবহৃত নমুনার পুরোপুরি ভবিষ্যদ্বাণী করে (উচ্চতর আর রয়েছে ) তবে আনুমানিক মডেলটি নতুন ডেটাতে মারাত্মকভাবে ব্যর্থ হয়।
বহু ধারণাযুক্ত কার্ভ ফিটিংয়ে একই ধারণা দেখা যায়। আমাকে এলোমেলো ডেটা দিন, এবং আমি সম্ভবত 200 ডিগ্রি বহুভুজ লাগিয়ে দুর্দান্ত পেতে পারি । যদিও নতুন উপাত্তগুলিতে, আনুমানিক বহুবচনটি অত্যধিক ফিটনের কারণে কাজ করতে ব্যর্থ হবে। আবার আনুমানিক মডেলটির জন্য হাই আর 2 কিন্তু অনুমানযুক্ত মডেলটি অকেজো।
পয়েন্ট (৩-৪) এজন্য আমরা সামঞ্জস্য করেছি , যা আরও রেজিস্ট্রার যুক্ত করার জন্য কিছু শুল্ক প্রদান করে, তবে অ্যাডজাস্ট করা আর ২ সাধারণত তথ্যের চেয়ে বেশি পরিমাণে ফিট করে রস দেওয়া যায় can এটিতেও আশ্চর্যজনকভাবে অযৌক্তিক বৈশিষ্ট্য রয়েছে যা এটি নেতিবাচক হতে পারে।
আমি উদাহরণও দিতে পারলাম যেখানে কম ঠিক আছে (যেমন সম্পদের মূল্য নির্ধারণের মডেলগুলিতে বিটা অনুমান করা) তবে এই পোস্টটি ইতিমধ্যে বেশ দীর্ঘ হয়ে গেছে got সংক্ষেপে বলতে গেলে, সামগ্রিক প্রশ্নটি এমন কিছু হওয়া উচিত, "সমস্যাটি এবং পরিসংখ্যান সম্পর্কে আমি কী জানি তা জেনে কী এই মডেলটি আমাকে ডেটা বোঝার / ব্যাখ্যা করতে সহায়তা করে?" আর 2 এই প্রশ্নের উত্তর দেওয়ার জন্য একটি সরঞ্জাম হতে পারে তবে এটি এতটা সহজ নয় কারণ উচ্চতর আর 2 সহ মডেলগুলি সর্বদা ভাল always
"উচ্চতর ভাল" আর-স্কোয়ারের পক্ষে থাম্বের একটি খারাপ নিয়ম।
ডন মরিসন কয়েক বছর আগে কিছু বিখ্যাত নিবন্ধ লিখেছিলেন যে শূন্যের নিকটে পৌঁছানো আর-স্কোয়ারগুলি এখনও শিল্পের উপর নির্ভর করে কার্যকর এবং লাভজনক উভয়ই হতে পারে। উদাহরণস্বরূপ, ১০০ মিলিয়ন পরিবারকে ম্যাগাজিনের সাবস্ক্রিপশন মেইলিংয়ের প্রত্যক্ষ বিপণনের পূর্বাভাসে, স্বল্প একক অঙ্কের আর-স্কোয়ারগুলি লাভজনক প্রচারণা (একটি আরওআই ভিত্তিতে) উত্পাদন করতে পারে যদি মেইলিং প্রতিক্রিয়াটির শীর্ষ 2 বা 3 ডেসিলের উপর ভিত্তি করে থাকে সম্ভাবনা।
আর এক সমাজবিজ্ঞানী (যার নাম আমাকে এড়িয়ে চলেছে) তথ্য-প্রকারে আর-স্কোয়ারগুলি বিভাগের সমীক্ষা গবেষণায় উল্লেখ করা হয়েছে যে, 10-20% পরিসরে আর-স্কোয়ারগুলি আদর্শ ছিল, যেখানে ব্যবসায়ের তথ্যের জন্য 40-60% পরিসরে আর-স্কোয়ার রয়েছে প্রত্যাশিত ছিল। তারা মন্তব্য করে গিয়েছিল যে ৮০-৯০% বা তার বেশি স্কোরগুলি সম্ভবত মৌলিক প্রতিরোধ অনুমানের লঙ্ঘন ছিল। তবে এই লেখকের বিপণন মিশ্রণ, টাইম সিরিজের ডেটা বা "কার্যকারণ" বৈশিষ্ট্যগুলির একটি সম্পূর্ণ সেট (যেমন, দাম, প্রচার, স্থান এবং পণ্যটির ক্লাসিক 4 "পিএস") রয়েছে এমন মডেলগুলির সাথে কোনও অভিজ্ঞতা নেই যা আর- স্কোয়ার 100% এ পৌঁছেছে।
এটি বলেছিল, এমনকি বোধগম্য, বেঞ্চমার্কিংয়ের নিয়মগুলি যেমন প্রযুক্তিগতভাবে নিরক্ষরদের সাথে কথা বলার সময় মারাত্মকভাবে কার্যকর হয় না, যাদের ভবিষ্যদ্বাণীমূলক মডেল সম্পর্কে প্রথম প্রশ্ন সর্বদা থাকবে, "আর-স্কোয়ারটি কী?"
অন্যান্য উত্তরগুলি আর-বর্গক্ষেত্রের মানগুলি স্থির / নকল / বিভ্রান্তিকর / ইত্যাদির বিভিন্ন উপায়ে দুর্দান্ত তাত্ত্বিক ব্যাখ্যা সরবরাহ করে .. এখানে একটি হাতের বিক্ষোভ যা সর্বদা আমার সাথে আটকে থাকে, এতে কোডড থাকে r
:
y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))
এটি আর-স্কোয়ার্ড মান> 0.90 সরবরাহ করতে পারে provide পর্যাপ্ত রেজিস্ট্রার যুক্ত করুন এবং এলোমেলো মানগুলি এলোমেলো মানগুলি "ভবিষ্যদ্বাণী" করতে পারে।
set.seed(1)
এবং set.seed(2)
।