কি দরকারী বা বিপজ্জনক?


233

আমি কসমা শালিজী (বিশেষত, দ্বিতীয় বক্তৃতার ২.১.১ অনুচ্ছেদে ) কিছু বক্তৃতা নোটের মাধ্যমে স্কিমিং করছিলাম , এবং মনে করিয়ে দেওয়া হয়েছিল যে আপনি সম্পূর্ণ রৈখিক মডেল থাকা সত্ত্বেও আপনি খুব কম পেতে পারেন ।R2

: ধরুন আপনার কাছে মডেল রয়েছে , যেখানে একটি পরিচিত। তারপরে \ newcommand \ \ Var} {\ mathrm {Var}} \ Var [Y] = a ^ 2 \ Var [x] + \ Var [\ এপসিলন] এবং বর্ণিত পরিবর্তনের পরিমাণ হ'ল একটি ^ 2 \ Var [এক্স] , তাই আর ^ 2 = অর্থাত \ frac {একটি ^ 2 \ Var স্বাগতম [X]} {একটি ^ 2 \ Var স্বাগতম [এক্স] \ Var স্বাগতম [\ Epsilon]} । এটি 0 \ Var [X] \ রাইটারো 0 এবং 1 তে 1 \ Var [X] \ রাইটারো \ ইনফটি হিসাবে যায়Y=aX+ϵaVar[Y]=a2Var[x]+Var[ϵ]a2Var[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

বিপরীতে, আপনার মডেল লক্ষণীয়ভাবে অ-রৈখিক হলেও আপনি উচ্চ আর ^ 2 পেতে পারেন R2। (কারওর কাছে অফহ্যান্ডের একটি ভাল উদাহরণ আছে?)

সুতরাং আর ^ 2 কখন R2একটি দরকারী পরিসংখ্যান, এবং কখন এড়িয়ে যাওয়া উচিত?


5
দয়া করে মনে রাখবেন অন্য সংশ্লিষ্ট মন্তব্য থ্রেড সাম্প্রতিক প্রশ্ন
whuber

36
প্রদত্ত দুর্দান্ত উত্তরগুলিতে যোগ করার মতো পরিসংখ্যানের আমার কাছে কিছু নেই (উদাহরণস্বরূপ @ হু হুবুবারের দ্বারা) তবে আমি মনে করি সঠিক উত্তরটি "আর-স্কোয়ার্ড: দরকারী এবং বিপজ্জনক"। প্রায় কোনও পরিসংখ্যান পছন্দ।
পিটার ফ্লুম

32
এই প্রশ্নের উত্তর: "হ্যাঁ"
Fomite

আর একটি উত্তরের জন্য stats.stackexchange.com/a/265924/99274 দেখুন ।
কার্ল

উদাহরণস্বরূপ স্ক্রিপ্ট থেকে খুব দরকারী নয় যদি না আপনি আমাদের বলতে পারেন কি হয়? যদি ধ্রুবক হয় তবে আপনার / তার যুক্তিটিও ভুল, তখন থেকে তবে, যদি স্থির হয় না দয়া করে ছোট জন্য বিরুদ্ধে প্লট করুন এবং আমাকে বলুন এটি লিনিয়ার ........Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
ড্যান

উত্তর:


264

মোকাবেলার প্রথম প্রশ্ন , মডেল বিবেচনা

Y=X+sin(X)+ε

গড় শূন্য এবং সসীম বৈকল্পিকের আইআইডি- সহ পরিসীমা (স্থির বা এলোমেলো হিসাবে চিন্তাভাবনা) বাড়ার সাথে সাথে, চলে যায়, তবুও, যদি ভেরিয়েন্সটি ছোট (প্রায় 1 বা তার কম) হয় তবে ডেটা "লক্ষণীয়ভাবে অ-রৈখিক।" প্লটে, ।εXR2εvar(ε)=1

এক্স এর স্বল্প পরিসীমা

এক্স এর বিস্তৃত পরিসর

ঘটনাচক্রে, একটি ছোট পাওয়ার সহজ উপায় হ'ল স্বাধীন ভেরিয়েবলগুলি সংকীর্ণ পরিসরে বিভক্ত করা। প্রতিটি পরিসরের মধ্যে রিগ্রেশন ( ঠিক একই মডেলটি ব্যবহার করে ) একটি কম এমনকি সমস্ত ডেটার উপর ভিত্তি করে পুরো রিগ্রেশনটির উচ্চমান । এই পরিস্থিতির প্রতিবিধান করা একটি তথ্যবহুল অনুশীলন এবং দ্বিতীয় প্রশ্নের ভাল প্রস্তুতি।R2R2R2

নিম্নলিখিত প্লট দুটি একই ডেটা ব্যবহার করে। পূর্ণ রিগ্রেশন জন্য 0.86 হয়। (-5/2 থেকে প্রস্থ 1/2 এর 5/2 পর্যন্ত) টুকরা হয় .16, .18, .07, .14, .08, .17, .20, .12, .01 জন্য , .00, বাম থেকে ডান পড়া। যদি কিছু হয় তবে, কাটা অবস্থায় ফিটগুলি আরও ভাল হয়ে যায় কারণ 10 টি পৃথক লাইনগুলি তাদের সংকীর্ণ সীমার মধ্যে থাকা ডেটার সাথে আরও ঘনিষ্ঠভাবে মানিয়ে নিতে পারে। যদিও সব টুকরা জন্য পর্যন্ত পূর্ণ নীচে দেওয়া হল , তন্ন তন্ন সম্পর্কের শক্তি, রৈখিকতা , কিংবা প্রকৃতপক্ষে কোনো (-setup পরিসীমা ডেটার দৃষ্টিভঙ্গি রিগ্রেশন জন্য ব্যবহৃত) পরিবর্তন করা হয়েছে।R2R2R2R2X

সম্পূর্ণ প্রতিরোধের সাথে পয়েন্ট মেঘ

কাটা পয়েন্ট ক্লাউড 10 রিগ্রেশন সহ

(এক বস্তু হতে পারে এই slicing কার্যপ্রণালী বন্টন পরিবর্তন । যে সত্য, কিন্তু তবুও এটি সবচেয়ে সাধারণ ব্যবহারের সঙ্গে অনুরূপ নির্দিষ্ট প্রভাব মডেলিং এবং ডিগ্রী প্রকাশ যা সম্পর্কে আমাদের বলার হয় এলোমেলো-প্রভাবের পরিস্থিতিতে ভিন্নতা particular বিশেষত, যখন তার প্রাকৃতিক পরিসরের একটি ছোট ব্যবধানের মধ্যে পরিবর্তিত হতে বাধ্য হয় , তখন সাধারণত হ্রাস পাবে))XR2R2XXR2

এর মূল সমস্যাটি হ'ল এটি অনেকগুলি বিষয়ের উপর নির্ভর করে (এমনকি একাধিক রিগ্রেশনের সাথে সামঞ্জস্য করা হলেও), তবে বিশেষত স্বাধীন ভেরিয়েবলের বৈকল্পিকতা এবং অবশিষ্টাংশের প্রকরণের উপর। সাধারণত এটি আমাদেরকে "লাইনারিটি" বা "সম্পর্কের শক্তি" বা মডেলগুলির ক্রম তুলনা করার জন্য "ফিটের উপকার" সম্পর্কে কিছুই বলে নাR2

বেশিরভাগ সময় আপনি চেয়ে ভাল পরিসংখ্যান খুঁজে পেতে পারেন । মডেল নির্বাচনের জন্য আপনি এআইসি এবং বিআইসির দিকে নজর দিতে পারেন; কোনও মডেলের পর্যাপ্ততা প্রকাশ করার জন্য, অবশিষ্টাংশের বৈচিত্রটি দেখুন। R2

এটি আমাদের শেষ পর্যন্ত দ্বিতীয় প্রশ্নের দিকে নিয়ে আসে । কিছুটা ব্যবহার থাকতে পারে এমন একটি পরিস্থিতি হ'ল যখন স্বাধীন ভেরিয়েবলগুলি স্ট্যান্ডার্ড মানগুলিতে সেট করা থাকে, মূলত তাদের বৈকল্পিকের প্রভাবের জন্য নিয়ন্ত্রণ করে। তারপরে হ'ল যথাযথভাবে মানকৃত অবশিষ্টাংশগুলির বৈকল্পিকতার জন্য প্রক্সি।R21R2


26
@ শুভর দ্বারা আশ্চর্যজনক কীভাবে পূর্ণ এবং প্রতিক্রিয়াশীল উত্তর
পিটার

আনুমানিক পরামিতিগুলির সংখ্যার জন্য কি এআইসি এবং বিআইসি স্পষ্টভাবে সামঞ্জস্য করে না? যদি তা হয় তবে আর ad 2 এর সাথে তুলনা করা অযৌক্তিক বলে মনে হচ্ছে। সুতরাং আমি জিজ্ঞাসা করি, আপনার সমালোচনা কি আর ^ 2 সামঞ্জস্য করে? দেখে মনে হচ্ছে আপনার যদি 'স্লাইসিং' করার জন্য দণ্ডিত করা হয়েছিল যে অ্যাডজাস্ট করা আর -2 2 আপনাকে মডেলটির ফিটনেসের ধার্মিকতা সম্পর্কে বলতে ফিরে যেতে সক্ষম হবে।
রাসেলপিয়ের্স

7
@ ডিআর আমার সমালোচনা অ্যাডজাস্ট করা পুরোপুরি প্রযোজ্য । আপনি যখন কেবলমাত্র ডেটার তুলনায় লোড প্যারামিটার ব্যবহার করছেন তখন কেবলমাত্র cases এবং অ্যাডজাস্টেড এর মধ্যে অনেক পার্থক্য রয়েছে cases টুকরো টুকরো টুকরো উদাহরণে প্রায় 1000 তথ্য পয়েন্ট ছিল এবং স্লাইসিংয়ে কেবল 18 পরামিতি যুক্ত হয়েছিল; এর সামঞ্জস্যগুলি দ্বিতীয় দশমিক স্থানেও প্রভাব ফেলবে না, সম্ভবত শেষ বিভাগগুলিতে যেখানে কয়েক ডজন ডেটা পয়েন্ট ছিল কেবলমাত্র: এবং এটি সেগুলি হ্রাস করবে, যুক্তি জোরদার করবে। R2R2R2R2
শুক্র

5
আপনার প্রথম মন্তব্যে প্রশ্নের উত্তরটি আপনার উদ্দেশ্যটির উপর নির্ভর করতে হবে এবং "লিনিয়ার সম্পর্কের জন্য পরীক্ষার" ব্যাখ্যা করার বিভিন্ন উপায় রয়েছে। একটি হ'ল, আপনি পরীক্ষা করতে চান যে সহগটি ননজারো কিনা। অন্যটি হ'ল, আপনি জানতে চান যে অনৈক্যবদ্ধতার প্রমাণ রয়েছে কিনা। (নিজেই) উভয়ের পক্ষে মারাত্মকভাবে কার্যকর নয়, যদিও আমরা জানি যে প্রচুর পরিমাণে ডেটাযুক্ত উচ্চতর অর্থ তাদের স্ক্র্যাটারপ্লোট মোটামুটি লিনিয়ার দেখাচ্ছে - আমার দ্বিতীয় মত বা @ ম্যাক্রোর উদাহরণের মতো like প্রতিটি উদ্দেশ্যগুলির জন্য একটি উপযুক্ত পরীক্ষা এবং এর সাথে সম্পর্কিত পি-মান রয়েছে। R2R2
হোয়বার

4
আপনার দ্বিতীয় প্রশ্নের জন্য আমাদের জিজ্ঞাসা করা উচিত যে "সেরা" রৈখিক ফিট বলতে কী বোঝায়। একজন প্রার্থী এমন কোনও ফিট হতে পারে যা স্কোয়ারের অবশিষ্টাংশকে ছোট করে দেয়। আপনি এর জন্য প্রক্সি হিসাবে নিরাপদে ব্যবহার করতে পারেন , তবে কেন (অ্যাডজাস্টেড) রুট মানে বর্গ ত্রুটি নিজেই পরীক্ষা করবেন না? এটি আরও কার্যকর পরিসংখ্যান। R2
হোবল

47

আপনার উদাহরণটি তখনই প্রযোজ্য যখন পরিবর্তনশীল মডেলের মধ্যে থাকা উচিত । এটি যখন স্বাভাবিক ন্যূনতম স্কোয়ারের প্রাক্কলন ব্যবহার করে তখন অবশ্যই তা প্রয়োগ হয় না। এই দেখার জন্য, মনে রাখুন যে যদি আমরা নির্ধারণ করেছি আপনার উদাহরণে লিস্ট স্কোয়ার মাধ্যমে আমরা পাবেন:X a

এস 2 এক্স =1

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
যেখানে (নমুনা) ভ্যারিয়েন্স হয় এবং হয় (নমুনা) মানেsX2=1Ni=1N(XiX¯)2XX¯=1Ni=1NXiX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

এখন দ্বিতীয় শব্দটি সর্বদা চেয়ে কম ( সীমাতে সমান ) তাই আমরা ভেরিয়েবল থেকে এর অবদানের জন্য একটি উচ্চতর আবদ্ধ পেতে পারি :11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

এবং সুতরাং যদি না পাশাপাশি না হয়, আমরা আসলে দেখতে পাব হিসাবে ((কারণ সংখ্যাটি শূন্যে চলে যায় তবে ) এ যায়। অতিরিক্তভাবে, আমরা কীভাবে দুটি পদ সরিয়ে ফেলা যায় তার উপর নির্ভর করে থেকে মধ্যে কোনও রূপরেখা পেতে পারি । এখন উপরোক্ত শব্দটি সাধারণত than চেয়ে দ্রুত বিভক্ত হবে যদি মডেলটিতে থাকা উচিত এবং মডেলটিতে না থাকলে ধীর গতিতে হবে। উভয় ক্ষেত্রে সঠিক দিকে যায়।(1Ni=1NXiYi)2R20sX2Var[ϵ]>0R201sX2XXR2

এবং এটিও নোট করুন যে কোনও সীমাবদ্ধ ডেটা সেট (যেমন একটি বাস্তব) এর জন্য আমাদের ত্রুটিগুলি ঠিক শূন্য না হওয়া পর্যন্ত কখনই না। এটি মূলত নির্দেশ করে যে একটি নিখুঁত পরিমাণের চেয়ে একটি আপেক্ষিক পরিমাপ। যদি না প্রকৃতপক্ষে সমান হয় তবে আমরা সবসময় একটি আরও ভাল মানানসই মডেলটি খুঁজে পেতে পারি। এটি সম্ভবত এর "বিপজ্জনক" দিক এটি কারণ এটি থেকে মধ্যে আকারের আকারযুক্ত হয় বলে মনে হয় আমরা একে নিখুঁত অর্থে বাধা দিতে পারি।R2=1R2R21R201

আপনি মডেলটিতে ভেরিয়েবলগুলি যুক্ত করার সাথে সাথে ড্রপ কত তাড়াতাড়ি নজর দেওয়া আরও সম্ভবত দরকারী । এবং সর্বশেষে, তবে সর্বনিম্ন নয়, চলক নির্বাচনের ক্ষেত্রে এটিকে কখনই উপেক্ষা করা উচিত নয়, কারণ কার্যকরভাবে ভেরিয়েবল নির্বাচনের জন্য যথেষ্ট পরিসংখ্যান - এটিতে ভেরিয়েবল নির্বাচনের সমস্ত তথ্য রয়েছে। কেবলমাত্র প্রয়োজনীয় জিনিসটি এর ড্রপ চয়ন করা যা "ত্রুটিগুলি ফিটিং করা" এর সাথে মিলে যায় - যা সাধারণত নমুনার আকার এবং ভেরিয়েবলের সংখ্যার উপর নির্ভর করে।R2R2R2


4
+1 প্রচুর চমৎকার পয়েন্ট। গণনাগুলি পূর্ববর্তী জবাবগুলিতে পরিমাণগত অন্তর্দৃষ্টি যুক্ত করে।
whuber

27

আমি যখন বিপজ্জনক একটি উদাহরণ যুক্ত করতে পারি । বহু বছর আগে আমি কিছু বায়োমেট্রিক ডেটা নিয়ে কাজ করছিলাম এবং তরুণ ও বোকা হয়েছি আমি যখন খুশী হয়েছিলাম যখন আমার অভিনব রেগ্রেশনগুলির জন্য আমি পরিসংখ্যানগতভাবে উল্লেখযোগ্য মান পেয়েছি যা আমি ধাপে ধাপে ফাংশন ব্যবহার করে তৈরি করেছি। এটির পরে কেবল বৃহত্তর আন্তর্জাতিক শ্রোতার কাছে আমার উপস্থাপনাটির পরে ফিরে তাকানো কি আমি বুঝতে পেরেছিলাম যে জনসংখ্যার ক্ষেত্রে নমুনার সম্ভাব্য দুর্বল উপস্থাপনার সাথে মিলিয়ে তথ্যটির ব্যাপক বৈচিত্র্য দেওয়া হয়েছে , ০.০২ এর একটি সম্পূর্ণ অর্থহীন ছিল এমনকি যদি এটি "পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ" ছিল ...আর 2 আর 2R2R2R2

যারা পরিসংখ্যান নিয়ে কাজ করছেন তাদের ডেটা বোঝা দরকার!


15
কোনও পরিসংখ্যান বিপজ্জনক নয় যদি আপনি এর অর্থ কী তা বুঝতে পারেন। শেনের উদাহরণটির আর স্কোয়ারের সাথে বিশেষ কিছু করার নেই এটি হ'ল পরিসংখ্যানগত তাত্পর্য নিয়ে মোহিত হওয়া সাধারণ সমস্যা। অনুশীলনে আমরা যখন পরিসংখ্যানগত পরীক্ষা করি তখন আমরা কেবল অর্থবহ পার্থক্যে আগ্রহী। দুটি জনপদে কখনও অভিন্ন বিতরণ হয় না। তারা যদি সমান কাছাকাছি হয় তবে আমাদের কোন চিন্তা নেই। খুব বড় নমুনা আকারের সাহায্যে আমরা ছোট গুরুত্বহীন পার্থক্য সনাক্ত করতে পারি। এজন্য আমার চিকিত্সা গবেষণা পরামর্শে আমি ক্লিনিকাল এবং পরিসংখ্যানগত তাত্পর্যগুলির মধ্যে পার্থক্যের উপর জোর দিয়েছি।
মাইকেল চেরনিক

11
প্রাথমিকভাবে আমার ক্লায়েন্টরা প্রায়শই পাতলা করে যে পরিসংখ্যানগত তাত্পর্য গবেষণাটির লক্ষ্য। তাদের দেখাতে হবে যে এটি এমন নয়।
মাইকেল চেরনিক

০.০২ তে একটি পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ সহজ অর্থ হল যে আপনার কাছে দাবি করার মতো পর্যাপ্ত ডেটা ছিল যে 0 নয় তবে এটি 0 টির কাছাকাছি। সুতরাং স্বতন্ত্র ভেরিয়েবল এবং নির্ভরশীল ভেরিয়েবলের মধ্যে খুব কম সম্পর্ক রয়েছে। আর 2R2R2
মাইকেল চেরনিক

1
মাইকেলকে একেবারে একমত করুন। পরিসংখ্যান সম্পর্কে সামান্য জ্ঞান বিপদজনক হতে পারে! :) বহু বছর আগে এই অন্তর্দৃষ্টির উপর ভিত্তি করে, পরিসংখ্যান আসলে কী বোঝায় তা আরও ভালভাবে বুঝতে আরও অনেক অধ্যয়ন করে আমি সেই খাঁটি ভুলটির পুনরাবৃত্তি না করার জন্য কঠোর পরিশ্রম করেছি। পরিসংখ্যান বিষয়ে স্নাতকোত্তর ডিগ্রি এবং পিএইচডি এবং আমি এখনও আমার মনে হয় আমার পড়াশোনা নিয়ে অনেক দীর্ঘ পথ রয়েছে!
শন

ধন্যবাদ শান আমি আপনার মন্তব্য এবং নম্রতার প্রশংসা করি।
মাইকেল চেরনিক

16

যখন আপনার কাছে একক ভবিষ্যদ্বাণী রয়েছে হ'ল পরিবর্তনের অনুপাত হিসাবে ব্যাখ্যা করা হয় যা সাথে লিনিয়ার সম্পর্ক দ্বারা ব্যাখ্যা করা যেতে পারে । এর মান দেখার সময় এই ব্যাখ্যাটি অবশ্যই মাথায় রাখতে হবে ।R2YXR2

আপনি যখন লিনিয়ারের কাছাকাছি থাকেন তখনই অ-রৈখিক সম্পর্ক থেকে আপনি একটি বড় পেতে পারেন । উদাহরণস্বরূপ, ধরুন যেখানে এবং । আপনি যদি গণনা করেনR2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

আপনি এটি প্রায় কাছাকাছি দেখতে পাবেন (আমি কেবল সিমুলেশন দ্বারা এটি প্রায় অনুমান করেছি) তবুও সম্পর্ক স্পষ্টত রৈখিক নয়। কারণটি হ'ল ব্যবধানের মধ্যে লিনিয়ার ফাংশনের মতো একটি ভয়াবহ দেখায় ।.914eX(2,3)


1
এরিক এবং ম্যাক্রোর নীচের মন্তব্যগুলিতে আমি মনে করি না যে আমার কাছে কারও কাছে এটি আছে এবং তিনটি পৃথক পৃথক প্রশ্নের পরিবর্তে একটি করে সম্মিলিত উত্তর দেওয়া ভাল তবে আপনি কেন এতটা আলোচনাকেন্দ্রিক বিষয়টিকে কেন গুরুত্ব দেবেন আপনি কীভাবে আপনার চারপাশে রয়েছেন? জিনিস লিখুন এবং আপনি যা লিখছেন তার পরিবর্তে এটি কী লিখেছেন?
মাইকেল চেরনিক

8
@ মিশেল চের্নিক, আমি মনে করি না যে কেউ কীভাবে জিনিস লেখেন সে সম্পর্কে "এত" আলোচনা আছে। আমরা আপনাকে যে গাইডলাইনগুলির সাহায্য করতে চেষ্টা করেছি সেগুলি "যদি সবাই তা করে থাকে তবে এই সাইটটি খুব বিশৃঙ্খলাযুক্ত এবং অনুসরণ করা শক্ত হবে" এর ধারায় আরও রয়েছে। দেখে মনে হতে পারে যে এই বিষয়গুলি নিয়ে প্রচুর আলোচনা রয়েছে তবে এটি সম্ভবত কারণ আপনি যোগদানের পর থেকেই খুব সক্রিয় অংশগ্রহণকারী হয়ে গেছেন, যা দুর্দান্ত, কারণ আপনি স্পষ্টতই টেবিলে প্রচুর পরিমাণে এনেছেন। আপনি যদি এই বিষয়ে আরও কথা বলতে চান, তবে আমার সম্পর্কযুক্ত উত্তরের অধীনে মন্তব্য আলোচনার চেয়ে
ম্যাক্রো

যদি একজন উদাহরণস্বরূপ আপনার উদাহরণে অভিন্ন বন্টনকে সমর্থন করে তবে কী খুশি হবে?
কিউবিক

এই সাইটে যেমন আমি অভিজ্ঞতা অর্জন করেছি তখন আমাকে ম্যাক্রোর সাথে একমত হতে হবে যে সংক্ষিপ্ত এবং একীভূত হওয়া গুরুত্বপূর্ণ।
মাইকেল চেরনিক

15

যে পরিস্থিতিটি আপনি এড়াতে চান তা হ'ল একাধিক রিগ্রেশন, যেখানে মডেলটিতে অপ্রাসঙ্গিক ভবিষ্যদ্বাণী ভেরিয়েবল যুক্ত করা কিছু ক্ষেত্রে বৃদ্ধি করতে পারে । পরিবর্তে অ্যাডজাস্টেড মান ব্যবহার করে এটি সম্বোধন করা যেতে পারেR2R2R2

এনপিR¯2=1(1R2)n1np1 যেখানে তথ্য নমুনার সংখ্যা, এবং স্থির শব্দটি গণনা করে না এমন রেজিস্ট্রার সংখ্যা ।np


21
নোট করুন যে অপ্রাসঙ্গিক ভেরিয়েবল যুক্ত করা গ্যারান্টিযুক্ত বাড়ানোর জন্য (কেবল "কিছু ক্ষেত্রে" নয়) যদি না সেই ভেরিয়েবলগুলি বিদ্যমান ভেরিয়েবলগুলির সাথে পুরোপুরি কোলাইনারি না থাকে। R2
শুকনো

6
  1. ননলাইনার ফাংশন সহ উচ্চ জন্য একটি ভাল উদাহরণটি হল কোয়াড্র্যাটিক ফাংশন মধ্যে সীমাবদ্ধ । 0 টি শব্দের সাথে এটির স্কোয়ার 1 হবে না যদি আপনার 3 বা ততোধিক পয়েন্ট থাকে কারণ সেগুলি কোনও সরলরেখায় পুরোপুরি ফিট করে না। কিন্তু যদি নকশা পয়েন্ট অবিশেষে নিক্ষিপ্ত হয় আপনি পেতে উচ্চ সম্ভবত এটি আশ্চর্যজনক তাই হবে। আপনার 0 এর নিকটে প্রচুর পয়েন্ট এবং মাঝখানে খুব কম বা কিছুই না থাকলে 1 এর নিকটে অনেকগুলি পয়েন্ট থাকলে এই ঘটনাটি নাও হতে পারে।R2y=x2[0,1]R2[0,1]R2

  2. R2শব্দের শব্দের একটি বড় বৈকল্পিকতা থাকলে নিখুঁত রৈখিক ক্ষেত্রে দুর্বল হবে। সুতরাং আপনি মডেলটি নিতে পারেন যা প্রযুক্তিগতভাবে একটি নিখুঁত রৈখিক মডেল তবে ই এর প্রকরণটি অনন্তের দিকে ঝুঁকতে দেয় এবং আপনি যাবেন ien এর ঘাটতি সত্ত্বেও আর বর্গের শতাংশের পরিমাণটি পরিমাপ করে না বৈকল্পিক ডেটা দ্বারা ব্যাখ্যা করা হয়েছে এবং সুতরাং এটি ফিটের সদ্ব্যবহার পরিমাপ করে না। একটি উচ্চ মানে একটি ভাল ফিট তবে আমাদের কাছে থাকা ডেটা সেটের আকারের জন্য খুব বেশি পরামিতিগুলির কারণে ভাল ফিটের কারণে আমাদের এখনও সতর্ক থাকতে হবে।Y=x+ϵR2R2

  3. একাধিক রিগ্রেশন পরিস্থিতিতে ওভারফিটিং সমস্যা রয়েছে। ভেরিয়েবল যুক্ত করুন এবং সর্বদা বৃদ্ধি পাবে। সামঞ্জস্য করা প্রতিকারগুলি কিছুটা হ'ল প্যারামিটারের সংখ্যার হিসাবে এটি গ্রহণ করে।R2R2

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.