R, r স্কোয়ার এবং অবশিষ্টাংশের মানক বিচ্যুতি রৈখিক সম্পর্কের বিষয়ে আমাদের কী বলে?


13

সামান্য ব্যাকগ্রাউন্ড
আমি রিগ্রেশন বিশ্লেষণের ব্যাখ্যার উপর কাজ করছি তবে আমি r, r স্কোয়ারড এবং অবশিষ্ট স্ট্যান্ডার্ড বিচ্যুততার অর্থ সম্পর্কে সত্যিই বিভ্রান্ত হয়ে পড়েছি। আমি সংজ্ঞাগুলি জানি:

Characterizations

r একটি স্ক্যাটারপ্লোটে দুটি ভেরিয়েবলের মধ্যে রৈখিক সম্পর্কের শক্তি এবং দিকের পরিমাপ করে

আর-স্কোয়ারটি ফিটেড রিগ্রেশন লাইনের সাথে ডেটা কতটা কাছাকাছি তার পরিসংখ্যানগত পরিমাপ।

রেসিডুয়াল স্ট্যান্ডার্ড বিচ্যুতি হ'ল একটি পরিসংখ্যানীয় শব্দ যা লিনিয়ার ফাংশনটির চারপাশে গঠিত পয়েন্টগুলির স্ট্যান্ডার্ড বিচ্যুতি বর্ণনা করতে ব্যবহৃত হয় এবং এটি নির্ভরশীল পরিবর্তনশীল পরিমাপের নির্ভুলতার একটি অনুমান esti ( ইউনিটগুলি কী তা জানেন না, এখানে ইউনিটগুলি সম্পর্কে কোনও তথ্য সহায়ক হবে )

(সূত্র: এখানে )

প্রশ্ন
যদিও আমি বৈশিষ্ট্যগুলি "বুঝতে" পারি, তবুও আমি বুঝতে পারি কীভাবে এই পদগুলি ডেটাসেট সম্পর্কে কোনও উপসংহার আঁকতে সহায়তা করে। আমি এখানে একটি সামান্য উদাহরণ সন্নিবেশ করবো, সম্ভবত এটি আমার প্রশ্নের উত্তর দেওয়ার জন্য গাইড হিসাবে পরিবেশন করতে পারে ( আপনার নিজের উদাহরণ ব্যবহার করতে নির্দ্বিধায়!)

উদাহরণ
এটি কোনও হুবহু প্রশ্ন নয়, তবে আমি একটি সাধারণ উদাহরণ পেতে আমার বইতে অনুসন্ধান করেছি (আমি যে বর্তমান ডেটাসেটটি বিশ্লেষণ করছি তা এখানে দেখানোর জন্য খুব জটিল এবং বড়)

প্রতিটি দশ x 4 মিটার বিশটি প্লট এলোমেলোভাবে ভুট্টার একটি বৃহত ক্ষেত্রটিতে বেছে নেওয়া হয়েছিল। প্রতিটি প্লটের জন্য, উদ্ভিদের ঘনত্ব (প্লটে গাছের সংখ্যা) এবং গড় শখের ওজন (প্রতি কর্কে শস্যের গ্রাম) লক্ষ্য করা যায়। ফলাফলগুলি নিম্নলিখিত সারণিতে জিভিন:
(উত্স: জীবন বিজ্ঞানের পরিসংখ্যান )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

প্রথমে আমি ডেটা ভিজ্যুয়ালাইজ করার জন্য একটি স্ক্যাটারপ্লট তৈরি করব: সুতরাং আমি আর, আর 2 এবং অবশিষ্টগুলি স্ট্যান্ডার্ড বিচ্যুতি গণনা করতে পারি । প্রথম পারস্পরিক সম্পর্ক পরীক্ষা:
এখানে চিত্র বর্ণনা লিখুন

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

এবং দ্বিতীয়ত: রিগ্রেশন লাইনের একটি সংক্ষিপ্তসার:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

সুতরাং এই পরীক্ষার উপর ভিত্তি করে: r = -0.9417954, আর-স্কোয়ার্ড: 0.887এবং অবশিষ্টাংশের মান ত্রুটি: 8.619 এই মানগুলি ডেটাসেট সম্পর্কে আমাদের কী বলে? ( প্রশ্ন দেখুন )


3
এটি লক্ষণীয় যে আপনি যেটিকে "সংজ্ঞা" বলছেন তা কেবল নৈমিত্তিক বৈশিষ্ট্য এবং এগুলি কীভাবে ব্যাখ্যা করা এবং প্রয়োগ করা হয় তার উপর নির্ভর করে বিভ্রান্তিকর হতে পারে। আসল সংজ্ঞাগুলি পরিমাণগত এবং সুনির্দিষ্ট।
whuber

থ্যাঙ্কিও যে আমি উল্লেখ করার জন্য, আমি যে উত্সগুলি ব্যবহার করেছি তারা এই সংজ্ঞাগুলি বলেছিল, তবে "চরিত্রায়ন" প্রসঙ্গ ছাড়াই সম্ভবত এটি আরও ভাল হতে পারে, আমি এটি পরিবর্তন করব!
কিংবমি

টুকরা: আর-স্কোয়ারটি সাধারণত ভবিষ্যদ্বাণীকারীদের দ্বারা ব্যাখ্যা করা বৈকল্পিকের অনুপাত হিসাবে ব্যাখ্যা করা হয়, সুতরাং 1 এর কাছাকাছি ভাল। রেসিডুয়াল স্ট্যান্ডার্ড বিচ্যুতির ইউনিটগুলি আপনার অবশিষ্টাংশের একক হওয়া উচিত যা আপনার প্রতিক্রিয়া পরিবর্তনের একক।
Alistaire

ধন্যবাদ! @ এলিস্টায়ার আসলে এটি বোঝায় হাহাহাহা কারণ আমরা মূল পয়েন্টগুলির y এর মানকে পূর্বাভাসিত পয়েন্টের y মানগুলির সাথে তুলনা করি
কিংবমি

দায়ূদের উত্তরে তাঁর পরামর্শ অনুসারে আপনার অবশিষ্টাংশের পূর্বাভাস দেওয়া উচিত।
হ্যালো ওয়ার্ল্ড

উত্তর:


5

এই পরিসংখ্যানগুলি আপনাকে সম্পর্কের ক্ষেত্রে রৈখিক উপাদান আছে কিনা তা সম্পর্কে বলতে পারে তবে সম্পর্কটি কঠোরভাবে রৈখিক কিনা সে সম্পর্কে খুব বেশি কিছু নয়। একটি ছোট চতুষ্কোণ উপাদানটির সাথে একটি সম্পর্কের 0.99 এর আর an 2 থাকতে পারে। পূর্বাভাসের ফাংশন হিসাবে অবশিষ্টাংশের একটি প্লট প্রকাশিত হতে পারে। গ্যালিলিওর পরীক্ষায় এখানে https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html পারস্পরিক সম্পর্ক খুব বেশি তবে সম্পর্কটি স্পষ্টতই অরেখান্তরীয়।


5

আমার প্রথম উত্তরটির সাথে ইস্যুতে প্রতিক্রিয়া পাওয়ার পরে একটি উত্তরের দ্বিতীয় চেষ্টা এখানে।

প্রথমত, , আপনার সাধারণ লিনিয়ার রিগ্রেশন ক্ষেত্রে উদ্ভিদের ঘনত্ব এবং শাবকের ওজনের মধ্যে পিয়ারসন পারস্পরিক সম্পর্কের সমান। আরও সাধারণভাবে,একটি লিনিয়ার ফাংশন ব্যবহার করে তাত্ত্বিকভাবে ডেটাতে ভবিষ্যদ্বাণীকারী কতটা ভাল তৈরি করা যায় তার উপরের সীমাটি গঠন করে। অর্থাত্ সর্বোত্তম সম্ভাব্য রৈখিক ভবিষ্যদ্বাণী সাথে সম্পর্কযুক্ত মানগুলির পূর্বাভাস দেয় পর্যবেক্ষিত মান সহ।| r | | r |r|r||r|

দ্বিতীয়ত, সহজ রৈখিক রিগ্রেশনের ক্ষেত্রে শুধু । একাধিক রিগ্রেশন জন্য কখনও কখনও পৃথকভাবে গণনা করা হয়, উদাহরণস্বরূপ, যখন পূর্বাভিত প্রতিক্রিয়ার ভেরিয়েবলটি একটি ধ্রুবককে সেট করা থাকে তখন উপযুক্ত মডেলের মধ্যে অবশিষ্টাংশগুলি (প্রতিক্রিয়াশীল ভেরিয়েবলের পূর্বাভাসযুক্ত এবং পর্যবেক্ষিত মানগুলির মধ্যে পার্থক্য) তুলনা করে।2 আর 2R2r2R2

সাধারণত, একটি পরিমাপ হিসেবে ব্যাখ্যা করা হয় কিভাবে রৈখিক দুটি ভেরিয়েবল মধ্যে সম্পর্ক নেই এবং নির্ভরশীল পরিবর্তনশীল মধ্যে ভ্যারিয়েন্স যা মডেল দ্বারা ব্যাখ্যা করা হয় ভগ্নাংশ হিসেবে ব্যাখ্যা করা হয়। তবে, এমন অনেকগুলি পরিস্থিতি রয়েছে যেখানে এই ব্যাখ্যাগুলি ধারণ করে না। উদাহরণস্বরূপ, গাছের ঘনত্বের প্রদত্ত বাচ্চা ওজনের গড় যদি উদ্ভিদের ঘনত্বের সাথে লিনিয়ার না হয় তবে এর মান সম্পর্কের "লাইনারিটি" সঠিকভাবে প্রকাশ করতে পারে না। সাথে কিছু সাধারণ সমস্যার জন্য আনসকম্বের চৌকোটি দেখুন । আরও দেখুন whuber দ্বারা এই উত্তরটি উপযোগিতা সম্পর্কে একটি প্রশ্ন উপর । শুভেচ্ছা সঙ্গে আপনার প্রশ্নের উত্তর দেওয়ার জন্য এবংআর 2আর 2 R আর 2rR2rrR2rR2 , এই মানগুলি আমাদের ডেটাসেট সম্পর্কে মোটেই বেশি কিছু বলে না, যদি না আমরা সাধারণত লিনিয়ার রিগ্রেশন এর জন্য যে কিছু করা হয় তার বাইরে কিছুটা দৃ strong় ধারণা অনুমান করতে পারি (উদাহরণস্বরূপ আমাদের ধরে নিতে হবে যে এর মধ্যে কোনও লিনিয়ার সম্পর্ক নেই) আমরা মডেলিং করছি লিনিয়ার এক ছাড়া ভেরিয়েবল)।

রেসিডুয়াল স্ট্যান্ডার্ড ত্রুটি হ'ল একটি প্রাকৃতিক বিতরণের জন্য আদর্শ বিচ্যুতি, পূর্বাভাসিত রিগ্রেশন লাইনের উপর কেন্দ্রীভূত হয়, যা বাস্তবে পর্যবেক্ষণকৃত মানগুলির বন্টনকে প্রতিনিধিত্ব করে। অন্য কথায়, যদি আমরা কোনও নতুন প্লটের জন্য কেবল উদ্ভিদের ঘনত্ব পরিমাপ করি তবে আমরা লাগানো মডেলের সহগগুলি ব্যবহার করে বাচ্চার ওজনের পূর্বাভাস দিতে পারি, এটি সেই বিতরণের মাধ্যম। আরএসই হ'ল সেই বিতরণের মানক বিচ্যুতি এবং এইভাবে আমরা বাস্তবে পর্যবেক্ষণ হওয়া কোব ওজনকে মডেলের দ্বারা পূর্বাভাসিত মানগুলি থেকে বিচ্যুত করার কতটা প্রত্যাশা করি তার একটি পরিমাপ। এক্ষেত্রে ~ 8 এর একটি আরএসই সিঁড়ির ওজনের নমুনা স্ট্যান্ডার্ড বিচ্যুতির সাথে তুলনা করতে হবে তবে আরএসই যত কম অনুমানযোগ্য, বা পর্যাপ্ত, তা নমুনা এসডির সাথে তুলনা করা।


@ শুভ এই প্রশ্নের এখনও পর্যন্ত কোনও উত্তর নেই তাই আমি এটিকে আবার চেষ্টা করার সিদ্ধান্ত নিয়েছি। পুরানো উত্তরটি মুছে ফেলার পরিবর্তে, সমস্ত জিনিসপত্রের সাথে আমি কেবল একটি নতুন লিখার সিদ্ধান্ত নিয়েছি (আরএসই অনুচ্ছেদের যা আমি অনুলিপি করেছি তা বাদ দিয়ে)। আপনার যদি সময় থাকে তবে আমি এই দ্বিতীয় প্রচেষ্টায় যে কোনও প্রতিক্রিয়ার জন্য সত্যই কৃতজ্ঞ হব। মডেল মূল্যায়নের জন্য আমার স্বাভাবিক পদ্ধতির ক্রস-বৈধকরণ এবং হোল্ড-আউট সেটগুলি যেমন উদ্দেশ্যটি সাধারণত পূর্বাভাস হয় তবে আমি এই মেট্রিকগুলি পাশাপাশি বুঝতে পারি যে এগুলি বেশ সাধারণ।
জোহান ফ্যালকেনজ্যাক

2
+1 আপনার এই প্রচেষ্টার জন্য আপনাকে ধন্যবাদ। আপনি এমন একটি পোস্ট তৈরি করেছেন যা এরূপ মৌলিক এবং গুরুত্বপূর্ণ রিগ্রেশন পরিসংখ্যানগুলির প্রমিত আচরণের জন্য আরও বিস্তৃত মনোযোগের দাবি রাখে। তবে একটি ছোট্ট বিষয়: আমি নিশ্চিত নই যে আমি সম্পর্কে আপনার প্রাথমিক মন্তব্যগুলি অনুসরণ করি । মনে হচ্ছে আপনার বিভ্রান্তি করা যেতে পারে , পরিসংখ্যাত সঙ্গে, , জনসংখ্যা পারস্পরিক সম্পর্ক। কোনও পরিসংখ্যান, যা কোনও নমুনার সম্পত্তি, কোনও জনসংখ্যার সম্পত্তির জন্য কীভাবে "উপরের আবদ্ধ" সরবরাহ করতে পারে তা দেখা মুশকিল । ρ|r|rρ
হোবার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.