আমি এটি বোঝাতে চাই যে মডেলটি পৃথক ডেটা পয়েন্টের পূর্বাভাস দেওয়ার ক্ষেত্রে খারাপ তবে দৃ firm় প্রবণতা প্রতিষ্ঠা করেছে (উদাহরণস্বরূপ x যখন উপরে যায় তখন y উপরে যায়)।
আমি এটি বোঝাতে চাই যে মডেলটি পৃথক ডেটা পয়েন্টের পূর্বাভাস দেওয়ার ক্ষেত্রে খারাপ তবে দৃ firm় প্রবণতা প্রতিষ্ঠা করেছে (উদাহরণস্বরূপ x যখন উপরে যায় তখন y উপরে যায়)।
উত্তর:
এর অর্থ হ'ল আপনি ডেটাতে ভিন্নতার একটি ছোট্ট অংশ ব্যাখ্যা করতে পারেন। উদাহরণস্বরূপ, আপনি প্রতিষ্ঠিত করতে পারেন যে কলেজ ডিগ্রি বেতনগুলিতে প্রভাব ফেলে তবে একই সময়ে এটি কেবল একটি ছোট ফ্যাক্টর। আপনার বেতনকে প্রভাবিত করে এমন আরও অনেকগুলি কারণ রয়েছে এবং কলেজ ডিগ্রির অবদান খুব কম, তবে সনাক্তযোগ্য।
ব্যবহারিক দিক দিয়ে এটির অর্থ এই হতে পারে যে কলেজের গড় ডিগ্রি প্রতি বছর বেতন বৃদ্ধি করে 500 ডলার করে , যখন লোকদের বেতনের মান বিচ্যুতি $ 10 কে। সুতরাং, অনেক কলেজ শিক্ষিত লোকের অ-শিক্ষিতের তুলনায় কম বেতন রয়েছে, এবং পূর্বাভাসের জন্য আপনার মডেলের মান কম।
এর অর্থ "অপরিবর্তনীয় ত্রুটি বেশি", অর্থাত্ (লিনিয়ার মডেল সহ) আমরা সবচেয়ে ভাল কাজটি সীমাবদ্ধ। উদাহরণস্বরূপ, নিম্নলিখিত ডেটা সেট:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
দ্রষ্টব্য, এই ডেটা সেটটিতে কৌশলটি হ'ল এক মান দেওয়া , অনেকগুলি বিভিন্ন y মান রয়েছে যে আমরা সেগুলির সমস্ত সন্তুষ্ট করার জন্য কোনও ভাল পূর্বাভাস দিতে পারি না। একই সময়ে, এক্স এবং y এর মধ্যে "শক্তিশালী" রৈখিক পারস্পরিক সম্পর্ক রয়েছে । যদি আমরা একটি লিনিয়ার মডেল ফিট করি তবে আমরা উল্লেখযোগ্য সহগগুলি পাব, তবে কম আর স্কোয়ার।
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
লিনিয়ার রিগ্রেশনটি পরিসংখ্যানগতভাবে তাৎপর্যযুক্ত হওয়ার অর্থ কী তবে এর খুব কম স্কোয়ার রয়েছে?
এর অর্থ হ'ল স্বতন্ত্র এবং নির্ভরশীল চলকগুলির মধ্যে একটি রৈখিক সম্পর্ক রয়েছে তবে এই সম্পর্কটি কথা বলার মতো নয়।
সম্পর্কের অর্থবহতা যদিও আপনি যা পরীক্ষা করছেন তার উপর খুব বেশি নির্ভরশীল তবে সাধারণত আপনি এটি বোঝাতে পারেন যে পরিসংখ্যানিক তাত্পর্যকে প্রাসঙ্গিকতার সাথে বিভ্রান্ত করা উচিত নয়।
একটি বৃহত পরিমাণে নমুনা আকারের সাথে, এমনকি সম্পর্কের মধ্যে সবচেয়ে তুচ্ছটিও পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ হিসাবে পাওয়া যায়।
এটিকে উচ্চারণ করার আরেকটি উপায় হ'ল এর অর্থ হল আপনি আত্মবিশ্বাসের সাথে জনসংখ্যা পর্যায়ে পরিবর্তনের পূর্বাভাস দিতে পারেন তবে স্বতন্ত্র স্তরে নয়। অর্থাত্ স্বতন্ত্র উপাত্তগুলিতে একটি উচ্চ বৈকল্পিকতা রয়েছে, তবে যখন যথেষ্ট পরিমাণে নমুনা ব্যবহার করা হয়, তখন একটি অন্তর্নিহিত প্রভাব সামগ্রিকভাবে দেখা যায়। কিছু সরকারী স্বাস্থ্য পরামর্শ ব্যক্তির পক্ষে অসহায় হওয়ার এক কারণ এটি। সরকারগুলি কিছু সময় কাজ করার প্রয়োজনীয়তা অনুভব করে কারণ তারা দেখতে পারে যে কিছু ক্রিয়াকলাপের আরও বেশি লোকেরা সামগ্রিকভাবে আরও বেশি মৃত্যুর দিকে পরিচালিত করে। তারা পরামর্শ বা একটি নীতি তৈরি করে যা এই জীবনগুলিকে 'রক্ষা করে'। তবে স্বতন্ত্র প্রতিক্রিয়াগুলির উচ্চতম পরিবর্তনের কারণে, কোনও ব্যক্তি ব্যক্তিগতভাবে কোনও সুবিধা (বা আরও খারাপতর, নির্দিষ্ট জিনগত অবস্থার কারণে) দেখতে অস্বীকার করতে পারে তবে বিপরীত পরামর্শ মেনে চলার ফলে তাদের স্বাস্থ্যের উন্নতি ঘটতে পারে, তবে এটি জনসংগঠনের মধ্যে লুকিয়ে রয়েছে)। ব্যক্তি যদি 'অস্বাস্থ্যকর' ক্রিয়াকলাপ থেকে উপকার লাভ করে (যেমন আনন্দ), পরামর্শ অনুসরণ করে তার অর্থ তারা সারাজীবন এই নির্দিষ্ট আনন্দটি বঞ্চিত করতে পারেন, তবুও তারা ব্যক্তিগতভাবে শর্তটি ভোগ করেছে কি না তা পরিবর্তন করে না।