কেন লিনিয়ার রিগ্রেশন সাধারণ ডিস্ট্রিমেন্টিক ক্রমের ফলাফলটি ভবিষ্যদ্বাণী করতে সক্ষম হয় না?


9

আমার একজন সহকর্মী আমাকে এই সমস্যাটি স্পষ্টতই ইন্টারনেটে ঘুরিয়ে পাঠিয়েছে:

If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ?

উত্তর 200 বলে মনে হচ্ছে।

3*6  
4*8  
5*10  
6*12  
7*14  
8*16  
9*18  
10*20=200  

যখন আমি আর তে লিনিয়ার রিগ্রেশন করি:

data     <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98))  
lm1      <- lm(b~a, data=data)  
new.data <- data.frame(a=c(10,20,30))  
predict  <- predict(lm1, newdata=new.data, interval='prediction')  

আমি পাই:

  fit      lwr      upr  
1 154 127.5518 180.4482  
2 354 287.0626 420.9374  
3 554 444.2602 663.7398  

সুতরাং আমার লিনিয়ার মডেলটি ভবিষ্যদ্বাণী করছে 10=154

আমি যখন ডেটা প্লট করি তখন এটি লিনিয়ার মনে হয় ... তবে স্পষ্টতই আমি এমন কিছু ধরে নিয়েছিলাম যা সঠিক নয়।

আমি আরে লিনিয়ার মডেলগুলি কীভাবে সেরা ব্যবহার করতে পারি তা শিখার চেষ্টা করছি this এই সিরিজটি বিশ্লেষণ করার সঠিক উপায় কী? আমি ভুল হয়ে যেতে পারে যেখানে?


7
আহেম । (i) সমস্যার প্রকাশটি অযৌক্তিক। কিভাবে 3 = 18? অবশ্যই অভিপ্রায়টি কিছু একটা(3)=18; (ii) আপনি যদি লেখার জন্য যথেষ্ট দেখতে পান18=3×6, 32=4×8, ইত্যাদি, অবশ্যই আপনি তারপর তাদের প্রত্যেকটিতে দ্বিতীয় পদ বিভক্ত করার জন্য যথেষ্ট দেখতে পাবেন (6=3×2, 8=4×2, এবং আরও) লিখুন: 18=3×3×2, 32=4×4×2, ইত্যাদি, এবং তত্ক্ষণাত চতুর্ভুজটি স্পট করুন,(এক্স)=2এক্স2। (আপনি কঠোর অংশটি করেছেন, পরবর্তী পদক্ষেপটি আরও সহজ!)
গ্লেন_বি -রিনস্টেট মনিকা

4
অতিরিক্তভাবে, সমস্যাটির উত্তরে ন্যূনতম তথ্য সামগ্রীর মাপদণ্ড নির্দিষ্ট করে? যদি আমি আমার গণিতটি সঠিকভাবে মনে রাখি, তবে এই পয়েন্টগুলির সাথে খাপ খায় এমন একটি অগণিত ফাংশন রয়েছে যা সমস্তই আলাদা আলাদা উত্তর দেয় different(10)। আমি সাধারণত পেডেন্টিক নই, তবে সময় নষ্টকারী ইমেলগুলি এর প্রাপ্য।
উজ্জ্বল-তারকা

1
@ ট্রেভর অ্যালেক্সান্ডার আপনি যদি এই প্রশ্নটিকে সময় নষ্ট বলে মনে করেন তবে এর জবাব দিতে কেন বিরক্ত করবেন? স্পষ্টতই কিছু লোক এটি আকর্ষণীয় বলে মনে করেন।
jwg

উত্তর:


23

যেমন এক হইয়া হিসাবে একটি রিগ্রেশন মডেল, lm()পরোক্ষভাবে ধরে নেয় যে অন্তর্নিহিত তথ্য উৎপাদিত প্রক্রিয়া সম্ভাব্য । আপনি ধরে নিচ্ছেন যে আপনি যে নিয়মটি মডেল করার চেষ্টা করছেন তা হতাশাবোধমূলক । অতএব, আপনি যা করার চেষ্টা করছেন এবং যেভাবে আপনি এটি করার চেষ্টা করছেন তার মধ্যে একটি মিল নেই।

অন্যান্য সফ্টওয়্যার রয়েছে (যেমন, আর নয়) যা নির্বিচারে ডেটা সম্পর্কিত সহজতম ফাংশনটি সন্ধান / ফিট করার জন্য স্পষ্টভাবে ডিজাইন করা হয়েছে (উদাহরণস্বরূপ ইউরেকা হবে )। এর জন্য একটি আর প্যাকেজ থাকতে পারে (যা আমি জানি না) তবে আর সম্ভবত সম্ভাব্য ডেটা পরিসংখ্যানের মডেলিংয়ের জন্য।

lm()আপনাকে যে উত্তর দিয়েছে তা যথাযথ বলে মনে হচ্ছে এবং সঠিক হতে পারে। তবে, আমি যে প্রসঙ্গে এই সমস্যাটি উপস্থাপিত হয়েছিল তা দৃ strongly়ভাবে ইঙ্গিত করেছিলাম যে এটি নির্বিচারক হিসাবে বোঝা উচিত। যদি এটি না হয়ে থাকে এবং আপনি যদি ভাবছিলেন যে ফিটটি যুক্তিসঙ্গত ছিল, তবে একটি জিনিস আপনি লক্ষ্য করতে পারেন যে দুটি চরম ডেটা পয়েন্টগুলি রিগ্রেশন লাইনের উপরে রয়েছে, তবে মাঝের তথ্যগুলি এর নীচে রয়েছে। এটি একটি ভুল নির্দিষ্ট ফাংশনাল ফর্ম প্রস্তাব করে। এটি বনাম অবশিষ্টাংশ প্লট ( plot(lm1, which=1) এর অবশিষ্টাংশগুলিতেও দেখা যায় :

এখানে চিত্র বর্ণনা লিখুন

@ অ্যালেক্সওয়িলিয়ামস অনুসারে যে মডেলটি ফিট রয়েছে, এটি আরও ভাল দেখাচ্ছে:

এখানে চিত্র বর্ণনা লিখুন


17
+1 অবশিষ্ট প্লটটি গল্পটি এমনভাবে বলছে যাতে কেউ এটিকে মিস করতে পারে না। প্রকৃতপক্ষে, এটি দেখায় যে কেন ওপি'র 'রৈখিক দেখায়' প্রায়শই বিভ্রান্তিকর হয় - অনেকগুলি বাঁকা ফাংশন 'প্রায় সোজা' দেখতে পারে যদি আমরা কেবল কয়েকটি টার্নিং পয়েন্টের কাছাকাছি না দেখি। আপনি যদি মনে করেন এটি লিনিয়ার হয়, তবে সেই লাইনটি বাইরে নিয়ে যান এবং কী কী বাকি আছে তা দেখুন!
গ্লেন_বি -রিনস্টেট মনিকা

1
অবিশ্বাস্যভাবে দরকারী তথ্য! আপনাকে ধন্যবাদ, আমি সত্যই এটির প্রশংসা করি
ব্রেট ফিনে

1
সম্ভাব্যতাবাদী এবং নির্ণায়ক সংক্রান্ত ডেটার মধ্যে পার্থক্যটির সাথে এর কোনও যোগসূত্র নেই। লিনিয়ার রিগ্রেশন মাপসই এবং ডিটারমিনিস্টিক ডেটা লিনিয়ার হলে এক্সট্রোপোলেট করে। অন্তর্নিহিত মডেলটি যদি চতুষ্কোচিত হয় তবে এটি সম্ভাব্য ডেটাগুলির জন্য ভাল পূর্বাভাস দিতে ব্যর্থ হবে।
jwg

3
@jwg: এটির সাথে অনেক কিছুই করার আছে। অথবা আপনি সবসময় একটি ক্রম ফিট করতে হবে?এন একটি সঙ্গে পর্যবেক্ষণ (এন-1)যখন কোনও নিম্ন-ডিগ্রি বহুতোষ একটি নিখুঁত ফিট দেয় না তখন বহুগুণ হয়?
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

আমি মনে করি না যে তিনি নিখুঁত ফিট খুঁজছেন। তিনি বোঝার চেষ্টা করছেন কেন বহির্মুখী মূল্য এত দূর।
jwg

22

প্রবণতা রৈখিক নয় চতুর্ভুজ। চেষ্টা করুন:

lm1 <- lm(b~I(a^2), data=data)

আপডেট: এখানে কোড।

data <- data.frame(a=c(3,4,5,6,7),b=c(18,32,50,72,98))
lm1 <- lm(b~I(a^2), data=data)
new.data <- data.frame(a=c(10,20,30))
predict(lm1, newdata = new.data, interval='prediction')

এবং আউটপুট:

   fit  lwr  upr
1  200  200  200
2  800  800  800
3 1800 1800 1800

এই উত্তরটি আমার কাছে কিছুটা বিজ্ঞপ্তি বলে মনে হচ্ছে: সমস্যার পুরো বিষয়টি চতুর্ভুজীয় আচরণকে স্বীকৃতি দেওয়া। আপনি সঠিকভাবে উল্লেখ করেছেন যে একবার চতুর্ভুজ আচরণ নির্দিষ্ট করা হলে, লিনিয়ার রিগ্রেশন সহগের সন্ধান করতে পারে। তবে বাস্তবে আপনি ইতিমধ্যে এই জবাবটির প্রথম লাইনটি লিখে দেওয়ার আগে থেকেই গুরুত্বপূর্ণ বিশ্লেষণ করেছেন।
শুক্র

5
@ হুইবার - কেন লিনিয়ার মডেল ব্যর্থ হয় তা প্রশ্ন question এটি ব্যর্থ হয়েছে কারণ কার্যকরী ফর্ম লিনিয়ার নয়, এটি চতুর্ভুজ। আমি উত্তরটি সহজ এবং বিন্দুতে দিতে চেয়েছিলাম। গুং এর উত্তর বিশদে যাওয়ার জন্য ভাল কাজ করে এবং দেখায় যে কীভাবে আপনি অবশিষ্ট মডেল নিয়ে আরও ভাল প্লট ব্যবহার করতে পারেন। (আমি এটি কেবল কলম এবং কাগজে লিখেছি)) আমি সম্মত হলাম তার উত্তরটি আরও বিশদ এবং সম্পূর্ণ এবং আমি এটি উত্সাহিত করেছি।
অ্যালেক্স উইলিয়ামস

13

আমি অ্যালেক্স উইলিয়ামস এবং গাং দ্বারা প্রদত্ত দুর্দান্ত উত্তরগুলিতে যুক্ত হতে দ্বিধা বোধ করি, তবে আরও একটি বিষয় রয়েছে যা আমার মনে করা উচিত। প্রশ্নটি 'লিনিয়ার রিগ্রেশন' এবং 'রৈখিক মডেল' বাক্যাংশগুলি ব্যবহার করে সম্ভবত পরামর্শ দেয় যে তাদের অর্থ একই। তবে, 'লিনিয়ার রিগ্রেশন' এর সাধারণ অর্থ ক্লাসিকাল লিনিয়ার রিগ্রেশন মডেল (সিএলআরএম) বোঝায় যার মধ্যে 'লিনিয়ার' অর্থ 'প্যারামিটারগুলিতে রৈখিক'। এটি প্যারামিটারগুলিতে একটি শর্ত, স্বাধীন ভেরিয়েবলের উপর নয়। সুতরাং একটি চতুর্ভুজ মডেল যেমন:

ওয়াইআমি=β1+ +β2এক্সআমি2

এখনও সিএলআরএম অর্থে লিনিয়ার, কারণ এটি পরামিতিগুলিতে রৈখিক β1 এবং β2। বিপরীতে, মডেল:

ওয়াইআমি=β1+ +β2এক্সআমি

এটির পরামিতিগুলিতে রৈখিক এবং লিনিয়ার ইন এক্সআমি। এটিকে রৈখিক মডেল বলার চেয়ে আরও সুনির্দিষ্ট বিবৃতিটি হ'ল এটি এর পরামিতিগুলিতে রৈখিক এবং লিনিয়ার কার্যকরী ফর্ম রয়েছে has সুতরাং এটি বলা যেতে পারে যে সিরিজটি এমন একটি মডেল দ্বারা বিশ্লেষণ করা যেতে পারে যা এর পরামিতিগুলিতে লিনিয়ার থাকে তবে শর্ত থাকে যে এটিতে চতুর্ভুজীয় কার্যকরী ফর্ম রয়েছে (যেমন অ্যালেক্স উইলিয়ামস দেখিয়েছেন) তবে লিনিয়ার কার্যকরী ফর্মযুক্ত কোনও মডেল দ্বারা নয়।


1
এটি স্মরণ করতে আমার সর্বদা কষ্ট হয়। এটি অন্যান্য উত্তরের একটি দুর্দান্ত সংযোজন।
naught101
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.