বহুবর্ষীয় রিগ্রেশন থেকে আত্মবিশ্বাস ব্যান্ড বোঝা


14

আমি নীচে আমার গ্রাফে যে ফলাফলটি দেখছি তা বোঝার চেষ্টা করছি। সাধারণত, আমি এক্সেল ব্যবহার করে একটি লিনিয়ার-রিগ্রেশন লাইন পাওয়ার প্রবণতা পাই তবে নীচের ক্ষেত্রে আমি আর ব্যবহার করি এবং কমান্ডটি দিয়ে আমি বহুবর্ষীয় রিগ্রেশন পাই:

ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth()

সুতরাং আমার প্রশ্নগুলি এই পর্যন্ত সিদ্ধ:

  1. নীল রিগ্রেশন লাইনের চারপাশে ধূসর অঞ্চল (তীর # 1) কত? এটি কি বহুপদী রিগ্রেশনটির আদর্শ বিচ্যুতি?

  2. আমি কি বলতে পারি যে ধূসর অঞ্চলের (তীর # 2) এর বাইরে যা কিছু আছে তা 'আউটলেট' এবং ধূসর অঞ্চলের (তীর # 3) এর মধ্যে যা কিছু আসে তা স্ট্যান্ডার্ড বিচ্যুতির মধ্যে রয়েছে?

এখানে চিত্র বর্ণনা লিখুন

উত্তর:


14

ধূসর ব্যান্ডটি রিগ্রেশন লাইনের জন্য একটি আত্মবিশ্বাস ব্যান্ড। এটি 1 এসই আত্মবিশ্বাস ব্যান্ড বা 95% আত্মবিশ্বাস ব্যান্ড কিনা তা নিশ্চিত করার জন্য আমি জিপিপ্লট 2 এর সাথে যথেষ্ট পরিচিত নই, তবে আমি বিশ্বাস করি এটি পূর্ববর্তী ( সম্পাদনা: স্পষ্টত এটি 95% সিআই )। একটি আত্মবিশ্বাস ব্যান্ড আপনার রিগ্রেশন লাইন সম্পর্কে অনিশ্চয়তার প্রতিনিধিত্ব করে। এক অর্থে, আপনি ভাবতে পারেন যে সত্যিকারের রিগ্রেশন লাইনটি band ব্যান্ডের শীর্ষের চেয়ে তলানির চেয়ে কম, বা ব্যান্ডের মধ্যে আলাদাভাবে ঝাপটানো। (দ্রষ্টব্য যে এই ব্যাখ্যাটি স্বজ্ঞাত হতে হবে, এবং প্রযুক্তিগতভাবে সঠিক নয়, তবে পুরোপুরি সঠিক ব্যাখ্যাটি বেশিরভাগ লোকের পক্ষে অনুসরণ করা শক্ত))

রিগ্রেশন লাইনটি বুঝতে / ভাবতে আপনাকে সহায়তা করার জন্য আপনার আত্মবিশ্বাস ব্যান্ডটি ব্যবহার করা উচিত। কাঁচা ডেটা পয়েন্ট সম্পর্কে ভাবতে আপনার এটি ব্যবহার করা উচিত নয়। মনে রাখবেন যে রিগ্রেশন লাইনটি প্রতিটি বিন্দুতে গড়কে উপস্থাপন করে (যদি আপনি এটি আরও পুরোপুরি বুঝতে চান তবে এটি আপনাকে আমার উত্তরটি পড়তে এখানে সহায়তা করতে পারে: শর্তাধীন গাউসীয় বিতরণের পিছনে অন্তর্নিহিতটি কী? )। অন্যদিকে, আপনি অবশ্যই প্রতিটি পর্যবেক্ষণ করা ডেটা পয়েন্টটি শর্তসাপেক্ষে সমান হওয়ার আশা করবেন না। অন্য কথায়, কোনও ডেটা পয়েন্ট আউটলেটর কিনা তা নির্ধারণ করার জন্য আপনার আত্মবিশ্বাস ব্যান্ডটি ব্যবহার করা উচিত নয়। YX


( সম্পাদনা করুন: এই নোটটি মূল প্রশ্নের পেরিফেরিয়াল, তবে ওপিটির জন্য একটি বিষয় পরিষ্কার করতে চায় )

পলিনোমিয়াল রিগ্রেশন কোনও অ-লিনিয়ার রিগ্রেশন নয়, যদিও আপনি যা পান তা সরলরেখার মতো লাগে না। 'লিনিয়ার' শব্দটির গাণিতিক প্রসঙ্গে খুব নির্দিষ্ট অর্থ রয়েছে, বিশেষত, আপনি যে পরামিতিগুলি অনুমান করছেন - বিটাগুলি - সমস্ত সহগ রয়েছে ffic একটি বহুবর্ষীয় রিগ্রেশন বলতে কেবল বোঝা যায় যে আপনার সমবায়ীরা , , ইত্যাদি is । যদি আপনার বিটাগুলি হয়, বলুন, এক্সপোনারস, তবে আপনার কাছে একটি অ-রৈখিক মডেল থাকবে। XX2X3

মোটকথা, একটি লাইন সোজা দেখায় বা না তার কোনও মডেল রৈখিক কিনা তা নিয়ে কিছুই করার নেই। যখন আপনি একটি বহুপদী মডেল মাপসই (বলে এবং ), মডেল 'জানি' নয় যে, যেমন, আসলে শুধু বর্গ হয় । এটি 'চিন্তা করে' এগুলি কেবলমাত্র দুটি পরিবর্তনশীল (যদিও এটি বুঝতে পারে যে কিছু মাল্টিকোলাইনারিটি রয়েছে)। সুতরাং, সত্য সত্যই এটি একটি দ্বি-মাত্রিক স্থানে (বাঁকা) রিগ্রেশন লাইনের পরিবর্তে একটি (স্ট্রেট / ফ্ল্যাট) রিগ্রেশন প্লেনকে ত্রিমাত্রিক স্থানে ফিট করে। এটি দরকারী আমাদের সম্পর্কে ভাবতে জন্য নয়, এবং আসলে, অত্যন্ত কঠিন দেখতে যেহেতু একটি নিখুঁত ফাংশনXX2X2X1X2X। ফলস্বরূপ, আমরা এটির জন্য এটি ভাবতে মাথা ঘামাই না এবং আমাদের প্লটগুলি সমতলটিতে সত্যিকার অর্থে দুটি মাত্রিক অনুমান । তবুও, উপযুক্ত স্থানে, লাইনটি কিছু অর্থে আসলে 'সোজা'। (X, Y)

গাণিতিক দৃষ্টিকোণ থেকে, কোনও মডেল লিনিয়ার হয় যদি আপনি যে প্যারামিটারগুলি অনুমান করার চেষ্টা করছেন এটি সহগ হয়। আরও স্পষ্ট করার জন্য, স্ট্যান্ডার্ড (ওএলএস) লিনিয়ার রিগ্রেশন মডেল এবং দুটি ভিন্ন আকারে উপস্থাপিত একটি সহজ লজিস্টিক রিগ্রেশন মডেলের মধ্যে তুলনা বিবেচনা করুন: top শীর্ষস্থানীয় মডেলটি হ'ল ওএলএস রিগ্রেশন, এবং নীচের দুটি হ'ল লজিস্টিক রিগ্রেশন, যদিও বিভিন্ন উপায়ে উপস্থাপন করা হয়েছে। তিনটি ক্ষেত্রেই, আপনি যখন মডেলটি ফিট করেন, আপনি গুলি অনুমান করছেন are শীর্ষ দুটি মডেল লিনিয়ার , কারণ সমস্ত

Y=β0+β1X+ε
ln(π(Y)1π(Y))=β0+β1এক্স
π(Y)=exp(β0+β1X)1+exp(β0+β1X)
ββগুলি সহগ, তবে নীচের মডেলটি অ-রৈখিক (এই ফর্মটিতে) কারণ গুলি উদ্দীপক। (এটি বেশ অদ্ভুত বলে মনে হতে পারে তবে লজিস্টিক রিগ্রেশন সাধারণ রৈখিক মডেলের একটি উদাহরণ , কারণ এটি রৈখিক মডেল হিসাবে আবারও লেখা যেতে পারে that সে সম্পর্কে আরও তথ্যের জন্য, এটি আমার উত্তরটি এখানে পড়তে সহায়তা করতে পারে: লজিট এবং প্রবাইট মডেলের মধ্যে পার্থক্য) ।) β

+1 ডকুমেন্টেশনের উদাহরণগুলি আমার কাছে আত্মবিশ্বাসটি বেশ উচ্চতর সম্ভবত সম্ভবত 95% suggest
হোয়বার

@ উত্তরের উত্তরের জন্য ধন্যবাদ (এছাড়াও আপনি একটি চেক পেয়েছেন!)। আমি আপনার প্রথম বিবৃতিটি পড়েছি এবং আমি কিছুটা বিভ্রান্ত হয়ে পড়েছি। আপনি কি এটি সম্পর্কে আরও বিস্তারিত জানাতে পারেন? যদি ফলাফল প্রাপ্ত রেখাটি সরলরেখা না হয় (y = mx + b) তবে এটি কী রৈখিক করে? উত্তরের জন্য আবার ধন্যবাদ।
adhg

Docs.ggplot2.org/0.9.3.1/stat_smooth.htmlথাকা দস্তাবেজগুলি প্রতিরোধের বক্ররেখার জন্য এটি একটি 95% আত্মবিশ্বাস ব্যান্ড জোর দিয়েছিল।
হোয়বার

2
আমি মনে করি বহুতলীয় প্রতিরোধের চেয়ে এখানে ডিফল্ট মসৃণ লোইস ব্যবহারে রয়েছে?
xan

@ অ্যাডজি, আমি ভেবেছিলাম যে আমি লিনিয়ার বনাম অ-লিনিয়ার অন্য কোথাও coveredেকে রেখেছি, তবে আমি এটি খুঁজে পাইনি। সুতরাং আমি এখানে কিছু অতিরিক্ত উপাদান যুক্ত। এইচটিএইচ
গাং - মনিকা পুনরায়

11

ইতিমধ্যে বিদ্যমান উত্তরগুলিতে যুক্ত করতে, ব্যান্ডটি গড়ের একটি আত্মবিশ্বাসের বিরতি উপস্থাপন করে, তবে আপনার প্রশ্ন থেকে আপনি স্পষ্টভাবে একটি পূর্বাভাস অন্তর সন্ধান করছেন । পূর্বাভাস অন্তরগুলি এমন একটি পরিসীমা যা আপনি যদি একটি নতুন পয়েন্ট আঁকেন তবে সেই বিন্দুটি তাত্ত্বিকভাবে সেই সময়ের X% পরিসরে অন্তর্ভুক্ত থাকবে (যেখানে আপনি এক্সের স্তর নির্ধারণ করতে পারেন)।

library(ggplot2)
set.seed(5)
x <- rnorm(100)
y <- 0.5*x + rt(100,1)
MyD <- data.frame(cbind(x,y))

স্মুটেড লোস রিগ্রেশন লাইনের মাঝামাঝি (একটি ডিফল্ট একটি 95% আস্থা অন্তর) এর আশেপাশের একটি আত্মবিশ্বাসের ব্যবধানের সাথে আপনি আপনার প্রাথমিক প্রশ্নে একই ধরণের প্লট তৈরি করতে পারি।

ConfiMean <- ggplot(data = MyD, aes(x,y)) + geom_point() + geom_smooth()
ConfiMean

এখানে চিত্র বর্ণনা লিখুন

পূর্বাভাস অন্তরগুলির দ্রুত এবং নোংরা উদাহরণের জন্য, আমি এখানে স্মুথিং স্প্লিনস সহ লিনিয়ার রিগ্রেশন ব্যবহার করে একটি পূর্বাভাস ব্যবধান উত্পন্ন করি (সুতরাং এটি অগত্যা কোনও সরল রেখা নয়)। নমুনা তথ্য সহ এটি বেশ ভাল করে তোলে, 100 টি পয়েন্টের জন্য কেবল 4 টিই সীমার বাইরে থাকে (এবং আমি পূর্বাভাসের ফাংশনে 90% ব্যবধান নির্দিষ্ট করে দিয়েছি)।

#Now getting prediction intervals from lm using smoothing splines
library(splines)
MyMod <- lm(y ~ ns(x,4), MyD)
MyPreds <- data.frame(predict(MyMod, interval="predict", level = 0.90))
PredInt <- ggplot(data = MyD, aes(x,y)) + geom_point() + 
           geom_ribbon(data=MyPreds, aes(x=fit,ymin=lwr, ymax=upr), alpha=0.5)
PredInt

এখানে চিত্র বর্ণনা লিখুন

এখন আরও কয়েকটি নোট। আমি লাদিস্লাভের সাথে একমত যে আপনার 2007 সালের কিছু সময় থেকে নিয়মিত ধারাবাহিক হওয়ার সময় সময় সিরিজের পূর্বাভাসের পদ্ধতিগুলি বিবেচনা করা উচিত এবং আপনার প্লট থেকে স্পষ্ট হয় যদি আপনি lookতুস্রাবকে কঠোর মনে করেন (পয়েন্টগুলি সংযুক্ত করা এটি আরও পরিষ্কার করে দেবে)। এর জন্য আমি পূর্বাভাস প্যাকেজটিতে পূর্বাভাস পর্বের পূর্বাভাস . stl ফাংশনটি যাচাই করার পরামর্শ দিচ্ছি যেখানে আপনি একটি মৌসুমী উইন্ডো চয়ন করতে পারেন এবং এটি লোস ব্যবহার করে theতু এবং প্রবণতার একটি শক্ত পচন সরবরাহ করে। আমি শক্ত পদ্ধতিগুলি উল্লেখ করি কারণ আপনার ডেটাতে কয়েকটি লক্ষণীয় স্পাইক রয়েছে।

সাধারণভাবে নন-টাইম সিরিজের ডেটার জন্য আমি অন্যান্য শক্তিশালী পদ্ধতিগুলি বিবেচনা করব যদি আপনার মাঝে মাঝে বিদেশিদের সাথে ডেটা থাকে। সরাসরি লয়েস ব্যবহার করে কীভাবে পূর্বাভাস অন্তর তৈরি করতে হয় তা আমি জানি না, তবে আপনি কোয়ান্টাইল রিগ্রেশন বিবেচনা করতে পারেন (ভবিষ্যদ্বাণী অন্তরগুলি কতটা চরম হওয়া দরকার তার উপর নির্ভর করে)। অন্যথায় আপনি যদি কেবল সম্ভাব্য অ-রৈখিক হতে ফিট করতে চান তবে আপনি স্প্লিংগুলিকে এক্স এর চেয়ে পৃথক করে ফাংশনটিকে অনুমতি দিতে পারেন।


4

ঠিক আছে, নীল রেখাটি একটি মসৃণ লোকাল রিগ্রেশন । আপনি spanপ্যারামিটার (0 থেকে 1) এর সাহায্যে লাইনের উইগগোলিটি নিয়ন্ত্রণ করতে পারেন । তবে আপনার উদাহরণটি একটি "সময়-সিরিজ" তাই বিশ্লেষণের জন্য আরও কিছু উপযুক্ত পদ্ধতি অনুসন্ধান করার চেষ্টা করুন কেবলমাত্র একটি মসৃণ বক্ররেখা (যা কেবলমাত্র সম্ভাব্য প্রবণতা প্রকাশের জন্য পরিবেশন করা উচিত) মাপসই নয়।

ডকুমেন্টেশনগুলো মতে ggplot2(এবং নিচের মন্তব্যে বই): stat_smooth একটি হল আস্থা ব্যবধান এর মসৃণ ধূসর রঙে দেখানো। আপনি যদি আত্মবিশ্বাসের ব্যবধানটি বন্ধ করতে চান তবে se = FALSE ব্যবহার করুন ।


1
(1) আমি আপনার রেফারেন্সে দেখতে পাচ্ছি না যেখানে এটি ধূসর অঞ্চলটি দাবীযুক্ত আত্মবিশ্বাসের বিরতি বলে দাবি করে। উদাহরণগুলি থেকে এটি বেশ স্পষ্ট বলে মনে হয় যে ধূসর অঞ্চলটি বক্ররেখার পরিবর্তে একটি আত্মবিশ্বাসের ব্যবধান । (২) ধূসর অঞ্চল ছাড়িয়ে পয়েন্টের বৃহত অনুপাতকে কেউই যুক্তিসঙ্গতভাবে "আউটলিয়ার" হিসাবে ঘোষণা করবে না; তাদের মধ্যে অনেকগুলি রয়েছে।
হোয়বার

(1) আমার ভুল, এখানে আমি একটি বই যুক্ত করছি যা "পয়েন্ট-ওয়াইফ আত্মবিশ্বাসের অন্তর" বোঝায়: ডেটা অ্যানালাইসিসের উইকহাম এইচ (২০০৯) জিগপ্লাট 2 মার্জিত গ্রাফিক্স। মিডিয়া 212. (পৃষ্ঠা 14) (2) আমি একমত।
লাডিস্লাভ ন্যাও

আপনার উল্লেখগুলির মধ্যে কি ডিফল্ট আত্মবিশ্বাসের স্তরটি সেট করা আছে তা জানায়?
whuber

না, আমি ডিফল্ট সেটিং সম্পর্কে কোনও রেফারেন্স পাই না।
লাডিস্লাভ নাও

আমি আপনার রেফারেন্সের প্রথম পৃষ্ঠায় ডিফল্টটি পেয়েছি: "(ডিফল্টরূপে 0.95)"। মানে হয় আপনি এই বাধামুক্ত গুরুতর বাগ আছে বা অন্য রেফারেন্স আপনার ব্যাখ্যা ভুল যে: কারণ ডাটা পয়েন্টের এমন একটা বড় অংশ সাধারণত ধূসর এলাকা অতিক্রম থাকা এবং কোড অভিমানী সঠিক, ধূসর এলাকা আছে একটি কনফিডেন্স অঞ্চল হতে পূর্বাভাস (লাগানো বক্ররেখার জন্য) এবং পয়েন্টগুলির জন্য আস্থাভাজন অঞ্চল নয়।
হোয়বার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.