সেরা ফিটের লাইনে ভাল ফিট লাগেনি। কেন?


82

এই এক্সেল গ্রাফটি একবার দেখুন: গ্রাফ

'সাধারণ জ্ঞান' -র-সেরা-ফিট লাইনটি বিন্দুগুলির মাঝখানে দিয়ে সরাসরি উল্লম্ব লাইন হিসাবে উপস্থিত হবে (লাল হাতে হাতে সম্পাদিত)। তবে এক্সেলের সিদ্ধান্ত অনুসারে লিনিয়ার ট্রেন্ড লাইনটি তির্যক কালো রেখা দেখানো হয়েছে।

  1. এক্সেল কেন এমন কিছু তৈরি করেছে যা (মানুষের চোখে) ভুল বলে মনে হচ্ছে?
  2. আমি কীভাবে একটি সেরা ফিট লাইন তৈরি করতে পারি যা দেখতে আরও কিছুটা স্বজ্ঞাত দেখাচ্ছে (যেমন লাল রেখার মতো কিছু)?

আপডেট ১. ডেটা এবং গ্রাফ সহ একটি এক্সেল স্প্রেডশিট এখানে উপলভ্য: উদাহরণস্বরূপ ডেটা , পাস্তবিনে সিএসভি । টাইপ 1 এবং টাইপ 2 রিগ্রেশন কৌশলগুলি কী এক্সেল ফাংশন হিসাবে উপলব্ধ?

আপডেট 2. ডেটা একটি প্যারাগ্লাইডারকে বায়ু সহ প্রবাহিত অবস্থায় তাপের মধ্যে আরোহণের প্রতিনিধিত্ব করে। চূড়ান্ত উদ্দেশ্য কীভাবে বাতাসের শক্তি এবং দিকটি উচ্চতার সাথে পরিবর্তিত হয় তা তদন্ত করা। আমি একজন প্রকৌশলী, গণিতবিদ বা পরিসংখ্যানবিদ নই, সুতরাং এই প্রতিক্রিয়াগুলির তথ্য আমাকে গবেষণার জন্য আরও অনেক ক্ষেত্র দিয়েছে।


5
সত্যি কথা বলতে কি, আমি সন্দেহ করি যে এটি ডিেমিং রিগ্রেশন বনাম ওএলএসের একটি প্রশ্ন। খুব ছোট পরম পরিবর্তনশীলতা এ খুঁজছি এবং , আমি বরং এই Excel এ একটি সংখ্যাসূচক সমস্যা হতে পারে মনে চাই। আপনি ডেটা অন্তর্ভুক্ত করতে আপনার প্রশ্ন সম্পাদনা করতে পারেন? yxy
স্টিফান কোলাসা

12
এই ঘটনাটি ছিল 19 শতকের অন্যতম প্রধান পরিসংখ্যান আবিষ্কার (যদি তা সর্বকালের না হয়)। এটিকে গড়ের দিকে প্রতিরোধ বলে অভিহিত করা হয় । প্রকৃতপক্ষে, এই পরিসংখ্যান প্রক্রিয়াটিকে "রিগ্রেশন" বলা হয় এটিই খুব কারণ!
হোয়বার

3
আমার যুক্ত করা উচিত যে ফিটগুলি এত বেশি দেখতে মূল কারণ হ'ল প্লটটি এত বড় পরিমাণে y- অক্ষরে স্কেলকে অতিরঞ্জিত করে। উভয় স্কেলগুলি প্রান্তিক মানক বিচ্যুতির সমানুপাতিক যেখানে এটি আঁকলে আপনি পুরোপুরি ভিন্ন সিদ্ধান্তে পৌঁছতে পারেন যেটি ফিট "সাধারণ জ্ঞান" fit
হোবার

6
@ স্টেফানকোলাসা - আপনি যদি রেড লাইনটি ব্যবহার করেন এবং জন্য পূর্বাভাস দিয়ে থাকেন তবে ত্রুটিটি কত বড় হবে তা ; লাল রেখাটি কোনও সর্বনিম্ন স্কোয়ার ফিট হতে পারে না। এক্সেলের অবশ্যই সমস্যা আছে তবে আমি মনে করি এটি তাদের মধ্যে একটি নয়। x = - 0.714yx=0.714
জোবোম্যান

7
এটি ইতিমধ্যে সাইটে অসংখ্য বার সম্বোধন করা হয়েছে (উদাহরণস্বরূপ এখানে দেখুন )। যখন আপনি বুঝতে পারেন যে একটি রিগ্রেশন লাইন কী, এটি অন্ধকার রেখা কেন তা সহজেই দেখা যায়। নিজেকে দুটি প্রশ্ন জিজ্ঞাসা করুন: 1: x যখন 0.712 হয় তখন y এর গড় মূল্য কত? ২. লাল এবং কালো রেখাগুলি কী হওয়া উচিত বলে পূর্বাভাস দেয়? ... [ আপনার ডেটাতে সুনির্দিষ্ট সমস্যা রয়েছে যেহেতু আমি এখনই নকল হিসাবে বন্ধ করে দিয়েছি কারণ এটি আপনার প্রশ্নটি পুনরায় ফোকাস করা উপযুক্ত হবে]
Glen_b

উত্তর:


111

একটি নির্ভরশীল পরিবর্তনশীল আছে?

এক্সেলের ট্রেন্ড লাইনটি স্বতন্ত্র ভেরিয়েবল "দীর্ঘ " এর উপর নির্ভরশীল পরিবর্তনশীল "ল্যাট" এর রিগ্রেশন থেকে । আপনি যখন নির্ভরশীল পরিবর্তনশীলকে মনোনীত না করেন এবং অক্ষাংশ এবং দ্রাঘিমাংশ উভয়কে সমানভাবে বিবেচনা করেন তখন আপনি যাকে "সাধারণ জ্ঞান রেখা" বলছেন তা পাওয়া যাবে । আধুনিক পিসিএ প্রয়োগ করে প্রাপ্ত করা যেতে পারে । বিশেষত, এই ভেরিয়েবলগুলির কোভারিয়েন্স ম্যাট্রিক্সের ইগেন ভেক্টরগুলির মধ্যে এটি একটি। আপনি এটিকে কোনও প্রদত্ত থেকে স্বল্পতম দূরত্বকে একটি লাইনের দিকে নির্দেশিত রেখা হিসাবে ভাবতে পারেন , যেমন আপনি একটি লাইনের একটি লম্ব আঁকেন এবং প্রতিটি পর্যবেক্ষণের জন্য তাদের যোগফলকে হ্রাস করুন।(xi,yi)

এখানে চিত্র বর্ণনা লিখুন

আপনি কীভাবে এটি আর তে করতে পারেন তা এখানে:

> para <- read.csv("para.csv")
> plot(para)
> 
> # run PCA
> pZ=prcomp(para,rank.=1)
> # look at 1st PC
> pZ$rotation
           PC1
lon 0.09504313
lat 0.99547316
> 
> colMeans(para) # PCA was centered
       lon        lat 
-0.7129371 53.9368720 
> # recover the data from 1st PC
> pc1=t(pZ$rotation %*% t(pZ$x) )
> # center and show
> lines(pc1 + t(t(rep(1,123))) %*% c)

আপনি এক্সেল থেকে যে ট্রেন্ড লাইনটি পেয়েছেন তা পিসিএর আইগান ভেক্টর হিসাবে একটি সাধারণ জ্ঞান হিসাবে যখন আপনি বুঝতে পারবেন যে এক্সেল রিগ্রেশনে ভেরিয়েবলগুলি সমান নয়। এখানে আপনি থেকে পর্যন্ত একটি উল্লম্ব দূরত্ব হ্রাস করছেন , যেখানে y- অক্ষটি দ্রাঘিমাংশ এবং এক্স-অক্ষ একটি দ্রাঘিমাংশ। y ( x i )yiy(xi)

আপনি ভেরিয়েবলগুলি সমানভাবে চিকিত্সা করতে চান কিনা তা লক্ষ্য নির্ভর করে। এটি ডেটার সহজাত গুণ নয় quality তথ্য বিশ্লেষণের জন্য আপনাকে সঠিক পরিসংখ্যানের সরঞ্জামটি বেছে নিতে হবে, এক্ষেত্রে রিগ্রেশন এবং পিসিএর মধ্যে নির্বাচন করুন।

জিজ্ঞাসা করা হয়নি এমন একটি প্রশ্নের উত্তর

সুতরাং, আপনার ক্ষেত্রে কেন এক্সেলের একটি (রিগ্রেশন) ট্রেন্ড লাইন আপনার ক্ষেত্রে উপযুক্ত সরঞ্জাম বলে মনে হচ্ছে না? কারণটি হ'ল ট্রেন্ড লাইনটি এমন প্রশ্নের উত্তর যা জিজ্ঞাসা করা হয়নি। কারণটা এখানে.

এক্সেল রিগ্রেশন প্যারামিটারগুলি অনুমান করার চেষ্টা করছে । সুতরাং, প্রথম সমস্যাটি হল অক্ষাংশটি এমনকি দ্রাঘিমাংশের কোনও ক্রিয়াকলাপ নয়, কঠোরভাবে বলা (পোস্টের শেষে নোটটি দেখুন), এবং এটি এমনকি মূল সমস্যাও নয়। আসল সমস্যাটি হ'ল আপনি প্যারাগ্লাইডারের অবস্থান সম্পর্কেও আগ্রহী নন, আপনি বাতাসে আগ্রহী।lat=a+b×lon

ভাবুন তো বাতাস নেই। একটি প্যারাগ্লাইডার বার বার একই বৃত্ত তৈরি করবে। ট্রেন্ড লাইন কি হবে? স্পষ্টতই, এটি সমতল অনুভূমিক রেখা হবে, এর opeাল শূন্য হবে, তবুও এর অর্থ এই নয় যে বাতাসটি অনুভূমিক দিকে প্রবাহিত হচ্ছে!

যখন y- অক্ষ বরাবর একটি শক্ত বায়ু আছে তার জন্য এখানে একটি সিমুলেটেড প্লট রয়েছে, যখন কোনও প্যারাগ্লাইডার নিখুঁত বৃত্ত তৈরি করছে making আপনি দেখতে পারেন যে লিনিয়ার রিগ্রেশন অযৌক্তিক ফলাফল, একটি অনুভূমিক প্রবণতা রেখা উত্পাদন করে। আসলে এটি কিছুটা নেতিবাচক হলেও তাৎপর্যপূর্ণ নয়। বাতাসের দিকটি একটি লাল রেখার সাথে দেখানো হয়েছে:yx

এখানে চিত্র বর্ণনা লিখুন

সিমুলেশন জন্য আর কোড:

t=1:123
a=1 #1
b=0 #1/10
y=10*sin(t)+a*t
x=10*cos(t)+b*t

plot(x,y,xlim=c(-60,60))
xp=-60:60
lines(b*t,a*t,col='red')

model=lm(y~x)
lines(xp,xp*model$coefficients[2]+model$coefficients[1])

সুতরাং, বাতাসের দিকটি স্পষ্টভাবে ট্রেন্ড লাইনের সাথে একত্রিত নয়। তারা অবশ্যই লিঙ্কযুক্ত, তবে একটি অযৌক্তিক উপায়ে। সুতরাং, আমার বক্তব্য যে এক্সেল ট্রেন্ড লাইনটি কিছু প্রশ্নের উত্তর, তবে আপনি যা জিজ্ঞাসা করেছিলেন তা নয়।

পিসিএ কেন?

আপনি যেমনটি লক্ষ্য করেছেন যে প্যারাগ্লাইডারের গতির কমপক্ষে দুটি উপাদান রয়েছে: একটি প্যারাগ্লাইডার দ্বারা নিয়ন্ত্রিত একটি বায়ু এবং বৃত্তাকার গতি সহ প্রবাহ। আপনি যখন আপনার প্লটের বিন্দুগুলি সংযুক্ত করেন তখন এটি স্পষ্টভাবে দেখা যায়:

এখানে চিত্র বর্ণনা লিখুন

একদিকে, বৃত্তাকার গতি আপনার কাছে সত্যই উপদ্রব: আপনি বাতাসে আগ্রহী। অন্যদিকে, আপনি বাতাসের গতি পর্যবেক্ষণ করেন না, আপনি কেবল প্যারাগ্লাইডারটি পর্যবেক্ষণ করেন। সুতরাং, আপনার লক্ষ্য পর্যবেক্ষণযোগ্য প্যারাগ্লাইডারের লোকেশন পঠন থেকে অব্যবহারযোগ্য বাতাস অনুমান করা। এটি হ'ল পরিস্থিতি যেখানে ফ্যাক্টর বিশ্লেষণ এবং পিসিএ-এর মতো সরঞ্জাম কার্যকর হতে পারে।

পিসিএর উদ্দেশ্য হ'ল আউটপুটগুলির মধ্যে সম্পর্কগুলি বিশ্লেষণ করে একাধিক আউটপুট নির্ধারণ করে এমন কয়েকটি কারণকে বিচ্ছিন্ন করা। এটি কার্যকর হয় যখন আউটপুটটি লৌকিকভাবে ফ্যাক্টরের সাথে যুক্ত হয়, যা আপনার উপাত্তের ক্ষেত্রে ঘটে থাকে: বায়ু প্রবাহটি বৃত্তাকার গতির স্থানাঙ্কগুলিতে কেবল যুক্ত করে, এজন্যই এখানে পিসিএ কাজ করছে।

পিসিএ সেটআপ

সুতরাং, আমরা প্রতিষ্ঠিত করেছি যে পিসিএর এখানে একটি সুযোগ থাকা উচিত তবে আমরা কীভাবে এটি সেট আপ করব? একটি তৃতীয় ভেরিয়েবল, সময় যোগ করে শুরু করা যাক। আমরা ধ্রুবক নমুনার ফ্রিকোয়েন্সি ধরে ধরে প্রতিটি 123 টি পর্যবেক্ষণের জন্য 1 থেকে 123 সময় নির্ধারণ করতে যাচ্ছি। 3 ডি প্লটটি এর সর্পিল কাঠামোটি প্রকাশ করে ডেটার মতো দেখতে কেমন তা এখানে রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

পরের প্লটটি প্যারাগ্লাইডারকে বাদামী বৃত্ত হিসাবে ঘোরানোর কল্পিত কেন্দ্র দেখায়। আপনি দেখতে পাবেন কীভাবে এটি বাতাসের সাথে ল্যাট-লোন বিমানের দিকে প্রবাহিত হয়, যখন নীল বিন্দুর সাথে দেখানো প্যারাগ্লাইডার চারদিকে ঘুরছে। সময়টি উল্লম্ব অক্ষে। আমি আবর্তনের কেন্দ্রটিকে কেবলমাত্র প্রথম দুটি বৃত্ত দেখায় এমন একটি প্যারাগ্লাইডারের সাথে সম্পর্কিত স্থানে সংযুক্ত করেছি।

এখানে চিত্র বর্ণনা লিখুন

সংশ্লিষ্ট আর কোড:

library(plotly)       

 para <- read.csv("C:/Users/akuketay/Downloads/para.csv")
 n=24

   para$t=1:123 # add time parameter

   # run PCA
     pZ3=prcomp(para)
     c3=colMeans(para) # PCA was centered
     # look at PCs in columns
       pZ3$rotation

       # get the imaginary center of rotation 
       pc31=t(pZ3$rotation[,1] %*% t(pZ3$x[,1]) )
     eye = pc31 + t(t(rep(1,123))) %*% c3
     eyedata = data.frame(eye)

     p = plot_ly(x=para[1:n,1],y=para[1:n,2],z=para[1:n,3],mode="lines+markers",type="scatter3d") %>%
       layout(showlegend=FALSE,scene=list(xaxis = list(title = 'lat'),yaxis = list(title = 'lon'),zaxis = list(title = 't'))) %>%
     add_trace(x=eyedata[1:n,1],y=eyedata[1:n,2],z=eyedata[1:n,3],mode="markers",type="scatter3d") 
     for( i in 1:n){
         p = add_trace(p,x=c(eyedata[i,1],para[i,1]),y=c(eyedata[i,2],para[i,2]),z=c(eyedata[i,3],para[i,3]),color="black",mode="lines",type="scatter3d")
       }

subplot(p)

প্যারাগ্লাইডারের ঘোরের কেন্দ্রের প্রবাহটি মূলত বাতাসের কারণে ঘটে এবং ড্রিফটের গতিপথ এবং গতিটি বাতাসের গতিবেগ এবং স্বাবের সাথে অবিচ্ছিন্ন পরিবর্তনশীলগুলির সাথে সম্পর্কিত হয়। ল্যাট-লোন প্লেনের পূর্বাভাস দেওয়ার সময় ড্রিফ্টটি এ জাতীয় দেখাচ্ছে:

এখানে চিত্র বর্ণনা লিখুন

পিসিএ রিগ্রেশন

সুতরাং, আগে আমরা প্রতিষ্ঠিত করেছি যে নিয়মিত লিনিয়ার রিগ্রেশন এখানে খুব ভাল কাজ করে না বলে মনে হয়। আমরা এও বুঝতে পেরেছিলাম কেন: কারণ এটি অন্তর্নিহিত প্রক্রিয়াটি প্রতিফলিত করে না, কারণ প্যারাগ্লাইডারের গতি উচ্চ নৈরৈখিক। এটি বৃত্তাকার গতি এবং একটি লিনিয়ার ড্রিফ্টের সংমিশ্রণ। আমরা আরও আলোচনা করেছি যে এই পরিস্থিতিতে ফ্যাক্টর বিশ্লেষণ সহায়ক হতে পারে। এই ডেটা মডেলিংয়ের একটি সম্ভাব্য পদ্ধতির একটি রূপরেখা এখানে দেওয়া হয়েছে: পিসিএ রিগ্রেশন । তবে প্রথমে আমি আপনাকে পিসিএ রিগ্রেশন লাগানো বাঁক দেখাব :

এখানে চিত্র বর্ণনা লিখুন

এটি নিম্নলিখিত হিসাবে প্রাপ্ত করা হয়েছে। পূর্বে আলোচিত হিসাবে অতিরিক্ত সেট কলাম টি = 1: 123 রয়েছে এমন ডেটা সেটটিতে পিসিএ চালান। আপনি তিনটি প্রধান উপাদান পেতে। প্রথমটি কেবল টি। দ্বিতীয়টি লম্ব কলামের সাথে তৃতীয় এবং ল্যাট কলামের সাথে সামঞ্জস্য।

আমি পরের দুটি প্রধান উপাদানটি আকারের ভেরিয়েবলের সাথে ফিট করি , যেখানে উপাদানগুলির বর্ণালী বিশ্লেষণ থেকে বের করা হয়। তারা একই ফ্রিকোয়েন্সি কিন্তু বিভিন্ন ধাপে ঘটতে থাকে, যা বিজ্ঞপ্তি গতি প্রদানে অবাক করা হয় না।ω , φ φasin(ωt+φ)ω,φ

এটাই. লাগানো মানগুলি পেতে আপনি পূর্বাভাসিত মূল উপাদানগুলিতে পিসিএ রোটেশন ম্যাট্রিক্সের ট্রান্সপোজ প্লাগ করে লাগানো উপাদানগুলি থেকে ডেটা পুনরুদ্ধার করেন। উপরের আমার আর কোডটি পদ্ধতির অংশগুলি দেখায় এবং বাকিগুলি আপনি সহজেই বের করতে পারেন।

উপসংহার

অন্তর্নিহিত প্রক্রিয়াগুলি স্থিতিশীল যেখানে শারীরিক ঘটনার ক্ষেত্রে পিসিএ এবং অন্যান্য সাধারণ সরঞ্জামগুলি কতটা শক্তিশালী তা দেখতে আকর্ষণীয় এবং ইনপুটগুলি লিনিয়ার (বা লিনিয়ারযুক্ত) সম্পর্কের মাধ্যমে আউটপুটগুলিতে অনুবাদ করে। সুতরাং আমাদের ক্ষেত্রে বিজ্ঞপ্তি গতিটি খুব অ-রৈখিক তবে আমরা খুব সহজেই টাইম প্যারামিটারে সাইন / কোসাইন ফাংশন ব্যবহার করে এটি রৈখিক করে তুলি। আমার প্লটগুলি আর-কোডের কয়েকটি লাইন দিয়ে তৈরি হয়েছিল যেমনটি আপনি দেখেছিলেন।

রিগ্রেশন মডেলটির অন্তর্নিহিত প্রক্রিয়াটি প্রতিফলিত হওয়া উচিত, তবে কেবলমাত্র আপনি আশা করতে পারেন যে এর পরামিতিগুলি অর্থবহ। যদি এটি বাতাসে প্যারাগ্লাইডারটি প্রবাহিত হয়, তবে মূল প্রশ্নের মতো একটি সাধারণ স্ক্যাটার প্লট প্রক্রিয়াটির সময় কাঠামোটি আড়াল করবে।

এছাড়াও এক্সেল রিগ্রেশন একটি ক্রস বিভাগীয় বিশ্লেষণ ছিল, যার জন্য লিনিয়ার রিগ্রেশন সবচেয়ে ভাল কাজ করে, যখন আপনার ডেটা একটি সময় সিরিজ প্রক্রিয়া, যেখানে পর্যবেক্ষণগুলি যথাসময়ে অর্ডার করা হয়। সময় সিরিজ বিশ্লেষণ এখানে প্রয়োগ করা আবশ্যক, এবং এটি পিসিএ রিগ্রেশন মধ্যে সম্পন্ন হয়েছিল।

একটি ফাংশন নোট

যেহেতু কোনও প্যারাগ্লাইডার চেনাশোনা তৈরি করছে, তাই একক দ্রাঘিমাংশের সাথে একাধিক অক্ষাংশ থাকবে। গণিত একটি ফাংশন একটি মান মানচিত্র একটি একক মান । এটি বহু-এক-এক সম্পর্ক, যার অর্থ একাধিক সাথে থাকতে পারে তবে একক সাথে একাধিক নয় । এই কারণেই কোনও ফাংশন নয়, কঠোরভাবে বলা।x y x y y x l a t = f ( l o n )y=f(x)xyxyyxlat=f(lon)


11
সর্পিল স্ট্রাকচার ভাল ধরা! দ্বিপক্ষের মন্তব্য: বিকল্প প্যারামিটারাইজেশন হিসাবে একটি with দিয়ে কাজ করা সহজ । এমন প্রচুর কেস রয়েছে যেখানে আমরা মাঝারি সময়ে গড় পছন্দ করি যা মূল সমস্যার সাথে আকর্ষণীয় বা প্রাসঙ্গিক নয়। a sin ωt+b cos ωt
নিক কক্স

11
আপনি তাদের সমানভাবে চিকিত্সা করতে চান কিনা তা লক্ষ্য নির্ভর করে। এটি ডেটার সহজাত গুণ নয় quality - দুর্দান্ত পয়েন্ট এবং +1।
রিচার্ড হার্ডি

@ নিককক্স, এটি ঠিক, এটি খুব কম কাজ হত
আকাকাল

আপনার পিসিএ হ'ল আপনার 2 ভেরিয়েবলের যে পরিস্থিতি রয়েছে তার থেকে বড় অক্ষের প্রতিরোধের সাধারণীকরণ হ'ল এটি উল্লেখ করার মতো। তবে যেহেতু এই ক্ষেত্রে কেবল 2 টি ভেরিয়েবল রয়েছে তবে কৌশলটির মানক নামটি হবে প্রধান অক্ষ অক্ষরণ (যাকে কখনও কখনও অर्थোগোনাল রিগ্রেশন বা টাইপ II রিগ্রেশনও বলা হয়)।
টম Wenseleers

61

উত্তরটি সম্ভবত আপনি কীভাবে মানসিকভাবে রিগ্রেশন লাইনের দূরত্বটি বিচার করছেন তার সাথে সম্পর্কিত। স্ট্যান্ডার্ড (প্রকার 1) রিগ্রেশন স্কোয়ার ত্রুটিটিকে হ্রাস করে, যেখানে লাইনটির উল্লম্ব দূরত্বের ভিত্তিতে ত্রুটি গণনা করা হয়

টাইপ 2 রিগ্রেশন আপনার সেরা লাইনের বিচারের সাথে আরও সাদৃশ্যপূর্ণ হতে পারে। এটিতে স্কোয়ার ত্রুটি হ্রাস করা হ'ল লাইনের লম্ব লম্বা । এই পার্থক্যের অনেকগুলি ফলাফল রয়েছে। একটি গুরুত্বপূর্ণটি হ'ল আপনি যদি নিজের প্লটটিতে এক্স- এবং ওয়াই-অক্ষগুলি অদলবদল করে এবং লাইনটি রিফিট করেন তবে আপনি টাইপ 1 রিগ্রেশনের জন্য ভেরিয়েবলগুলির মধ্যে একটি আলাদা সম্পর্ক পাবেন। টাইপ 2 রিগ্রেশনের জন্য, সম্পর্কটি একই থাকে।

আমার ধারণাটি হ'ল টাইপ 1 বনাম টাইপ 2 রিগ্রেশন কোথায় ব্যবহার করবেন সে সম্পর্কে ন্যায্য পরিমাণ বিতর্ক রয়েছে এবং তাই কোনটি প্রয়োগ করবেন তা সিদ্ধান্ত নেওয়ার আগে আমি পার্থক্যগুলি সম্পর্কে সাবধানতার সাথে পড়ার পরামর্শ দিই। এক অক্ষ পরীক্ষামূলকভাবে নিয়ন্ত্রণ করা হয় বা অন্যটির তুলনায় কমপক্ষে কম ত্রুটি দিয়ে পরিমাপ করা হয় সেই ক্ষেত্রে ক্ষেত্রে টাইপ 1 রিগ্রেশনটি প্রায়শই সুপারিশ করা হয়। এই শর্তগুলি পূরণ না করা হলে, টাইপ 1 রিগ্রেশন 0 এর দিকে opালু পক্ষপাত করবে এবং তাই টাইপ 2 রিগ্রেশন বাঞ্ছনীয়। যাইহোক, উভয় অক্ষের পর্যাপ্ত শব্দে, টাইপ 2 রিগ্রেশন স্পষ্টত তাদের 1 এর দিকে পক্ষপাত করে to ওয়ার্টন এট আল। (2006) এবং স্মিথ (2009) বিতর্ক বোঝার জন্য ভাল উত্স।

এছাড়াও নোট করুন যে কয়েকটি সূক্ষ্মভাবে পৃথক পদ্ধতি রয়েছে যা প্রকারের 2 টাইপ (মেজর অক্ষ, হ্রাসকৃত মেজর অক্ষ, এবং স্ট্যান্ডার্ড মেজর অক্ষের রিগ্রেশন) এর বিস্তৃত বিভাগের মধ্যে চলে আসে এবং নির্দিষ্ট পদ্ধতিগুলির পরিভাষাটি অসঙ্গত।

ওয়ার্টন, ডিআই, আইজে রাইট, ডিএস ফলস্টার এবং এম ওয়েস্টোবি। 2006. অ্যালোমেট্রির জন্য বাইভারিয়েট লাইন-ফিটিং পদ্ধতি। বাইওল। Rev. 81: 259–291। ডোই: 10,1017 / S1464793106007007

স্মিথ, আরজে ২০০৯। লাইন-ফিটিংয়ের জন্য হ্রাস করা প্রধান অক্ষের ব্যবহার এবং অপব্যবহারের বিষয়ে। অ্যাম। জে ফিজ। Anthropol। 140: 476-486। ডোই: 10,1002 / ajpa.21090


সম্পাদনা :

@ অ্যামিবা উল্লেখ করেছেন যে উপরে আমি টাইপ 2 রিগ্রেশনকে যা বলছি তা অर्थোগোনাল রিগ্রেশন নামেও পরিচিত; এটি আরও উপযুক্ত শব্দ হতে পারে। যেমন আমি উপরে বলেছি, এই অঞ্চলে পরিভাষাটি অসঙ্গতিপূর্ণ, যা অতিরিক্ত যত্নের আদেশ দেয়।


19
টাইপ 1 বা টাইপ 2 ব্যবহার করবেন কিনা তা নিয়ে বিতর্ক? আপনার লক্ষ্য (উদ্দেশ্যমূলক ফাংশন বা ক্ষতির ফাংশন) কখন কী তা আপনি কী তা নিয়ে বিতর্ক করার কিছু নেই। এবং যদি আপনি ভাল না করেন, তবে আপনাকে এগিয়ে যাওয়ার আগে এটি পরিষ্কার করা উচিত।
রিচার্ড হার্ডি

7
টাইপ 2 এছাড়াও উভয় অক্ষ পৃথক ইউনিট ব্যবহার করে যদি অযৌক্তিক ফলাফল দেয়।
জন ডিভোরাক

4
আপনি "টাইপ 1" এবং "টাইপ 2" ব্যবহার করছেন যেন এগুলি স্ট্যান্ডার্ড শর্তাদি। তারা কি? আমি কখনও কখনও কারও দিকে যেতে পারি না সাধারণ রেগ্রেশন এবং অर्थোগোনাল রিগ্রেশনকে "টাইপ 1" এবং "টাইপ 2" বলে calling
অ্যামিবা

2
@ রিচার্ড হার্ডি অবশ্যই কারও নির্দিষ্ট লক্ষ্য স্পষ্ট করা সবচেয়ে ভাল। তবে আমি যেমন উত্তরে বলেছি, আমার ধারণাটি হ'ল যে কোনও মামলাগুলির সাবসেটে তাদের ব্যবহার সম্পর্কে একটি চলমান বিতর্ক চলছে - এবং আমি যে কাগজপত্রগুলি উদ্ধৃত করি (পাশাপাশি বিরোধী সুপারিশগুলিও আমি পর্যালোচকদের কাছ থেকে পেয়ে যাচ্ছি) মনে হয় এটি বহন করে।
এমকেটি

3
@ এমকেটি, আপনার স্পষ্টির জন্য ধন্যবাদ। প্রকৃতপক্ষে, এমন লোকদের মধ্যে কিছু বিতর্ক হতে পারে যারা নিশ্চিত নয় যে তারা কী হবে। সেখানে, বিতর্কটির কেন্দ্রবিন্দু হ'ল দু'জনের মধ্যে কে তাদের বিষয়-বিষয় লক্ষ্য নিয়ে বেশি প্রাসঙ্গিক। আমি যে বিষয়টি গুরুত্ব দিতে চেয়েছিলাম তা হ'ল একবার আপনার লক্ষ্যটি ভালভাবে সংজ্ঞায়িত হওয়ার পরে কোনও বিতর্ক হয় না, অর্থাত্ বিষয়-বিষয়টির লক্ষ্যটি পরিসংখ্যানিক ভাষায় অনুবাদ করা হয় (যা যদি স্ট্যাটিস্টিকাল পদ্ধতিতে নিয়োগ করা হয় তবে তা অনিবার্য)। সুতরাং আমি অনুমান করি আমরা একমত, আমরা কেবল যুক্তির বিভিন্ন অংশে চাপ দিচ্ছি।
রিচার্ড হার্ডি

31

এক্সেল যে প্রশ্নের উত্তর দেওয়ার চেষ্টা করে তা হ'ল: ধরে নিই যে y এক্স এর উপর নির্ভরশীল, কোন রেখাটি ওয়াই সেরা হিসাবে ভবিষ্যদ্বাণী করে "। উত্তরটি হ'ল y এর বিশাল পরিবর্তনের কারণে কোনও লাইন সম্ভবত বিশেষভাবে ভাল হতে পারে না এবং এক্সেলের প্রদর্শনগুলি আপনার পক্ষে সবচেয়ে ভাল।

যদি আপনি আপনার প্রস্তাবিত লাল রেখাটি নিয়ে যান এবং এটি x = -0.714 এবং x = -0.712 অবধি চালিয়ে যান তবে আপনি দেখতে পাবেন যে এর মানগুলি চার্টের বাইরে, উপায় এবং এটি সম্পর্কিত y মানগুলির থেকে এক বিশাল দূরত্বে রয়েছে ।

এক্সেল যে প্রশ্নের উত্তর দেয় তা "কোন লাইনটি ডেটা পয়েন্টগুলির নিকটবর্তী" নয়, তবে "কোন রেখাটি x মান থেকে y মানগুলির পূর্বাভাস দেওয়া ভাল" এবং এটি সঠিকভাবে এটি করে does


4
যথাযথভাবে। অন্তর্নিহিত অনুমানটি "এক্স দেওয়া হয়েছে, y পরিমাপ করা / পূর্বাভাস দেওয়া হয়েছে"।
ফ্লোরিস

12

আমি অন্যান্য উত্তরের সাথে কিছু যুক্ত করতে চাই না, তবে আমি বলতে চাই যে আপনাকে খারাপ পরিভাষা দ্বারা বিপথগামী করা হয়েছে, বিশেষত "লাইনের সেরা ফিট" শব্দটি কিছু পরিসংখ্যান কোর্সে ব্যবহৃত হয়।

স্বজ্ঞাতভাবে, "সেরা ফিটের একটি লাইন" আপনার লাল লাইনের মতো দেখাবে। তবে এক্সেলের উত্পাদিত লাইনটি "সেরা ফিটের লাইন" নয়; এমনকি এটি চেষ্টা করা হয় না। এটি এমন একটি লাইন যা প্রশ্নের উত্তর দেয়: x এর মান দেওয়া, y এর জন্য আমার সেরা সম্ভাব্য ভবিষ্যদ্বাণী কী? বা বিকল্পভাবে, প্রতিটি এক্স মানের জন্য y এর গড় মান কত?

এখানে x এবং y এর মধ্যে অসম্পূর্ণতা লক্ষ্য করুন; "সেরা ফিটের লাইন" নামটি ব্যবহার করা এটিকে অস্পষ্ট করে। এক্সেল এর "ট্রেন্ডলাইন" ব্যবহার করে।

এটি নীচের লিঙ্কটিতে খুব ভালভাবে ব্যাখ্যা করা হয়েছে:

https://www.stat.berkeley.edu/~stark/SticiGui/Text/regression.htm

আপনি উপরের উত্তরে "টাইপ 2" বা বার্কলে স্ট্যাটিস কোর্স পৃষ্ঠায় "এসডি লাইন" নামক জাতীয় কিছু চাইবেন।


11

অপটিকাল ইস্যুর অংশটি বিভিন্ন স্কেল থেকে আসে - আপনি যদি উভয় অক্ষকে একই স্কেল ব্যবহার করেন তবে এটি ইতিমধ্যে পৃথক দেখবে।

অন্য কথায়, আপনি বেশিরভাগ 'সেরা ফিট' লাইনগুলিকে একটি অক্ষ স্কেল ছড়িয়ে দিয়ে 'অদম্য' দেখায়।


1
আমি এইটির উত্তর হিসাবে সম্মত হচ্ছি - মানগুলির এক্স পরিসীমা প্রায় 0.02 প্রশস্ত, তবে ওয়াই পরিসীমাটি প্রায় 0.005 - আসলে চার্টটি এর চেয়ে 4 গুণ বেশি প্রশস্ত হওয়া উচিত, এবং এটি স্পষ্ট হবে যে সেরা ফিট অনুভূমিক হবে। প্রশ্নটির ঘটনাটি বিভিন্ন স্কেলের কারণে খাঁটিভাবে দৃশ্যমান।
রিমকো গ্রিলিচ

3
@ রেমকো গ্রিলিচ আমরা সম্মত হতে পারি যে প্রশ্নে প্রদর্শিত গ্রাফের দিক অনুপাত সহায়ক নয়। তবে আপনাকে যে উচ্চতর হিসাবে 4 গুণ প্রশস্ত গ্রাফের প্রয়োজন তা নির্দেশিকা কারণ সংখ্যার দিকের পরিসীমা যে অনুপাতের মধ্যে রয়েছে তা অবর্ণনীয় এবং অবশ্যই এটি বাস্তবতার বিষয় নয়। যদি উভয় অক্ষের ইউনিটগুলি 1000 এর গুণক দ্বারা পরিবর্তিত হয়, আপনি কি 4000 বা 0.004 এর একটি অনুপাতের প্রস্তাব করবেন? 4x অনুপাতটি বিভিন্ন ইউনিটের কেবলমাত্র একটি পার্শ্ব-প্রতিক্রিয়া হতে পারে।
নিক কক্স

4
অন্য উত্তরগুলি সঠিক উত্তর দেয়। দুঃখজনকভাবে এই না। আমরা যদি মানগুলি পুনরুদ্ধার করি তবে যেমন আমরা একই ভিজ্যুয়াল চিত্র পাই তবে সমান অক্ষ সহ, এটি এখনও একটি "টাইপ 1" বনাম "টাইপ 2" ফিটিং সমস্যা।
হ্যানস জনসান

1
তিনি "সাধারণ জ্ঞান" সেরা ফিট, "মানুষের চোখের কাছে সঠিক" সম্পর্কে কথা বলেছেন। এবং তারপরে অক্ষগুলির স্কেলিংই মূল বিষয় যা প্রাসঙ্গিক।
রিমকো গ্রিলিচ

তার একটি বক্তব্য রয়েছে, কখনও কখনও যা স্বজ্ঞাত বলে মনে হয় তা স্কেলিংয়ের মতো মূর্খ জিনিস দ্বারা প্রভাবিত হয়, যদিও এটি এরকম ঘটনা নয়। এক্সেল কী করে এবং ওপি কী চায় এর মধ্যে এখানে আমাদের একটি আসল মিল নেই
আকাকাল

4

কয়েক জন ব্যক্তি উল্লেখ করেছেন যে সমস্যাটি দৃশ্যমান - নিযুক্ত গ্রাফিকাল স্কেলিং বিভ্রান্তিকর তথ্য উত্পন্ন করে। আরও স্পষ্টতই, "লোন" এর স্কেলিংটি এমন যে এটি দৃ tight় সর্পিল বলে মনে হয় যা প্রস্তাব দেয় যে রিগ্রেশন লাইনটি একটি উপযুক্ত ফিট প্রদান করে না (এমন একটি মূল্যায়ন যা আমি সম্মত করি, আপনি যে লাল রেখাটি আঁকেন তা যদি ডেটাটি হয় তবে নিম্ন স্কোয়ার ত্রুটিগুলি সরবরাহ করবে) উপস্থাপিত পদ্ধতিতে আকার দেওয়া হয়েছিল)।

নীচে আমি এক্সলে একটি স্ক্রেটারপ্লট সরবরাহ করি যা "দীর্ঘ" পরিবর্তিত হয়ে স্কেলিংয়ের সাথে তৈরি হয় যাতে এটি আপনার স্ক্র্যাপপ্লোটে আঁটসাঁট সর্পিল তৈরি করে না। এই পরিবর্তনের সাথে, রিগ্রেশন লাইনটি আরও ভাল ভিজ্যুয়াল ফিট সরবরাহ করে এবং আমি মনে করি যে মূল স্ক্র্যাটারপ্লোটে স্কেলিং কীভাবে ফিটের একটি বিভ্রান্তিকর মূল্যায়ন সরবরাহ করেছিল।

আমি মনে করি রিগ্রেশন এখানে ভাল কাজ করে। আমি আরও জটিল বিশ্লেষণের প্রয়োজন বলে মনে করি না।

এখানে চিত্র বর্ণনা লিখুন

যে কোনও আগ্রহীর জন্য, আমি ম্যাপিংয়ের সরঞ্জামটি ব্যবহার করে ডেটা প্লট করেছি এবং ডেটাতে লাগানো রিগ্রেশন দেখিয়েছি। লাল বিন্দু হ'ল রেকর্ড করা ডেটা এবং সবুজটি হ'ল রিগ্রেশন লাইন।

এখানে চিত্র বর্ণনা লিখুন

এবং এখানে রিগ্রেশন লাইনের সাথে একটি স্ক্যাটার প্লটে একই ডেটা রয়েছে; এখানে ল্যাটটিকে নির্ভরশীল হিসাবে বিবেচনা করা হয় এবং ল্যাট স্কোরগুলি ভৌগলিক প্রোফাইলের সাথে ফিট করার জন্য বিপরীত হয়।

এখানে চিত্র বর্ণনা লিখুন


1
রিগ্রেশন বায়ু প্রবাহের দিক দেখায় না
আকসকল

আমরা কেবল লাত এবং দীর্ঘ জানি, এবং সরবরাহিত ডেটার জন্য এটি অন্যের তুলনায় একজনের পরিবর্তন দেখায়।
ব্রায়ান

তাহলে এই ট্রেন্ড লাইনটি কী বোঝায়?
আকসকল

ডেটা ফাইলের প্রথম পয়েন্টটি ধরে নেওয়া হল এটির শুরু অবস্থান, এটি দেখা যাচ্ছে যে পূর্বের পূর্ব দিকে যাত্রা করার পথে সামান্য উত্তরের বৃদ্ধি রয়েছে। ডেটা বাতাসের শক্তি বা উচ্চতা সম্পর্কে কোনও তথ্য সরবরাহ করে না, তবে পূর্বদিকে উত্তর দিয়ে দিক সরবরাহ করে।
ব্রায়ান

সংশোধন, আমি ম্যাপিং সফটওয়্যারটির জন্য অনুরোধ করেছি ল্যাট-লোন, তবে তার তথ্য লম্বা-লম্বা, সুতরাং বাতাসের দিকটি পূর্ব দিকে সামান্য উত্তর হবে, অর্থাৎ উত্তর দিকে সামান্য পূর্ব দিকে অগ্রসর হওয়া সামান্য পূর্ব আন্দোলন (বা দক্ষিণে সামান্য পশ্চিমা গতিবিধি) রয়েছে ভ্রমণ)।
ব্রায়ান

1

আপনার বিভ্রান্ত সাধারণ সর্বনিম্ন স্কোয়ারগুলি (ওএলএস) রিগ্রেশন (যা পূর্বাভাসিত মানগুলি (পর্যবেক্ষণ-পূর্বাভাস) ^ 2) সম্পর্কে স্কোয়ার বিচ্যুতির যোগফলকে কমিয়ে দেয় এবং প্রধান অক্ষ অক্ষরণ (যা প্রতিটি বিন্দুর মধ্যে লম্ব দূরত্বের স্কোয়ারের পরিমাণকে হ্রাস করে রিগ্রেশন রেখা, কখনও কখনও এটিকে টাইপ -2 রিগ্রেশন, অরথোগোনাল রিগ্রেশন বা মানকযুক্ত প্রধান উপাদান সংবিধান হিসাবে উল্লেখ করা হয়)।

আপনি যদি দুটি পদ্ধতির তুলনা করতে চান তবে কেবলমাত্র আর এ পরীক্ষা করে দেখুন

data=read.csv("https://pastebin.com/raw/4TsstQYm")
require(lmodel2)
fit = lmodel2(lat ~ lon, data=data)
plot(fit,method="OLS") # ordinary least squares regression

এখানে চিত্র বর্ণনা লিখুন

plot(fit,method="MA") # major axis regression

এখানে চিত্র বর্ণনা লিখুন

আপনি যা সর্বাধিক স্বজ্ঞাত (আপনার লাল রেখা) সন্ধান করেন সেটি হ'ল প্রধান অক্ষের প্রতিরোধ, যা দৃষ্টিভঙ্গি বলতে আসলে এটি সবচেয়ে যুক্তিসঙ্গত বলে মনে হয়, কারণ এটি আপনার পয়েন্টগুলির সাথে লম্ব দূরত্বকে হ্রাস করে। ওএলএস রিগ্রেশন কেবলমাত্র আপনার পয়েন্টগুলির লম্ব দূরতাকে হ্রাস করতে দেখাবে যদি x এবং y পরিবর্তনশীল একই পরিমাপের স্কেলে থাকে এবং / বা একই পরিমাণে ত্রুটি থাকে (আপনি কেবল পাইথাগ্রোর উপপাদ্যের উপর ভিত্তি করে এটি দেখতে পারেন)। আপনার ক্ষেত্রে, আপনার y পরিবর্তনশীল এর উপর আরও বেশি প্রসারিত হয়েছে, সুতরাং পার্থক্যটি ...


0

পিসিএ উত্তরটি সবচেয়ে ভাল কারণ আমি মনে করি আপনার সমস্যার বিবরণ দিয়ে এমনটাই করা উচিত যা পিসিএ উত্তর পিসিএ এবং রিগ্রেশনকে বিভ্রান্ত করতে পারে যা সম্পূর্ণ আলাদা জিনিস। আপনি যদি এই নির্দিষ্ট ডেটা সেটটি এক্সট্রোপোলেট করতে চান তবে আপনাকে রিগ্রেশন করতে হবে, এবং সম্ভবত ডেমিং রিগ্রেশন করতে হবে (যা আমি অনুমান করি যে কখনও কখনও টাইপ II দ্বারা যায়, এই বিবরণটি কখনও শুনেনি)। তবে, আপনি যদি কোন দিকনির্দেশকে সর্বাধিক গুরুত্বপূর্ণ (আইজেনভেেক্টর) এবং ডেটা সেট (ইগেনভ্যালুগুলি) এর উপর তাদের আপেক্ষিক প্রভাবের একটি মেট্রিক খুঁজে পেতে চান তবে পিসিএই সঠিক পদ্ধতির।


4
এটি বেশিরভাগই অন্যান্য উত্তরের মন্তব্যগুলির একটি সিরিজ। প্রতিটি সম্পর্কে সরাসরি মন্তব্য করা ভাল হবে। আমি দেখতে পাচ্ছি না যে @আসাকালের উত্তর একেবারেই পিসিএ এবং রিগ্রেশনকে বিভ্রান্ত করে।
নিক কক্স

আমি সরাসরি মন্তব্য করতে চেয়েছিলাম, কিন্তু যথেষ্ট নামী ছিল না। আমি মনে করি না যে আকসাকাল রিগ্রেশনকে বিভ্রান্ত করছে, তবে ভেবেছিল যে ওপি'র দিকে এটি দেখানো মূল্যবান যে পিসিএ এবং রিগ্রেশন সম্পূর্ণ আলাদা different
অ্যান্ড্রু এইচ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.