লিনিয়ার শ্রেণিবদ্ধের জন্য, বৃহত্তর সহগগুলি আরও গুরুত্বপূর্ণ বৈশিষ্ট্য বোঝায়?


15

আমি একজন সফটওয়্যার ইঞ্জিনিয়ার যিনি মেশিন লার্নিংয়ে কাজ করছেন। আমার উপলব্ধি থেকে, লিনিয়ার রিগ্রেশন (যেমন ওএলএস) এবং লিনিয়ার শ্রেণিবিন্যাস (যেমন লজিস্টিক রিগ্রেশন এবং এসভিএম) প্রশিক্ষিত সহগ w এবং বৈশিষ্ট্য ভেরিয়েবল মধ্যে একটি অভ্যন্তরীণ পণ্যের উপর ভিত্তি করে ভবিষ্যদ্বাণী করে :x

y^=f(wx)=f(iwixi)

আমার প্রশ্নটি: মডেলটি প্রশিক্ষিত হওয়ার পরে (অর্থাৎ, সহগের গণনা করার পরে), মডেলটির আরও সঠিকভাবে পূর্বাভাস দেওয়ার জন্য আরও গুরুত্বপূর্ণ যে বৈশিষ্ট্যগুলির ভেরিয়েবলগুলি সহগগুলি তার চেয়ে আরও বড় হবে?wi

অন্য কথায়, আমি জিজ্ঞাসা করছি যে সহগের তুলনামূলক প্রগা just়গুলি কেবলমাত্র গুণফল দ্বারা ভেরিয়েবলগুলি অর্ডার করে এবং তারপরে সর্বোচ্চ সহগের সাথে বৈশিষ্ট্যগুলি নির্বাচন করে বৈশিষ্ট্য নির্বাচনের জন্য ব্যবহার করা যেতে পারে কিনা ? যদি এই পদ্ধতিটি বৈধ হয়, তবে কেন এটি বৈশিষ্ট্য নির্বাচনের জন্য উল্লেখ করা হয়নি (মোড়ক এবং ফিল্টার পদ্ধতির পাশাপাশি)।

আমি এটি জিজ্ঞাসা করার কারণটি হ'ল আমি এল 1 বনাম এল 2 নিয়মিতকরণ নিয়ে আলোচনায় এসেছি । একটি ব্লার্ব আছে যা বলে:

অন্তর্নির্মিত বৈশিষ্ট্য নির্বাচনটি প্রায়শই L1-আদর্শের একটি দরকারী সম্পত্তি হিসাবে উল্লেখ করা হয়, যা L2-আদর্শ না করে। এটি আসলে এল 1-আদর্শের ফলাফল, যা বিরল সহগ উত্পাদন করতে ঝোঁক (নীচে বর্ণিত)। ধরুন, মডেলটির 100 টি সহগ রয়েছে তবে তার মধ্যে কেবল 10 টি শূন্য-সহগ রয়েছে, এটি কার্যকরভাবে বলছে যে "অন্যান্য 90 জন ভবিষ্যদ্বাণীী লক্ষ্য মানগুলি পূর্বাভাস দেওয়ার ক্ষেত্রে বেহুদা"।

লাইনের মধ্যে পড়া, আমি অনুমান করব যে যদি একটি গুণফল 0 এর কাছাকাছি হয়, তবে সেই সহগের সাথে বৈশিষ্ট্যটির পরিবর্তনশীলটির সামান্য ভবিষ্যদ্বাণীমূলক শক্তি থাকতে হবে।

সম্পাদনা : আমি আমার সংখ্যার ভেরিয়েবলগুলিতে জেড-স্কেলিংও প্রয়োগ করছি।


1
নোট করুন যে এলএএসএসও (এল 1-নরম) এবং রিজ রিগ্রেশন (এল 2-নর্ম) বিশ্লেষণের কোডগুলির বিশ্লেষণের পূর্বে ভবিষ্যদ্বাণী ভেরিয়েবলগুলি প্রাক-স্কেল করা উচিত, এমনকি যদি কোডটি আবার গুণফলগুলিকে মূল ভেরিয়েবল স্কেলে রূপান্তরিত করে। যাঁরা কোড ব্যবহার করেন যা প্রাক-স্কেল হয় না তারা @ জোসলিবারের উত্তরে উল্লিখিত সমস্যাগুলির সাথে শেষ হয় না তারা ওএলএস, ল্যাসো বা রিজ করছে কিনা।
এডিএম

3
আমি মনে করি উল্লেখযোগ্য কিছু হ'ল, যখন আপনি "এই গুণগুণ সহ বৈশিষ্ট্যটির পরিবর্তনশীলটির সামান্য ভবিষ্যদ্বাণীমূলক শক্তি থাকতে হবে" এই বাক্যাংশটি দিয়ে কী কী প্রকাশ করার চেষ্টা করছেন তা প্রতিফলিত করেন, আপনি কি বলতে চান যে এর অর্থ কী? যদিও আমি অভিজ্ঞতা পেয়েছি যে মাল্টিভারিয়েট মডেলটিতে পৃথক পরিবর্তনশীল "ভবিষ্যদ্বাণীপূর্ণ শক্তি" ধারণাটি সাধারণত ধারণাগত ভিত্তিতে সম্মত হয় নি agreed
ম্যাথু ড্রুরি

4
আমি মনে করি যে এই ধরণের চিন্তাভাবনার ত্রুটিটি হ'ল আপনি সম্ভবত একটি পরিবর্তনশীল মডেল তৈরির মধ্যে সীমাবদ্ধ নন । আপনি যদি হন এবং আপনি সর্বোত্তম নির্ভুলতার সাথে একটি মডেল সরবরাহ করতে চান তবে তারা নিশ্চিত, এটি করা একটি যুক্তিসঙ্গত জিনিস। আপনি যদি না হন, অর্থাত্‍ যদি আপনি একটি মাল্টিভিয়ারেট মডেল তৈরি করতে যাচ্ছেন তবে @EdM এর উত্তর হিসাবে, পরিবর্তনশীল গুরুত্বের ধারণাটি খুব, খুব পিচ্ছিল এবং দৃ firm় ধারণাগত ভিত্তিটির অভাব রয়েছে। এটি মোটেও সুস্পষ্ট নয় যে অবিভাজনীয় মডেলের ভবিষ্যদ্বাণীপূর্ণ শক্তিটিকে বহুবিধ সেটিংয়ে প্রাসঙ্গিক হিসাবে দেখা উচিত।
ম্যাথু ড্রুরি

1
@ ম্যাথেজড্রুরি: আমি নিশ্চিত নই আপনি কেন বহু বৈশিষ্ট্য থেকে বেরিয়ে বড় ব্যবসা করছেন। "বৈশিষ্ট্য নির্বাচন" (যেমন র‍্যাপার পদ্ধতিগুলি) বিদ্যমান রয়েছে এর পুরো ক্ষেত্র রয়েছে; আপনি কি পরামর্শ দিচ্ছেন যে এই ক্ষেত্রটির দৃ concept় ধারণাগত ভিত্তি নেই?
stackoverflowuser2010

1
@ stackoverflowuser2010 ইয়াহ, আমি সম্ভবত এখানে আমার মতে একজন আউটরিয়ার, তবে এটি আমার দৃষ্টিকোণের কিছুটা সঠিক বর্ণনা হতে পারে।
ম্যাথু ড্রুরি

উত্তর:


24

একেবারেই না. সহগের প্রস্থতা ভেরিয়েবলগুলির জন্য নির্বাচিত স্কেলগুলির উপর সরাসরি নির্ভর করে, যা কিছুটা নির্বিচারে মডেলিংয়ের সিদ্ধান্ত।

এটি দেখতে, একটি আইরিস এর পাপড়ি প্রস্থের (সেন্টিমিটারে) এর পাপড়ি দৈর্ঘ্যের (সেন্টিমিটারে) পূর্বাভাস দিচ্ছে একটি লিনিয়ার রিগ্রেশন মডেল বিবেচনা করুন:

summary(lm(Petal.Width~Petal.Length, data=iris))
# Call:
# lm(formula = Petal.Width ~ Petal.Length, data = iris)
# 
# Residuals:
#      Min       1Q   Median       3Q      Max 
# -0.56515 -0.12358 -0.01898  0.13288  0.64272 
# 
# Coefficients:
#               Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  -0.363076   0.039762  -9.131  4.7e-16 ***
# Petal.Length  0.415755   0.009582  43.387  < 2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2065 on 148 degrees of freedom
# Multiple R-squared:  0.9271,  Adjusted R-squared:  0.9266 
# F-statistic:  1882 on 1 and 148 DF,  p-value: < 2.2e-16

আমাদের মডেল 0.9266 এর সমন্বিত আর ^ 2 মান অর্জন করে এবং পেটাল.লাইনথ ভেরিয়েবলের 0.415755 সহগের মান নির্ধারণ করে।

তবে, পেটাল সংজ্ঞা দেওয়ার পছন্দটি সেন্টিমিটারে দৈর্ঘ্যটি বেশ স্বেচ্ছাচারী ছিল এবং আমরা পরিবর্তে মিটারগুলিতে ভেরিয়েবলটি সংজ্ঞায়িত করতে পারতাম:

iris$Petal.Length.Meters <- iris$Petal.Length / 100
summary(lm(Petal.Width~Petal.Length.Meters, data=iris))
# Call:
# lm(formula = Petal.Width ~ Petal.Length.Meters, data = iris)
# 
# Residuals:
#      Min       1Q   Median       3Q      Max 
# -0.56515 -0.12358 -0.01898  0.13288  0.64272 
# 
# Coefficients:
#                     Estimate Std. Error t value Pr(>|t|)    
# (Intercept)         -0.36308    0.03976  -9.131  4.7e-16 ***
# Petal.Length.Meters 41.57554    0.95824  43.387  < 2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2065 on 148 degrees of freedom
# Multiple R-squared:  0.9271,  Adjusted R-squared:  0.9266 
# F-statistic:  1882 on 1 and 148 DF,  p-value: < 2.2e-16

অবশ্যই এটি কোনওভাবেই লাগানো মডেলকে প্রভাবিত করে না - আমরা কেবল পেটাল.লেন্থ.মিটারকে (৪১.৫75৫৫৪) পেটাল-লেংথ (০.৪১75৫৫৫) এর চেয়ে 100x বৃহত্তর সহগকে অর্পণ করেছি। মডেলের অন্যান্য সমস্ত বৈশিষ্ট্য (সমন্বিত আর। 2, টি-পরিসংখ্যান, পি-মানগুলি ইত্যাদি) অভিন্ন।

সাধারণত নিয়মিত রৈখিক মডেলগুলির ফিটিংগুলি যখন প্রথমে নির্বাচিত স্কেলগুলির উপর ভিত্তি করে অন্যের তুলনায় কিছু ভেরিয়েবলের পক্ষে এড়াতে প্রথমে পরিবর্তনগুলি (উদাহরণস্বরূপ, 0 এবং ইউনিট বৈকল্পিক হওয়া মানে) স্বাভাবিক করবে।

নরমালাইজড ডেটা ধরে নিচ্ছি

এমনকি যদি আপনি সমস্ত ভেরিয়েবলকে সাধারণ করে তোলেন তবে উচ্চতর সহগের সাথে ভেরিয়েবলগুলি এখনও ভবিষ্যদ্বাণীতে কার্যকর হতে পারে না কারণ স্বাধীন ভেরিয়েবলগুলি খুব কমই সেট করা থাকে (কম ভেরিয়েন্স থাকে)। উদাহরণস্বরূপ, নির্ভরশীল ভেরিয়েবল জেড এবং স্বাধীন ভেরিয়েবল এক্স এবং ওয়াই বাইনারি মান গ্রহণ করে একটি ডেটাসেট বিবেচনা করুন

set.seed(144)
dat <- data.frame(X=rep(c(0, 1), each=50000),
                  Y=rep(c(0, 1), c(1000, 99000)))
dat$Z <- dat$X + 2*dat$Y + rnorm(100000)

নির্মাণের মাধ্যমে, ওয়াইয়ের জন্য সহগ এক্স এর গুণফলের চেয়ে দ্বিগুণ বড় হয় যখন উভয়ই লিনিয়ার রিগ্রেশন মাধ্যমে জেড পূর্বাভাস দেওয়ার জন্য ব্যবহৃত হয়:

summary(lm(Z~X+Y, data=dat))
# Call:
# lm(formula = Z ~ X + Y, data = dat)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -4.4991 -0.6749 -0.0056  0.6723  4.7342 
# 
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)    
# (Intercept) -0.094793   0.031598   -3.00   0.0027 ** 
# X            0.999435   0.006352  157.35   <2e-16 ***
# Y            2.099410   0.031919   65.77   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.9992 on 99997 degrees of freedom
# Multiple R-squared:  0.2394,  Adjusted R-squared:  0.2394 
# F-statistic: 1.574e+04 on 2 and 99997 DF,  p-value: < 2.2e-16

তবুও, এক্স এর তুলনায় জেডের মধ্যে ভিন্নতার আরও ব্যাখ্যা দেয় (এক্সের সাথে জেড এর পূর্বাভাসকারী লিনিয়ার রিগ্রেশন মডেলটি আর ^ 2 এর মান 0.2065 রয়েছে, তবে লাইনারি রিগ্রেশন মডেলটি জেড এর সাথে ভবিষ্যদ্বাণী করে আর R 2 মান 0.0511 রয়েছে):

summary(lm(Z~X, data=dat))
# Call:
# lm(formula = Z ~ X, data = dat)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -5.2587 -0.6759  0.0038  0.6842  4.7342 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept) 1.962629   0.004564   430.0   <2e-16 ***
# X           1.041424   0.006455   161.3   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 1.021 on 99998 degrees of freedom
# Multiple R-squared:  0.2065,  Adjusted R-squared:  0.2065 
# F-statistic: 2.603e+04 on 1 and 99998 DF,  p-value: < 2.2e-16

বনাম:

summary(lm(Z~Y, data=dat))
# Call:
# lm(formula = Z ~ Y, data = dat)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -5.0038 -0.7638 -0.0007  0.7610  5.2288 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept) -0.09479    0.03529  -2.686  0.00724 ** 
# Y            2.60418    0.03547  73.416  < 2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 1.116 on 99998 degrees of freedom
# Multiple R-squared:  0.05114, Adjusted R-squared:  0.05113 
# F-statistic:  5390 on 1 and 99998 DF,  p-value: < 2.2e-16

মাল্টি-কোলাইনারিটির কেস

তৃতীয় ক্ষেত্রে যেখানে বৃহত্তর সহগের মানগুলি প্রতারণা করে তা ভেরিয়েবলের মধ্যে উল্লেখযোগ্য মাল্টি-কোলাইনারিটির ক্ষেত্রে হতে পারে। উদাহরণস্বরূপ, এমন একটি ডেটাসেট বিবেচনা করুন যেখানে এক্স এবং ওয়াই অত্যন্ত সংযুক্ত রয়েছে তবে ডাব্লু অন্য দুটির সাথে খুব বেশি সম্পর্কযুক্ত নয়; আমরা জেড পূর্বাভাস দেওয়ার চেষ্টা করছি:

set.seed(144)
dat <- data.frame(W=rnorm(100000),
                  X=rnorm(100000))
dat$Y <- dat$X + rnorm(100000, 0, 0.001)
dat$Z <- 2*dat$W+10*dat$X-11*dat$Y + rnorm(100000)
cor(dat)
#              W             X             Y          Z
# W 1.000000e+00  5.191809e-05  5.200434e-05  0.8161636
# X 5.191809e-05  1.000000e+00  9.999995e-01 -0.4079183
# Y 5.200434e-05  9.999995e-01  1.000000e+00 -0.4079246
# Z 8.161636e-01 -4.079183e-01 -4.079246e-01  1.0000000

এই ভেরিয়েবলগুলি প্রায় একই গড় (0) এবং বৈকল্পিক (~ 1) থাকে এবং লিনিয়ার রিগ্রেশন এক্স (প্রায় 15) এবং Y (মোটামুটি -16) এর তুলনায় অনেক উচ্চতর সহগ মান (নিখরচায় মান) নির্ধারণ করে মোটামুটি 2):

summary(lm(Z~W+X+Y, data=dat))
# Call:
# lm(formula = Z ~ W + X + Y, data = dat)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -4.1886 -0.6760  0.0026  0.6679  4.2232 
# 
# Coefficients:
#               Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  1.831e-04  3.170e-03   0.058    0.954    
# W            2.001e+00  3.172e-03 630.811  < 2e-16 ***
# X            1.509e+01  3.177e+00   4.748 2.05e-06 ***
# Y           -1.609e+01  3.177e+00  -5.063 4.13e-07 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 1.002 on 99996 degrees of freedom
# Multiple R-squared:  0.8326,  Adjusted R-squared:  0.8326 
# F-statistic: 1.658e+05 on 3 and 99996 DF,  p-value: < 2.2e-16

তবুও, ডাব্লু মডেলের তিনটি ভেরিয়েবলের মধ্যে সর্বাধিক গুরুত্বপূর্ণ: আপনি যদি ডাব্লুটিকে সম্পূর্ণ মডেল থেকে সরিয়ে ফেলেন, আর ^ 2 টি 0.833 থেকে 0.166 এ নেমে যায়, আপনি যদি এক্স বা ওয়াই ড্রপ করেন তবে কার্যত অপরিবর্তনীয়।


1
(+1) আমি মনে করি এটি একটি ভাল উত্তর এবং এই পয়েন্টটি অবশ্যই করা উচিত। অন্যদিকে, আমি বিশ্বাস করি যে ভেরিয়েবলগুলি মানক করা হয়েছে (এবং তাই, ইউনিট-কম) রয়েছে তখনও অনেক কিছু বলার আছে, তাই আরও কয়েকটি উত্তরের সুযোগ রয়েছে।
ম্যাথু ড্রুরি

উত্তরের জন্য ধন্যবাদ. আপনার লেখাটি দীর্ঘ হলেও এটি খুব সম্পূর্ণ নয় কারণ আপনি ছোট সিন্থেটিক ডেটা থেকে সিদ্ধান্তগুলি আঁকছেন। এছাড়াও, আর ^ 2 লিনিয়ার রিগ্রেশন সম্পর্কিত নির্দিষ্ট। আমি বিশ্বাস করি যে আরও উপযুক্ত ত্রুটি মেট্রিক হ'ল আরএমএসই, বা শ্রেণিবদ্ধকরণ সমস্যার জন্য নির্ভুলতা / এফ 1।
stackoverflowuser2010

1
তবে আপনি যদি শেষ উদাহরণটিতে ডেটাটি স্কেল করেন তবে আপনার কাছে কেবলমাত্র উল্লেখযোগ্য পরিবর্তনশীল ডাব্লু
মার্কোডেনা

11

"বৈশিষ্ট্যটির গুরুত্ব" হ'ল একটি খুব পিচ্ছিল ধারণা এমনকি যখন সমস্ত ভবিষ্যদ্বাণীকারী একটি সাধারণ স্কেলের সাথে সামঞ্জস্য করা হয়েছে (যা নিজেই শ্রেণীবদ্ধ ভেরিয়েবল বা স্কিউ বিতরণ জড়িত অনেকগুলি ব্যবহারিক প্রয়োগগুলিতে একটি তুচ্ছ সমস্যা) problem সুতরাং আপনি যদি @ জোসলিবারের উত্তরে নির্দেশিত স্কেলিং সমস্যাগুলি বা @dsaxton দ্বারা উত্থাপিত নিম্ন-ভবিষ্যদ্বাণীকারী-বৈকল্পিক ইস্যুটি এড়িয়ে যান তবে আপনার অতিরিক্ত সমস্যা রয়েছে।

উদাহরণস্বরূপ, বৈশিষ্ট্যটির গুরুত্বের আরও কার্যকর পরিমাপটি তার সহগের অনুমানের ত্রুটির সাথে তার সহগের অনুপাত হতে পারে। একটি বৃহত আনুমানিক ত্রুটিযুক্ত একটি উচ্চ সহগ অপরিহার্যভাবে ভবিষ্যদ্বাণীতে সহায়ক হবে না। কেবলমাত্র গুণের পরিমাণ মাত্রা, এমনকি প্রাক-স্কেলড পরিস্থিতিতেও "গুরুত্ব" দেওয়ার পক্ষে ভাল গাইড নয়।

তবুও, এর পূর্বাভাসক ত্রুটির সাথে তার সহগের পরিমাণের অনুপাত কম থাকলেও এটি গুরুত্বপূর্ণ হতে পারে (যেমন, এটি "পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ নয়")। লিনিয়ার মডেলগুলি একসাথে একাধিক ভবিষ্যদ্বাণী ভেরিয়েবলগুলি অ্যাকাউন্টে নেওয়ার ক্ষমতা সরবরাহ করে, সুতরাং কোনও মডেলের "অ-উল্লেখযোগ্য" ভবিষ্যদ্বাণীকে অন্তর্ভুক্ত করে ভবিষ্যদ্বাণীকারীদের সম্মিলিত সংগ্রহের দ্বারা সরবরাহিত সামগ্রিক কর্মক্ষমতা উন্নত করতে পারে।

তদ্ব্যতীত, "গুরুত্বপূর্ণ" পূর্বাভাসকারী ভেরিয়েবলগুলি নির্বাচনের চেষ্টাগুলি নির্দিষ্ট ডেটা নমুনার উপর নির্ভর করে এবং প্রায়শই আরও নমুনাগুলিতে ভালভাবে প্রসারিত হয় না, বিশেষত যদি ভেরিয়েবলগুলি সম্পর্কযুক্ত থাকে। আপনি একই ডেটা সেটের একাধিক বুটস্ট্র্যাপ নমুনায় বৈশিষ্ট্য নির্বাচন পুনরাবৃত্তি করে এটি নিজের জন্য দেখতে পাচ্ছেন। ফ্র্যাঙ্ক হ্যারেল, এই উত্তরে দেখায় যে কীভাবে তার rmsপ্যাকেজটিকে র্যাঙ্কিংয়ের বৈশিষ্ট্যটির গুরুত্বের জন্য ব্যবহার করতে হবে এবং এই উত্তরটিতে নোটগুলি কীভাবে র‌্যাঙ্কগুলির জন্য আস্থা অন্তর পেতে বুটস্ট্র্যাপ ব্যবহার করবেন। যারা "বৈশিষ্ট্যটির গুরুত্বকে" খুব বেশি গুরুত্ব দেয় তাদের জন্য বুটস্ট্র্যাপিং সতর্কতা হিসাবে কাজ করতে পারে।

@ অ্যামিবা দ্বারা নির্দেশিত প্রায় 3 বছর আগে এই প্রশ্নটি একাধিক রিগ্রেশন মডেলগুলির বৈশিষ্ট্যটির গুরুত্ব সহকারে অসুবিধা সম্পর্কেও বিস্তৃত বিবরণে যায়।


আনুমানিক ত্রুটির অনুপাত এটি কি "মানক সহগ" হিসাবে পরিচিত?
হ্যালো ওয়ার্ল্ড

@ স্টুডেন্টটি " স্ট্যান্ডার্ডাইজড সহগ " একটি রিগ্রেশন সহগ হয় যখন স্বাধীন এবং নির্ভরশীল ভেরিয়েবলগুলি সমস্তকে ইউনিটের বৈকল্পিকতা হিসাবে চিহ্নিত করা হয়। এর মধ্যে সহগের মধ্যে আনুমানিক ত্রুটি সম্পর্কে কোনও তথ্য নেই। আমি যে অনুপাতটি বর্ণনা করি তা হ'ল ওয়াল্ড পরিসংখ্যানের বর্গমূল যা আমার লিংকের প্রথমটিতে পরিবর্তনশীল-গুরুত্ব পরিমাপ হিসাবে ব্যবহার করে re
এডিএম

6

পূর্ববর্তী উত্তরের সাথে যুক্ত করতে, সহগ নিজেও একজন ভবিষ্যদ্বাণীকারী প্রদর্শিত কতটা পরিবর্তনশীলতা ক্যাপচার করতে ব্যর্থ হন, যা পূর্বাভাস দেওয়ার ক্ষেত্রে এটি কতটা কার্যকর তার একটি বিশাল প্রভাব ফেলে। সহজ মডেল বিবেচনা করুন

(ওয়াইআমি)=α+ +βএক্সআমি

এক্সআমি(পি)পি0β

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.