স্বতন্ত্র ভেরিয়েবলকে মানায়িত করা কি প্রান্তিকতা হ্রাস করে?


13

আমি বেয়েস / এমসিমিসি সম্পর্কে খুব ভাল পাঠ্য পেয়েছি। আইটি পরামর্শ দেয় যে আপনার স্বতন্ত্র ভেরিয়েবলগুলির একটি মানককরণ একটি এমসিসিএম (মহানগর) অ্যালগরিদমকে আরও দক্ষ করে তুলবে, তবে এটি আরও বহুগুণে কমে যেতে পারে multi এটা কি সত্য হতে পারে? এটি কি এমন কিছু যা আমার মান হিসাবে করা উচিত Sorry (দুঃখিত)

ক্রুশকে ২০১১, বয়েশিয়ান ডেটা বিশ্লেষণ করছেন। (রেডিও তেহরান)

সম্পাদনা করুন: উদাহরণস্বরূপ

     > data(longley)
     > cor.test(longley$Unemployed, longley$Armed.Forces)

Pearson's product-moment correlation

     data:  longley$Unemployed and longley$Armed.Forces 
     t = -0.6745, df = 14, p-value = 0.5109
     alternative hypothesis: true correlation is not equal to 0 
     95 percent confidence interval:
     -0.6187113  0.3489766 
     sample estimates:
      cor 
     -0.1774206 

     > standardise <- function(x) {(x-mean(x))/sd(x)}
     > cor.test(standardise(longley$Unemployed), standardise(longley$Armed.Forces))

Pearson's product-moment correlation

     data:  standardise(longley$Unemployed) and standardise(longley$Armed.Forces) 
     t = -0.6745, df = 14, p-value = 0.5109
      alternative hypothesis: true correlation is not equal to 0 
     95 percent confidence interval:
      -0.6187113  0.3489766 
      sample estimates:
       cor 
     -0.1774206 

এটি পারস্পরিক সম্পর্ক হ্রাস করেনি বা তাই ভেক্টরগুলির সীমিত লিনিয়ার নির্ভরতা যাইহোক।

কি হচ্ছে?

আর

উত্তর:


19

এটি মোটেও প্রধান প্রভাবগুলির মধ্যে কোলাইনারিটি পরিবর্তন করে না। স্কেলিং হয় না। কোনও লিনিয়ার রূপান্তর এটি করবে না। এটি কী পরিবর্তন করে তা হ'ল মূল প্রভাব এবং তাদের মিথস্ক্রিয়াগুলির মধ্যে পারস্পরিক সম্পর্ক। এমনকি A এবং B 0 এর পারস্পরিক সম্পর্কের সাথে স্বতন্ত্র থাকলেও A, এবং A: B এর মধ্যে পারস্পরিক সম্পর্ক স্কেল ফ্যাক্টরের উপর নির্ভরশীল।

একটি আর কনসোলে নিম্নলিখিত চেষ্টা করুন। নোট করুন যে rnormকেবলমাত্র আপনার নির্ধারিত জনসংখ্যার মানগুলির সাথে একটি সাধারণ বিতরণ থেকে এলোমেলো নমুনা উত্পন্ন হয়, এই ক্ষেত্রে 50 টি নমুনা। scaleফাংশন 0 একটি গড় এবং 1 এর এসডি নমুনা standardizes।

set.seed(1) # the samples will be controlled by setting the seed - you can try others
a <- rnorm(50, mean = 0, sd = 1)
b <- rnorm(50, mean = 0, sd = 1)
mean(a); mean(b)
# [1] 0.1004483 # not the population mean, just a sample
# [1] 0.1173265
cor(a ,b)
# [1] -0.03908718

এই স্বতন্ত্র নমুনাগুলির জন্য ঘটনা সম্পর্কিত পারস্পরিক সম্পর্ক 0 এর কাছাকাছি। এখন 0 এবং এসডি 1 এর মধ্যে সাধারণ করুন।

a <- scale( a )
b <- scale( b )
cor(a, b)
# [1,] -0.03908718

আবার, এই সঠিক একই মান যদিও গড় 0 এবং এসডি = উভয়ের জন্য 1 হয় aএবং b

cor(a, a*b)
# [1,] -0.01038144

এটি 0 এরও খুব কাছাকাছি (একটি * বি ইন্টারঅ্যাকশন শব্দ হিসাবে বিবেচনা করা যেতে পারে)

যাইহোক, সাধারণত এসডি এবং ভবিষ্যদ্বাণীকারীদের গড় কিছুটা আলাদা হয় তাই আসুন পরিবর্তন করা যাক b। নতুন নমুনা নেওয়ার পরিবর্তে আমি b5 টির এসডি এবং 2 এর এসডি রাখতে মূলটিকে পুনরুদ্ধার করব ।

b <- b * 2 + 5
cor(a, b)
 # [1] -0.03908718

আবার, সেই পরিচিত পারস্পরিক সম্পর্ক আমরা সমস্ত পাশাপাশি দেখলাম। aএবং এর মধ্যে পারস্পরিক সম্পর্কের উপর স্কেলিংয়ের কোনও প্রভাব নেই b। কিন্তু !!

cor(a, a*b)
# [1,] 0.9290406

এখন এর সাথে একটি উল্লেখযোগ্য সম্পর্ক রয়েছে যা আপনি কেন্দ্রীভূত করে এবং / বা মানককরণের মাধ্যমে দূরে যেতে পারেন। আমি সাধারণত ঠিক কেন্দ্রীকরণ নিয়ে যাই।


1
বিস্তৃত এবং বোধগম্য উত্তরের জন্য +1 (কোড সহ)
পিটার ফ্লুম - মনিকা পুনরায়

1
আপনি যদি চতুষ্কোণ শব্দটি অন্তর্ভুক্ত করতে, বলতে চান তবে এটি দরকারী।
অনিকো

একেবারে আনিকো
জন

1
সেরা উত্তর - এই জন্য ধন্যবাদ। আমিও বইটির ভুল ব্যাখ্যা করতে গিয়ে একটি অন্যায় করতে পেরেছি, তবে আমার অজ্ঞতা প্রকাশ করার জন্য এটি উপযুক্ত ছিল।
রোজার

7

অন্যরা ইতিমধ্যে উল্লেখ করেছে যে, প্রমিতকরণের সাথে কলেজের সাথে সত্যিকারের কোনও সম্পর্ক নেই।

পারফেক্ট কোলাইনারিটি

XμXσX

ZX=XμXσX

তার মানে এবং মানক চ্যুতির বৈশিষ্ট্য দেওয়া প্রত্যাশিত মান এবং ভ্যারিয়েন্স যে , এবং , , যেখানে আরভি এবং ধ্রুবক।μZ=0σZ=1E(X+a)=E(X)+aE(bX)=bE(X)Var(X+a)=Var(X)Var(bX)=b2Var(X)Xa,b

আমরা যে দুটি ভেরিয়েবল এবং হয় পুরোপুরি সমরৈখিক যদি এমন মান বিদ্যমান এবং যেওয়াই λ 0 λ 1XYλ0λ1

Y=λ0+λ1X

কি অনুসরণ করে, যদি গড় রয়েছে এবং মানক চ্যুতির , তারপর হয়েছে গড় এবং মানক চ্যুতির । এখন, যখন আমরা উভয় ভেরিয়েবলকে মানক করি (তাদের উপায়গুলি সরান এবং স্ট্যান্ডার্ড বিচ্যুতি দ্বারা ভাগ করা হয়), আমরা ...Xσ এক্স ওয়াই μ ওয়াই = λ 0 + λ 1 μ এক্স σ ওয়াই = λ 1 σ এক্স জেড এক্স = জেড এক্সμXσXYμY=λ0+λ1μXσY=λ1σXZX=ZX

অনুবন্ধ

অবশ্যই নিখুঁত কোলাইনারিটি এমন কিছু নয় যা আমরা প্রায়শই দেখতে পেতাম, তবে দৃ corre়ভাবে সম্পর্কযুক্ত ভেরিয়েবলগুলিও সমস্যা হতে পারে (এবং এগুলি প্রবন্ধের সাথে সম্পর্কিত প্রজাতি)। সুতরাং প্রমিতকরণ কি পারস্পরিক সম্পর্ককে প্রভাবিত করে? দয়া করে স্কেলিংয়ের আগে এবং পরে দুটি প্লটে দুটি পরস্পর সম্পর্কিত ভেরিয়েবলগুলি দেখায় নীচের প্লটগুলি তুলনা করুন: এখানে চিত্র বর্ণনা লিখুন

পার্থক্যটা ধরতে পারছো? আপনি দেখতে পাচ্ছেন, আমি উদ্দেশ্যমূলকভাবে অক্ষের লেবেলগুলি সরিয়েছি, সুতরাং আপনাকে নিশ্চিত করতে যে আমি প্রতারণা করছি না, যুক্ত লেবেলযুক্ত প্লটগুলি দেখুন:

এখানে চিত্র বর্ণনা লিখুন

গাণিতিকভাবে বলতে গেলে, যদি পারস্পরিক সম্পর্ক হয়

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y)

তারপরে আমাদের কাছে কলিনারি ভেরিয়েবল রয়েছে

Corr(X,Y)=E[(XμX)(YμY)]σXσY=E[(XμX)(λ0+λ1Xλ0λ1μX)]σXλ1σX=E[(XμX)(λ1Xλ1μX)]σXλ1σX=E[(XμX)λ1(XμX)]σXλ1σX=λ1E[(XμX)(XμX)]σXλ1σX=E[(XμX)(XμX)]σXσX

এখন থেকে ,Cov(X,X)=Var(X)

=Cov(X,X)σX2=Var(X)Var(X)=1

মানকযুক্ত ভেরিয়েবলের সাথে থাকাকালীন

Corr(ZX,ZY)=E[(ZX0)(ZY0)]1×1=Cov(ZX,ZY)=Var(ZX)=1

যেহেতু ...ZX=ZY

অবশেষে, যে বিজ্ঞপ্তি কি Kruschke বিষয়ে কথা বলছে , যে মান হয় ভেরিয়েবল পারস্পরিক সম্পর্কের হ্রাস গিবস টাঙানো নকশা-বোনা এবং বিশালাকার সহজ জীবন তোলে পথিমধ্যে এবং ঢাল মধ্যে রিগ্রেশন মডেল তিনি উপহার হবে। তিনি বলেন না যে মান পরিবর্তনশীল ভেরিয়েবলগুলির মধ্যে প্রান্তিকতা হ্রাস করে।


0

মানীয়করণ ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ককে প্রভাবিত করে না। তারা ঠিক একই থাকে। পারস্পরিক সম্পর্কটি ভেরিয়েবলের দিকের সমন্বয়কে ক্যাপচার করে। মানীকরণের এমন কিছুই নেই যা ভেরিয়েবলের দিক পরিবর্তন করে।

আপনি যদি আপনার ভেরিয়েবলগুলির মধ্যে বহুবিধ লাইনটি মুছে ফেলতে চান তবে আমি প্রস্তাবিত প্রিন্টিক কম্পোনেন্ট অ্যানালাইসিস (পিসিএ) ব্যবহার করার জন্য। আপনি জানেন যে পিসিএ বহুবিধ লাইন সমস্যা দূরীকরণে খুব কার্যকর। অন্যদিকে PCA সম্মিলিত ভেরিয়েবলগুলি (মূল উপাদানগুলি P1, P2, ইত্যাদি ...) বরং অস্বচ্ছ রেন্ডার করে। একটি পিসিএ মডেল বরাবরই অনেক বেশি ariতিহ্যবাহী মাল্টিভারিয়েট মডেলের তুলনায় ব্যাখ্যা করা অনেক বেশি চ্যালেঞ্জের।


একটি আধুনিক বিকল্প, প্রায়শই ভাল, নিয়মিতকরণ।
কেজেটিল বি হালওয়ারসেন

আমি স্ট্যান্ডওয়্যার স্টেওয়াইজ অ্যালগরিদম এবং ল্যাসো এর মধ্যে পরিবর্তনশীল নির্বাচন পরীক্ষা করেছি। এবং, লাসো একটি খুব দূরের সেকেন্ডে আসে। লাসো চলক প্রভাবগুলিকে শাস্তি দেয়, এটি শক্তিশালী ভেরিয়েবলের চেয়ে দুর্বল ভেরিয়েবল নির্বাচন করতে পারে। এটি এমনকি ভেরিয়েবল লক্ষণ পরিবর্তন হতে পারে। এবং এটি পরিসংখ্যানগত তাত্পর্য, আত্মবিশ্বাসের বিরতি এবং ভবিষ্যদ্বাণী অন্তরগুলির পুরো কাঠামোটিকে ভেঙে দেয়। লাসো মাঝে মাঝে কাজ করতে পারে। তবে, এমএসই বনাম লাম্বদা গ্রাফ এবং কোফিয়েনটিস বনাম লাম্বদা গ্রাফগুলি খুব মনোযোগ সহকারে দেখুন। আপনার লাসো মডেলটি যদি কাজ করে তবে আপনি দৃষ্টিভঙ্গি পর্যবেক্ষণ করতে পারেন।
সিম্পা

0

এটি কোলাইনারিটি হ্রাস করে না, এটি ভিআইএফ হ্রাস করতে পারে। সাধারণত আমরা সহাবস্থান সম্পর্কিত উদ্বেগগুলির জন্য সূচক হিসাবে ভিআইএফ ব্যবহার করি।

সূত্র: http://blog.minitab.com / ব্লগ / অ্যাডভেঞ্চারস- ইন- স্ট্যাটিক্স ২/২ কি-are-the-effects-of-multicollinearity- এবং- যখন- scan-i-ignore-them


2
সাইটে স্বাগতম। বর্তমানে এটি একটি উত্তর চেয়ে মন্তব্য বেশি। আপনি লিঙ্কে তথ্যের একটি সংক্ষিপ্তসার দিয়ে সম্ভবত এটি প্রসারিত করতে পারেন, বা আমরা আপনার জন্য এটি একটি মন্তব্যে রূপান্তর করতে পারি। তদ্ব্যতীত, লিঙ্কযুক্ত পোস্টটি আমার পড়া যথেষ্ট নয় যে মানককরণ প্রান্তিককরণ হ্রাস না করে ভিআইএফ হ্রাস করে। তাদের উদাহরণ খুব নির্দিষ্ট এবং এর চেয়ে আরও বেশি প্রয়োজনীয়।
গুং - মনিকা পুনরায় স্থাপন করুন

-3

প্রান্তিককরণ হ্রাস করার একটি সাধারণ উপায় Standard (আপনি খুব তাড়াতাড়ি যাচাই করতে সক্ষম হবেন যে এটি কয়েক জোড়া ভেরিয়েবলের চেষ্টা করে এটি কাজ করে)) আপনি এটি নিয়মিত করেন কিনা তা আপনার বিশ্লেষণগুলিতে কোন সমস্যা সহকর্মীতা নির্ভর করে তার উপর নির্ভর করে।

সম্পাদনা: আমি দেখি যে আমি ত্রুটিযুক্ত ছিলাম। মানককরণ যা করে তা হ'ল পণ্য শর্তাদি (মিথস্ক্রিয়া শর্তাবলী) সহ সমান্তরালতা হ্রাস করে।


হুম, আপনি কি ব্যাখ্যা করতে পারেন? মানিককরণ কেবল একটি এলোমেলো ভেরিয়েবলের গড় এবং প্রকরণ পরিবর্তন করে (যথাক্রমে 0 এবং 1 তে)। এটি দুটি ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক পরিবর্তন করা উচিত নয়। আমি দেখতে পাচ্ছি যে মানককরণ কীভাবে কম্পিউটেশনাল দক্ষতার উন্নতি করতে পারে, তবে কীভাবে এটি বহুবিবাহগততা হ্রাস করে না।
চার্লি 16

না, আমি হারিয়ে গিয়েছি ... কীভাবে এটি ভবিষ্যদ্বাণীকের ম্যাট্রিক্সের কলাম উপাদানগুলির রৈখিক নির্ভরতা পরিবর্তন করতে পারে। (
কোলিনারিটিটি

যদিও এটি সঠিক নয় যে প্রমিত গণিতটি খাঁটি গাণিতিক অর্থে সমান্তরালতা পরিবর্তন করে, এটি লিনিয়ার সিস্টেমগুলি সমাধান করার জন্য অ্যালগরিদমের সংখ্যাগত স্থায়িত্বকে উন্নত করতে পারে। এই উত্তরে বিভ্রান্তির কারণ হতে পারে।
whuber

মানিককরণ কেবল বহুবিধ লাইনকে হ্রাস করে না। এটি সাধারণত ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্কের কোনও পরিবর্তন করে না।
সিম্পা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.