স্বাভাবিকতা লঙ্ঘনের ক্ষেত্রে পিয়ারসনের পারস্পরিক সম্পর্ক কতটা শক্তিশালী?


20

নির্দিষ্ট ধরণের জনগোষ্ঠীতে পরিমাপ করা হলে নির্দিষ্ট ধরণের ভেরিয়েবলের ডেটা অ-স্বাভাবিক হতে থাকে (যেমন মেজর ডিপ্রেশনাল ডিসঅর্ডারযুক্ত লোকের মধ্যে হতাশার মাত্রা)। পিয়ারসনের স্বাভাবিকতা ধরে নিয়েছেন, অ-স্বাভাবিকতার শর্তে পরীক্ষার পরিসংখ্যান কতটা শক্তিশালী?

আমার কাছে বেশ কয়েকটি ভেরিয়েবল রয়েছে যার জন্য আমি পারস্পরিক সম্পর্কযুক্ত গুণাগুণ চাই, তবে সেগুলির মধ্যে কিছুগুলির জন্য জেড-স্কিউনেস পি <.001 এ (এবং এটি তুলনামূলকভাবে ছোট নমুনার জন্য) উল্লেখযোগ্য । আমি কয়েকটি রূপান্তর চেষ্টা করেছি, তবে বিতরণগুলির উন্নতি কেবলমাত্র প্রান্তিক।

আমি কি নন-প্যারাম্যাট্রিক বিশ্লেষণের সাথে লেগে যেতে চাই? এবং শুধুমাত্র পারস্পরিক সম্পর্কগুলির জন্য নয়, তবে অন্যান্য ধরণের বিশ্লেষণের জন্যও?


অপেক্ষা করুন, পিয়ারসনের পারস্পরিক সম্পর্কের সহগটি স্বাভাবিকতা অনুমান করে? আমি মনে করি না এটি হয় এবং আমি এটি অ-সাধারণ ডেটাতে ব্যবহার করে আসছি। এটি কিছু কিছু ক্ষেত্রেই দৃ to় নয় যা কিছু অ-সাধারণ পরিস্থিতিতে প্রায়শই ঘটে there
ডগলাস জারে

1
পিয়ারসনের পারস্পরিক সম্পর্কটি স্বাভাবিকতা ধরে নিয়েছে যা অনেক পরিসংখ্যান পাঠ্য দাবি করে। আমি অন্য কোথাও শুনেছি যে পিয়ারসনের আর এর জন্য স্বাভাবিকতা একটি অযথা অনুমান। আমি যখন বিশ্লেষণগুলি চালিত করি, তখন পিয়ারসন এবং স্পিয়ারম্যান উভয়ই তুলনামূলকভাবে সমান ফলাফল নিয়ে আসে।
প্রত্নতাত্ত্বিক

স্পিয়ারম্যানের র‌্যাঙ্কের পারস্পরিক সম্পর্ক সহগ হ'ল পিয়ারসনের সহ-সংযোগ সহগ অ-স্বাভাবিক র‌্যাঙ্কিংয়ে প্রয়োগ করা হয়। পিয়ারসনের স্বাভাবিকতা প্রয়োজন তা আপনি কী অর্থে বিশ্বাস করেন তা আমি এখনও জানি না। আপনি যদি এটি মাল্টিভারিয়েট স্বাভাবিক বিতরণে ব্যবহার করেন তবে আপনি কয়েকটি অতিরিক্ত জিনিস বলতে পারেন।
ডগলাস জারে

আমি এটি কেবল সাধারণ দ্বিখণ্ডিত সম্পর্কের জন্য ব্যবহার করছি। আমি নিশ্চিত নই কেন এটি দাবি করা হয় যে স্বাভাবিকতা প্রয়োজন। আমি পরিসংখ্যানের পাঠ্যগুলি সর্বদা পাঠ করেছি পিয়ারসনের পারস্পরিক সম্পর্কের অনুমান হিসাবে স্বাভাবিকতাকে তালিকাভুক্ত করে এবং স্পিয়ারম্যানকে এমন পরিস্থিতিতে ব্যবহার করার পরামর্শ দেয় যেখানে নন-স্বাভাবিকতা থাকে।
প্রত্নতাত্ত্বিক

উত্তর:


20

সংক্ষিপ্ত উত্তর: খুব অ-দৃ .়। পারস্পরিক সম্পর্কটি লিনিয়ার নির্ভরতার একটি পরিমাপ , এবং যখন একটি ভেরিয়েবল অন্যটির লিনিয়ার ফাংশন হিসাবে লেখা যায় না (এবং এখনও প্রদত্ত প্রান্তিক বিতরণ থাকে), আপনার নিখুঁত (ধনাত্মক বা নেতিবাচক) পারস্পরিক সম্পর্ক থাকতে পারে না। আসলে, সম্ভাব্য পারস্পরিক সম্পর্কের মানগুলি কঠোরভাবে সীমাবদ্ধ করা যেতে পারে।

সমস্যাটি হ'ল জনসংখ্যার পারস্পরিক সম্পর্ক সর্বদা এবং 1 এর মধ্যে থাকলেও সঠিক পরিসরটি প্রান্তিক বিতরণের উপর নির্ভর করে। একটি দ্রুত প্রমাণ এবং বিক্ষোভ:-11

পারস্পরিক সম্পর্কের অর্জনযোগ্য পরিসর

যদি এর বিতরণ ফাংশন এইচ এবং প্রান্তিক বিতরণ ফাংশন এফ এবং জি থাকে তবে এইচ , এইচ - ( x , y ) এইচ ( এক্স , ওয়াই ) এইচ + ( x , y ) , ফ্র্যাচেটের সীমানা বলে। এগুলি - - ( x , y )(এক্স,ওয়াই)এইচএফজিএইচ

এইচ-(এক্স,Y)এইচ(এক্স,Y)এইচ+ +(এক্স,Y),
(এটি প্রমাণ করার চেষ্টা করুন; এটি খুব কঠিন কিছু নয়।)
এইচ-(এক্স,Y)=সর্বোচ্চ(এফ(এক্স)+ +জি(Y)-1,0)এইচ+ +(এক্স,Y)=সর্বনিম্ন(এফ(এক্স),জি(Y))

সীমানা তাদের বিতরণ ফাংশন হয়। যাক একটি অভিন্ন বন্টন আছে। উপরের গণ্ডিটি হল ( এক্স , ওয়াই ) = ( এফ -ইউ এর বিতরণ ফাংশন এবং নিম্ন সীমাটি ( এফ - ( - ইউ ) , জি - ( 1 - ইউ এর বিতরণ ফাংশন ) ) )(এক্স,ওয়াই)=(এফ-(ইউ),জি-(ইউ))(এফ-(-ইউ),জি-(1-ইউ))

এখন, সহভেদাংক জন্য সূত্র এই বৈকল্পিক ব্যবহার করে, আমরা দেখতে যে আমরা সর্বোচ্চ এবং সর্বনিম্ন পারস্পরিক সম্পর্ক প্রাপ্ত যখন এইচ সমান এইচ + + এবং এইচ - যথাক্রমে, অর্থাত্, যখন ওয়াই একটি (ইতিবাচক বা নেতিবাচক যথাক্রমে) এর একঘেয়েমি ফাংশন এক্স

Cov(এক্স,ওয়াই)=এইচ(এক্স,Y)-এফ(এক্স)জি(Y)এক্সY,
এইচএইচ+ +এইচ-ওয়াইএক্স

উদাহরণ

এখানে কয়েকটি উদাহরণ রয়েছে (প্রমাণ ছাড়াই):

  1. যখন এবং ওয়াই সাধারণত বিতরণ করা হয়, তখন আমরা সর্বাধিক এবং সর্বনিম্ন পাই যখন ( এক্স)এক্সওয়াই চলিত bivariate সাধারন বন্টনের যেখানে রয়েছে ওয়াই একটি রৈখিক ফাংশন হিসাবে লেখা হয় এক্স । তা হল, আমরা Y = μ Y + σ Y X - μ X এর সর্বাধিক পাই (এক্স,ওয়াই)ওয়াইএক্স এখানে সীমাগুলি (অবশ্যই)-1এবং1,XএবংY এরঅর্থ এবং প্রকরণগুলি কী তা বিবেচনা করে না।

    ওয়াই=μওয়াই+ +σওয়াইএক্স-μএক্সσএক্স
    -11এক্সওয়াই
  2. যখন এবং ওয়াইয়ের লগন্যাল বিতরণ হয়, নীচের গণ্ডিটি কখনই অর্জনযোগ্য হয় না, কারণ এর দ্বারা বোঝা যায় যে Y কে a এবং a ইতিবাচক খ এর জন্য Y = a - b X লেখা যেতে পারে এবং Y কখনই নেতিবাচক হতে পারে না। সঠিক সীমানার জন্য এখানে কিছুটা (কুৎসিত) সূত্র রয়েছে, তবে আমাকে কেবল একটি বিশেষ কেস দেই। যখন এক্স এবং ওয়াইয়ের স্ট্যান্ডার্ড লগনরমাল বিতরণ থাকে (অর্থাত্ যখন ক্ষুদ্রতর হয়ে থাকে তখন তারা মানক সাধারণ হয়), তখন অর্জনের পরিসীমা [ - 1 / e , 1 ] এক্সওয়াইওয়াইওয়াই=একটি-এক্সএকটিওয়াইXY । (সাধারণভাবে, উপরের সীমাটিও সীমাবদ্ধ))[1/e,1][0.37,1]

  3. যখন একটি মানক সাধারণ বিতরণ থাকে এবং ওয়াইয়ের একটি স্ট্যান্ডার্ড লগনরমাল বিতরণ থাকে তখন পারস্পরিক সম্পর্কের সীমা ± 1 হয়XY

    ±1e10.76.

নোট করুন যে সমস্ত সীমা জনসংখ্যার পারস্পরিক সম্পর্কের জন্য। নমুনা পারস্পরিক সম্পর্ক সহজেই সীমার বাইরে প্রসারিত করতে পারে, বিশেষত ছোট নমুনাগুলির জন্য (দ্রুত উদাহরণ: 2 নমুনার আকার)।

পারস্পরিক সম্পর্কের সীমা নির্ধারণ করা

আপনি যদি প্রান্তিক বিতরণগুলি থেকে অনুকরণ করতে পারেন তবে পারস্পরিক সম্পর্কের উপরের এবং নীচের সীমানাগুলি অনুমান করা এটি বেশ সহজ। উপরের শেষ উদাহরণের জন্য, আমরা এই আর কোডটি ব্যবহার করতে পারি:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

যদি কেবলমাত্র আমাদের কাছে সত্যিকারের ডেটা থাকে এবং প্রান্তিক বিতরণগুলি না জানলে আমরা এখনও উপরের পদ্ধতিটি ব্যবহার করতে পারি। এটা একটা সমস্যা না যে ভেরিয়েবল যতদিন পর্যবেক্ষণ নির্ভরশীল জোড়া নির্ভরশীল। তবে এটি অনেকগুলি পর্যবেক্ষণ জোড়া রাখতে সহায়তা করে ।

ডেটা ট্রান্সফর্ম করা হচ্ছে

YX

আপনি এখানে যা করছেন তা নির্ভরযোগ্যতার একটি নতুন পরিমাপ তৈরি করছে যা প্রান্তিক বিতরণের উপর নির্ভর করে না ; অর্থাত্, আপনি নির্ভরশীলতার একটি কোপুলা ভিত্তিক পরিমাপ তৈরি করছেন । ইতিমধ্যে বিভিন্ন ধরনের পরিমাপ, বিদ্যমান Spearman এর  ρ এবং কেন্ডাল এর  τ সবচেয়ে সুপরিচিত হচ্ছে। (যদি আপনি নির্ভরশীলতা ধারণাগুলিতে সত্যিই আগ্রহী হন, তবে কপুলাসগুলি অনুসন্ধান করা কোনও খারাপ ধারণা নয়))

উপসংহারে

কিছু চূড়ান্ত চিন্তাভাবনা এবং পরামর্শ: কেবলমাত্র সম্পর্কের দিকে তাকানোতে একটি বড় সমস্যা রয়েছে: এটি আপনাকে চিন্তাভাবনা বন্ধ করে দেয়। অন্যদিকে বিক্ষিপ্ত প্লটের দিকে তাকানো আপনাকে প্রায়শই ভাবতে শুরু করে। আমার মূল পরামর্শটি তাই বিচ্ছুরিত প্লটগুলি পরীক্ষা করা এবং স্পষ্টভাবে নির্ভরতা মডেল করার চেষ্টা করা হবে।

এটি বলেছে, আপনার যদি কোনও সহজ সম্পর্কের মতো পরিমাপের প্রয়োজন হয় তবে আমি কেবল স্পিয়ারম্যানের use  (এবং সম্পর্কিত আত্মবিশ্বাসের ব্যবধান এবং পরীক্ষা) ব্যবহার করব। এর পরিসর সীমাবদ্ধ নয়। তবে অ-মনোোটোন নির্ভরতা সম্পর্কে খুব সচেতন হন। পারস্পরিক সম্পর্ক উইকিপিডিয়ার নিবন্ধ সম্ভাব্য সমস্যার ব্যাখ্যা চমৎকার প্লট একটি দম্পতি আছে।


1
+1 এই খুব সুন্দর অবদানটি পারস্পরিক সম্পর্কের সাথে যুক্ত বিভিন্ন পুনরাবৃত্ত ইস্যুগুলিকে স্পষ্টভাবে সম্বোধন করে। চিন্তাভাবনা থামানো / শুরু করার বিষয়ে প্রথম সমাপ্তি অনুচ্ছেদে আমি বিশেষত মন্তব্যটির প্রশংসা করি।
শুক্র

অ-দৃ rob়তা এমনকি asyptotically থাকবে? যদি তা হয় তবে উইকি কি এই ভুল বলে ভুল হয় যে "[শিক্ষার্থীর r এর সরল রূপান্তরের জন্য টি বিতরণ] এছাড়াও পর্যবেক্ষণকৃত মানগুলি স্বাভাবিক নয়, প্রদত্ত নমুনার আকারগুলি খুব ছোট না হলেও" ধরে রাখে?
সর্বোচ্চ

5

এই ভেরিয়েবলগুলির বিতরণ দেখতে কেমন (স্কিউ হওয়ার বাইরে)? যদি একমাত্র অ-স্বাভাবিকতা স্কিউনেস হয় তবে কোনও ধরণের রূপান্তরকে অবশ্যই সহায়তা করতে হবে। তবে এই ভেরিয়েবলগুলির যদি প্রচুর লম্পিং থাকে তবে কোনও রূপান্তর এগুলিকে স্বাভাবিকতায় আনবে না। পরিবর্তনশীল যদি অবিচ্ছিন্ন না হয় তবে একই কথা সত্য।

লঙ্ঘনের সাথে সম্পর্ক কতটা শক্তিশালী? আনসকম্ব চৌকোটি দেখুন। এটি বেশ কয়েকটি সমস্যার বর্ণনা দেয় rates

অন্যান্য ধরণের বিশ্লেষণের ক্ষেত্রে এটি বিশ্লেষণের উপর নির্ভর করে। যদি স্কিউড ভেরিয়েবলগুলি কোনও রিগ্রেশনে স্বতন্ত্র ভেরিয়েবল হয়, উদাহরণস্বরূপ, কোনও সমস্যা নাও হতে পারে - আপনার অবশিষ্টাংশগুলি দেখতে হবে।


1
কিছু ভেরিয়েবলের কার্টোসিসের সমস্যাও রয়েছে তবে স্কিউনেসই সবচেয়ে বড় সমস্যা। আমি সমস্যা ভেরিয়েবলগুলিতে স্কোয়ার রুট এবং লগ রূপান্তরের চেষ্টা করেছি, তবে এগুলি খুব বেশি উন্নতি করে না। প্রকৃতপক্ষে, বিতরণগুলি দেখতে প্রায় একইরকম মনে হয় তবে স্কোরগুলির বৃহত্তর পাইল-আপ রয়েছে।
প্রত্নতাত্ত্বিক

1
এটা খুব অদ্ভুত বলে মনে হচ্ছে। আপনি কি ভেরিয়েবলের গড়, মিডিয়ান, স্কিউনেস, কুর্তোসিস পোস্ট করতে পারেন? বা (আরও ভাল) এর ঘনত্বের প্লট?
পিটার ফ্লুম - মনিকা পুনরায়

6
(এক্স, ওয়াই) বিতরণ দ্বিবিভক্ত হয় কিনা তা বিবেচনা না করেই পিয়ারসন পারস্পরিক সম্পর্কটি লৈঙ্গিকতার ডিগ্রির একটি পরিমাপ। নমুনা অনুমানের সম্ভাবনা বন্টন স্বাভাবিকতার উপর নির্ভর করবে।
মাইকেল আর চেরনিক

3
Vari ভেরিয়েবলগুলি খুব স্কিউ হয় না। আপনি যেমন তাদের ছেড়ে যেতে পারেন।
পিটার ফ্লুম - মনিকা পুনরায়

3
এখানে তাত্পর্য সম্পর্কে চিন্তা করবেন না। সাধারণত, স্কিউ এবং কুর্তোসিস যা <-2 বা> 2 হয় সম্ভবত রূপান্তর প্রয়োজন বলে বিবেচিত হয়। গ্রাফগুলি যেমন, কোয়ান্টাইল সাধারণ প্লট এবং ঘনত্বের প্লট ডাব্লু / কার্নেল কী হচ্ছে তা দেখার জন্য আরও ভাল।
পিটার ফ্লুম - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.