স্বাভাবিকতা লঙ্ঘনের ক্ষেত্রে পিয়ারসনের পারস্পরিক সম্পর্ক কতটা শক্তিশালী?

নির্দিষ্ট ধরণের জনগোষ্ঠীতে পরিমাপ করা হলে নির্দিষ্ট ধরণের ভেরিয়েবলের ডেটা অ-স্বাভাবিক হতে থাকে (যেমন মেজর ডিপ্রেশনাল ডিসঅর্ডারযুক্ত লোকের মধ্যে হতাশার মাত্রা)। পিয়ারসনের স্বাভাবিকতা ধরে নিয়েছেন, অ-স্বাভাবিকতার শর্তে পরীক্ষার পরিসংখ্যান কতটা শক্তিশালী?

আমার কাছে বেশ কয়েকটি ভেরিয়েবল রয়েছে যার জন্য আমি পারস্পরিক সম্পর্কযুক্ত গুণাগুণ চাই, তবে সেগুলির মধ্যে কিছুগুলির জন্য জেড-স্কিউনেস পি <.001 এ (এবং এটি তুলনামূলকভাবে ছোট নমুনার জন্য) উল্লেখযোগ্য । আমি কয়েকটি রূপান্তর চেষ্টা করেছি, তবে বিতরণগুলির উন্নতি কেবলমাত্র প্রান্তিক।

আমি কি নন-প্যারাম্যাট্রিক বিশ্লেষণের সাথে লেগে যেতে চাই? এবং শুধুমাত্র পারস্পরিক সম্পর্কগুলির জন্য নয়, তবে অন্যান্য ধরণের বিশ্লেষণের জন্যও?

correlation

— আর্কিওপ্টেরিক্স
সূত্র

অপেক্ষা করুন, পিয়ারসনের পারস্পরিক সম্পর্কের সহগটি স্বাভাবিকতা অনুমান করে? আমি মনে করি না এটি হয় এবং আমি এটি অ-সাধারণ ডেটাতে ব্যবহার করে আসছি। এটি কিছু কিছু ক্ষেত্রেই দৃ to় নয় যা কিছু অ-সাধারণ পরিস্থিতিতে প্রায়শই ঘটে there

— ডগলাস জারে

পিয়ারসনের পারস্পরিক সম্পর্কটি স্বাভাবিকতা ধরে নিয়েছে যা অনেক পরিসংখ্যান পাঠ্য দাবি করে। আমি অন্য কোথাও শুনেছি যে পিয়ারসনের আর এর জন্য স্বাভাবিকতা একটি অযথা অনুমান। আমি যখন বিশ্লেষণগুলি চালিত করি, তখন পিয়ারসন এবং স্পিয়ারম্যান উভয়ই তুলনামূলকভাবে সমান ফলাফল নিয়ে আসে।

— প্রত্নতাত্ত্বিক

স্পিয়ারম্যানের র‌্যাঙ্কের পারস্পরিক সম্পর্ক সহগ হ'ল পিয়ারসনের সহ-সংযোগ সহগ অ-স্বাভাবিক র‌্যাঙ্কিংয়ে প্রয়োগ করা হয়। পিয়ারসনের স্বাভাবিকতা প্রয়োজন তা আপনি কী অর্থে বিশ্বাস করেন তা আমি এখনও জানি না। আপনি যদি এটি মাল্টিভারিয়েট স্বাভাবিক বিতরণে ব্যবহার করেন তবে আপনি কয়েকটি অতিরিক্ত জিনিস বলতে পারেন।

— ডগলাস জারে

আমি এটি কেবল সাধারণ দ্বিখণ্ডিত সম্পর্কের জন্য ব্যবহার করছি। আমি নিশ্চিত নই কেন এটি দাবি করা হয় যে স্বাভাবিকতা প্রয়োজন। আমি পরিসংখ্যানের পাঠ্যগুলি সর্বদা পাঠ করেছি পিয়ারসনের পারস্পরিক সম্পর্কের অনুমান হিসাবে স্বাভাবিকতাকে তালিকাভুক্ত করে এবং স্পিয়ারম্যানকে এমন পরিস্থিতিতে ব্যবহার করার পরামর্শ দেয় যেখানে নন-স্বাভাবিকতা থাকে।

— প্রত্নতাত্ত্বিক

উত্তর:

সংক্ষিপ্ত উত্তর: খুব অ-দৃ .়। পারস্পরিক সম্পর্কটি লিনিয়ার নির্ভরতার একটি পরিমাপ , এবং যখন একটি ভেরিয়েবল অন্যটির লিনিয়ার ফাংশন হিসাবে লেখা যায় না (এবং এখনও প্রদত্ত প্রান্তিক বিতরণ থাকে), আপনার নিখুঁত (ধনাত্মক বা নেতিবাচক) পারস্পরিক সম্পর্ক থাকতে পারে না। আসলে, সম্ভাব্য পারস্পরিক সম্পর্কের মানগুলি কঠোরভাবে সীমাবদ্ধ করা যেতে পারে।

সমস্যাটি হ'ল জনসংখ্যার পারস্পরিক সম্পর্ক সর্বদা এবং মধ্যে থাকলেও সঠিক পরিসরটি প্রান্তিক বিতরণের উপর নির্ভর করে। একটি দ্রুত প্রমাণ এবং বিক্ষোভ: $-1$ $1$

পারস্পরিক সম্পর্কের অর্জনযোগ্য পরিসর

যদি এর বিতরণ ফাংশন এবং প্রান্তিক বিতরণ ফাংশন এবং থাকে তবে , ফ্র্যাচেটের সীমানা বলে। এগুলি $(X,Y)$ $H$ $F$ $G$ $H$

{এইচ}_{-} (এক্স, Y) \leq এইচ (এক্স, Y) \leq {এইচ}_{+ +} (এক্স, Y),

$H_-(x,y) \leq H(x,y) \leq H_+(x,y),$

(এটি প্রমাণ করার চেষ্টা করুন; এটি খুব কঠিন কিছু নয়।)

\begin{aligned} {এইচ}_{-} (এক্স, Y) & = সর্বোচ্চ (এফ (এক্স) + + জি (Y) - 1, 0) \\ {এইচ}_{+ +} (এক্স, Y) & = সর্বনিম্ন (এফ (এক্স), জি (Y)) । \end{aligned}

$\begin{aligned} H_-(x,y) &= \max(F(x) + G(y)-1, 0)\\ H_+(x,y) &= \min(F(x), G(y)). \end{aligned}$

সীমানা তাদের বিতরণ ফাংশন হয়। যাক একটি অভিন্ন বন্টন আছে। উপরের গণ্ডিটি হল $U$ এর বিতরণ ফাংশন এবং নিম্ন সীমাটি বিতরণ ফাংশন । $(X,Y)=(F^-(U), G^-(U))$ $(F^-(-U), G^-(1-U))$

এখন, সহভেদাংক জন্য সূত্র এই বৈকল্পিক ব্যবহার করে, আমরা দেখতে যে আমরা সর্বোচ্চ এবং সর্বনিম্ন পারস্পরিক সম্পর্ক প্রাপ্ত যখন সমান এবং যথাক্রমে, অর্থাত্, যখন একটি (ইতিবাচক বা নেতিবাচক যথাক্রমে) এর একঘেয়েমি ফাংশন ।

Cov (এক্স, ওয়াই) = \iint এইচ (এক্স, Y) - এফ (এক্স) জি (Y) ঘ এক্স ঘ Y,

$\mathop{\textrm{Cov}}(X,Y)=\iint H(x,y)-F(x)G(y) \mathop{\mathrm d\!}x \mathop{\mathrm d\!}y,$

H

$H$

H_{+}

$H_+$

H_{-}

$H_-$

Y

$Y$

X

$X$

উদাহরণ

এখানে কয়েকটি উদাহরণ রয়েছে (প্রমাণ ছাড়াই):

যখন এবং সাধারণত বিতরণ করা হয়, তখন আমরা সর্বাধিক এবং সর্বনিম্ন পাই যখন $X$ $Y$ চলিত bivariate সাধারন বন্টনের যেখানে রয়েছে একটি রৈখিক ফাংশন হিসাবে লেখা হয় । তা হল, আমরা এর সর্বাধিক পাই $(X,Y)$ $Y$ $X$ এখানে সীমাগুলি (অবশ্যই)এবং,এবংঅর্থ এবং প্রকরণগুলি কী তা বিবেচনা করে না।
$ওয়াই = μ_{ওয়াই} + + σ_{ওয়াই} \frac{এক্স - μ_{এক্স}}{σ_{এক্স}} ।$ $Y=\mu_Y+\sigma_Y \frac{X-\mu_X}{\sigma_X}.$ $-1$ $1$ $X$ $Y$
যখন এবং লগন্যাল বিতরণ হয়, নীচের গণ্ডিটি কখনই অর্জনযোগ্য হয় না, কারণ এর দ্বারা বোঝা যায় যে কে এবং ইতিবাচক জন্য লেখা যেতে পারে এবং কখনই নেতিবাচক হতে পারে না। সঠিক সীমানার জন্য এখানে কিছুটা (কুৎসিত) সূত্র রয়েছে, তবে আমাকে কেবল একটি বিশেষ কেস দেই। যখন এবং স্ট্যান্ডার্ড লগনরমাল বিতরণ থাকে (অর্থাত্ যখন ক্ষুদ্রতর হয়ে থাকে তখন তারা মানক সাধারণ হয়), তখন অর্জনের পরিসীমা $X$ $Y$ $Y$ $Y=a-bX$ $a$ $b$ $Y$ $X$ $Y$ । (সাধারণভাবে, উপরের সীমাটিও সীমাবদ্ধ)) $[-1/e, 1]\approx [-0.37, 1]$
যখন একটি মানক সাধারণ বিতরণ থাকে এবং একটি স্ট্যান্ডার্ড লগনরমাল বিতরণ থাকে তখন পারস্পরিক সম্পর্কের সীমা $X$ $Y$
$\pm \frac{1}{\sqrt{e - 1}} \approx 0.76.$ $\pm \frac{1}{\sqrt{e-1}} \approx 0.76.$

নোট করুন যে সমস্ত সীমা জনসংখ্যার পারস্পরিক সম্পর্কের জন্য। নমুনা পারস্পরিক সম্পর্ক সহজেই সীমার বাইরে প্রসারিত করতে পারে, বিশেষত ছোট নমুনাগুলির জন্য (দ্রুত উদাহরণ: 2 নমুনার আকার)।

পারস্পরিক সম্পর্কের সীমা নির্ধারণ করা

আপনি যদি প্রান্তিক বিতরণগুলি থেকে অনুকরণ করতে পারেন তবে পারস্পরিক সম্পর্কের উপরের এবং নীচের সীমানাগুলি অনুমান করা এটি বেশ সহজ। উপরের শেষ উদাহরণের জন্য, আমরা এই আর কোডটি ব্যবহার করতে পারি:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

যদি কেবলমাত্র আমাদের কাছে সত্যিকারের ডেটা থাকে এবং প্রান্তিক বিতরণগুলি না জানলে আমরা এখনও উপরের পদ্ধতিটি ব্যবহার করতে পারি। এটা একটা সমস্যা না যে ভেরিয়েবল যতদিন পর্যবেক্ষণ নির্ভরশীল জোড়া নির্ভরশীল। তবে এটি অনেকগুলি পর্যবেক্ষণ জোড়া রাখতে সহায়তা করে ।

ডেটা ট্রান্সফর্ম করা হচ্ছে

$Y$ $X$

আপনি এখানে যা করছেন তা নির্ভরযোগ্যতার একটি নতুন পরিমাপ তৈরি করছে যা প্রান্তিক বিতরণের উপর নির্ভর করে না ; অর্থাত্, আপনি নির্ভরশীলতার একটি কোপুলা ভিত্তিক পরিমাপ তৈরি করছেন । ইতিমধ্যে বিভিন্ন ধরনের পরিমাপ, বিদ্যমান Spearman এর  ρ এবং কেন্ডাল এর  τ সবচেয়ে সুপরিচিত হচ্ছে। (যদি আপনি নির্ভরশীলতা ধারণাগুলিতে সত্যিই আগ্রহী হন, তবে কপুলাসগুলি অনুসন্ধান করা কোনও খারাপ ধারণা নয়))

উপসংহারে

কিছু চূড়ান্ত চিন্তাভাবনা এবং পরামর্শ: কেবলমাত্র সম্পর্কের দিকে তাকানোতে একটি বড় সমস্যা রয়েছে: এটি আপনাকে চিন্তাভাবনা বন্ধ করে দেয়। অন্যদিকে বিক্ষিপ্ত প্লটের দিকে তাকানো আপনাকে প্রায়শই ভাবতে শুরু করে। আমার মূল পরামর্শটি তাই বিচ্ছুরিত প্লটগুলি পরীক্ষা করা এবং স্পষ্টভাবে নির্ভরতা মডেল করার চেষ্টা করা হবে।

এটি বলেছে, আপনার যদি কোনও সহজ সম্পর্কের মতো পরিমাপের প্রয়োজন হয় তবে আমি কেবল স্পিয়ারম্যানের use  (এবং সম্পর্কিত আত্মবিশ্বাসের ব্যবধান এবং পরীক্ষা) ব্যবহার করব। এর পরিসর সীমাবদ্ধ নয়। তবে অ-মনোোটোন নির্ভরতা সম্পর্কে খুব সচেতন হন। পারস্পরিক সম্পর্ক উইকিপিডিয়ার নিবন্ধ সম্ভাব্য সমস্যার ব্যাখ্যা চমৎকার প্লট একটি দম্পতি আছে।

— কার্ল ওভে হুফথামার
সূত্র

+1 এই খুব সুন্দর অবদানটি পারস্পরিক সম্পর্কের সাথে যুক্ত বিভিন্ন পুনরাবৃত্ত ইস্যুগুলিকে স্পষ্টভাবে সম্বোধন করে। চিন্তাভাবনা থামানো / শুরু করার বিষয়ে প্রথম সমাপ্তি অনুচ্ছেদে আমি বিশেষত মন্তব্যটির প্রশংসা করি।

— শুক্র

অ-দৃ rob়তা এমনকি asyptotically থাকবে? যদি তা হয় তবে উইকি কি এই ভুল বলে ভুল হয় যে "[শিক্ষার্থীর r এর সরল রূপান্তরের জন্য টি বিতরণ] এছাড়াও পর্যবেক্ষণকৃত মানগুলি স্বাভাবিক নয়, প্রদত্ত নমুনার আকারগুলি খুব ছোট না হলেও" ধরে রাখে?

— সর্বোচ্চ

এই ভেরিয়েবলগুলির বিতরণ দেখতে কেমন (স্কিউ হওয়ার বাইরে)? যদি একমাত্র অ-স্বাভাবিকতা স্কিউনেস হয় তবে কোনও ধরণের রূপান্তরকে অবশ্যই সহায়তা করতে হবে। তবে এই ভেরিয়েবলগুলির যদি প্রচুর লম্পিং থাকে তবে কোনও রূপান্তর এগুলিকে স্বাভাবিকতায় আনবে না। পরিবর্তনশীল যদি অবিচ্ছিন্ন না হয় তবে একই কথা সত্য।

লঙ্ঘনের সাথে সম্পর্ক কতটা শক্তিশালী? আনসকম্ব চৌকোটি দেখুন। এটি বেশ কয়েকটি সমস্যার বর্ণনা দেয় rates

অন্যান্য ধরণের বিশ্লেষণের ক্ষেত্রে এটি বিশ্লেষণের উপর নির্ভর করে। যদি স্কিউড ভেরিয়েবলগুলি কোনও রিগ্রেশনে স্বতন্ত্র ভেরিয়েবল হয়, উদাহরণস্বরূপ, কোনও সমস্যা নাও হতে পারে - আপনার অবশিষ্টাংশগুলি দেখতে হবে।

— পিটার ফ্লুম - মনিকা পুনরায়
সূত্র

কিছু ভেরিয়েবলের কার্টোসিসের সমস্যাও রয়েছে তবে স্কিউনেসই সবচেয়ে বড় সমস্যা। আমি সমস্যা ভেরিয়েবলগুলিতে স্কোয়ার রুট এবং লগ রূপান্তরের চেষ্টা করেছি, তবে এগুলি খুব বেশি উন্নতি করে না। প্রকৃতপক্ষে, বিতরণগুলি দেখতে প্রায় একইরকম মনে হয় তবে স্কোরগুলির বৃহত্তর পাইল-আপ রয়েছে।

— প্রত্নতাত্ত্বিক

এটা খুব অদ্ভুত বলে মনে হচ্ছে। আপনি কি ভেরিয়েবলের গড়, মিডিয়ান, স্কিউনেস, কুর্তোসিস পোস্ট করতে পারেন? বা (আরও ভাল) এর ঘনত্বের প্লট?

— পিটার ফ্লুম - মনিকা পুনরায়

(এক্স, ওয়াই) বিতরণ দ্বিবিভক্ত হয় কিনা তা বিবেচনা না করেই পিয়ারসন পারস্পরিক সম্পর্কটি লৈঙ্গিকতার ডিগ্রির একটি পরিমাপ। নমুনা অনুমানের সম্ভাবনা বন্টন স্বাভাবিকতার উপর নির্ভর করবে।

— মাইকেল আর চেরনিক

Vari ভেরিয়েবলগুলি খুব স্কিউ হয় না। আপনি যেমন তাদের ছেড়ে যেতে পারেন।

— পিটার ফ্লুম - মনিকা পুনরায়

এখানে তাত্পর্য সম্পর্কে চিন্তা করবেন না। সাধারণত, স্কিউ এবং কুর্তোসিস যা <-2 বা> 2 হয় সম্ভবত রূপান্তর প্রয়োজন বলে বিবেচিত হয়। গ্রাফগুলি যেমন, কোয়ান্টাইল সাধারণ প্লট এবং ঘনত্বের প্লট ডাব্লু / কার্নেল কী হচ্ছে তা দেখার জন্য আরও ভাল।

— পিটার ফ্লুম - মনিকা পুনরায়