পিয়ারসন ডেটার পারস্পরিক সম্পর্কের সাথে সম্ভবত শূন্য স্ট্যান্ডার্ড বিচ্যুতি?


12

আমি সম্ভবত শূন্য স্ট্যান্ডার্ড বিচ্যুতি (অর্থাত্ সমস্ত ডেটার একই মান রয়েছে) দিয়ে ডেটা সেটগুলির পার্সার রিলেশনশিটি সহগের গণনা করতে সমস্যা হচ্ছে।

মনে করুন যে আমার কাছে নিম্নলিখিত দুটি ডেটা সেট রয়েছে:

float x[] = {2, 2, 2, 3, 2};
float y[] = {2, 2, 2, 2, 2};

পারস্পরিক সম্পর্ক সহগ "r", নিম্নলিখিত সমীকরণটি ব্যবহার করে গণনা করা হবে:

float r = covariance(x, y) / (std_dev(x) * std_dev(y));

তবে, "y" ডেটা সেটে থাকা সমস্ত ডেটা একই মান বলে, স্ট্যান্ডার্ড বিচ্যুতি std_dev (y) হবে শূন্য এবং "r" অপরিজ্ঞাত হবে।

এই সমস্যার জন্য কোন সমাধান আছে কি? বা এই ক্ষেত্রে ডেটা সম্পর্কটি পরিমাপ করতে আমার অন্যান্য পদ্ধতি ব্যবহার করা উচিত?


এই উদাহরণে কোনও "ডেটা সম্পর্ক" নেই কারণ y আলাদা হয় না। বরাদ্দ করা কোনো থেকে সংখ্যাগত মান ভুল হবে।
whuber

1
@whuber - এটা সত্য যে undefined করা হয়, কিন্তু অগত্যা যে, "সত্য" অজানা পারস্পরিক সম্পর্ক আনুমানিক করা যাবে না। এটি অনুমান করার জন্য কেবল আলাদা কিছু ব্যবহার করতে হবে। ρrρ
সম্ভাব্যতা ব্লগ

@ সম্ভাব্যতা আপনি অনুমান করেন যে এটি অনুমানের সমস্যা এবং কেবল একটি বৈশিষ্ট্য নয়। কিন্তু তা গ্রহণ করে, উদাহরণের মধ্যে আপনি কোন অনুমানের প্রস্তাব করবেন? কোনও উত্তর সর্বজনীনভাবে সঠিক হতে পারে না কারণ এটি নির্ভর করে যে কীভাবে প্রাক্কলনকারী ব্যবহার করা হবে (ক্ষতির ফাংশন, কার্যত) depends যেমন পিসিএ হিসাবে অনেক অ্যাপ্লিকেশন,, এটা সম্ভবত মনে হচ্ছে যে ব্যবহার কোনো পদ্ধতি imputes একটি মান যে অন্যান্য প্রক্রিয়ার যে চিনতে চেয়ে খারাপ হতে পারে চিহ্নিত করা যাবে না। ρρρ
শুক্র

1
@ শুভ - অনুমানটি আমার কাছে শব্দের একটি খারাপ পছন্দ (আপনি লক্ষ্য করেছেন আমি সেরা শব্দদ্বীপ নই), আমার অর্থ হ'ল although যদিও অনন্যভাবে চিহ্নিত করা যায়নি, এর অর্থ এই নয় যে ডেটাটি অকেজো সম্পর্কে আমাদের বলার । আমার উত্তরটি বীজগণিত দৃষ্টিকোণ থেকে এটির (কুরুচিপূর্ণ) প্রদর্শন করে। ρρρ
সম্ভাব্যতা ব্লগ

@ প্রব্যাবিলিটি আপনার বিশ্লেষণটি বিপরীত বলে মনে হচ্ছে: যদি সত্যই y একটি সাধারণ বিতরণে মডেল করা হয় তবে পাঁচ 2 এর একটি নমুনা এই মডেলটি অনুপযুক্ত। শেষ পর্যন্ত, আপনি কোনও কিছুর জন্য কিছুই পাবেন না: আপনার ফলাফলগুলি প্রিরিয়ারদের সম্পর্কে করা অনুমানের উপর দৃ strongly়ভাবে নির্ভর করে। সনাক্ত করার ক্ষেত্রে মূল সমস্যাগুলি এখনও রয়েছে তবে এই সমস্ত অতিরিক্ত অনুমান দ্বারা লুকিয়ে রাখা হয়েছে। আইএমএইচও কেবল বিষয়গুলি স্পষ্ট করার পরিবর্তে অস্পষ্ট করার জন্য বলে মনে হচ্ছে। ρ
হোবার

উত্তর:


9

"নমুনা তত্ত্ব" লোকেরা আপনাকে বলবে যে এরকম কোনও অনুমানের অস্তিত্ব নেই। তবে আপনি এটি পেতে পারেন, আপনার পূর্বের তথ্য সম্পর্কে আপনার যুক্তিসঙ্গত হওয়া প্রয়োজন, এবং আরও কঠোর গাণিতিক কাজ করা উচিত।

আপনি যদি কোনও বেইসিয়ান পদ্ধতি অনুমানের নির্দিষ্ট করে থাকেন, এবং পূর্ববর্তীটি পূর্বের মত একই হয়, তবে আপনি প্যারামিটার সম্পর্কে ডেটা কিছুই বলে নাতে পারেন। কারণ জিনিসগুলি আমাদের উপর "একবাক্য" পেতে পারে, তারপরে আমরা অসীম প্যারামিটার স্পেস ব্যবহার করতে পারি না। আমি ধরে নিচ্ছি যে আপনি পিয়ারসন পারস্পরিক সম্পর্ক ব্যবহার করেছেন তাই আপনার কাছে দ্বিখণ্ডিত স্বাভাবিক সম্ভাবনা রয়েছে:

Qi=(xi-μx)2

p(D|μx,μy,σx,σy,ρ)=(σxσy2π(1ρ2))Nexp(iQi2(1ρ2))
যেখানে
Qi=(xiμx)2σx2+(yiμy)2σy22ρ(xiμx)(yiμy)σxσy

এখন একটি ডেটা সেট একই মান হতে পারে তা বোঝাতে, লিখুন এবং তারপরে আমরা পাই:yi=y

iQi=N[(yμy)2σy2+sx2+(x¯μx)2σx22ρ(x¯μx)(yμy)σxσy]
যেখানে
sx2=1Ni(xix¯)2

এবং তাই আপনার সম্ভাবনা চারটি সংখ্যার উপর নির্ভর করে, । সুতরাং আপনি প্রাক্কলন চান , সুতরাং আপনাকে পূর্বের দ্বারা গুণ করতে হবে এবং উপদ্রব পরামিতিগুলি । এখন সংহতকরণের জন্য প্রস্তুত করার জন্য, আমরা "বর্গাকার সম্পূর্ণ" sx2,y,x¯,Nρμx,μy,σx,σy

iQi1ρ2=N[(μy[y(x¯μx)ρσyσx])2σy2(1ρ2)+sx2σx2(1ρ2)+(x¯μx)2σx2]

এখন আমাদের সাবধানতার দিক থেকে ভুল হওয়া উচিত এবং সঠিকভাবে স্বাভাবিক হওয়ার সম্ভাবনা নিশ্চিত করা উচিত। এইভাবে আমরা সমস্যায় পড়তে পারি না। এর মধ্যে একটি বিকল্প হ'ল পূর্বে একটি দুর্বল তথ্যবহুল ব্যবহার করা, যা প্রতিটিটির ব্যাপ্তিতে সীমাবদ্ধতা রাখে। সুতরাং আমাদের কাছে সাথে মানক বিচ্যুতির জন্য ফ্ল্যাট পূর্ব এবং with সহ উপায়গুলির জন্য have রয়েছে have পূর্বে. এই সীমাটি সমস্যা সম্পর্কে কিছুটা চিন্তা করে "সাধারণ জ্ঞান" দিয়ে সেট করা সহজ। আমি rh এর আগে একটি অনির্ধারিত গ্রহণ করব , এবং তাই আমরা পেয়েছি (ইউনিফর্ম কাজ করা উচিত, যদি না এককত্ব কেটে ফেলা হয় ):Lμ<μx,μy<UμLσ<σx,σy<Uσρ±1

p(ρ,μx,μy,σx,σy)=p(ρ)Aσxσy

কোথায় । এটি এর উত্তরোত্তর দেয়:A=2(UμLμ)2[log(Uσ)log(Lσ)]2

p(ρ|D)=p(ρ,μx,μy,σx,σy)p(D|μx,μy,σx,σy,ρ)dμydμxdσxdσy

=p(ρ)A[2π(1ρ2)]N2LσUσLσUσ(σxσy)N1exp(Nsx22σx2(1ρ2))×
LμUμexp(N(x¯μx)22σx2)LμUμexp(N(μy[y(x¯μx)ρσyσx])22σy2(1ρ2))dμydμxdσxdσy

এখন উপর প্রথম ভেরিয়েবলের পরিবর্তন করে এবং প্রথম অবিচ্ছেদ্য হয়ে যায়:μyz=Nμy[y(x¯μx)ρσyσx]σy1ρ2dz=Nσy1ρ2dμyμy

σy2π(1ρ2)N[Φ(Uμ[y(x¯μx)ρσyσx]σyN1ρ2)Φ(Lμ[y(x¯μx)ρσyσx]σyN1ρ2)]

এবং আপনি এখান থেকে দেখতে পারেন, কোনও বিশ্লেষণাত্মক সমাধান সম্ভব নয়। তবে, এটি লক্ষণীয়ও উপযুক্ত যে মান সমীকরণগুলির বাইরে চলে যায় নি। এর অর্থ হ'ল ডেটা এবং পূর্বের তথ্যের সত্যিকারের পারস্পরিক সম্পর্ক সম্পর্কে এখনও কিছু বলার আছে। যদি ডেটাগুলি পারস্পরিক সম্পর্ক সম্পর্কে কিছু না বলে, তবে আমরা কেবলমাত্র এই সমীকরণগুলিতে এর একমাত্র ফাংশন হিসাবে রেখে চলে যাব ।ρp(ρ)ρ

এটি আরও দেখায় যে কীভাবে সীমারেখার সীমানা অতিক্রম করে away কিছু তথ্য রয়েছে , যা জটিল দেখাচ্ছে সাধারণ সিডিএফ ফাংশন । এখন আপনার কাছে যদি প্রচুর ডেটা থাকে, তবে সীমাতে চলে যাওয়া ভাল, আপনি খুব শিথিল হন না, তবে আপনার ক্ষেত্রে খুব কম তথ্য থাকলে যেমন আপনার ক্ষেত্রে - আপনার কাছে থাকা প্রতিটি স্ক্র্যাপটি রাখা গুরুত্বপূর্ণ। এর অর্থ কুৎসিত গণিত, তবে এই উদাহরণটি সংখ্যাসূচকভাবে করা খুব বেশি কঠিন নয়। সুতরাং আমরা মোটামুটি সহজেই বলার এর সংহত সম্ভাবনার মূল্যায়ন করতে পারি । সামান্য সংখ্যক বিরতিতে সংক্ষিপ্তসারগুলি দ্বারা কেবল ইন্টিগ্রালগুলি প্রতিস্থাপন করুন - যাতে আপনার ট্রিপল সমষ্টি হয়μyρΦ(.)ρ0.99,0.98,,0.98,0.99


টুইটারে সোজা বাহ! আপনার উত্তরগুলি কিছু দেখার পরে আমি সত্যিই অবাক হই: আমার মতো একটি ডুফাস এমন নমনীয় বেয়েশিয়ান মনের অবস্থাতে পৌঁছতে কী করতে হবে?
স্টিফেন

1
@ স্টেফেন - লোল এটি এতটা কঠিন নয়, আপনার কেবল অনুশীলন করা দরকার। এবং সবসময় সবসময় সবসময় মনে রাখবেন যে সম্ভাবনা পণ্য এবং সমষ্টি নিয়ম আছে শুধুমাত্র নিয়ম আপনার যা দরকার কি কখনো হবে । তারা সেখানে যা কিছু তথ্য সরিয়ে নেবে - আপনি তা দেখেন বা না দেখেন। সুতরাং আপনি পণ্য এবং যোগ বিধি প্রয়োগ করেন, তবে কেবল গণিতগুলি করুন। আমি এখানে যা করেছি তা-ই।
সম্ভাব্যতাব্লোগিক

@ স্টেফেন - এবং অন্যান্য নিয়ম - পরিসংখ্যানগুলির তুলনায় একটি গাণিতিক - আপনার গণনার খুব প্রথম দিকে অসীম সীমা অতিক্রম করবেন না, আপনার ফলাফলগুলি স্বেচ্ছাচারিতায় পরিণত হতে পারে, বা খুব কম বিশদ বিবরণ ছড়িয়ে যেতে পারে। পরিমাপ ত্রুটি মডেলগুলি এর এক নিখুঁত উদাহরণ (এই প্রশ্নটি যেমন রয়েছে)।
সম্ভাব্যতাব্লোগিক

@ প্রোব্যাবিলিটিস্লোগিক: আপনাকে ধন্যবাদ, আমি এটি মনে রাখব ... আমার "বয়েসিয়ান অ্যানালাইসিস" -কপি;) এর মাধ্যমে কাজ শেষ হওয়ার সাথে সাথেই।
স্টিফেন

@ প্রোব্যাবিলিটিস্লোগিক: আপনি যদি অবিস্মরণীয় পরিসংখ্যানবিদ / গবেষককে রসিকতা বলতে পারতেন ... তবে দন্তচিকিত্সক বা উচ্চ বিদ্যালয়ের অধ্যক্ষ বা সূচনা পরিসংখ্যান শিক্ষার্থীদের একটি দলের সংক্ষিপ্ত বিবরণ বা অনুবাদ করা কি সম্ভব?
রোল্যান্ডো 2

6

আমি sesqu এর সাথে একমত যে এই ক্ষেত্রে পারস্পরিক সম্পর্ক অপরিজ্ঞাত। আপনার প্রয়োগের ধরণের উপর নির্ভর করে আপনি উদাহরণস্বরূপ উভয় ভেক্টরের মধ্যে গওয়ার সমানতা গণনা করতে পারেন, যা হ'ল: যেখানে ক্রোনেকার- প্রতিনিধিত্ব করে তে ফাংশন হিসাবে প্রয়োগ করা হয়েছে । δv1,v2gower(v1,v2)=i=1nδ(v1i,v2i)nδv1,v2

সুতরাং উদাহরণস্বরূপ যদি সমস্ত মান সমান হয় তবে গওয়ার (।,।) = 1। অন্যদিকে এগুলি কেবলমাত্র এক মাত্রায় পৃথক, গওয়ার (।,।) = 0.9। যদি সেগুলি প্রতিটি মাত্রায় পৃথক হয় তবে গওয়ার (।,।) = 0 এবং আরও।

অবশ্যই এটি পারস্পরিক সম্পর্কের জন্য কোনও পরিমাপ নয়, তবে এটি আপনাকে s> 0 দিয়ে ভেক্টরকে s = 0 সহকারে কতটা নিকটবর্তী তা গণনা করতে দেয়। অবশ্যই আপনি অন্যান্য মেট্রিকগুলি প্রয়োগ করতে পারেন, যদি তারা আপনার উদ্দেশ্যটি আরও ভালভাবে পরিবেশন করে।


+1 এটি একটি সৃজনশীল ধারণা। দেখে মনে হচ্ছে "গওয়ারের সাদৃশ্য" একটি মাপানো হামিং দূরত্ব
whuber

@ ভুবার: আসলেই তো!
স্টিফেন

0

এই ক্ষেত্রে পারস্পরিক সম্পর্ক অপরিজ্ঞাত। আপনার যদি এটি অবশ্যই সংজ্ঞায়িত করা হয় তবে আমি এটি 0 হিসাবে সংজ্ঞায়িত করব, তবে পরিবর্তে একটি সাধারণ গড় পরম পার্থক্য বিবেচনা করব।


0

এই প্রশ্নটি প্রোগ্রামারদের থেকে আসছে, সুতরাং আমি শূন্যে প্লাগিংয়ের পরামর্শ দেব। পারস্পরিক সম্পর্কের কোনও প্রমাণ নেই এবং নাল অনুমানটি শূন্য হবে (কোনও সম্পর্ক নেই)। অন্যান্য প্রসঙ্গের জ্ঞান থাকতে পারে যা একটি প্রসঙ্গে "সাধারণ" পারস্পরিক সম্পর্ক সরবরাহ করবে তবে কোডটি অন্য প্রসঙ্গে আবার ব্যবহার করা যেতে পারে।


2
পারস্পরিক সম্পর্কের অভাবের কোনও প্রমাণ নেই , তাই কেন প্লাগ ইন 1? নাকি -১? নাকি এর মধ্যে কিছু? তারা সমস্ত পুনরায় ব্যবহারযোগ্য কোড বাড়ে!
whuber

@ হুবার - আপনি শূন্যে প্লাগ ইন করুন কারণ এটি যখন স্বাধীন হয় তখন ডেটা "কম সীমাবদ্ধ" হয় - এ কারণেই সীমাবদ্ধতার মধ্যে সুস্পষ্টভাবে সম্পর্কগুলি নির্দিষ্ট না করে সর্বাধিক বিতরণগুলি স্বাধীন। স্বাধীনতা একটি রক্ষণশীল ধারণা হিসাবে দেখা যেতে পারে যখন আপনি এই জাতীয় কোনও সম্পর্ক সম্পর্কিত জানেন না - কার্যকরভাবে আপনি সমস্ত সম্ভাব্য পারস্পরিক সম্পর্কের চেয়ে গড় গড় করছেন ।
সম্ভাব্যতাব্লোগিক

1
@ প্রোব আমি প্রশ্ন করি কেন এটি সমস্ত জাগরণের তুলনায় গড়ের জন্য জেনেরিক প্রক্রিয়া হিসাবে বিবেচনা করে। কার্যত এই পদ্ধতিটি সুনির্দিষ্ট এবং সম্ভবত বেশ ভুল উত্তরটির পরিবর্তে "শূন্য!" সঠিক উত্তরের জন্য "ডেটা আমাদের জানায় না।" সিদ্ধান্ত নিতে এই পার্থক্য গুরুত্বপূর্ণ হতে পারে।
whuber

প্রশ্নটি কোনও প্রোগ্রামার হতে পারে বলেই এর অর্থ এই নয় যে আপনার কোনও অপরিজ্ঞাত মান শূন্যে রূপান্তর করা উচিত। জিরো অর্থ একটি পারস্পরিক সম্পর্ক গণনায় নির্দিষ্ট কিছু। একটি ব্যতিক্রম নিক্ষেপ। কলকারী কী হতে হবে তা সিদ্ধান্ত নিতে দিন। আপনার ফাংশনটির একটি পারস্পরিক সম্পর্কের গণনা করা উচিত, কোনওটি গুণতে না পারলে কী করবেন তা সিদ্ধান্ত নেবেন না।
জ্যারেড বেকসফোর্ট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.