অ-লিনিয়ার নির্ভরতা পরিমাপ করা


11

দুটি এলোমেলো ভেরিয়েবলের মধ্যে সহজাততা একে অপরের সাথে রৈখিকভাবে কতটা নিবিড়ভাবে সম্পর্কিত তার একটি পরিমাপ সংজ্ঞায়িত করে। কিন্তু যৌথ বিতরণটি যদি বৃত্তাকার হয়? অবশ্যই বিতরণ কাঠামো আছে। এই কাঠামোটি কীভাবে উত্তোলন করা হয়?

উত্তর:


8

"বিজ্ঞপ্তি" দ্বারা আমি বুঝতে পারি যে বিতরণটি একটি বৃত্তাকার অঞ্চলে কেন্দ্রীভূত হয়, যেমন কোনও পিডিএফের এই কনট্যুর প্লটে।

একটি বিজ্ঞপ্তি বিতরণের কনট্যুর প্লট

যদি এই জাতীয় কাঠামো বিদ্যমান থাকে, এমনকি আংশিকভাবে, এটি সনাক্ত এবং পরিমাপের একটি প্রাকৃতিক উপায় হ'ল তার কেন্দ্রের চারপাশে বৃত্তাকারে বিতরণকে গড় করা । (Intuitively, এই উপায়ে প্রতিটি সম্ভাব্য ব্যাসার্ধ জন্য r আমরা সম্ভাব্যতা দুরত্ব হচ্ছে ছড়িয়ে দিতে হবে r সমস্ত নির্দেশাবলী মধ্যে কেন্দ্র সমানভাবে থেকে।) যেমন ভেরিয়েবল বাচক (X,Y) , কেন্দ্র সময়ে অবস্থিত হওয়া আবশ্যক প্রথম মুহূর্ত (μX,μY) । গড় করতে করতে রেডিয়াল বিতরণ ফাংশনটি সংজ্ঞায়িত করা সুবিধাজনক

F(ρ)=Pr[(XμX)2+(YμY)2ρ2],ρ0;
F(ρ)=0,ρ<0.

এটি কেন্দ্রের দূরত্ব এবং এর মধ্যে পড়ে থাকার মোট সম্ভাব্যতা অর্জন করে। সমস্ত নির্দেশাবলী এটা ছড়িয়ে করার জন্য, দিন সঙ্গে সিডিএফ একটি এলোপাতাড়ি ভেরিয়েবলের হতে এবং উপর একটি অভিন্ন দৈব চলক হতে স্বাধীন । Bivariate দৈব চলক হয় বৃত্তাকার গড় এর । (এটি কাজটি আমাদের বিজ্ঞানকে "বিজ্ঞপ্তি গড়" হিসাবে দাবি করে কারণ (ক) এটির সঠিক রেডিয়াল বন্টন রয়েছে, দ্বারা নির্মাণ করে, এবং (খ) কেন্দ্রের সমস্ত দিক (ρ আর এফ Θ [ 0 , 2 π ] আর ( Ξ , এইচ ) = ( আর কোস ( Θ ) + μ এক্স , আর পাপ ( Θ ) + μ ওয়াই ) ( এক্স , ওয়াই ) Θ0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ) সমান সম্ভাব্য।)

এই মুহুর্তে আপনি অনেক বিকল্প উপস্থিত রয়েছে: যে সব দেহাবশেষ বিতরণের তুলনা হয় যে । সম্ভাবনার মধ্যে একটি দূরত্ব এবং কুলব্যাক-লেবলার ডাইভারজেন্স (অগণিত সম্পর্কিত দূরত্ব ব্যবস্থাসমূহ: প্রতিসমিত বিচ্যুতি, হেল্পিংজার দূরত্ব, পারস্পরিক তথ্য ইত্যাদি ) অন্তর্ভুক্ত রয়েছে। তুলনা কাছাকাছি "কাছাকাছি" থাকলে বৃত্তাকার কাঠামো থাকতে পারে বলে প্রস্তাব করা হয় । এই ক্ষেত্রে কাঠামো বৈশিষ্ট্য থেকে "নিষ্কাশন" করা যেতে পারে । উদাহরণস্বরূপ, এর কেন্দ্রীয় অবস্থানের একটি পরিমাপ , যেমন এর গড় বা মাঝারি, এর বিতরণের "ব্যাসার্ধ" চিহ্নিত করে( Ξ , এইচ ) এল পি ( এক্স , ওয়াই ) ( Ξ , এইচ ) এফ এফ ( এক্স , ওয়াই ) এফ ( এক্স , ওয়াই ) ( μ এক্স , μ ওয়াই )(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y) এবং এর স্ট্যান্ডার্ড বিচ্যুতি (বা স্কেলের অন্যান্য পরিমাপ) তাদের কেন্দ্রীয় অবস্থান সম্পর্কে কীভাবে "স্প্রেড" রেডিয়াল দিকে থাকে তা প্রকাশ করে ।F(X,Y)(μX,μY)

ডেটা সহ কোনও বিতরণ থেকে নমুনা দেওয়ার সময় , বিজ্ঞপ্তিটির একটি যুক্তিসঙ্গত পরীক্ষাটি কেন্দ্রীয় অবস্থানটি যথারীতি (মানে বা মধ্যমাধ্যম সহ) অনুমান করে এবং সেখান থেকে প্রতিটি মান ) রূপান্তর করে অনুমান করা কেন্দ্রের তুলনায় মেরু স্থানাঙ্কেরেডিয়ির মানক বিচ্যুতি (বা আইকিউআর) তাদের গড় (বা মিডিয়ান) সাথে তুলনা করুন। বিজ্ঞপ্তিবিহীন বিতরণের জন্য অনুপাতটি বড় হবে; বিজ্ঞপ্তি বিতরণের জন্য এটি তুলনামূলকভাবে ছোট হওয়া উচিত। (অন্তর্নিহিত বিতরণের জন্য যদি আপনার মনে একটি নির্দিষ্ট মডেল থাকে তবে আপনি র‌্যাডিয়াল পরিসংখ্যানের নমুনা বিতরণের কাজ করতে পারেন এবং এটির সাথে একটি তাত্পর্য পরীক্ষা তৈরি করতে পারেন)) পৃথকভাবে, বিরতিতে অভিন্নতার জন্য কৌণিক স্থানাঙ্ক পরীক্ষা করুন( x i , y i ) ( r i , θ i ) [ 0 , 2 π )(xi,yi),1in(xi,yi)(ri,θi)[0,2π) । বিজ্ঞপ্তি বিতরণের জন্য এটি প্রায় অভিন্ন হবে (এবং কিছু অন্যান্য বিতরণের জন্যও); অ-অভিন্নতা বৃত্তাকার থেকে প্রস্থান নির্দেশ করে।


1
ধন্যবাদ! যদিও সম্পূর্ণ পরিষ্কার নয়, এটি আমাকে কিছু ধারণা দেয়। আপনি দয়া করে কিছু পড়ার প্রস্তাব দিতে পারেন যেখানে এই ধরণের বিতরণগুলি মোকাবেলা করা হয়? আমি কেবল গাউসিয়ান এবং অন্যান্য স্ট্যান্ডার্ড বিতরণে উন্মুক্ত হয়েছি। আরেকটি প্রশ্ন, এটি কি পরমাণু ইত্যাদির রেডিয়াল ডিস্ট্রিবিউশন ফাংশনগুলির সাথে কিছু যুক্ত করে?
অনন্ত

1
@ ইনফিনিটি আমাকে জানান কোন অংশটি পরিষ্কার নয় তাই আমি এটিকে ঠিক করার চেষ্টা করতে পারি। আমি জানি না যে এই জাতীয় বিতরণগুলি কোথায় আলোচনা করা হয়েছে, তবে সম্পর্কিত বিশ্লেষণ "বিজ্ঞপ্তি বিতরণ" এ সাহিত্যে পাওয়া যাবে। অন্তর্নিহিত গাণিতিক ধারণাগুলি সত্যই কিছুটা পারমাণবিক কক্ষপথ তত্ত্বের সাথে সম্পর্কিত। প্রাসঙ্গিক ধারণাগুলির মধ্যে গোলাকার স্থানাঙ্কগুলিতে শ্রডিংগার সমীকরণের পৃথকতা, গড় হিসাবে একটি কমপ্যাক্ট লাই গ্রুপের হার পরিমাপ নির্মাণ এবং ওভারল্যাপ ইন্টিগ্রালের মাধ্যমে অরবিটালগুলির সাথে তুলনা করা অন্তর্ভুক্ত।
whuber

ধন্যবাদ। আমি সম্ভাবনা এবং পরিসংখ্যানগুলিতে খুব নতুন তাই এটি সম্ভবত এর কারণেই হয়েছিল। আপনি "এর কেন্দ্রের চারদিকে বৃত্তাকার গড় বিতরণ" বলতে কী বোঝাতে চেয়েছেন তা আমি সত্যিই বুঝতে পারি না, আমি মনে করি এটির সমস্ত বৃত্তের গড় গড় করা যাতে কেন্দ্রের সাথে এবং ব্যাসার্ধের একটি মাত্র বৃত্ত থাকে কিন্ডা একটি লিনিয়ার রিগ্রেশন লাইনের মতো ফিট। এটা কি ঠিক? ρ(μX,μY)ρ
অনন্ত

আমার অন্য সন্দেহটি হ'ল ডিস্ট্রিবিউশন ফাংশন কোনও ডিস্ক বর্ণনা করে বলে মনে হচ্ছে তবে চিত্র (এবং আমার মনে যা ছিল) এটি একটি আংটি। এলোমেলো পরিবর্তনশীল মেরু আকারে গড় বৃত্ত বর্ণনা করে। আমি দুঃখিত আমি এরপরে যা ঘটে তা স্পষ্টভাবে পাই না। আমি বুঝতে পারি যে আমরা দুটি ডিস্ট্রিবিউশনকে কিছু দূরত্বের মেট্রিক ব্যবহার করে তুলনা করি তবে কেন বিশেষ এবং এটি কীভাবে আমাকে যুক্তি করতে অক্ষম হতে সহায়তা করে। প্রশ্নগুলি খুব বোকা মনে হলে আমি দুঃখিত। ( Ξ , এইচ ) ( Ξ , এইচ )F(ρ)(Ξ,H)(Ξ,H)
অসীম

1
@ ইনফিনিটি আমি কিছু স্পষ্ট করার মতামত যুক্ত করেছি। আপনি চেনাশোনা গড়তে পারেন না; পরিবর্তে, আপনি প্রতিটি বৃত্ত জুড়ে সমস্ত সম্ভাবনা গড় (বা "স্মিয়ার") তৈরি করেছেন যাতে আপনি যা শুরু করেছিলেন তা বিবেচনা না করেই এটি আমার ছবির মতো দেখায় (বিজ্ঞপ্তি সংলগ্ন)। যদি মূল বিতরণটি সত্যই বিজ্ঞপ্তি হয় তবে এই গড়পড়তা এটি পরিবর্তন করে না। সুতরাং, এর গড় সংস্করণে বিতরণটির তুলনা করলে আপনাকে জানায় যে এটি প্রথম স্থানে বিজ্ঞপ্তি হওয়া থেকে কতটা দূরে।
শুক্র

5

পারস্পরিক তথ্যের কিছুটা সমবায়াসমূহের সাথে সাদৃশ্যযুক্ত বৈশিষ্ট্য রয়েছে। কোভারিয়েন্স হল এমন একটি সংখ্যা যা স্বতন্ত্র ভেরিয়েবলের জন্য 0 এবং রৈখিক নির্ভরশীল ভেরিয়েবলগুলির জন্য ননজারো। বিশেষত, যদি দুটি ভেরিয়েবল একই হয় তবে কোভেরিয়েন্সটি ভেরিয়েন্সের সমান (যা সাধারণত একটি ধনাত্মক সংখ্যা)। সমবায়াসমূহের সাথে একটি সমস্যা হ'ল দু'টি ভেরিয়েবলগুলি স্বতন্ত্র না হলেও শূন্য হতে পারে, তবে নির্ভরতা ননলাইনারে থাকে।

পারস্পরিক তথ্য (এমআই) একটি অ-নেতিবাচক সংখ্যা। এটি শূন্য হয় এবং যদি দুটি ভেরিয়েবল পরিসংখ্যানগতভাবে স্বতন্ত্র থাকে। এই সম্পত্তি ovক্যবদ্ধতার চেয়ে বেশি সাধারণ এবং ননলাইনারগুলি সহ যে কোনও নির্ভরতা coversেকে রাখে।

দুটি ভেরিয়েবল যদি একই হয় তবে এমআই ভেরিয়েবলের এনট্রপির সমান (আবার, সাধারণত একটি ধনাত্মক সংখ্যা)। যদি ভেরিয়েবলগুলি পৃথক হয় এবং নির্ধারিতভাবে সম্পর্কিত না হয়, তবে এমআই এনট্রপির চেয়ে ছোট। এই অর্থে, দুটি ভেরিয়েবলের এমআই 0 এবং এইচ (এনট্রপি) এর মধ্যে চলে যায়, 0 কেবলমাত্র স্বতন্ত্র এবং এইচ কেবল নির্বিচারে নির্ভরশীল হলে হয়।

Covariance থেকে একটি পার্থক্য হ'ল নির্ভরতার "চিহ্ন" উপেক্ষা করা হয়। উদাহরণস্বরূপ , তবে ।এম আই ( এক্স , - এক্স ) = এম আই ( এক্স , এক্স ) = এইচ ( এক্স )Cov(X,X)=Cov(X,X)=Var(X)MI(X,X)=MI(X,X)=H(X)


4
আপনি কীভাবে এই ধারণাটি প্রশ্নের উত্তর সরবরাহ করতে পারেন তার প্রসারিত করতে পারেন?
অনস্টপ

3

বিজ্ঞান থেকে নিম্নলিখিত নিবন্ধটি একবার দেখুন: এটি আপনার পয়েন্ট ঠিক ঠিক সম্বোধন করে:

ডেভিড এন। রিশেফ এবং অন্যান্য দ্বারা বৃহত ডেটা সেটগুলিতে উপন্যাস অ্যাসোসিয়েশনগুলি সনাক্ত করা।

বিমূর্ত থেকে:

বড় ডেটা সেটগুলিতে জোড়া ভেরিয়েবলের মধ্যে আকর্ষণীয় সম্পর্ক চিহ্নিত করা ক্রমশ গুরুত্বপূর্ণ important এখানে, আমরা দ্বি-পরিবর্তনশীল সম্পর্কের জন্য নির্ভরতার একটি পরিমাপ উপস্থাপন করি: সর্বাধিক তথ্য সহগ (এমআইসি)। এমআইসি ক্রিয়ামূলক এবং না উভয় সংঘের সংস্থাগুলি ক্যাপচার করে এবং কার্যকরী সম্পর্কের জন্য এমন একটি স্কোর সরবরাহ করে যা রিগ্রেশন ফাংশনের সাথে সম্পর্কিত ডেটার সংকল্পের সহগ (R ^ 2) সমান করে। সম্পর্ক চিহ্নিতকরণ এবং শ্রেণিবদ্ধকরণের জন্য এমআইসি সর্বাধিক তথ্য-ভিত্তিক ননপ্যারমেট্রিক অনুসন্ধান (MINE) পরিসংখ্যানের বৃহত শ্রেণীর অন্তর্ভুক্ত। আমরা বিশ্ব স্বাস্থ্য, জিন এক্সপ্রেশন, মেজর-লিগ বেসবল এবং হিউম্যান ম্যান্ট মাইক্রোবায়োটায় ডেটা সেটগুলিতে এমআইসি এবং মাইন প্রয়োগ করি এবং পরিচিত এবং অভিনব সম্পর্ক চিহ্নিত করি।

আপনি পরিপূরক উপাদানগুলি এখানে পাবেন: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

লেখকরা এমনকি একটি নিখরচায় সরঞ্জাম সরবরাহ করে যা উপন্যাসের পদ্ধতিটি আর এবং পাইথনের সাথে ব্যবহার করতে পারে: http://www.exploredata.net/

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.