একটি অবিচ্ছিন্ন ভেরিয়েবল এবং শ্রেণিবদ্ধ ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্কের অনুমানের জন্য পারস্পরিক তথ্য ব্যবহার করা


13

শিরোনাম হিসাবে, ধারণাটি একটি অবিচ্ছিন্ন ভেরিয়েবল এবং শ্রেণিবদ্ধ ভেরিয়েবলের মধ্যে "পারস্পরিক সম্পর্ক" ("আমি যখন বি কে জানি তখন" সম্পর্কে কতটা জানি "হিসাবে সংজ্ঞায়িত করা হয়) এবং এমআইয়ের পরে পারস্পরিক তথ্য ব্যবহার করা হয়। আমি আপনাকে এই মুহুর্তে আমার চিন্তাভাবনাগুলি বলব, তবে আমি আপনাকে ক্রসভিলেটেডে এই অন্যান্য প্রশ্ন / উত্তরটি পড়ার পরামর্শ দেওয়ার আগে এটিতে কিছু দরকারী তথ্য রয়েছে।

এখন, যেহেতু আমরা একটি স্পষ্টতাল ভেরিয়েবলের সাথে একীভূত করতে পারি না আমাদের ক্রমাগত একটিকে পৃথক করা দরকার। এটি আর এ খুব সহজেই করা যায়, এটি আমার বেশিরভাগ বিশ্লেষণের সাথে ভাষাটি done আমি cutফাংশনটি ব্যবহার করতে পছন্দ করলাম , যেহেতু এটির মানগুলিও রয়েছে তবে অন্যান্য বিকল্পগুলিও উপলব্ধ। মুল বক্তব্যটি হ'ল, কোনও বিচক্ষণতা সম্পন্ন করার আগে একজনকে "বিন" (পৃথক রাষ্ট্র) সংখ্যা নির্ধারণ করতে হবে।

তবে মূল সমস্যাটি অন্যটি: এমআই 0 থেকে ∞ অবধি, এটি কোন স্ট্যান্ডার্ডহীন পরিমাপ যা কোন ইউনিটটি বিট। এটি একে অপরের সাথে সম্পর্কযুক্ত সহগ হিসাবে ব্যবহার করা খুব কঠিন করে তোলে। এটি আংশিকভাবে এখানে এবং জিসিসির পরে বৈশ্বিক সম্পর্কের সহগ ব্যবহার করে সমাধান করা যেতে পারে , যা এমআই এর একটি মানক সংস্করণ; জিসিসি অনুসরণ হিসাবে সংজ্ঞায়িত করা হয়:

এখানে চিত্র বর্ণনা লিখুন

তথ্যসূত্র: সূত্রটি আন্ড্রেয়া ডায়ানসিয়ো, রুই মেনেজেস এবং ডায়ানা মেন্ডেস, ২০১০ দ্বারা স্টক মার্কেটের বিশ্বায়ন বিশ্লেষণের ননলাইনার সরঞ্জাম হিসাবে পারস্পরিক তথ্য থেকে।

জিসিসি 0 থেকে 1 এর মধ্যে থাকে এবং তাই দুটি ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক অনুমান করতে সহজেই ব্যবহার করা যেতে পারে। সমস্যার সমাধান হয়েছে, তাই না? ভাল ধরনের. কারণ এই সমস্ত প্রক্রিয়া বিচক্ষণতার সময় আমরা যে 'বিন' ব্যবহার করার সিদ্ধান্ত নিয়েছিলাম তার উপর নির্ভর করে। এখানে আমার পরীক্ষার ফলাফল:

এখানে চিত্র বর্ণনা লিখুন

ওয়াই-অক্ষের উপর আপনার জিসিসি রয়েছে এবং এক্স-অক্ষের উপরে আপনার 'বিনের' সংখ্যা রয়েছে যা আমি বিবেচনার জন্য ব্যবহার করার সিদ্ধান্ত নিয়েছি। দুটি লাইন দুটি পৃথক বিশ্লেষণকে বোঝায় যা আমি দুটি পৃথক (যদিও খুব অনুরূপ) ডেটাসেটের উপর পরিচালনা করেছিলাম।

আমার কাছে মনে হয় সাধারণভাবে এমআই এবং বিশেষত জিসিসির ব্যবহার এখনও বিতর্কিত। তবুও, এই বিভ্রান্তি আমার পক্ষ থেকে কোনও ভুলের ফল হতে পারে। হয় যাই হোক না কেন, আমি এই বিষয়ে আপনার মতামত শুনতে পছন্দ করব (এছাড়াও, আপনার কাছে একটি বিবিধ ভেরিয়েবল এবং অবিচ্ছিন্ন একটির মধ্যে পারস্পরিক সম্পর্ক অনুমান করার বিকল্প বিকল্প আছে কি?)।


2
অবিচ্ছিন্ন এবং পৃথক পৃথক ভেরিয়েবলের যৌথ বন্টনের জন্য পারস্পরিক তথ্য গণনা করার বিষয়ে আমি মন্তব্য করতে পারি না, তবে আমি পরামর্শ দিতে পারি যে আপনি পারস্পরিক তথ্যের একটি স্বাভাবিক রূপের গণনা করলে বিনিংয়ের প্রভাবটি মুছে ফেলা উচিত। সাধারণত একটি এন্ট্রপিজির যোগ বা যৌথ এনট্রপি দ্বারা সাধারণ করা হয়। এন্ট্রপিজের যোগফলটি আরও ভাল কারণ । H(Xi,Xj)H(Xi)+H(Xj)
জেসিকা কলিন্স

বিটিডাব্লু, কেউ যদি বিনিং পদ্ধতিতে চেষ্টা করতে চান তবে এখানে কোড রয়েছে।
zkurtz

4
আপনি "পারস্পরিক সম্পর্ক" অনুমান করছেন না। আপনি পারস্পরিক তথ্য অনুমান করছেন। একজন অন্যটির অনুমান করে না; তারা সমিতির আরও সাধারণ ধারণার স্বতন্ত্র ব্যবস্থা ।
zkurtz

সম্ভবত এই পোস্টের জন্য আরও ভাল শিরোনাম হ'ল "একটি শ্রেণিবদ্ধ ভেরিয়েবলের সাথে এর পারস্পরিক তথ্যের অনুমানের জন্য একটি ধ্রুবক পরিবর্তনশীল কীভাবে সেরা বিন করবেন?"
zkurtz

এখানে একটি আকর্ষণীয় নন-বিনিং পদ্ধতি রয়েছে। দুর্ভাগ্যক্রমে আমি কোনও আর বাস্তবায়ন পাই না।
zkurtz

উত্তর:


5

এই সমস্যাটি মোকাবেলা করার একটি সহজ এবং সর্বোত্তম উপায় রয়েছে। একটি শ্রেণিবদ্ধ ভেরিয়েবল কার্যকরভাবে কেবল সূচক ভেরিয়েবলের একটি সেট। এটি পরিমাপ তত্ত্বের একটি প্রাথমিক ধারণা যে এই ধরণের পরিবর্তনশীল বিভাগগুলির সাথে সম্পর্কিত সম্পর্কিত অপরিবর্তনীয়, সুতরাং অন্য ভেরিয়েবলের মধ্যে সম্পর্কের কোনও পরিমাপের ক্ষেত্রে বিভাগগুলির সংখ্যাসূচক লেবেলিং (যেমন, 'পারস্পরিক সম্পর্ক') ব্যবহার করা বোধগম্য নয় ( । এই কারণে, এবং একটি ধ্রুবক পরিবর্তনশীল এবং একটি শ্রেণিবদ্ধ ভেরিয়েবলের মধ্যে সম্পর্কের পরিমাপটি পুরোপুরি উত্তর থেকে প্রাপ্ত সূচক ভেরিয়েবলের উপর ভিত্তি করে তৈরি করা উচিত।

আপনি দুটি ভেরিয়েবলের মধ্যে 'পারস্পরিক সম্পর্কের' একটি পরিমাপ চান তা প্রদত্ত, এটি একটি ধ্রুবক র্যান্ডম ভেরিয়েবল এবং একটি সূচক এলোমেলো ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্কের দিকে তাকানো বোধগম্য হয় যা টো শ্রেণিবদ্ধ ভেরিয়েবল থেকে প্রাপ্ত। আমাদের কাছে :XIϕP(I=1)

Cov(I,X)=E(IX)E(I)E(X)=ϕ[E(X|I=1)E(X)],

যা দেয়:

Corr(I,X)=ϕ1ϕE(X|I=1)E(X)S(X).

সুতরাং একটি অবিচ্ছিন্ন র্যান্ডম ভেরিয়েবল এবং একটি সূচক র্যান্ডম ভেরিয়েবল মধ্যে পারস্পরিক সম্পর্ক হ'ল সূচক সম্ভাবনার এবং কন্ডিশনিং থেকে প্রত্যাশিত মানের লাভের মোটামুটি সহজ কাজ । নোট করুন যে এই পারস্পরিক সম্পর্কের জন্য অবিচ্ছিন্ন র্যান্ডম ভেরিয়েবলের কোনও বিবেচনার প্রয়োজন নেই।XIϕXI=1


পরিসর সহ একটি সাধারণ শ্রেণীবদ্ধ ভেরিয়েবল আপনি কেবল শ্রেণিবদ্ধ ভেরিয়েবলের প্রতিটি ফলাফলের জন্য পারস্পরিক সম্পর্কের ভেক্টর রাখতে এই ধারণাটি প্রসারিত করবেন । যে কোনও ফলাফলের জন্য আমরা সংশ্লিষ্ট সূচকটি সংজ্ঞায়িত করতে পারি এবং আমাদের রয়েছে:C1,...,mC=kIkI(C=k)

Corr(Ik,X)=ϕk1ϕkE(X|C=k)E(X)S(X).

এরপরে আমরা জন্য পরস্পর সম্পর্কিত মানগুলির ভেক্টর হিসাবে সংজ্ঞা দিতে পারি শ্রেণীবদ্ধ র্যান্ডম ভেরিয়েবলের প্রতিটি বিভাগ। এটি প্রকৃতপক্ষে একমাত্র বোধ যার মধ্যে একটি শ্রেণিবদ্ধ র‌্যান্ডম ভেরিয়েবলের জন্য 'পারস্পরিক সম্পর্ক' সম্পর্কে কথা বলার অর্থ হয়।Corr(C,X)(Corr(I1,X),...,Corr(Im,X))

( দ্রষ্টব্য: এবং এটি একটি শ্রেণিবদ্ধ র‌্যান্ডম ভেরিয়েবলের জন্য পারস্পরিক সম্পর্ক ভেক্টর এই সীমাবদ্ধতার সাথে দেখানো তুচ্ছ This এর অর্থ এটি সম্ভাব্য ভেক্টরের জ্ঞান প্রদত্ত শ্রেণিবদ্ধ র‌্যান্ডম ভেরিয়েবল এবং এর মানক বিচ্যুতি , আপনি এর উপাদানগুলির কোনও থেকে ভেক্টরটি পেতে পারেন ))kCov(Ik,X)=0Xm1


উপরের প্রকাশটি সত্য পারস্পরিক সম্পর্কের মানগুলির জন্য, তবে অবশ্যই একটি প্রদত্ত বিশ্লেষণে এগুলি অনুমান করা উচিত। নমুনা তথ্য থেকে সূচক পারস্পরিক সম্পর্ক অনুমান করা সহজ, এবং প্রতিটি অংশের জন্য উপযুক্ত অনুমানের প্রতিস্থাপনের মাধ্যমে করা যেতে পারে। (আপনি যদি পছন্দ করেন তবে আপনি ফ্যানসিয়ার অনুমানের পদ্ধতিগুলি ব্যবহার করতে পারেন)) নমুনা ডেটা আমরা পারস্পরিক সম্পর্ক সমীকরণের অংশগুলি অনুমান করতে পারি:(x1,c1),...,(xn,cn)

ϕ^k1ni=1nI(ci=k).

E^(X)x¯1ni=1nxi.

E^(X|C=k)x¯k1ni=1nxiI(ci=k)/ϕ^k.

S^(X)sX1n1i=1n(xix¯)2.

এই অনুমানের প্রতিস্থাপনের সাথে পরস্পর সম্পর্কযুক্ত ভেক্টরের একটি প্রাথমিক অনুমান পাওয়া যাবে। যদি আপনার প্যারামেট্রিক তথ্য থাকে তবে আপনি সর্বাধিক সম্ভাবনা বা অন্য কোনও কৌশল দ্বারা সরাসরি পারস্পরিক সম্পর্ক ভেক্টরটি অনুমান করতে পারেন।X

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.