অ-রৈখিক পারস্পরিক সম্পর্ক সনাক্তকরণের জন্য এমআইসি অ্যালগরিদমকে স্বজ্ঞাতভাবে ব্যাখ্যা করা যেতে পারে?


20

সম্প্রতি, আমি দুটি নিবন্ধ পড়েছি। প্রথমটি হ'ল পারস্পরিক সম্পর্কের ইতিহাস সম্পর্কে এবং দ্বিতীয়টি ম্যাক্সিমাল ইনফরমেশন কোয়ালিটি (এমআইসি) নামে পরিচিত নতুন পদ্ধতি সম্পর্কে। ভেরিয়েবলের মধ্যে অ-রৈখিক পারস্পরিক সম্পর্ক অনুমান করার জন্য এমআইসি পদ্ধতিটি বোঝার জন্য আমার আপনার সহায়তা দরকার।

অধিকন্তু, আর এর ব্যবহারের নির্দেশাবলী লেখকের ওয়েবসাইটে পাওয়া যাবে ( ডাউনলোডের অধীনে ):

আমি আশা করি এই পদ্ধতিটি আলোচনা এবং বোঝার জন্য এটি একটি ভাল প্ল্যাটফর্ম হবে। এই পদ্ধতির পিছনে একটি অন্তর্দৃষ্টি এবং এটি লেখক যেমনটি বাড়ানো যেতে পারে তা নিয়ে আমার আগ্রহের বিষয়।

" ... আমাদের এমআইসির (এক্স, ওয়াই) এমআইসির (এক্স, ওয়াই। জেড) এক্সটেনশন প্রয়োজন। আমরা জানতে চাইব এমআইসির স্থিতিশীল অনুমানের জন্য কতটা ডেটা দরকার, এটি বিদেশীদের পক্ষে কতটা সংবেদনশীল, কী তিনটি - বা উচ্চ-মাত্রিক সম্পর্ক এটি মিস করবে এবং আরও অনেক কিছু M এমআইসি একটি দুর্দান্ত পদক্ষেপ, তবে আরও অনেক পদক্ষেপ নিতে হবে। "


প্রশ্নটি আকর্ষণীয় একটি, তবে আমি মনে করি এটি উত্তরযোগ্য নয়। আপনি কি এটি আরও নির্দিষ্ট করতে পারেন?
এমপিক্টাস

3
বিজ্ঞানের নিবন্ধটি খোলা অ্যাক্সেস নয় এই বিষয়টি নিয়ে আলোচনায় বাধা সৃষ্টি হবে।
Itamar

7
এখানে একজন লেখক মুক্ত করা কাগজের একটি অনুলিপি দিয়েছেন।

10
সংক্ষেপে, এসআইসি, "চক্রান্ত-All-scatterplots-এবং-শিখর-যারা-সঙ্গে-সবচেয়ে বড়-সাদা-এলাকা" পুরোনো ধারণা একজন খনন তাই এটি প্রধানত মিথ্যা positives উত্পাদন করে, একটি অবাস্তব জটিলতা রয়েছে (যা লেখকরা কেবল পরীক্ষার পিছনে লুকিয়ে থাকেন-কিছু-এলোমেলোভাবে-নির্বাচিত-জুটি হিউরিস্টিক) এবং ডিজাইনের মাধ্যমে তিনটি এবং আরও বেশি-পরিবর্তনশীল ইন্টারঅ্যাকশন মিস হয়। O(M2)

4
এমআইসির প্রযুক্তিগত তথ্যের জন্য, সহায়ক অনলাইন উপাদানটি নিবন্ধের চেয়ে বেশি তথ্যপূর্ণ।
মাঝামাঝি

উত্তর:


22

এটি কি বলছে না যে এটি কোনও স্ট্যাটাসটিকাল জার্নালে প্রকাশিত হয়েছিল যার পরিসংখ্যান সহকর্মী পর্যালোচনা আমরা অনিশ্চিত? এই সমস্যাটি 1948 সালে (গণিত সংক্রান্ত পরিসংখ্যান 19: 546 এর অ্যানালস) দ্বারা সমাধান করা হয়েছিল যিনি কোনও সরল বিন্যাস বা একাধিক পদক্ষেপের প্রয়োজন না বলে একটি সরল অ্যালগরিদম বিকাশ করেছিলেন। হয়েফডিংয়ের কাজটি বিজ্ঞানের নিবন্ধেও উল্লেখ করা হয়নি। এটি বহু বছর ধরে প্যাকেজে আর hoeffdফাংশনে রয়েছে Hmisc। এখানে একটি উদাহরণ ( example(hoeffd)আর টাইপ করুন ):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdহয়েফডিংয়ের পদ্ধতির মোটামুটি দক্ষ ফোর্টরান প্রয়োগ ব্যবহার করে। তার পরীক্ষার মূল ধারণাটি হল X এবং Y এর যৌথ র‌্যাঙ্কের এবং X এর প্রান্তিক র‌্যাঙ্কের পণ্য এবং যথাযথভাবে মাপানো মাপের প্রান্তিক র‌্যাঙ্কের পণ্য বিবেচনা করা।

হালনাগাদ

D

HmiscD|F(x,y)G(x)H(y)|D


6
(+1) হয়েফডিংয়ের কাগজ অনলাইন পাওয়া যায়।
মাঝামাঝি

1
ভাল লাগছে। বিজ্ঞানের কাছে হফিডিংয়ের পারফরম্যান্সকে তাদের সাথে তুলনা করে বিজ্ঞানের পক্ষে একটি সংক্ষিপ্ত নোট মূল্যবান হতে পারে। এটি অত্যন্ত দুঃখের বিষয় যে 50 এর দশকের অনেকগুলি ভাল স্টাডিজ (বহু ক্ষেত্রে) কয়েক বছর ধরে ভুলে গিয়েছিল।
ইটামার

6

MI=H(X)+H(Y)H(X,Y)
H(X)=ip(zi)logp(zi)
H(X,Y)=i,jp(xi,yj)logp(xi,yj)

লেখকের মূল ধারণাটি হ'ল অনেকগুলি দ্বি-মাত্রিক গ্রিডে ডেটাটিকে আলাদা করা এবং প্রতিটি গ্রিডে দুটি ভেরিয়েবলের পারস্পরিক তথ্যের প্রতিনিধিত্বকারী সাধারণ স্কোরগুলি গণনা করা। বিভিন্ন গ্রিডের মধ্যে ন্যায্য তুলনা নিশ্চিত করতে স্কোরগুলি স্বাভাবিক করা হয় এবং 0 (অসংযুক্ত) এবং 1 (উচ্চ সম্পর্ক) এর মধ্যে পরিবর্তিত হয়।

R2


3

আমি দুই ভাল আরও স্পষ্টভাবে বিশেষ করে এসআইসি ধারণা ব্যাখ্যা নিবন্ধ খুঁজে পাওয়া এই এক; এখানে দ্বিতীয়

যেহেতু আমি এই পাঠগুলি থেকে বুঝতে পেরেছি তা হল আপনি বিভিন্ন জটিলতা এবং গ্রিডের বিভিন্ন সংমিশ্রণ অন্বেষণ করে দুটি ভেরিয়েবলের মধ্যে সম্পর্কের আঁশগুলিকে জুম করতে পারেন; এই গ্রিডগুলি 2 টি মাত্রিক স্থানকে কোষে বিভক্ত করতে ব্যবহৃত হয়। গ্রিডটি বেছে নেওয়ার মাধ্যমে যা কোষাগুলি আপনাকে এমআইসির যে স্থানটি বেছে নিচ্ছে সেগুলি কীভাবে বিভাজন করবে সে সম্পর্কে সর্বাধিক তথ্য ধারণ করে।

আমি @ এমবিকিউকে জিজ্ঞাসা করতে চাই যে তিনি কী "প্লট-অল-স্ক্যাটারপ্লিটস-এ-পিক-এ-যা-সর্বাধিক বৃহত্তম-সাদা-অঞ্চল" এবং ও (এম 2) এর অবাস্তব জটিলতা বলেছিলেন তাকে কী প্রসারিত করতে পারে?


4
বিনেন ব্যবহার করে এমন কোনও পরিসংখ্যান পদ্ধতি সম্পর্কে আমি উদ্বিগ্ন।
ফ্রাঙ্ক হ্যারেল

@ ফ্র্যাঙ্কহারেল আপনি কী রেফারেন্স বা কিছু স্বজ্ঞাত সরবরাহ করতে পারেন যা বিশদ বিন্যাস খারাপ কেন? স্বজ্ঞাতভাবে, আমি দেখতে পাচ্ছি যে আপনি বিনিংয়ের কারণে মূলত তথ্য ফেলে দিচ্ছেন, তবে এর আরও বেশি কারণ থাকতে হবে কেন?
কিরণ কে।

কোথায় শুরু করবেন তা জানতে অনেকগুলি রেফারেন্স রয়েছে। বিনিংয়ের উপর ভিত্তি করে কোনও পরিসংখ্যান পদ্ধতি শেষ পর্যন্ত বেঁচে থাকে না। স্বেচ্ছাচারিতা অনেক সমস্যার মধ্যে একটি।
ফ্র্যাঙ্ক হ্যারেল

@ ফ্র্যাঙ্কহারেল মন্তব্যটির প্রশংসা করুন। যে কারণে আমি রেফারেন্স চেয়েছি সে হল আমি পিএইচডি শিক্ষার্থী, এবং এই মুহুর্তে নির্ভরতা এবং মাল্টিভারিয়েট নির্ভরতা ধারণাগুলি অধ্যয়ন করছি এবং এই কাগজপত্রগুলি পড়তে এবং ভবিষ্যতে সেগুলি আমার নিজের লেখায় উদ্ধৃত করতে পছন্দ করব। আপনি যদি একজন বা দু'জন বিশিষ্ট ব্যক্তির উল্লেখ করতে পারেন তবে আমি নিশ্চিত যে আপনি উল্লেখ করছেন বাকীগুলি আমি খুঁজে পেতে পারি। আমি এখানে কিছু খনন এবং রেফারেন্স পোস্ট করব যদি আমি ভাল থাকে।
কিরণ কে।

Citeulike.org/user/harrelfe/article/13265458 দিয়ে শুরু করুন তারপরে biostat.mc.vanderbilt.edu/CatContinuousডিকোটমাইজেশন সম্পর্কিত অন্যান্য তথ্য দেখুন । সাধারণ নির্ভরতা পরিমাপের জন্য কোনও বেনিংয়ের
ফ্র্যাঙ্ক হ্যারেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.