বাইনারি ডেটার জন্য সাদৃশ্য সহগ: রাসেল এবং রাওয়ের চেয়ে কেন জ্যাকার্ড চয়ন করবেন?


20

পরিসংখ্যানবিজ্ঞানের এনসাইক্লোপিডিয়া থেকে আমি বুঝতে পারি যে প্রদত্ত দ্বিদোষ (বাইনারি: 1 = উপস্থিত; 0 = অনুপস্থিত) বৈশিষ্ট্য (ভেরিয়েবল), আমরা কোনও নমুনার আই এবং জে দুটি অবজেক্টের জন্য একটি কন্টিজেন্সি টেবিল গঠন করতে পারি :পি

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

আমরা এই মানগুলি যেকোন জোড়া বস্তুর মধ্যে মিলের সহগগুলি, বিশেষত জ্যাকার্ড সহগ এবং রাসেল এবং রাও সহগ

একটিএকটি+ ++ +
একটিএকটি+ ++ ++ +=একটিপি

যখন গণনা করা হয় এই সহগগুলি বিভিন্ন মান দেবে, তবে কেন আমি অন্য সংস্থাগুলির মধ্যে একটি বেছে নেব তা ব্যাখ্যা করে এমন কোনও সংস্থান খুঁজে পাচ্ছি না । এটি কি কেবল কিছু ডেটাসেটের জন্য, উভয় গুণাবলীর ( ) যুগপত অনুপস্থিতি কোনও তথ্য সরবরাহ করে না?

উত্তর:


14

এই জাতীয় অনেক সহগ রয়েছে (বেশিরভাগ এখানে প্রকাশ করা হয় )। সূত্রগুলির পার্থক্যের পরিণতিগুলি কী তা নিয়ে কেবল ধ্যান করার চেষ্টা করুন, বিশেষত যখন আপনি সহগের একটি ম্যাট্রিক্স গণনা করেন ।

উদাহরণস্বরূপ, কল্পনা করুন যে 3 এবং 4 অবজেক্ট যেমন 1 এবং 2 অবজেক্ট একই রকম হয়। তবে 1 এবং 2 এর তালিকায় অনেকগুলি বৈশিষ্ট্য রয়েছে যখন 3 এবং 4 এর কয়েকটি মাত্রিক বৈশিষ্ট্য রয়েছে। এই ক্ষেত্রে, রাসেল-রাও (বিবেচনাধীন বিশিষ্ট সামগ্রীর সংখ্যার সহ-গুণাবলীর অনুপাত) জোড়াটি 1-2- এর জন্য উচ্চ এবং জোড়ের 3-4-4 হবে। কিন্তু Jaccard (অনুপাত গুণাবলীর সম্মিলিত সংখ্যার সহ-বৈশিষ্ট্যাবলী উভয় বস্তু আছে = সম্ভাব্যতা যে তারপর তারা উভয়েই আছে যদি পারেন বস্তুর একটি বৈশিষ্ট্য আছে) উভয় জোড়া 1-2 এবং 3-4 জন্য উচ্চ থাকবে।

"অ্যাট্রিবিউটস দ্বারা স্যাচুরেশন" এর বেস স্তরের এই সামঞ্জস্যটি রাসেল-রাওয়ের চেয়ে জ্যাকার্ডকে এত জনপ্রিয় এবং আরও দরকারী করে তোলে , যেমন ক্লাস্টার বিশ্লেষণ বা বহুমাত্রিক স্কেলিংয়ে। আপনি এক অর্থে কুলকজেনস্কি -২ পরিমাপটি বেছে নিয়ে উপরের সমন্বয়টিকে আরও পরিমার্জন করতে পারেন যা পাটিগণিতের গড় সম্ভাবনা যা যদি কোনও বস্তুর একটি বৈশিষ্ট্য থাকে তবে অন্য বস্তুরও এটি থাকে:

(একটিএকটি+ ++ +একটিএকটি+ +)/2
এখানে দুটি বস্তুর জন্য বৈশিষ্ট্যের ভিত্তি (বা ক্ষেত্র) জ্যাকার্ডের মতো পোল করা হয়নি, তবে দুটি বস্তুর প্রত্যেকটির নিজস্ব। ফলস্বরূপ, যদি বস্তুগুলি তাদের বৈশিষ্ট্যগুলির সংখ্যার সাথে প্রচুর পরিমাণে পৃথক হয় এবং এর সমস্ত বৈশিষ্ট্য "দরিদ্র" অবজেক্টগুলিকে "ধনী" এর সাথে ভাগ করে নেয় তবে কুলজিনস্কি উচ্চ হবে এবং জ্যাকার্ড মাঝারি হবে।

একটিএকটি+ +একটিএকটি+ +

পুনশ্চ

এটি কি কেবল কিছু ডেটাসেটের জন্য, উভয় বৈশিষ্ট্যের একযোগে অনুপস্থিতি (ঘ) কোনও তথ্য সরবরাহ করে না?

আরও মনে রাখবেন যে আপনি যদি 1+ নামমাত্র গুণাবলী (দ্বিধাত্বক বা বহুবিধ) এর উপর ভিত্তি করে অবজেক্টের মধ্যে সাদৃশ্য গণনা করতে চান তবে এই জাতীয় প্রতিটি পরিবর্তনশীলকে ডামি বাইনারি ভেরিয়েবলের সেটে পুনর্নির্মাণ করুন। তারপরে গণনা করার জন্য প্রস্তাবিত অনুরূপতার পরিমাপটি হবে ডাইস ( যা ডামি ভেরিয়েবলের 1+ সেটগুলির জন্য গণনা করা গেলে ওচিয়াই এবং কুলজেনস্কি -২ এর সমতুল্য)।


2
"ডাইকোটমাস" এর সাথে দুটিরও বেশি বিভাগ সহ শ্রেণিবিন্যাসের জন্য অনুমান অনুসারে বিভিন্ন পদ প্রস্তাবিত হয়েছে। "পলিটোমাস" ভাষাতাত্ত্বিকভাবে "পলিচোটমাস" এর পক্ষে পছন্দনীয়, এটি একটি ভুল অনুমানের উপর ভিত্তি করে তৈরি করা হয়েছে যে "ডাইকোটমাস" দুটি গ্রীক শিকড় "ডি" এবং "চোটোমাস" বিভক্ত করে। "বহু বহুসত্তা" যৌগিক একটি ল্যাটিন মূল ব্যবহার করে ত্রুটি। যদিও পৃথক লাতিন এবং গ্রীক শিকড়ের শব্দগুলি ভাষাবিদদের ঘৃণা থেকে বেঁচে গেছে (উদাহরণস্বরূপ "টেলিভিশন") আমি এখানে "বহুভোজী" ব্যবহারের পরামর্শ দিই।
নিক কক্স

এটি মনে করিয়ে দেওয়ার জন্য আপনাকে ধন্যবাদ। আপনি আসলে যা বলছেন তা আমি আসলে জানতাম এবং নিজেকে খাঁটি হয়ে উঠার চেষ্টা করতাম ... যখন আমি তাড়াহুড়ো করি না। আমি এটি সম্পাদনা করব।
ttnphns

3

সোনার-মানের সাথে বিভাগকে তুলনা করার সময়, imageতিহ্যগত নির্ভুলতার (যেমন রাসেল-রাও) তানিমোটোর সহগের উপযোগিতা চিত্র বিশ্লেষণে স্পষ্ট। এই দুটি চিত্র বিবেচনা করুন:

এখানে চিত্র বর্ণনা লিখুন

বাইনারি 'মাস্কস' এই প্রতিটি চিত্রের মধ্যে আমাদের একই আকারের দুটি বস্তু রয়েছে তবে কিছুটা পৃথক স্থানে রাখা হয়েছে এবং আমরা ওভারল্যাপটি মূল্যায়ন করে এই বস্তুগুলি কতটা আকার এবং অবস্থানের সাথে একরকম হয় তা মূল্যায়ন করতে চাই। সাধারণত একটি (উদাহরণস্বরূপ বেগুনি রঙের মুখোশ) একটি বিভাজন (কম্পিউটার অ্যালগরিদম দ্বারা উত্পাদিত), উদাহরণস্বরূপ এটি মেডিকেল ইমেজ থেকে হৃদয় সনাক্ত করার চেষ্টা হতে পারে। অন্যটি, (যেমন সবুজ) স্বর্ণের মান (অর্থাত্ হৃদপিণ্ড, বিশেষজ্ঞ বিশেষজ্ঞের দ্বারা চিহ্নিত) identified যেখানে সাদা রঙ আছে সেখানে দুটি আকারের ওভারল্যাপ হয়। কালো পিক্সেল ব্যাকগ্রাউন্ড হয়।

দুটি চিত্র একইরকম (যেমন বিভাগের অ্যালগরিদমের ফলাফল, পাশাপাশি সোনার মান উভয় চিত্রের ক্ষেত্রে একই) দ্বিতীয় চিত্রের অনেক পটভূমি "প্যাডিং" ব্যতীত (উদাহরণস্বরূপ এটি দুটি পরীক্ষার সাথে প্রতিনিধিত্ব করতে পারে) দুটি পৃথক এক্স-রে মেশিন, যেখানে ২ য় মেশিনে আরও বেশি দেহের ক্ষেত্র coveringাকা বিস্তৃত রশ্মি ছিল, তবে অন্যথায় উভয় চিত্রের সেটগুলিতে হৃদয়ের আকার একই হয়)।

স্পষ্টতই, যেহেতু উভয় চিত্রের বিভাজন এবং স্বর্ণের মানটি অভিন্ন, আমরা যদি স্বর্ণের মানের সাথে বিভাজনের নির্ভুলতার মূল্যায়ন করি তবে আমরা আমাদের মেট্রিককে উভয় পরীক্ষায় একই 'যথার্থতা' ফলাফল আউটপুট করতে চাই।

তবে, যদি আমরা রাসেল-রাও পদ্ধতির ব্যবহার করে বিভাগের মান নির্ধারণের চেষ্টা করি, আমরা সঠিক চিত্রের জন্য বিভ্রান্তিকরভাবে উচ্চতর নির্ভুলতা পেয়ে যাব (100% এর কাছাকাছি), কারণ "ব্যাকগ্রাউন্ড পিক্সেল সঠিকভাবে ব্যাকগ্রাউন্ড পিক্সেল হিসাবে চিহ্নিত করা হয়েছে" এতে অবদান রাখে সেটগুলির সামগ্রিক নির্ভুলতা এবং ব্যাকগ্রাউন্ড পিক্সেলগুলি অপ্রয়োজনীয়ভাবে দ্বিতীয় সেটে উপস্থাপন করা হয়। চিকিত্সা বিভাগগুলিতে আমরা যে জিনিসগুলির ওভারল্যাপটি মূল্যায়ন করতে চাই সেগুলি প্রায়শই একটি বিশাল ব্যাকগ্রাউন্ডে ক্ষুদ্র ছত্রাক হয়, তাই এটি আমাদের পক্ষে খুব কার্যকর নয়। তদ্ব্যতীত, আমরা যদি একটি বিভাগের অ্যালগরিদমের যথার্থতা অন্যটির সাথে তুলনা করার চেষ্টা করতাম এবং এটি দু'জনকে বিভিন্ন আকারের চিত্রগুলিতে মূল্যায়ন করা হত তবে সমস্যা হতে পারে! (বা, সমতুল্য, বিভিন্ন স্কেলে)এম্বেডিং চিত্রটির স্কেলিং / আকারের সোনার মানের তুলনায় বিভাগের মূল্যায়নে কোনও পার্থক্য করা উচিত নয়!

বিপরীতে, তানিমোটো সহগ ব্যাকগ্রাউন্ড পিক্সেলগুলির যত্ন করে না, এটি 'স্কেল' এ অবিচ্ছিন্ন করে তোলে। তনিমোটো সহগের দিক থেকে যতক্ষণ না এই দুটি সেটের মিল একইরূপে হবে, এটি একটি বিভাজন অ্যালগরিদমের গুণাগুণ মূল্যায়নের জন্য আমাদের আরও বেশি কার্যকর মিলের মেট্রিক হিসাবে ব্যবহার করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.