আমি কীভাবে বড় বিভ্রান্তির ম্যাট্রিকগুলি সহজভাবে পড়তে পারি?


9

আমি সম্প্রতি 369 ক্লাস সহ একটি ডেটাসেট ( লিঙ্ক ) প্রকাশ করেছি । শ্রেণিবদ্ধকরণ কাজটি কতটা কঠিন তার অনুভূতি পেতে আমি তাদের উপর বেশ কয়েকটি পরীক্ষা চালিয়েছি। সাধারণত, আমি এটি পছন্দ করি যদি কোনও ধরণের ত্রুটি হচ্ছে তা দেখার জন্য যদি বিভ্রান্তির ম্যাট্রিক থাকে। যাইহোক, একটি ম্যাট্রিক্স ব্যবহারিক নয়।369×369

বড় কনফিউশন ম্যাট্রিক্সের গুরুত্বপূর্ণ তথ্য দেওয়ার কোনও উপায় আছে কি? উদাহরণস্বরূপ, সাধারণত 0 টি প্রচুর পরিমাণে থাকে যা এত আকর্ষণীয় নয়। ক্লাসগুলি বাছাই করা কি বেশিরভাগ নন-শূন্য এন্ট্রিগুলি তির্যকের চারপাশে থাকে যাতে সম্পূর্ণ বিভ্রান্তির ম্যাট্রিক্সের একটি অংশ এমন একাধিক ম্যাট্রিক দেখায়?

এখানে একটি বড় বিভ্রান্তির ম্যাট্রিক্সের উদাহরণ

বন্য মধ্যে উদাহরণ

ইএমনিস্টের চিত্র 6 দেখতে সুন্দর দেখাচ্ছে:

এখানে চিত্র বর্ণনা লিখুন

যেখানে অনেকগুলি মামলা রয়েছে তা সহজেই দেখা যায়। তবে সেগুলি কেবল ২ শ্রেণি। যদি পুরো পৃষ্ঠাটি কেবলমাত্র একটি কলামের পরিবর্তে ব্যবহার করা হত এটি সম্ভবত তত পরিমাণে 3x হতে পারে, তবে এটি কেবল শ্রেণি হতে পারে। এমনকি HASY এর 369 ক্লাস বা চিত্রনাট্যের 1000 এর কাছাকাছিও নয়।26326=78

আরো দেখুন

সিএস.স্ট্যাকেক্সচেঞ্জে আমার অনুরূপ প্রশ্ন


আমি আপনাকে দুঃখিত ;-) আপনি প্রতিটি ক্লাসের জন্য একটি বনাম বিভ্রান্তির ম্যাট্রিকগুলি চেষ্টা করতে পারেন can তাদের দেওয়া, চেহারা বা শ্রেণিগুলিতে আচরণটি আদর্শ নয় এবং কেবলমাত্র তাদের উপর একটি সম্পূর্ণ বিভ্রান্তির ম্যাট্রিক্স ব্যবহার করুন।
দাও

1
প্রতিটি বিভাগের জন্য কেবল মডেলের যথার্থতা কেন রিপোর্ট করবেন না। আসলে পুরো ম্যাট্রিক্সটি কার দেখার দরকার?
ড্যারিন টমাস

1
@ ড্যারিনথোমাস এটি কেবল একটি কাগজে রিপোর্ট করার বিষয়ে নয়। এটি নিজেও ত্রুটি বিশ্লেষণ সম্পর্কে।
মার্টিন থোমা

1
প্রথমত আপনি সারি অনুসারে মানগুলি স্বাভাবিক করতে পারেন এবং তারপরে এটি হিটম্যাপ হিসাবে প্লট করতে পারেন। আরও, আপনি শ্রেণিবদ্ধ যথাযথতা দ্বারা (শ্রেণীর উপর সাধারণ মানের) শ্রেণিটি সাজান। আমি মনে করি এটি পাঠযোগ্যতা বৃদ্ধি করবে।
নিকোলাস Rieble

1
আমার সম্ভবত এটি গণিত.এসই / স্ট্যাকওভারফ্লোতে জিজ্ঞাসা করা উচিত। আমি নিশ্চিত যে এখানে অ্যালগরিদম রয়েছে যা সারি / কলামগুলি এমনভাবে পুনঃ অর্ডার করে যাতে বেশিরভাগ মানটি তির্যকের নিকটে থাকে।
মার্টিন থোমা

উত্তর:


4

আপনি আমার মাস্টার্স থিসিসে বর্ণিত একটি কৌশল প্রয়োগ করতে পারেন (পৃষ্ঠা 48 ফাফ) এবং কনফিউশন ম্যাট্রিক্স অর্ডারিং (সিএমও) বলেছেন:

  1. কলামগুলি / সারিগুলি এমনভাবে অর্ডার করুন যাতে সর্বাধিক ত্রুটিগুলি তির্যক বরাবর থাকে।
  2. কনফিউশন ম্যাট্রিক্সকে একাধিক ব্লকে বিভক্ত করুন যাতে একক ব্লকগুলি সহজেই মুদ্রণ / দেখাতে পারে - এবং এর ফলে আপনি কয়েকটি ব্লক মুছে ফেলতে পারেন কারণ এখানে খুব কম ডাটা পয়েন্ট রয়েছে।

দুর্দান্ত পার্শ্ব প্রতিক্রিয়া: এই পদ্ধতিটি স্বয়ংক্রিয়ভাবে একই ক্লাসগুলি একসাথে ক্লাস্টার করে। আমার মাস্টার্স থিসিসের চিত্র 5.12 দেখায় যে:

এখানে চিত্র বর্ণনা লিখুন

আপনি এর সাথে বিভ্রান্তির ম্যাট্রিক্স ক্রম প্রয়োগ করতে পারেন clana


একটি বাস্তবায়নের জন্য github.com/MartinThoma/clana দেখুন
মার্টিন থোমা

1

কলাম এবং সারিগুলি পুনরায় অর্ডার করার চেষ্টা করার পরিবর্তে, আমি ডেটাটি ভিজ্যুয়ালাইজ করার জন্য অন্য কোনও উপায় সন্ধান করার পরামর্শ দিচ্ছি।

এখানে একটি সম্ভাব্য বিকল্প পরামর্শ। আপনি ক্লাসগুলি ক্লাস্টার করতে পারেন, 20 ডলার ক্লাস্টারে বলুন, যেখানে প্রতিটি ক্লাস্টারের মধ্যে 20 ডলার ক্লাস রয়েছে, যেখানে একরকম ক্লাস্টারিং অ্যালগরিদম ব্যবহার করে একই ক্লাস্টারে একই ক্লাস একসাথে রাখা হয়েছে (যেমন, যদি দুটি ক্লাস প্রায়শই একে অপরের সাথে বিভ্রান্ত থাকে, তাদের একই ক্লাস্টারে থাকার সম্ভাবনা বেশি হওয়া উচিত)। তারপরে আপনি প্রতি ক্লাস্টারে এক সারি / কলাম সহ একটি মোটা দানাযুক্ত বিভ্রান্তির ম্যাট্রিক্স প্রদর্শন করতে পারেন; সেল এ(আমি,) ক্লাস্টারে কতগুলি শ্রেণীর উদাহরণ দেখা যায় আমি গুচ্ছ মধ্যে কিছু ক্লাস থাকার পূর্বাভাস দেওয়া হয় । এছাড়াও, আপনার কাছে 20 ডলার সূক্ষ্ম দানযুক্ত বিভ্রান্তি ম্যাট্রিক থাকতে পারে: প্রতিটি ক্লাস্টারের জন্য, আপনি প্রতিটি ক্লাস্টারে 20 ডলার ক্লাসের জন্য ক্লাসের বিভ্রান্তির ম্যাট্রিক্স প্রদর্শন করতে পারেন। অবশ্যই, আপনি শ্রেণিবিন্যাসিক ক্লাস্টারিং ব্যবহার করে এটি প্রসারিত করতে এবং একাধিক গ্রানুল্যুলিটিতে কনফিউশন ম্যাট্রিক থাকতে পারে।

পাশাপাশি অন্যান্য সম্ভাব্য দৃশ্য কৌশলও থাকতে পারে।

একটি সাধারণ দার্শনিক পয়েন্ট হিসাবে: এটি আপনার লক্ষ্যগুলি পরিষ্কার করতে সহায়তা করতে পারে (আপনি কী দৃষ্টিভঙ্গি থেকে বেরিয়ে আসতে চান)। আপনি ভিজ্যুয়ালাইজেশনের দুই ধরণের ব্যবহারের পার্থক্য করতে পারেন:

  • অনুসন্ধানী বিশ্লেষণ: আপনি যা খুঁজছেন তা আপনি নিশ্চিত নন; আপনি কেবল একটি ভিজ্যুয়ালাইজেশন চান যা আপনাকে ডেটাতে আকর্ষণীয় নিদর্শন বা শিল্পকর্মগুলির সন্ধানে সহায়তা করতে পারে।

  • একটি বার্তা সহ চিত্রসমূহ: আপনার কাছে একটি নির্দিষ্ট বার্তা রয়েছে যা আপনি পাঠককে সরিয়ে নিতে চান এবং আপনি এমন একটি ভিজ্যুয়ালাইজেশন তৈরি করতে চান যা সেই বার্তাকে সমর্থন করতে বা বার্তার প্রমাণ সরবরাহ করতে সহায়তা করে।

আপনি কোনটির জন্য লক্ষ্য রাখতে চাইছেন তা জানতে এটি আপনাকে সহায়তা করতে পারে এবং তারপরে একটি ভিজ্যুয়ালাইজেশন তৈরি করতে পারে:

  • আপনি যদি একটি নিখুঁত ভিজুয়ালাইজেশন বাছাই করার পরিবর্তে অনুসন্ধানী বিশ্লেষণ করে থাকেন তবে প্রায়শই আপনি যতটা ভিজ্যুয়ালাইজেশন ভাবতে পারেন তা তৈরি করার চেষ্টা করা সহায়ক। তাদের মধ্যে কেউ নিখুঁত কিনা তা নিয়ে চিন্তা করবেন না; যদি প্রত্যেকে ত্রুটিযুক্ত থাকে তবে এটি ঠিক আছে, কারণ প্রত্যেকে আপনাকে ডেটা সম্পর্কে একটি সম্ভাব্য ভিন্ন দৃষ্টিভঙ্গি দিতে পারে (এটি সম্ভবত কিছু উপায়ে ভাল হবে এবং অন্যদের পক্ষে খারাপ হবে)।

  • আপনি যদি একটি নির্দিষ্ট বার্তা প্রকাশ করার চেষ্টা করছেন বা একটি থিম তৈরি করতে চান যা আপনি বিকাশের চেষ্টা করছেন তবে সেই থিমটিকে সমর্থন করে এমন একটি ভিজ্যুয়ালাইজেশন সন্ধান করুন। থিম / বার্তাটি কী হতে পারে তা না জেনে একটি নির্দিষ্ট পরামর্শ দেওয়া শক্ত।


0

EMNIST কনফিউশন ম্যাট্রিক্স কেন ভাল দেখাচ্ছে তা জানা গুরুত্বপূর্ণ important

তবে আমার কাছে এটি অদ্ভুত বলে মনে হয় যে তারা উচ্চতর সংখ্যার অন্ধকারের সাথে রঙিনতা বজায় রাখেনি, উদাহরণস্বরূপ শূন্যগুলি সহ বেশিরভাগ খালি মিস-শ্রেণিবিন্যাসগুলি একটি পূর্ণসংখ্যাযুক্তগুলির চেয়ে গা dark় ধূসর। ধারাবাহিক বলে মনে হচ্ছে না।

আমি ইএমআইএনএসটি স্টাইলটি ব্যবহার করার চেষ্টা করব না যেখানে রঙটি কোনও ঘরে প্রবেশের সংখ্যা নির্দেশ করে consistent শূন্য প্রবেশের জন্য সাদা এবং সর্বাধিক এন্ট্রিগুলির জন্য কালো।

একটি নিখুঁত শ্রেণিবিন্যাস সম্পূর্ণ সাদা উপরের এবং নিম্ন ত্রিভুজ সহ একটি কালো তির্যক হবে। যেখানে ত্রিভুজগুলিতে কোনও ধূসর প্যাচ ছিল তা সমস্যাগুলি নির্দেশ করে। এমনকি 1000 ক্লাস সেট এ এটি সহায়ক হবে। ইমেজনেটের জন্য যেখানে ক্লাসগুলি শ্রেণিবদ্ধ, সম্ভবত কলামগুলি বাছাই করা হয়েছে যাতে সাবক্লাসগুলি প্যারেন্ট ক্লাসের ডানকে গোষ্ঠীযুক্ত করে বর্গাকার অন্ধকার প্যাচগুলিতে নিয়ে যায়।

এছাড়াও যদি আপনি কোনও চিত্রের জন্য শীর্ষ 5 টি প্রতিক্রিয়া পেয়ে থাকেন তবে ক্লাসগুলি পারস্পরিকভাবে একচেটিয়া নাও হতে পারে, যেমন একটি ল্যাপ_ডগের একটি চিত্রের জন্য কুকুর শ্রেণিবিন্যাস এখনও সত্য হওয়া উচিত, সুতরাং এই ধরনের বিভ্রান্তির ম্যাট্রিক্সে আরও সাধারণ শ্রেণিগুলি আরও গা much় হওয়া উচিত সুনির্দিষ্ট শ্রেণিবিন্যাসের তুলনায় (যদি রঙগুলি স্বাভাবিক করা হয়)) সুতরাং উপরের বাম বর্গটি অন্ধকার হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.