শ্রেণিবদ্ধকরণ সমস্যাগুলিতে শ্রেণি বিচ্ছিন্নতার পরিমাপ


11

লিনিয়ার বৈষম্যমূলক শিক্ষার্থীদের মধ্যে শ্রেণি বিচ্ছিন্নতার একটি ভাল পরিমাপের উদাহরণ হ'ল ফিশারের লিনিয়ার বৈষম্য অনুপাত। বৈশিষ্ট্য সেটগুলি লক্ষ্য ভেরিয়েবলগুলির মধ্যে ভাল বর্গ বিভাজন সরবরাহ করে কিনা তা নির্ধারণ করার জন্য কি আরও দরকারী মেট্রিক রয়েছে? বিশেষত, আমি লক্ষ্য শ্রেণীর বিচ্ছেদকে সর্বাধিকীকরণের জন্য ভাল মাল্টিভিয়ারেট ইনপুট বৈশিষ্ট্যগুলি সন্ধান করতে আগ্রহী এবং তারা ভাল পৃথকীকরণ সরবরাহ করে কিনা তা দ্রুত নির্ধারণ করার জন্য একটি অ-রৈখিক / নন-প্যারামেট্রিক ব্যবস্থা নেওয়া ভাল লাগবে।


আমি কারহুনেন লোভে সম্প্রসারণ সম্পর্কে পড়লাম বৈশিষ্ট্য নিষ্কাশনের জন্য শ্রেণি তথ্য ব্যবহারের অনুমতি দেয়। তদুপরি, পিসিএর জন্য এক্সটেনশনগুলি রয়েছে যেমন গ্লোবাল ম্যাট্রিক্সের পরিবর্তে শ্রেণি কোভারিয়েন্স ম্যাট্রিক্সের ওজন গড়ে ব্যবহার করা। এই তথ্য ছাড়াও, আমি আপনার প্রশ্নের সম্ভাব্য উত্তরে আগ্রহী।
জোড়ান

উত্তর:


1

র্যান্ডম অরণ্য থেকে পরিবর্তনশীল গুরুত্বের ব্যবস্থা (ভিআইএম) আপনি যা খুঁজছেন তা হতে পারে। এগুলির দুটি সম্পর্কে একটি সংক্ষিপ্ত বিবরণ একটি পত্রিকায় র্যান্ডম ফরেস্ট মেথডোলজি এবং বোলেস্টিক্স এট আল দ্বারা কম্পিউটারের জৈববিদ্যা এবং বায়োইনফরম্যাটিক্সের উপর জোর দেওয়ার সাথে ব্যবহারিক গাইডেন্সের সংক্ষিপ্ত বিবরণ দেওয়া হয়েছে

গিনি ভিআইএমের ধারণাটি হল আপনি এলোমেলো মানদণ্ড হিসাবে কোনও এলোমেলো বন কতবার একটি নির্দিষ্ট গুণকে ব্যবহার করেছেন তার কয়েকটি পরিসংখ্যান পান। তথ্যগত বৈশিষ্ট্যগুলি এখানে প্রায়শই বেছে নেওয়া হয়।

বিন্যাস VIM ধারণা যে মধ্যবর্তী আরএফ-ক্লাসিফায়ার এর ত্রুটি অনুমান তুলনা করা হয় উপর ভিত্তি করে তৈরি

  • মূল ডেটাসেট এবং
  • একটি কৃত্রিম ডেটাসেট যেখানে এক বৈশিষ্ট্যের মানগুলিকে অনুমতি দেওয়া হয়েছে uted

ফলাফলযুক্ত ত্রুটি-অনুমান-পার্থক্য গুরুত্বপূর্ণ বৈশিষ্ট্যগুলির জন্য বড়।

যতদূর আমি মনে করি, ভিআইএমগুলি বৈশিষ্ট্যগুলির মধ্যে নির্ভরতা আবিষ্কার করতেও ব্যবহার করা যেতে পারে।


0

একটি অনুকূল বৈশিষ্ট্য সেট সন্ধান করা বেশ গণনা ব্যয়বহুল হতে পারে। উপলভ্য সমাধানগুলির প্রধান বিভাগগুলিকে দুটি সেটে বিভক্ত করা যেতে পারে: হয় নির্দিষ্ট শ্রেণিবদ্ধ (আবরণ) বা কিছু মানদণ্ড (ফিল্টার পদ্ধতি) এর উপর ভিত্তি করে বৈশিষ্ট্যগুলির সরল র‌্যাঙ্কিংয়ের সাথে আবদ্ধ।

আপনার প্রয়োজনীয়তার ভিত্তিতে (দ্রুত / অ-প্যারামিট্রিক / নন-লিনিয়ার) সম্ভবত আপনার ফিল্টার পদ্ধতি থেকে প্রার্থী প্রয়োজন। সাহিত্যে বর্ণিতদের বেশ কয়েকটি উদাহরণ রয়েছে । উদাহরণস্বরূপ ইনফরমেশন গেইন - যা ক্লাসের সাথে সম্মানের সাথে তথ্য লাভের পরিমাপ করে একটি গুনের মূল্য নির্ধারণ করে; বা সহাবন্ধিকরণ যা গুণাবলী এবং শ্রেণীর মধ্যে পারস্পরিক সম্পর্কের উপর ভিত্তি করে একটি গুনের মূল্য নির্ধারণ করে।

মোড়কের পদ্ধতিগুলি একটি শ্রেণিবদ্ধের সাথে আবদ্ধ এবং আগ্রহের শ্রেণিবদ্ধের জন্য বৈশিষ্ট্যগুলির আরও ভাল সেট পর্যন্ত শেষ হতে পারে। তাদের প্রকৃতির কারণে (প্রতিটি পুনরাবৃত্তিতে সম্পূর্ণ প্রশিক্ষণ / পরীক্ষা) তারা তাত্ক্ষণিক বা অ-প্যারামিমেট্রিক হিসাবে বিবেচনা করতে পারে না, তবে তারা বৈশিষ্ট্যের অ-রৈখিক সম্পর্কের সাথে ডিল করতে পারে (আপনার তৃতীয় প্রয়োজনীয়তা)। উদাহরণ হ'ল পুনরুক্তিযোগ্য বৈশিষ্ট্য নির্মূলকরণ যা এসভিএমগুলির উপর ভিত্তি করে তৈরি হয়, সুতরাং ক্লাসগুলির মধ্যে মার্জিন সর্বাধিককরণের লক্ষ্যে লক্ষ্য রাখে এবং বৈশিষ্ট্যগুলির অ-লিনিয়ার সম্পর্কগুলি মোকাবেলা করতে পারে (একটি অ-লিনিয়ার কার্নেল ব্যবহার করে)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.