বাইনারি শ্রেণিবদ্ধকরণ অ্যালগরিদম চয়ন করুন


17

আমার একটি বাইনারি শ্রেণিবদ্ধকরণ সমস্যা রয়েছে:

  • প্রশিক্ষণ সেট প্রায় 1000 নমুনা
  • বাইনারি, সংখ্যাগত এবং শ্রেণিবদ্ধ সহ 10 টি বৈশিষ্ট্য

এই ধরণের সমস্যার জন্য কোন অ্যালগরিদম সেরা পছন্দ?

ডিফল্টরূপে আমি এসভিএম (প্রাথমিক স্তরের নামমাত্র বৈশিষ্ট্যগুলির মান বাইনারি বৈশিষ্ট্যগুলিতে রূপান্তরিত) দিয়ে শুরু করতে যাচ্ছি, কারণ এটি তুলনামূলকভাবে পরিষ্কার এবং কোলাহলযুক্ত ডেটার জন্য সেরা হিসাবে বিবেচিত হয়।

উত্তর:


15

আপনার ডেটাसेट সম্পর্কে আরও কিছু না জেনে বলা শক্ত এবং আপনার ডেটাসেটটি কীভাবে পৃথকযোগ্য আপনার বৈশিষ্ট্য ভেক্টরের উপর ভিত্তি করে, তবে আমি সম্ভবত আপনার তুলনামূলকভাবে ছোট নমুনা সেটের কারণে স্ট্যান্ডার্ড এলোমেলো বনের উপর দিয়ে চরম এলোমেলো বন ব্যবহার করার পরামর্শ দেব।

চরম র্যান্ডম অরণ্যগুলি একটি ব্যতিক্রমের সাথে স্ট্যান্ডার্ড র্যান্ডম বনগুলির সাথে বেশ সমান, তবে গাছগুলিতে বিভাজনকে অনুকূলিত করার পরিবর্তে, চরম এলোমেলো অরণ্য এলোমেলোভাবে বিভক্ত করে তোলে। প্রাথমিকভাবে এটি একটি নেতিবাচক বলে মনে হবে তবে এর সাধারণত অর্থ হল আপনার সাধারনত্ব এবং গতি উল্লেখযোগ্যভাবে উন্নত হয়েছে, যদিও আপনার প্রশিক্ষণের সেটটির এটিউসি কিছুটা খারাপ হওয়ার সম্ভাবনা রয়েছে।

এই ধরণের কাজগুলির জন্য লজিস্টিক রিগ্রেশনও বেশ শক্ত বাজি, যদিও আপনার তুলনামূলকভাবে কম মাত্রিকতা এবং ছোট নমুনার আকারের সাথে আমি অত্যধিক মানানসই সম্পর্কে উদ্বিগ্ন হব। আপনি কে-নিকটতম প্রতিবেশীদের ব্যবহার করে দেখতে চেয়েছিলেন যেহেতু এটি প্রায়শই কম মাত্রিক সাথে খুব ইচ্ছা করে তবে এটি সাধারণত শ্রেণীবদ্ধ পরিবর্তনশীলগুলিকে খুব ভালভাবে পরিচালনা করে না।

যদি সমস্যাটি সম্পর্কে আরও কিছু না জেনে আমি একটি বাছাই করতে পারি তবে আমি অবশ্যই আমার বাজিটি চূড়ান্ত এলোমেলো বনের উপর রাখব, কারণ এটি আপনাকে এই জাতীয় ডেটাসেটে ভাল জেনারালাইজেশন দেওয়ার খুব সম্ভবত সম্ভাবনাযুক্ত এবং এটি সংখ্যাসূচক এবং বিভাগীয় ডেটাগুলির মিশ্রণকে আরও ভালভাবে পরিচালনা করে অন্যান্য পদ্ধতির তুলনায়।


ভালো ধন্যবাদ! যদিও এখনও নিশ্চিত না যে আমি ইআরএফ তৈরি করতে "প্যাকেজ" র্যান্ডমফোরস্ট "( cran.r-project.org/web/packages/randomForest/randomForest.pdf ) ব্যবহার করতে পারি কিনা । সম্ভবত না.
ইহারস

12

নিম্ন পরামিতিগুলির জন্য, বেশ সীমাবদ্ধ নমুনার আকার এবং বাইনারি শ্রেণিবদ্ধকারী লজিস্টিক রিগ্রেশন যথেষ্ট পরিমাণে শক্তিশালী হওয়া উচিত। আপনি আরও উন্নত অ্যালগরিদম ব্যবহার করতে পারেন তবে এটি সম্ভবত ওভারকিল।


5

শ্রেণীবদ্ধ ভেরিয়েবলগুলি যখন মিশ্রণে থাকে, আমি র্যান্ডম ডিসিশন ফরেস্টের কাছে পৌঁছে যাই কারণ এটি 1-অফ-এন এনকোডিং রূপান্তর ছাড়াই শ্রেণিবদ্ধ ভেরিয়েবলগুলি পরিচালনা করে। এটি কম তথ্য হারাতে।


5

লিনিয়ার এসভিএম ভাল সূচনা পয়েন্ট হওয়া উচিত। সঠিক অনুমানকারী চয়ন করতে এই গাইডটি দেখুন ।


2

প্রথমে জটিল পদ্ধতি ব্যবহারের পরামর্শ দিবেন না। প্রথম দিকে (কেএনএন, এনবিসি, ইত্যাদি) দ্রুত সহজ পদ্ধতির ব্যবহার করুন, তারপরে লিনিয়ার রিগ্রেশন, লজিস্টিক রিগ্রেশন, এলডিএ, কার্ট (আরএফ), কেআরজি এবং তারপরে কমপক্ষে স্কোভ এসভিএম, গ্রেডিয়েন্ট অ্যাসেন্ট এসভিএম, এএনএন, এবং তারপরে মেটাহিউরাস্টিক্স (লোভী) জিএ, ঝাঁকির বুদ্ধিমত্তা, পিঁপড়া কলোনী অপ্টিমাইজেশন ইত্যাদির সাথে হাইরিস্টিক হিলি ক্লাইম্বিং)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.