প্রথম চেষ্টা করার জন্য শীর্ষ পাঁচটি শ্রেণিবদ্ধী


25

মত স্পষ্ট শ্রেণিবদ্ধ বৈশিষ্ট্য ছাড়াও

  • গণনা ব্যয়,
  • বৈশিষ্ট্য / লেবেলগুলির প্রত্যাশিত ডেটা এবং
  • নির্দিষ্ট আকারের এবং ডেটা সেটগুলির মাত্রার জন্য উপযুক্ততা,

শীর্ষে থাকা পাঁচটি (বা 10, 20?) শ্রেণিবদ্ধকারীরা কোন নতুন ডেটা সেট করতে প্রথমে চেষ্টা করার জন্য এখনও কোনওটি জানেন না (যেমন শব্দার্থক এবং স্বতন্ত্র বৈশিষ্ট্যের পারস্পরিক সম্পর্ক)? সাধারণত আমি নাইভ বেয়েস, নিকটবর্তী নিকটবর্তী, সিদ্ধান্ত গাছ এবং এসভিএম চেষ্টা করি - যদিও আমি তাদের চিনি এবং এগুলি কীভাবে কাজ করে তা বেশিরভাগ ক্ষেত্রেই বোঝা ছাড়া আমার এই নির্বাচনের কোনও ভাল কারণ নেই।

আমি অনুমান করি যে কোনও একটি শ্রেণিবদ্ধ নির্বাচন করা উচিত যা সবচেয়ে সাধারণ সাধারণ শ্রেণিবদ্ধকরণ পদ্ধতির অন্তর্ভুক্ত করে। সেই মানদণ্ড অনুসারে বা অন্য কোনও কারণে আপনি কোন নির্বাচনের প্রস্তাব করবেন?


আপডেট: এই প্রশ্নের বিকল্প গঠন হতে পারে: "শ্রেণিবিন্যাসের জন্য কোন সাধারণ পন্থা বিদ্যমান এবং কোন নির্দিষ্ট পদ্ধতিগুলি সবচেয়ে গুরুত্বপূর্ণ / জনপ্রিয় / প্রতিশ্রুতিবদ্ধকে অন্তর্ভুক্ত করে?"


আমি মনে করি এটি ( stats.stackexchange.com/questions/3458/… ) এর সদৃশ । এখানে প্রশ্নের একমাত্র অতিরিক্ত মান হতে পারে "শ্রেণিবদ্ধ নির্বাচনের জন্য মানদণ্ড" (যা প্রশ্নটি খুব সাধারণ তৈরি করবে)। যদি এটি সদৃশ হয় তবে
নিকটকে

@ স্টেফেন: আপনার রেফারেন্স করা প্রশ্নটি সহায়ক, যদিও আমি মনে করি এটি কোনও সদৃশ নয়। আসলে আমার প্রশ্ন বরং জেনেরিক। আমি কোনও নির্দিষ্ট সমস্যার সমাধান খুঁজছি না তবে সাধারণ কারণগুলির জন্য কেন কোন শিক্ষার্থী ব্যবহার করব - আমি সেই অনুযায়ী আমার প্রশ্নটি আপডেট করব।
ওবেন স্নে

উত্তর:


21

র্যান্ডম বন

দ্রুত, মজবুত, ভাল নির্ভুলতা, বেশিরভাগ ক্ষেত্রেই সুরের কিছু নেই, কোনও স্বাভাবিককরণের প্রয়োজন নেই, কোলিনারিটির প্রতিরোধ ক্ষমতা নেই, প্রশিক্ষণের পার্শ্ব প্রতিক্রিয়া হিসাবে তুচ্ছ সমান্তরাল হিসাবে যথেষ্ট ভাল ত্রুটির সান্নিধ্য এবং দরকারী গুরুত্বপূর্ণ র‌্যাঙ্কিং তৈরি করে, একটি চোখের পলকে ভবিষ্যদ্বাণী করে।

ত্রুটি: কেএনএন বা এনবি এর মতো তুচ্ছ পদ্ধতিগুলির চেয়ে ধীর গতির, সমান শ্রেণির সাথে সবচেয়ে ভাল কাজ করে, এসএনএমের চেয়ে তাত্ক্ষণিকভাবে কার্নেল ট্রিকের প্রয়োজন মজাদার সমস্যাগুলির জন্য, একটি শক্ত কালো-বাক্স, কফি তৈরি করে না।


1
@ এমবিকিউ (+1) ক্লাসের ভারসাম্যহীনতা সম্পর্কে, আমরা এখনও ব্যাগিংয়ের সময় স্তরিত নমুনার উপর নির্ভর করতে পারি।
chl

3
@ এমবিকিউ, কফি বানায় না? এটি ঠিক সেখানে একটি চুক্তি-ব্রেকার।
কার্ডিনাল

র্যান্ডম অরণ্যের প্রতি ইঙ্গিত দেওয়ার জন্য ধন্যবাদ । তবে আপনি কি কেবল তাদের চেষ্টা করবেন? আপনি যদি ফলাফল নিয়ে খুশি না হন তবে কী করবেন? আপনি অন্য কোন শ্রেণিবদ্ধের চেষ্টা করবেন? অথবা, যদি কেউ জিজ্ঞাসা করে আপনি কী জবাব দেবেন: "আপনি অন্য পদ্ধতি কেন চেষ্টা করলেন না?"
ওবেন সোনি

@ ওবেন ওয়েল, আমি বুঝতে পেরেছি আপনি এক ধরণের এক-শ্রেণিবদ্ধ-প্রতি-উত্তর পুল তৈরি করছেন।

@ এমবিকিউ: সত্যই নয়, তবে এটি এমন একটি পুল হতে পারে। সম্ভবত আমি প্রশ্নে নিজেকে যথেষ্ট পরিষ্কার করতে পারি নি। প্রকৃতপক্ষে আমি জানতে চেয়েছিলাম যে কোন শ্রেণিবদ্ধের কোনটি প্রথমে চেষ্টা করা উচিত, বিভিন্ন সাধারণ শ্রেণিবদ্ধকরণ পদ্ধতিগুলি (বিভিন্ন শক্তি এবং দুর্বলতা সহ) কভার করতে। আমি সবসময় নিজেকে জিজ্ঞাসা করি আমার আরও শ্রেণিবদ্ধ করার চেষ্টা করা উচিত নয় কিনা। যেগুলি আমি ইতিমধ্যে চেষ্টা করেছি সেগুলি সবচেয়ে সাধারণ / প্রতিশ্রুতিবদ্ধ পদ্ধতির প্রতিনিধিত্ব করে এখানে সহায়তা করবে ing তবে তার জন্য আমার জানা দরকার যে কোন শ্রেণিবদ্ধের জন্য এটি সত্য। (আমি পরিসংখ্যান বিশেষজ্ঞ হতে অনেক দূরে, সুতরাং আমার
মনটি

7

হাইপার-প্যারামিটারগুলির অপ্টিমাইজেশনের পরিবর্তে প্রান্তিককরণের সাথে গাউসীয় প্রক্রিয়া শ্রেণিবদ্ধকারী (ল্যাপ্লেস আনুমানিক ব্যবহার না করে)। কেন?

  1. কারণ তারা একটি সম্ভাব্য শ্রেণিবিন্যাস দেয়
  2. আপনি একটি কার্নেল ফাংশন ব্যবহার করতে পারেন যা আপনাকে সরাসরি ভেক্টোরিয়াল ডেটাতে পরিচালনা করতে এবং / বা বিশেষজ্ঞের জ্ঞানকে অন্তর্ভুক্ত করতে দেয়
  3. তারা সঠিকভাবে মডেল ফিট করার অনিশ্চয়তার সাথে মোকাবিলা করে এবং আপনি সিদ্ধান্ত গ্রহণের প্রক্রিয়া অবধি সেই অনিশ্চয়তা প্রচার করতে পারেন
  4. সাধারণত খুব ভাল ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্স।

downsides

  1. ধীর
  2. প্রচুর স্মৃতি দরকার
  3. বড় আকারের সমস্যার জন্য ব্যবহারিক।

প্রথম পছন্দটি যদিও লজিস্টিক রিগ্রেশন বা রিজ রিগ্রেশনকে নিয়মিত করা হবে [বৈশিষ্ট্য নির্বাচন ছাড়াই] - বেশিরভাগ সমস্যার জন্য খুব সাধারণ অ্যালগরিদমগুলি বরং ভাল কাজ করে এবং ভুল পেতে আরও কঠিন হয় (অনুশীলনে আলগোরিদিমগুলির মধ্যে পারফরম্যান্সের পার্থক্য পারফরম্যান্সের পার্থক্যের চেয়ে ছোট হয়) অপারেটর তাদের ড্রাইভিং মধ্যে)।


1

আমার দ্বারা যখন আপনি একটি নতুন ডেটা সেটে পৌঁছাচ্ছেন তখন আপনার পুরো সমস্যাটি দেখা শুরু করা উচিত। প্রথমে প্রতিটি ধারাবাহিক বৈশিষ্ট্যের জন্য শ্রেণিবদ্ধ বৈশিষ্ট্য এবং গড় এবং মানক বিচ্যুতিগুলির জন্য বিতরণ পান। তারপর:

  • এক্স-এরও বেশি অনুপস্থিত মান সহ বৈশিষ্ট্যগুলি মুছুন;
  • শ্রেণীবদ্ধ বৈশিষ্ট্যগুলি মুছুন যখন কোনও নির্দিষ্ট মান আপেক্ষিক ফ্রিকোয়েন্সির 90-95% বেশি পায়;
  • সিভি = স্ট্যান্ড / গড় <0.1 দিয়ে অবিচ্ছিন্ন বৈশিষ্ট্যগুলি মুছুন;
  • একটি প্যারামিটার র‌্যাঙ্কিং পান, যেমন অবিচ্ছিন্ন জন্য আনোভা এবং শ্রেণিবদ্ধের জন্য চি-স্কোয়ার;
  • বৈশিষ্ট্যগুলির একটি উল্লেখযোগ্য উপসেট পান;

তারপরে আমি সাধারণত শ্রেণিবদ্ধকরণ কৌশলগুলিকে 2 সেটে বিভক্ত করি: সাদা বাক্স এবং ব্ল্যাক বক্স কৌশল। আপনার যদি প্রথম শ্রেণিতে শ্রেণীবদ্ধকারী কীভাবে কাজ করে তা জানতে প্রয়োজন, যেমন সিদ্ধান্ত-গাছ বা নিয়ম-ভিত্তিক শ্রেণিবদ্ধ।

আপনার যদি কোনও মডেল তৈরি না করেই নতুন রেকর্ডগুলি শ্রেণীবদ্ধ করার প্রয়োজন হয় তবে আগ্রহী শিক্ষার্থীর দিকে নজর দেওয়া উচিত, যেমন কেএনএন।

এর পরে আমি মনে করি নির্ভুলতা এবং গতির মধ্যে একটি প্রান্তিক হওয়া ভাল: নিউরাল নেটওয়ার্ক এসভিএম এর চেয়ে কিছুটা ধীর।

এটি আমার শীর্ষ পাঁচটি শ্রেণিবদ্ধকরণ কৌশল:

  1. সিদ্ধান্ত গাছ;
  2. বিধি ভিত্তিক শ্রেণিবদ্ধকারী;
  3. এসএমও (এসভিএম);
  4. নাইভ বয়েস;
  5. নিউরাল নেটওয়ার্ক.

4
-1 বড় বড় পি এন এর জন্য একেবারে ভুল কর্মপ্রবাহ, এফএস ওভারফিটিং গ্যারান্টিযুক্ত।

1
কেএনএন কোনও উত্সাহী ব্যক্তির চেয়ে অলস শিক্ষানবিশ নয় (যেমন আপনি শ্রেণীবদ্ধের কোনও প্যাটার্নটি উপস্থিত হওয়ার আগে আসলেই কিছু না করেন)? ক্লাসিফায়ার প্রয়োগের আগে আপনি যে কোনও প্রাক-প্রসেসিংয়ের ক্ষেত্রে শ্রেণিবদ্ধের মধ্যে পার্থক্যের চেয়ে পারফরম্যান্সে আরও বেশি প্রভাব ফেলতে পারেন; বৈশিষ্ট্য নির্বাচন বিশেষতঃ কঠিন (সহজেই ওভার-ফিটিংয়ের দিকে নিয়ে যায়) এবং নিয়মিতকরণ সহ এসভিএমের মতো পদ্ধতিগুলি বৈশিষ্ট্য নির্বাচন ছাড়াই সাধারণত আরও ভাল সম্পাদন করে। আমি অবশ্যই নিউরাল নেটওয়ার্কগুলির সুপারিশ করবো না, অনেক বেশি সম্ভাব্য সমস্যাগুলি।
ডিকরান মার্সুপিয়াল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.