সর্বাধিক ব্যাখ্যামূলক শ্রেণিবদ্ধকরণ মডেল


10

সিদ্ধান্ত গাছ এবং লজিস্টিক রিগ্রেশন ব্যতীত অন্যান্য শ্রেণিবদ্ধকরণের মডেলগুলি কী ভাল ব্যাখ্যা দেয়? আমি নির্ভুলতা বা অন্যান্য পরামিতিগুলিতে আগ্রহী নই, কেবল ফলাফলগুলির ব্যাখ্যাটি গুরুত্বপূর্ণ।


আপনার সঠিকতা বা প্যারামিটারে কমপক্ষে কিছুটা আগ্রহী হওয়া উচিত। নইলে মোটেও শ্রেণিবিন্যাস কেন বিরক্ত করবেন?
কোডিওলজিস্ট

বৈশিষ্ট্য এবং শ্রেণীগুলির মধ্যে সম্পর্কটি দেখতে আপনি কি এতে আগ্রহী?
সেম কল্যাঙ্কু

@ কেমকল্যাঙ্কু হ্যাঁ, এটিও ব্যাখ্যার অংশ।
মিরোস্লাভ সাবো

উত্তর:


30

1) আমি যুক্তি দেব যে সিদ্ধান্ত গাছগুলি ততটা ব্যাখ্যাযোগ্য হয় না যতটা লোকেরা তাদের তৈরি করে দেয়। তারা চেহারা , interpretable যেহেতু প্রতিটি নোডের একটি সহজ, বাইনারি সিদ্ধান্ত। সমস্যাটি হ'ল আপনি যখন গাছের নীচে যাবেন, প্রতিটি নোড এটির উপরে প্রতিটি নোডে শর্তযুক্ত। আপনার গাছটি যদি মাত্র চার বা পাঁচ স্তর গভীর হয় তবে একটি টার্মিনাল নোডের পাথ (চার বা পাঁচটি বিভাজন) কে ব্যাখ্যাযোগ্য কিছুতে রূপান্তর করা এখনও খুব কঠিন নয় (উদাহরণস্বরূপ "এই নোড দীর্ঘমেয়াদী গ্রাহকদের প্রতিফলিত করে যারা একাধিক অ্যাকাউন্টে উচ্চ-আয়ের পুরুষদের হয়) "), তবে একাধিক টার্মিনাল নোডের ট্র্যাক রাখার চেষ্টা করা কঠিন।

আপনাকে যা করতে হবে তা যদি কোনও ক্লায়েন্টকে বোঝানো হয় যে আপনার মডেলটি ব্যাখ্যাযোগ্য ("দেখুন, এখানে প্রতিটি চেনাশোনাতে একটি সাধারণ হ্যাঁ / কোনও সিদ্ধান্ত নেই, বোঝা সহজ, না?") তবে আমি সিদ্ধান্তের গাছগুলি আপনার তালিকায় রাখব । আপনি যদি ক্রিয়াযোগ্য ব্যাখ্যাযোগ্যতা চান তবে আমি পরামর্শ দেব তারা সম্ভবত এই কাটা না তৈরি করে।

2) অন্য ইস্যুটি "ফলাফলগুলির ব্যাখ্যাযোগ্যতা" বলতে কী বোঝায় তা স্পষ্ট করে দিচ্ছে। আমি চারটি প্রসঙ্গে ব্যাখ্যায় পরিণত করেছি:

  1. ক্লায়েন্ট পদ্ধতিটি বুঝতে সক্ষম হচ্ছেন। (আপনি যা জিজ্ঞাসা করছেন তা নয়)) এলোমেলোভাবে একটি এলোমেলো বনটি খুব সোজাভাবে ব্যাখ্যাযোগ্য এবং বেশিরভাগ ক্লায়েন্ট এটিকে সহজভাবে ব্যাখ্যা করার পরে এটিতে স্বাচ্ছন্দ্য বোধ করে।

  2. পদ্ধতিটি কোনও মডেলকে কীভাবে ফিট করে তা ব্যাখ্যা করে। (আমার কাছে একজন ক্লায়েন্ট ছিলেন যারা জোর দিয়েছিলেন যে আমি সিদ্ধান্তের গাছ কীভাবে লাগিয়েছি কারণ তারা অনুভব করেছিল যে এটি ফলাফলকে আরও বুদ্ধিমানের সাথে কীভাবে ব্যবহার করতে পারে তা বুঝতে সহায়তা করবে I আমি খুব সুন্দর রাইটিংআপ করার পরে, প্রচুর চমৎকার ডায়াগ্রাম দিয়ে, তারা বিষয়টি বাদ দিলেন। এটি মোটেও ব্যাখ্যা / বোঝার পক্ষে সহায়ক নয়)) আবার, আমি বিশ্বাস করি এটি আপনি যা বলছেন তা নয়।

  3. একবার কোনও মডেল লাগানো হলে, ভবিষ্যদ্বাণীকারীদের সম্পর্কে মডেল "বিশ্বাস" বা "কী" বলে তা ব্যাখ্যা করে। এখানেই যেখানে সিদ্ধান্তের গাছটি ব্যাখ্যামূলক বলে মনে হয় তবে এটি প্রথম ইমপ্রেশনগুলির চেয়ে জটিল। লজিস্টিক রিগ্রেশন এখানে মোটামুটি সোজা।

  4. যখন কোনও নির্দিষ্ট ডেটা পয়েন্ট শ্রেণিবদ্ধ করা হয়, তখন কেন সিদ্ধান্ত নেওয়া হয়েছিল তা ব্যাখ্যা করে। আপনার যৌক্তিক প্রতিরোধ কেন এটি জালিয়াতির 80% সম্ভাবনা বলে? আপনার সিদ্ধান্ত গাছ কেন এটি কম ঝুঁকিপূর্ণ বলে? ক্লায়েন্ট যদি টার্মিনাল নোডের দিকে পরিচালিত সিদ্ধান্ত নোডগুলি মুদ্রণ করে সন্তুষ্ট হন তবে সিদ্ধান্তের গাছের পক্ষে এটি সহজ। যদি "কেন" মানব বক্তৃতার সংক্ষিপ্ত বিবরণ প্রয়োজন ("এই ব্যক্তিকে স্বল্প ঝুঁকির সাথে রেট দেওয়া হয় কারণ তারা দীর্ঘ মেয়াদী পুরুষ গ্রাহক, যাদের আমাদের ফার্মের সাথে উচ্চ-আয়ের এবং একাধিক অ্যাকাউন্ট রয়েছে"), এটি অনেক বেশি শক্ত।

সুতরাং ব্যাখ্যা বা ব্যাখ্যাযোগ্যতার এক পর্যায়ে (উপরে # 1 # 4, উপরে উপরে), কে-নিকটবর্তী প্রতিবেশী সহজ: "এই গ্রাহককে উচ্চ ঝুঁকি বলে গণ্য করা হয়েছিল কারণ 10 টি গ্রাহকের মধ্যে 8 জন যাঁর পূর্বে মূল্যায়ন করা হয়েছিল এবং বেশিরভাগই ছিলেন এক্স, ওয়াই, এবং জেডের ক্ষেত্রে তাদের মতোই উচ্চ ঝুঁকিপূর্ণ হিসাবে দেখা গেছে। " ক্রিয়াযোগ্য, পূর্ণ স্তরের # 4 এ, এটি এতটা ব্যাখ্যামূলক নয়। (আমি অন্য 8 টি গ্রাহককে তাদের কাছে আসলে উপস্থাপিত করার কথা ভেবেছি, তবে তাদের সেই গ্রাহকদের কী মিল রয়েছে তা ম্যানুয়ালি সনাক্ত করার জন্য তাদের সেই গ্রাহকদের কাছে ড্রিল করতে হবে এবং এইভাবে রেটযুক্ত গ্রাহকটি তাদের সাথে কী মিল রয়েছে তা বোঝাতে হবে))

সংবেদনশীলতা-বিশ্লেষণের মতো পদ্ধতিগুলি ব্যবহার করার বিষয়ে আমি সম্প্রতি বেশ কয়েকটি কাগজ পড়েছি # 4 টাইপের স্বয়ংক্রিয় ব্যাখ্যা নিয়ে আসতে চেষ্টা করব। যদিও আমার হাতে কিছু নেই। কেউ মন্তব্য করতে কিছু লিঙ্ক নিক্ষেপ করতে পারেন?


1
প্রযুক্তিগতভাবে অসম্পূর্ণ এবং / অথবা অসংখ্য শ্রোতার কাছে বিশ্লেষণ উপস্থাপনের শিল্প সম্পর্কে দুর্দান্ত, চিন্তাশীল মন্তব্য।
মাইক হান্টার

1
+6, মোটামুটি সরল, সোজাসাপ্টা প্রশ্নের একটি বিস্তৃত এবং অন্তর্দৃষ্টিপূর্ণ উত্তর। কয়েক দিনের মধ্যে আমাকে স্মরণ করিয়ে দিন এবং আমি এটিতে একটি অনুদান রাখব।
গুং - মনিকা পুনরায়

@ ওয়েইন, এখানে একটি কাগজ যা # 4: arxiv.org/abs/1602.04938
উন্মাদনা

7

এটি আপনি যে ডেটা ব্যবহার করছেন তার উপর নির্ভর করে। আপনি যদি নির্ভুলতায় আগ্রহী না হন তবে আমি বিশ্বাস করি যে অ্যালগরিদমের ডেটা এবং কর্মক্ষমতা ব্যাখ্যা করার জন্য ডেটা এবং শ্রেণিবিন্যাসের ভিজ্যুয়ালাইজেশন অন্যতম সেরা উপায় ways

এখানে বিভিন্ন শ্রেণিবদ্ধের উদাহরণ তুলনা করা হল। প্রতিটি সারি আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা ডেটা সমেত একটি আলাদা ডেটা সেট। প্রতিটি কলাম হ'ল প্রতিটি শ্রেণিবদ্ধের ভিজ্যুয়ালাইজেশন।

এখানে চিত্র বর্ণনা লিখুন

http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html


5

বৈষম্যমূলক বিশ্লেষণ হ'ল মূল শ্রেণিবদ্ধকরণ মডেল, আরএ ফিশারের একশত বছর পূর্বে ( https://en.wikedia.org/wiki/Linear_discriminant_analysis )। এটি আজকালকার মেশিন এবং পরিসংখ্যানগত শিক্ষার মডেলগুলির জগতে প্রায়শই উপেক্ষা করা হয়, যা সাম্প্রতিকতম জারগনের সাথে আরও সামঞ্জস্যপূর্ণ এমন পদ্ধতির দ্বারা এগিয়ে যায়।

এই কাগজটি জার্নাল অফ মেশিন লার্নিংয়ে ছিল এবং কিছু অন্যান্য পদ্ধতির লন্ড্রি তালিকা রয়েছে, আমাদের কি বাস্তব শতাব্দীর শ্রেণিবিন্যাস সমস্যার সমাধানের জন্য কয়েকশ শ্রেণিবদ্ধ দরকার? http://jmlr.org/papers/volume15/delgado14a/delgado14a.pdf


0

বৈশিষ্ট্য এবং শ্রেণীর মধ্যে সম্পর্ক সন্ধান করতে আপনি একটি সম্পর্ক পদ্ধতি ব্যবহার করতে পারেন। শ্রেণীর সাথে কোনও বৈশিষ্ট্য সম্পর্কিত কিনা তা জানতে আপনি চি স্কোয়ার পদ্ধতিতেও নিয়োগ করতে পারেন। এটি করার জন্য, আপনার ক্লাস লেবেল সমতা ব্যবহার করা উচিত। উদাহরণস্বরূপ, আপনি যদি বৈশিষ্ট্য 1 এবং ক্লাস 1 পরীক্ষা করে দেখেন তবে আপনার বৈশিষ্ট্য 1 এর জন্য বিনিং সঞ্চালন করা উচিত এবং বেনড সম্ভাব্যতা এবং একটি সদস্যপদ ভেরিয়েবলের মধ্যে চি 2 ulate গণনা করা উচিত যা অন্যথায় 1 বর্গের 0 হলে 1 এর মান থাকে। এইভাবে, যদি ক্লাস 1 হচ্ছে বৈশিষ্ট্য 1 এর উপর নির্ভরশীল হয় তবে কিছু বিনের ক্লাস 1 হওয়ার উচ্চ হার থাকবে তবে কিছু বিনের কম থাকবে।

একটি অতিরিক্ত পদ্ধতি যা আমি মাঝারি সাফল্যের সাথে চেষ্টা করেছি তা হ'ল একটি শ্রেণীর কোনও বৈশিষ্ট্যকে সাধারণ বিতরণে ফিট করা। তারপরে ক্লাসে প্রতিটি নমুনার জন্য, বন্টন পর্যন্ত নমুনার ফিটনেস দ্বারা বৈশিষ্ট্যের স্কোরটি উন্নত করুন। ক্লাসে নেই প্রতিটি নমুনার জন্য, ফিটনেসের জন্য বৈশিষ্ট্যটিকে দন্ডিত করুন। স্পষ্টতই আপনার ক্লাসে নেই এবং কতগুলি নমুনা রয়েছে তার সংখ্যাটি স্বাভাবিক করার দরকার। এটি কেবলমাত্র সাধারণ বিতরণের কাছাকাছি বিতরণ করা এমন বৈশিষ্ট্যগুলিতে কাজ করে। আমি প্রতিটি ক্লাসের জন্য বৈশিষ্ট্য অনুযায়ী স্কোর নির্ধারণ করতে এই পদ্ধতিটি ব্যবহার করেছি।


0

কারও নিকটতম নিকটবর্তী শ্রেণিবদ্ধকরণ উল্লেখ নেই। এটি ব্যাখ্যা করা খুব সহজ; এটি পর্যবেক্ষণের নিকটবর্তী পর্যবেক্ষণগুলির মধ্যে সর্বাধিক সাধারণ শ্রেণি অনুযায়ী শ্রেণিবদ্ধ করা হয়। আমরা সাধারণভাবে নিকটতম প্রতিবেশীদের সন্ধানের জন্য বেছে নিই যাতে ভাঙ্গার কোনও সম্পর্ক নেই।


2
> কারও নিকটতম নিকটবর্তী শ্রেণিবিন্যাস উল্লিখিত হয়নি। সত্যি? আপনার আবার উত্তরগুলি পড়া উচিত।
অ্যালেও

ঠিক আছে, আমি অনুমান করি যে একটি প্লটের প্রান্তিক লেবেলটি কেবল গণনা করি। তবুও, এনএন সেখানকার সবচেয়ে সহজ-ব্যাখ্যা করার পদ্ধতি সম্পর্কে বিশেষত যদি আপনার শ্রোতাগুলি গাণিতিক নয়।
জেডিএল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.