সিদ্ধান্ত গাছ এবং লজিস্টিক রিগ্রেশন ব্যতীত অন্যান্য শ্রেণিবদ্ধকরণের মডেলগুলি কী ভাল ব্যাখ্যা দেয়? আমি নির্ভুলতা বা অন্যান্য পরামিতিগুলিতে আগ্রহী নই, কেবল ফলাফলগুলির ব্যাখ্যাটি গুরুত্বপূর্ণ।
সিদ্ধান্ত গাছ এবং লজিস্টিক রিগ্রেশন ব্যতীত অন্যান্য শ্রেণিবদ্ধকরণের মডেলগুলি কী ভাল ব্যাখ্যা দেয়? আমি নির্ভুলতা বা অন্যান্য পরামিতিগুলিতে আগ্রহী নই, কেবল ফলাফলগুলির ব্যাখ্যাটি গুরুত্বপূর্ণ।
উত্তর:
1) আমি যুক্তি দেব যে সিদ্ধান্ত গাছগুলি ততটা ব্যাখ্যাযোগ্য হয় না যতটা লোকেরা তাদের তৈরি করে দেয়। তারা চেহারা , interpretable যেহেতু প্রতিটি নোডের একটি সহজ, বাইনারি সিদ্ধান্ত। সমস্যাটি হ'ল আপনি যখন গাছের নীচে যাবেন, প্রতিটি নোড এটির উপরে প্রতিটি নোডে শর্তযুক্ত। আপনার গাছটি যদি মাত্র চার বা পাঁচ স্তর গভীর হয় তবে একটি টার্মিনাল নোডের পাথ (চার বা পাঁচটি বিভাজন) কে ব্যাখ্যাযোগ্য কিছুতে রূপান্তর করা এখনও খুব কঠিন নয় (উদাহরণস্বরূপ "এই নোড দীর্ঘমেয়াদী গ্রাহকদের প্রতিফলিত করে যারা একাধিক অ্যাকাউন্টে উচ্চ-আয়ের পুরুষদের হয়) "), তবে একাধিক টার্মিনাল নোডের ট্র্যাক রাখার চেষ্টা করা কঠিন।
আপনাকে যা করতে হবে তা যদি কোনও ক্লায়েন্টকে বোঝানো হয় যে আপনার মডেলটি ব্যাখ্যাযোগ্য ("দেখুন, এখানে প্রতিটি চেনাশোনাতে একটি সাধারণ হ্যাঁ / কোনও সিদ্ধান্ত নেই, বোঝা সহজ, না?") তবে আমি সিদ্ধান্তের গাছগুলি আপনার তালিকায় রাখব । আপনি যদি ক্রিয়াযোগ্য ব্যাখ্যাযোগ্যতা চান তবে আমি পরামর্শ দেব তারা সম্ভবত এই কাটা না তৈরি করে।
2) অন্য ইস্যুটি "ফলাফলগুলির ব্যাখ্যাযোগ্যতা" বলতে কী বোঝায় তা স্পষ্ট করে দিচ্ছে। আমি চারটি প্রসঙ্গে ব্যাখ্যায় পরিণত করেছি:
ক্লায়েন্ট পদ্ধতিটি বুঝতে সক্ষম হচ্ছেন। (আপনি যা জিজ্ঞাসা করছেন তা নয়)) এলোমেলোভাবে একটি এলোমেলো বনটি খুব সোজাভাবে ব্যাখ্যাযোগ্য এবং বেশিরভাগ ক্লায়েন্ট এটিকে সহজভাবে ব্যাখ্যা করার পরে এটিতে স্বাচ্ছন্দ্য বোধ করে।
পদ্ধতিটি কোনও মডেলকে কীভাবে ফিট করে তা ব্যাখ্যা করে। (আমার কাছে একজন ক্লায়েন্ট ছিলেন যারা জোর দিয়েছিলেন যে আমি সিদ্ধান্তের গাছ কীভাবে লাগিয়েছি কারণ তারা অনুভব করেছিল যে এটি ফলাফলকে আরও বুদ্ধিমানের সাথে কীভাবে ব্যবহার করতে পারে তা বুঝতে সহায়তা করবে I আমি খুব সুন্দর রাইটিংআপ করার পরে, প্রচুর চমৎকার ডায়াগ্রাম দিয়ে, তারা বিষয়টি বাদ দিলেন। এটি মোটেও ব্যাখ্যা / বোঝার পক্ষে সহায়ক নয়)) আবার, আমি বিশ্বাস করি এটি আপনি যা বলছেন তা নয়।
একবার কোনও মডেল লাগানো হলে, ভবিষ্যদ্বাণীকারীদের সম্পর্কে মডেল "বিশ্বাস" বা "কী" বলে তা ব্যাখ্যা করে। এখানেই যেখানে সিদ্ধান্তের গাছটি ব্যাখ্যামূলক বলে মনে হয় তবে এটি প্রথম ইমপ্রেশনগুলির চেয়ে জটিল। লজিস্টিক রিগ্রেশন এখানে মোটামুটি সোজা।
যখন কোনও নির্দিষ্ট ডেটা পয়েন্ট শ্রেণিবদ্ধ করা হয়, তখন কেন সিদ্ধান্ত নেওয়া হয়েছিল তা ব্যাখ্যা করে। আপনার যৌক্তিক প্রতিরোধ কেন এটি জালিয়াতির 80% সম্ভাবনা বলে? আপনার সিদ্ধান্ত গাছ কেন এটি কম ঝুঁকিপূর্ণ বলে? ক্লায়েন্ট যদি টার্মিনাল নোডের দিকে পরিচালিত সিদ্ধান্ত নোডগুলি মুদ্রণ করে সন্তুষ্ট হন তবে সিদ্ধান্তের গাছের পক্ষে এটি সহজ। যদি "কেন" মানব বক্তৃতার সংক্ষিপ্ত বিবরণ প্রয়োজন ("এই ব্যক্তিকে স্বল্প ঝুঁকির সাথে রেট দেওয়া হয় কারণ তারা দীর্ঘ মেয়াদী পুরুষ গ্রাহক, যাদের আমাদের ফার্মের সাথে উচ্চ-আয়ের এবং একাধিক অ্যাকাউন্ট রয়েছে"), এটি অনেক বেশি শক্ত।
সুতরাং ব্যাখ্যা বা ব্যাখ্যাযোগ্যতার এক পর্যায়ে (উপরে # 1 # 4, উপরে উপরে), কে-নিকটবর্তী প্রতিবেশী সহজ: "এই গ্রাহককে উচ্চ ঝুঁকি বলে গণ্য করা হয়েছিল কারণ 10 টি গ্রাহকের মধ্যে 8 জন যাঁর পূর্বে মূল্যায়ন করা হয়েছিল এবং বেশিরভাগই ছিলেন এক্স, ওয়াই, এবং জেডের ক্ষেত্রে তাদের মতোই উচ্চ ঝুঁকিপূর্ণ হিসাবে দেখা গেছে। " ক্রিয়াযোগ্য, পূর্ণ স্তরের # 4 এ, এটি এতটা ব্যাখ্যামূলক নয়। (আমি অন্য 8 টি গ্রাহককে তাদের কাছে আসলে উপস্থাপিত করার কথা ভেবেছি, তবে তাদের সেই গ্রাহকদের কী মিল রয়েছে তা ম্যানুয়ালি সনাক্ত করার জন্য তাদের সেই গ্রাহকদের কাছে ড্রিল করতে হবে এবং এইভাবে রেটযুক্ত গ্রাহকটি তাদের সাথে কী মিল রয়েছে তা বোঝাতে হবে))
সংবেদনশীলতা-বিশ্লেষণের মতো পদ্ধতিগুলি ব্যবহার করার বিষয়ে আমি সম্প্রতি বেশ কয়েকটি কাগজ পড়েছি # 4 টাইপের স্বয়ংক্রিয় ব্যাখ্যা নিয়ে আসতে চেষ্টা করব। যদিও আমার হাতে কিছু নেই। কেউ মন্তব্য করতে কিছু লিঙ্ক নিক্ষেপ করতে পারেন?
এটি আপনি যে ডেটা ব্যবহার করছেন তার উপর নির্ভর করে। আপনি যদি নির্ভুলতায় আগ্রহী না হন তবে আমি বিশ্বাস করি যে অ্যালগরিদমের ডেটা এবং কর্মক্ষমতা ব্যাখ্যা করার জন্য ডেটা এবং শ্রেণিবিন্যাসের ভিজ্যুয়ালাইজেশন অন্যতম সেরা উপায় ways
এখানে বিভিন্ন শ্রেণিবদ্ধের উদাহরণ তুলনা করা হল। প্রতিটি সারি আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা আলাদা ডেটা সমেত একটি আলাদা ডেটা সেট। প্রতিটি কলাম হ'ল প্রতিটি শ্রেণিবদ্ধের ভিজ্যুয়ালাইজেশন।
http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html
বৈষম্যমূলক বিশ্লেষণ হ'ল মূল শ্রেণিবদ্ধকরণ মডেল, আরএ ফিশারের একশত বছর পূর্বে ( https://en.wikedia.org/wiki/Linear_discriminant_analysis )। এটি আজকালকার মেশিন এবং পরিসংখ্যানগত শিক্ষার মডেলগুলির জগতে প্রায়শই উপেক্ষা করা হয়, যা সাম্প্রতিকতম জারগনের সাথে আরও সামঞ্জস্যপূর্ণ এমন পদ্ধতির দ্বারা এগিয়ে যায়।
এই কাগজটি জার্নাল অফ মেশিন লার্নিংয়ে ছিল এবং কিছু অন্যান্য পদ্ধতির লন্ড্রি তালিকা রয়েছে, আমাদের কি বাস্তব শতাব্দীর শ্রেণিবিন্যাস সমস্যার সমাধানের জন্য কয়েকশ শ্রেণিবদ্ধ দরকার? http://jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
বৈশিষ্ট্য এবং শ্রেণীর মধ্যে সম্পর্ক সন্ধান করতে আপনি একটি সম্পর্ক পদ্ধতি ব্যবহার করতে পারেন। শ্রেণীর সাথে কোনও বৈশিষ্ট্য সম্পর্কিত কিনা তা জানতে আপনি চি স্কোয়ার পদ্ধতিতেও নিয়োগ করতে পারেন। এটি করার জন্য, আপনার ক্লাস লেবেল সমতা ব্যবহার করা উচিত। উদাহরণস্বরূপ, আপনি যদি বৈশিষ্ট্য 1 এবং ক্লাস 1 পরীক্ষা করে দেখেন তবে আপনার বৈশিষ্ট্য 1 এর জন্য বিনিং সঞ্চালন করা উচিত এবং বেনড সম্ভাব্যতা এবং একটি সদস্যপদ ভেরিয়েবলের মধ্যে চি 2 ulate গণনা করা উচিত যা অন্যথায় 1 বর্গের 0 হলে 1 এর মান থাকে। এইভাবে, যদি ক্লাস 1 হচ্ছে বৈশিষ্ট্য 1 এর উপর নির্ভরশীল হয় তবে কিছু বিনের ক্লাস 1 হওয়ার উচ্চ হার থাকবে তবে কিছু বিনের কম থাকবে।
একটি অতিরিক্ত পদ্ধতি যা আমি মাঝারি সাফল্যের সাথে চেষ্টা করেছি তা হ'ল একটি শ্রেণীর কোনও বৈশিষ্ট্যকে সাধারণ বিতরণে ফিট করা। তারপরে ক্লাসে প্রতিটি নমুনার জন্য, বন্টন পর্যন্ত নমুনার ফিটনেস দ্বারা বৈশিষ্ট্যের স্কোরটি উন্নত করুন। ক্লাসে নেই প্রতিটি নমুনার জন্য, ফিটনেসের জন্য বৈশিষ্ট্যটিকে দন্ডিত করুন। স্পষ্টতই আপনার ক্লাসে নেই এবং কতগুলি নমুনা রয়েছে তার সংখ্যাটি স্বাভাবিক করার দরকার। এটি কেবলমাত্র সাধারণ বিতরণের কাছাকাছি বিতরণ করা এমন বৈশিষ্ট্যগুলিতে কাজ করে। আমি প্রতিটি ক্লাসের জন্য বৈশিষ্ট্য অনুযায়ী স্কোর নির্ধারণ করতে এই পদ্ধতিটি ব্যবহার করেছি।
কারও নিকটতম নিকটবর্তী শ্রেণিবদ্ধকরণ উল্লেখ নেই। এটি ব্যাখ্যা করা খুব সহজ; এটি পর্যবেক্ষণের নিকটবর্তী পর্যবেক্ষণগুলির মধ্যে সর্বাধিক সাধারণ শ্রেণি অনুযায়ী শ্রেণিবদ্ধ করা হয়। আমরা সাধারণভাবে নিকটতম প্রতিবেশীদের সন্ধানের জন্য বেছে নিই যাতে ভাঙ্গার কোনও সম্পর্ক নেই।