ক্লাস সম্ভাব্যতাগুলির পূর্বাভাস দেওয়ার জন্য মেশিন লার্নিং


20

আমি শ্রেণিবদ্ধকারীদের সন্ধান করছি যে ফলাফলগুলি দু'টি শ্রেণীর একটির সাথে সম্পর্কিত আউটপুট সম্ভাব্যতাগুলি।

আমি লজিস্টিক রিগ্রেশন এবং নিষ্পাপ বেয়েস সম্পর্কে জানি, তবে আপনি কি আমাকে অন্যদের সম্পর্কে বলতে পারেন যারা একইভাবে কাজ করে? তা হল, শ্রেণিবদ্ধকারীরা উদাহরণ দেয় এমন শ্রেণীর পূর্বাভাস দেয় না, তবে উদাহরণগুলি কোনও নির্দিষ্ট শ্রেণীর সাথে খাপ খায় এমন সম্ভাবনা?

এই বিভিন্ন শ্রেণিবদ্ধের সুবিধা এবং অসুবিধাগুলি (লজিস্টিক রিগ্রেশন এবং নিষ্পাপ বেয়েস সহ) শেয়ার করতে পারেন এমন কোনও চিন্তার জন্য বোনাস পয়েন্ট। উদাহরণস্বরূপ, বহু-শ্রেণীর শ্রেণিবিন্যাসের জন্য কিছু ভাল?

উত্তর:


5

এসভিএম লজিস্টিক রিগ্রেশনটির সাথে নিবিড়ভাবে সম্পর্কিত, এবং হাইপারপ্লেনের দূরত্বের (প্রতিটি পয়েন্টের স্কোর) উপর নির্ভর করে সম্ভাব্যতাগুলি পূর্বাভাস দেওয়ার জন্য ব্যবহার করা যেতে পারে। আপনি স্কোরটি তৈরি করে এটি করেন -> কোনওভাবে সম্ভাব্যতার ম্যাপিং, যা সমস্যাটি এক মাত্রিক হিসাবে তুলনামূলকভাবে সহজ। একটি উপায় হ'ল ডে-তে একটি এস-কার্ভ (যেমন লজিস্টিক কার্ভ বা তার opeাল) ফিট করা। আর একটি উপায় হ'ল ডেটাতে আরও সাধারণ ক্রমবর্ধমান বিতরণ ফাংশনটি ফিট করার জন্য আইসোটোনিক রিগ্রেশন ব্যবহার করা।

এসভিএম ব্যতীত আপনি গ্রেডিয়েন্ট-ভিত্তিক পদ্ধতিগুলি যেমন গভীর নেটওয়ার্ক ব্যবহার করে ফিট করতে পারেন এমন কোনও পদ্ধতির জন্য আপনি একটি উপযুক্ত ক্ষতির ফাংশন ব্যবহার করতে পারেন।

শ্রেণিবদ্ধ ডিজাইন করার সময় সম্ভাব্যতার পূর্বাভাস দেওয়া এই দিনগুলিতে বিবেচনার বিষয় নয়। এটি একটি অতিরিক্ত যা শ্রেণিবিন্যাসের কার্য সম্পাদন থেকে বিরত থাকে, তাই এটি বাতিল করা হয়। আপনি যাইহোক, শ্রেণিবিন্যাসের সম্ভাব্যতার একটি নির্দিষ্ট সেট (উদাহরণস্বরূপ "পি [0, 1/4], বা [1/4, 1/2], বা ...") সহ "বাইনারি শ্রেণিবদ্ধকারী ব্যবহার করতে পারেন" "ল্যাংফোর্ড এবং জাদরোজনি হ্রাস" তদন্ত।


4
"শ্রেণিবদ্ধের নকশা করার সময় সম্ভাব্যতার পূর্বাভাস দেওয়া এই দিনগুলিতে বিবেচনার বিষয় নয়"। 2013 সালে এটি সত্য হলে আমি নিশ্চিত না, তবে এটি 2018 সালে প্রায় অবশ্যই মিথ্যা
ম্যাথু ড্র্যুরি

9

আর একটি সম্ভাবনা হ'ল নিউরাল নেটওয়ার্কগুলি, যদি আপনি সিগময়েডাল আউটপুট ইউনিটগুলির ব্যয়কে কার্যকর হিসাবে ক্রস-এনট্রপি ব্যবহার করেন। এটি আপনাকে অনুসন্ধানের অনুমান সরবরাহ করবে।

নিউরাল নেটওয়ার্কগুলি পাশাপাশি লজিস্টিক রিগ্রেশন হ'ল বৈষম্যমূলক শ্রেণিবদ্ধ, যার অর্থ তারা প্রশিক্ষণের ডেটাতে শর্তযুক্ত বিতরণকে সর্বাধিক করার চেষ্টা করে। অসম্পূর্ণভাবে, অসীম নমুনার সীমাতে, উভয় অনুমান একই সীমাতে পৌঁছে।

আপনি এই পেপার এ খুব প্রশ্নের একটি বিশদ বিশ্লেষণ পাবেন । গ্রহণের ধারণাটি হ'ল জেনারেটাল মডেলটিতে উচ্চমাত্রায় অ্যাসিম্পটোটিক ত্রুটি থাকলেও, এটি বৈষম্যমূলক মডেলের তুলনায় এই অ্যাসেম্পোটিক ত্রুটির কাছাকাছি যেতে পারে। সুতরাং, কোনটি গ্রহণ করা উচিত তা আপনার সমস্যা, হাতের ডেটা এবং আপনার নির্দিষ্ট প্রয়োজনীয়তার উপর নির্ভর করে।

সর্বশেষে, শর্তসাপেক্ষ সম্ভাবনার অনুমানগুলি বিবেচনা করা সিদ্ধান্তের ভিত্তিতে নিখুঁত স্কোর হিসাবে বিবেচনা করা (যদি এটি পরে হয় তবে) সাধারণভাবে খুব বেশি বোঝায় না। কি গুরুত্বপূর্ণ তা বিবেচনা করা হয়, একটি কংক্রিট নমুনা দেওয়া, সেরা প্রার্থীরা শ্রেণিবদ্ধ দ্বারা ক্লাস আউটপুট এবং সম্পর্কিত সম্ভাবনার তুলনা করে। সেরা দুটি স্কোরের মধ্যে পার্থক্য যদি উচ্চতর হয় তবে এর অর্থ হল শ্রেণীবদ্ধকারী তার উত্তর সম্পর্কে খুব আত্মবিশ্বাসী (প্রয়োজনীয় সঠিক নয়)।


2

অনেকগুলি রয়েছে - এবং কী সর্বোত্তম কাজ করে তা ডেটার উপর নির্ভর করে। প্রতারণা করার অনেকগুলি উপায় রয়েছে - উদাহরণস্বরূপ, আপনি কোনও শ্রেণিবদ্ধের ফলাফলের উপর সম্ভাব্যতা ক্রমাঙ্কন সম্পাদন করতে পারেন যা স্কোরের কিছুটা লক্ষণ দেয় (যেমন: ওজন ভেক্টর এবং ইনপুটগুলির মধ্যে একটি বিন্দু পণ্য)। এর সর্বাধিক সাধারণ উদাহরণকে বলা হয় প্লেটের স্কেলিং।

অন্তর্নিহিত মডেলটির আকারের বিষয়টিও রয়েছে। আপনার যদি আপনার ডেটার সাথে বহুভিত্তিক ইন্টারঅ্যাকশন হয় তবে ভ্যানিলা লজিস্টিক রিগ্রেশন এটি ভালভাবে মডেল করতে সক্ষম হবে না। তবে আপনি লজিস্টিক রিগ্রেশনটির কার্নেলযুক্ত সংস্করণটি ব্যবহার করতে পারেন যাতে মডেলটি আরও ভালভাবে ডেটা ফিট করে। আপনি সাধারণত শ্রেণিবদ্ধের যথার্থতাও উন্নতি করছেন বলে এটি সাধারণত সম্ভাবনার আউটপুটগুলির "ধার্মিকতা" বৃদ্ধি করে।

সাধারণত, বেশিরভাগ মডেল যা সম্ভাবনা দেয় তারা সাধারণত একটি লজিস্টিক ফাংশন ব্যবহার করে, তাই এটির তুলনা করা শক্ত। এটি কেবল অনুশীলনে ভাল কাজ করার ঝোঁক দেয়, বায়েশিয়ান নেটওয়ার্কগুলি একটি বিকল্প। নায়েভ বেয়েস তার সম্ভাব্যতাগুলি যে কোনও ভাল হওয়ার জন্য খুব সহজ ধারণা তৈরি করেছে - এবং এটি কোনও যুক্তিসঙ্গত আকারের ডেটা সেটে সহজেই পরিলক্ষিত হয়।

শেষ পর্যন্ত, এটি সম্ভবত আপনার সম্ভাবনা অনুমানের গুণমান বাড়ানো সহজ করে মডেলটিকে বাছাই করে যা ডেটার আরও ভাল উপস্থাপন করতে পারে। এই অর্থে, আপনি কীভাবে সম্ভাব্যতা পান তা খুব বেশি গুরুত্ব দেয় না। আপনি যদি লজিস্টিক রিগ্রেশন সহ 70% নির্ভুলতা এবং এসভিএম দিয়ে 98% সঠিকতা পেতে পারেন - তবে কেবলমাত্র "সম্পূর্ণ আত্মবিশ্বাস" সম্ভাবনা দেওয়া বেশিরভাগ স্কোরিং পদ্ধতি দ্বারা আপনাকে ফলাফলগুলি "আরও ভাল" করে তুলবে, যদিও তারা সত্যিকার সম্ভাবনা নয় (এবং তারপরে আপনি পূর্বে উল্লিখিত ক্রমাঙ্কনটি করতে পারেন, সেগুলিকে প্রকৃতপক্ষে আরও ভাল করে তুলুন)।

সঠিক শ্রেণিবদ্ধার পেতে না পারার প্রসঙ্গে একই প্রশ্নটি আরও আকর্ষণীয় তবে আমি নিশ্চিত নই যে এ জাতীয় দৃশ্যের তুলনায় যে কেউ পড়াশোনা করেছেন / তুলনা করেছেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.