নিষ্পাপ বায়েশিয়ান শ্রেণিবদ্ধরা কেন এত ভাল পারফর্ম করে?

38

শ্রেণীবিন্যাস সমস্যার জন্য নাইভ বেইস শ্রেণিবদ্ধকারী একটি জনপ্রিয় পছন্দ। এর জন্য অনেকগুলি কারণ রয়েছে:

"জিটজিস্ট" - প্রায় দশ বছর আগে স্প্যাম ফিল্টারগুলির সাফল্যের পরে ব্যাপক সচেতনতা
লিখতে সহজ
শ্রেণিবদ্ধ মডেলটি নির্মাণে দ্রুত is
মডেলটিকে নতুন করে তৈরি না করেই নতুন প্রশিক্ষণের ডেটা দিয়ে পরিবর্তন করা যেতে পারে

যাইহোক, তারা 'নিষ্পাপ' - যেমন তারা ধরে নেয় বৈশিষ্ট্যগুলি স্বতন্ত্র - এটি অন্যান্য শ্রেণিবদ্ধের সাথে যেমন ম্যাক্সিমাম এনট্রপি শ্রেণিবদ্ধ (যা গণনা করতে ধীর) with

স্বাধীনতা অনুমান সাধারণত অনুমান করা যায় না, এবং স্প্যাম ফিল্টার উদাহরণ সহ অনেকগুলি (বেশিরভাগ?) ক্ষেত্রে এটি কেবল ভুল।

তাহলে নায়েভ বেয়েস ক্লাসিফায়ার কেন এখনও এই জাতীয় অ্যাপ্লিকেশনগুলিতে খুব ভাল পারফর্ম করে, এমনকি বৈশিষ্ট্যগুলি একে অপরের থেকে স্বতন্ত্র নয়?

classification naive-bayes

— winwaed
সূত্র

23

এই কাগজটি প্রমাণ করার মতো মনে হচ্ছে (আমি গণিতটি অনুসরণ করতে পারি না) যে বেইসগুলি কেবল তখন বৈশিষ্ট্যগুলি स्वतंत्र থাকে তা নয়, তবে একে অপরের বৈশিষ্ট্যগুলির নির্ভরতা বৈশিষ্ট্যগুলির মধ্যে একই রকম হয়:

এই গবেষণাপত্রে, আমরা নিষ্পাপ বায়েসের দুর্দান্ত শ্রেণিবদ্ধ পারফরম্যান্সের উপর একটি অভিনব ব্যাখ্যাটি প্রস্তাব করি। আমরা তা দেখাই, মূলত নির্ভরতা বন্টন; উদাহরণস্বরূপ, কোনও নোডের স্থানীয় নির্ভরতা কীভাবে প্রতিটি শ্রেণীতে সমানভাবে বা অসমভাবে বিতরণ করে এবং কীভাবে সমস্ত নোডের স্থানীয় নির্ভরতা একসাথে কাজ করে, ধারাবাহিকভাবে (নির্দিষ্ট শ্রেণিবদ্ধকে সমর্থন করে) বা অসামঞ্জস্যভাবে (একে অপরকে বাতিল করে দেয়) গুরুত্বপূর্ণ ভূমিকা পালন করে। অতএব, গুণাবলীর মধ্যে নির্ভরতা কতটা শক্তিশালী তা নির্বিশেষে নির্দোষ বায়েস এখনও সর্বোত্তম হতে পারে যদি নির্ভরতাগুলি ক্লাসে সমানভাবে বিতরণ করা হয় বা নির্ভরতা একে অপরকে বাতিল করে দেয় তবে

— JB।
সূত্র

1

গুণগতভাবে, এটি উপলব্ধি করে। নির্ভরশীল বৈশিষ্ট্যগুলির ফলে ওজন হতে পারে - সুতরাং এমনকি বিতরণ বা বিতরণ যা বাতিল হয়ে যায়, এই ওজনটিকে বাতিল করে দেবে। তবে, "লপ-পার্শ্ব" নির্ভরতা সম্ভবত এখনও খারাপভাবে সম্পাদন করতে চলেছে? স্প্যামের উদাহরণ হিসাবে আমি অনুমান করি, আমাদের + স্প্যাম বৈশিষ্ট্যগুলির জন্য প্রচুর নির্ভরতা আশা করা উচিত, তবে সাধারণ ক্ষেত্রে স্প্যাম বৈশিষ্ট্যগুলি অগত্যা নয়। তবে, কোনও ব্যক্তি নির্দিষ্ট বিষয়ে প্রচুর বৈধ ইমেল পেতে পারে, সুতরাং সেই ক্ষেত্রে অনেকগুলি নির্ভরশীল বৈশিষ্ট্য থাকবে - যা + স্প্যামের বৈশিষ্ট্যগুলিকে ভারসাম্যপূর্ণ করবে।

— 21

3

আমি এই কাগজটিও

— ডভ

25

বেশিরভাগ মেশিন শেখার সমস্যাগুলি সহজ!

জন ল্যাংফোর্ডের ব্লগে উদাহরণস্বরূপ দেখুন । তিনি যা বলছেন তা হ'ল এমএল সমস্যাগুলিকে সহজ করে তোলে এবং এটি গবেষকদের পক্ষে একটি সমস্যা উপস্থাপিত করে যাতে তারা বিস্তৃত সরল সমস্যাগুলির জন্য পদ্ধতি প্রয়োগ করার চেষ্টা করা উচিত বা আরও কঠিন সমস্যার আক্রমণ করতে পারে কিনা। তবে উপ-প্রোডাক্টটি হ'ল অনেক সমস্যার জন্য ডেটা লিনিয়ারলি পৃথকযোগ্য (বা কমপক্ষে প্রায়), এক্ষেত্রে কোনও লিনিয়ার শ্রেণিবদ্ধকারী ভালভাবে কাজ করবে! এটি ঠিক তাই ঘটে যে মূল স্প্যাম ফিল্টার পেপারের লেখকরা নায়েভ বেয়েস ব্যবহার করতে বেছে নিয়েছিলেন, তবে তারা যদি পার্সেপট্রন, এসভিএম, ফিশার ডিসক্রিমেন্ট্যান্ট অ্যানালাইসিস, লজিস্টিক রিগ্রেশন, অ্যাডাবোস্ট বা অন্য যে কোনও কিছু ব্যবহার করেছিলেন তবে এটি সম্ভবত এটি কাজ করবে।

অ্যালগরিদম কোড করা তুলনামূলকভাবে সহজ যে বিষয়টি সহায়তা করে। উদাহরণস্বরূপ এসভিএম কোড করার জন্য আপনার হয় একটি QP সলভার থাকা দরকার, অথবা আপনার এসএমও অ্যালগরিদম কোড আপ করা দরকার যা একটি তুচ্ছ কাজ নয়। আপনি অবশ্যই libsvm ডাউনলোড করতে পারেন তবে প্রথম দিনগুলিতে সেই বিকল্পটি পাওয়া যায় নি। তবে আরও অনেক সরল অ্যালগরিদম রয়েছে (উপরে উল্লিখিত পারসেপ্ট্রন সহ) যা কোড করা ঠিক তত সহজ (এবং প্রশ্নের উল্লেখ অনুসারে বর্ধিত আপডেটের অনুমতি দেয়)।

ননলাইনার সমস্যাগুলি মোকাবেলা করতে পারে এমন শক্তিশালী সমস্যার জন্য অবশ্যই প্রয়োজন। কার্নেল পদ্ধতিগুলি নিযুক্ত করা হলেও এটি অপেক্ষাকৃত সহজ কাজ হতে পারে । প্রশ্নটি তখন প্রায়শই "আমার ডেটাগুলির জন্য কার্যকর কর্নেল ফাংশন কীভাবে ডিজাইন করব" তার পরিবর্তে "আমার কোন শ্রেণিবদ্ধ ব্যবহার করা উচিত" এর পরিবর্তে প্রশ্নটি হয়ে ওঠে।

— TDC
সূত্র

আমি মনে করি "সহজ" সম্ভবত আপেক্ষিক, তবে হ্যাঁ স্প্যামের শ্রেণিবিন্যাসটি 'সহজ' বলে আমার মনে হয় বেশিরভাগ লোকরা 12 বছর বা তারও বেশি আগে ধরে নিয়েছিল। কার্নেল পদ্ধতিগুলি দ্রুত এবং সাধারণ শ্রেণিবদ্ধের উত্পাদন করার জন্য একটি পদ্ধতির হতে পারে, তবে "আমি কীভাবে আমার ডেটাগুলির জন্য কার্যকর কার্নেল ফাংশন ডিজাইন করব" দেখে মনে হচ্ছে কিছু মেশিন লার্নিং "হিউম্যান লার্নিং" হয়ে যায় (অর্থাত্ ডেটা সম্পর্কে আরও ভাল বোঝার সন্ধান করে এবং এর আন্তঃসম্পর্ক)?

— উইন্ডওয়া হয়েছে

1

হ্যাঁ এটা আপেক্ষিক, এবং এছাড়াও আছে অনেক সমস্যার, তাই এখনও সেখানে আউট হার্ড বেশী প্রচুর আছে! এবং আমি মনে করি এমএল এবং মানব শিক্ষার মধ্যে সীমানা সবসময় ঝাপসা হয়ে থাকে ... আপনি যদি কিছু সুপার অভিনব সম্ভাবনা মডেল তৈরি করেন তবে আপনি একই কাজ করছেন। ভাল পুরানো এনএফএলটি আমাদের জানিয়েছে যে একটি পদ্ধতি সমস্ত সমস্যার সমাধান করতে পারে না, তবে সেই পদ্ধতিটি জটিল, সুতরাং আমাদের সর্বদা মানুষের প্রয়োজন হবে মডেলগুলি / কার্নেলগুলি / অ্যালগরিদমগুলি বা আপনার ডেটা থেকে আরও বেশি বেরিয়ে আসার জন্য যা প্রয়োজন তা ডিজাইন করার জন্য।

— tdc

সত্য - অবশ্যই একটি ঝাপসা রেখা!

— উইন্ডো হয়েছে

1

ডাউনভোট কেন? মন্তব্য করতে যত্ন?

— tdc

7

বিভাজন শ্রেণিবদ্ধকরণ সরঞ্জামগুলিতে নাইভ বায়সিয়ান শ্রেণিবদ্ধকারীগুলিকে ব্যাপকভাবে ব্যবহার করার পরে, আমার অভিজ্ঞতা প্রকাশিত কাগজপত্রের সাথে সামঞ্জস্যপূর্ণ যখন প্রেডিক্টর ভেরিয়েবলগুলি উপলব্ধ থাকে তখন এনবিসি লিনিয়ার বৈষম্যমূলক এবং কার্ট / চ্যাডের সাথে যথাযথতার সাথে তুলনীয় হতে দেখায়।

(যথাযথতার দ্বারা উভয়ই "হিট রেট" সঠিক সমাধানটিকে খুব সম্ভবত সম্ভাব্য হিসাবে হিসাবে বিবেচনা করার পাশাপাশি ক্যালিব্রেশন হিসাবে বোঝায়, বলুন, 75% সদস্যপদ অনুমান 70% -80% ক্ষেত্রে সঠিক।)

আমার দুটি সেন্ট হ'ল এনবিসি এত ভাল কাজ করে কারণ:

ভবিষ্যদ্বাণীকারী ভেরিয়েবলগুলির মধ্যে আন্তঃসংযোগ এতটা শক্তিশালী নয় যতটা কেউ ভাবেন (0.05 থেকে 0.15 এর পারস্পরিক তথ্যের স্কোর সাধারণ)
এনবিসি বিচ্ছিন্নভাবে বহুভোজী ভেরিয়েবলগুলি ভালভাবে পরিচালনা করতে পারে, আমাদের এগুলি ক্রুডলি দ্বিগোটাইমাইজ করার বা আরডিনাল ভেরিয়েবলগুলি কার্ডিনাল হিসাবে বিবেচনা করার প্রয়োজন হয় না।
এনবিসি সমস্ত ভেরিয়েবল একসাথে ব্যবহার করে যেখানে কার্ট / CHAID মাত্র কয়েকটি ব্যবহার করে

এবং যখন সমস্ত ভেরিয়েবল পর্যবেক্ষণ করা হয়। এনবিসি সত্যই প্যাকটি থেকে কীভাবে দূরে সরে যায় তা হ'ল যখন এক বা একাধিক পূর্বাভাসকারী ভেরিয়েবলগুলি অনুপস্থিত বা নিরীক্ষণ না করা হয় তখন তা করুণভাবে হ্রাস পায়। কার্ট / CHAID এবং লিনিয়ার বৈষম্যমূলক বিশ্লেষণ সেক্ষেত্রে ফ্ল্যাট বন্ধ করে দেয়।

— প্রোটোটাইপ
সূত্র