একটি পাঠ্য-শ্রেণিবদ্ধকারী যা এর সিদ্ধান্তগুলি ব্যাখ্যা করে


11

আমি সংক্ষিপ্ত বাক্যগুলির জন্য একটি পাঠ্য বিভাগে তৈরি করছি building ব্যবহারকারীকে "আপনি যে পাঠ্যটির প্রবেশদ্বারটি প্রবেশ করেছেন সেটি সি হয়" বলার পাশাপাশি, আমি কেন এই সিদ্ধান্ত নিয়েছিলাম তা একটি সংক্ষিপ্ত এবং বোধগম্যভাবে ব্যাখ্যা করতে সক্ষম হতে চাই। উদাহরণস্বরূপ, আমি ব্যবহারকারীকে বলতে চাই না "আমি আপনার বাক্যটিকে একটি জটিল 3-স্তরযুক্ত নিউরাল নেটওয়ার্কে রেখেছি এবং এটিই উত্তরটি যে সেরা স্কোর করেছে"; "আপনার বাক্যে ইউ, ভি এবং ডব্লু শব্দগুলি রয়েছে যা এই বিভাগের বৈশিষ্ট্যযুক্ত, এক্স, ওয়াই এবং জেড এর মতো বাক্যগুলির কারণে যা প্রশিক্ষণের ডেটাতে উপস্থিত হয়েছিল" এর মতো ব্যাখ্যা আমি চাই।

আমার প্রশ্ন হ'ল: এই জাতীয় প্রয়োগের জন্য কোন শ্রেণিবিন্যাস অ্যালগরিদম সবচেয়ে উপযুক্ত?

কে-নিকটতম-প্রতিবেশী একটি ভাল প্রার্থীর মতো বলে মনে হচ্ছে, কারণ আমি ব্যবহারকারীকে বলতে পারি "আপনার বাক্যটি ক্যাটাগরি সি রয়েছে কারণ এটি X, Y এবং Z এর সাথে একই বিভাগের বাক্যগুলির সাথে সমান But তবে পাঠ্য শ্রেণীবদ্ধকরণ সমস্যাগুলির ক্ষেত্রে এর কার্যকারিতাটি জানা যায় দরিদ্র হও। আমি এমন শ্রেণিবদ্ধের সন্ধান করছি যা ব্যাখ্যা করার ক্ষমতা সহ পারফরম্যান্সকে ভারসাম্যপূর্ণ করে।

সম্পাদনা: এই ধরণের শ্রেণিবদ্ধের সন্ধানে অনেক সময় ব্যয় করার পরে, আমি লিমডু নামে একটি মেশিন-লার্নিং লাইব্রেরি তৈরি করা শুরু করি , যা শ্রেণিবদ্ধদের তাদের সিদ্ধান্তগুলি ব্যাখ্যা করতে দেয়। এটি এখনও বিকাশের অধীনে রয়েছে, তবে, এটি ইতিমধ্যে আমাকে এবং আমার সহকর্মীদের বোঝাতে সহায়তা করেছে যে কেন আমাদের শ্রেণিবদ্ধরা এতবার ব্যর্থ হয় ...


মেশিন লার্নিংয়ের বিষয়টি হুডের নীচে কী ঘটে তা আপনি যত্ন নেন না, আপনি কেবল পারফরম্যান্সের বিষয়ে চিন্তা করেন। অন্য পদ্ধতির ব্যর্থতা, এবং সেজন্য সকলেই আজকাল এই অস্বচ্ছ পরিসংখ্যানিক পদ্ধতিগুলি ব্যবহার করছেন - এগুলি আরও ভাল।
যুবাল ফিল্মাস

2
@ ইউভাল আমি সম্পূর্ণরূপে একমত নই যে অন্যান্য পদ্ধতি ব্যর্থ হয়েছে। এগুলি সর্বোত্তম নয় তবে তারা এখনও কোনও শ্রেণীর শ্রেণিবদ্ধকরণের কাজগুলি স্বয়ংক্রিয় করার লক্ষ্য অর্জন করে যা একটি মানুষের করার ক্ষমতা বা ধৈর্য রয়েছে তার চেয়েও ভাল। অস্পষ্ট কালো বাক্স কার্যকরভাবে মেশিন লার্নিংয়ের একমাত্র উপায় নয় বিশেষত এমন পরিস্থিতিতে যেখানে কার্য সম্পাদন কেবলমাত্র বিবেচ্য নয়। মেশিন লার্নিংয়ের কার্যগুলির পিছনে বিভিন্ন লক্ষ্য সম্পর্কে আরও কিছুটা মুক্তচেতনার অধিকারী হন।
রিচার্ড ডি

উত্তর:


7

যদিও এটি পাঠ্য শ্রেণীবদ্ধকরণের কার্যগুলি খারাপভাবে সম্পাদন করে, আপনি যদি শ্রেণিবিন্যাসের যুক্তির সুস্পষ্ট ব্যাখ্যা চান তবে সিদ্ধান্তের গাছটি আপনার সেরা বিকল্প হবে কারণ এটি কোনও উদাহরণকে শ্রেণিবদ্ধ করার জন্য স্পষ্ট নিয়ম সরবরাহ করে। গাছের একটি চিহ্ন নির্ধারণকারী মানগুলি সরবরাহ করে এবং মূল নোডের কাছাকাছি অবস্থাগুলি বিশ্লেষণ করে আপনি এমনকি নির্ধারণ করতে সক্ষম করতে পারেন যে শ্রেণিতে আরও গুরুত্বপূর্ণ কোথায়।

আর একটি বিকল্প হ'ল নাইভ বেইস শ্রেণিবদ্ধকারী ব্যবহার করা , যা পাঠ্য খনির কাজগুলির জন্য আরও ভাল পারফরম্যান্স দেয় এবং আপনাকে সম্ভাব্যতার উপর ভিত্তি করে একটি বোধগম্য মূল্যায়ন প্রকল্প দেয় যা আপনি যে "কেন" সন্ধান করছেন তা তৈরি করতে এমনকি এমনকি তার একটি ইঙ্গিতও সরবরাহ করতে পারে দৃ attrib় সংকল্প তৈরির ক্ষেত্রে কোন বৈশিষ্ট্যের মানগুলি অন্যদের চেয়ে গুরুত্বপূর্ণ ছিল।

সাপোর্ট ভেক্টর মেশিনগুলি , বিশেষত সিক্যুয়াল ন্যূনতম অপ্টিমাইজেশন (এসএমও), এই কাজগুলির সাথে ভালভাবে কাজ করছে বলে মনে হয় এবং একইভাবে অ্যাট্রিবিউট ওজন এবং সাপোর্ট ভেক্টর আকারে শ্রেণিবিন্যাস তৈরি করার জন্য ব্যবহৃত মূল্যবোধের ইঙ্গিত দেয় তবে আমি মনে করি আপনার আরও কঠিন সময় থাকতে পারে এই ওজন এবং ভেক্টরগুলি সামগ্রিক শ্রেণিবিন্যাসের সিদ্ধান্তকে কীভাবে প্রভাবিত করেছিল তা স্পষ্ট করে তোলে।

আপনার প্রকল্পের সাথে সৌভাগ্য কামনা করছি! খুব আকর্ষণীয় মনে হচ্ছে।


1
ধন্যবাদ। আমি আরও জানতে পেরেছি যে পার্সেপট্রন এবং উইনউ এর মতো অনলাইন শ্রেণিবদ্ধরা এই কাজটিতে বেশ ভাল (কমপক্ষে আমার দৃশ্যে), এবং প্রতিটি বৈশিষ্ট্য শ্রেণিবিন্যাসের স্কোরকে যুক্ত করে এমন পরম মানটি দেখে সিদ্ধান্তটি ব্যাখ্যা করা সহজ। প্রতিটি নমুনার জন্য, আমি বৈশিষ্ট্যগুলি (বৈশিষ্ট্য * ওজন) এর নিখুঁত মান অনুসারে বাছাই করি এবং প্রথম কয়েকটি দেখি।
এরেল সেগাল-হালেভি

3

আমি অস্পষ্টভাবে পুনরাহ্বান যে পিটার Norvig এর একটি বাস্তবায়ন ছিল MYCIN , একটি শিক্ষক নির্ণয়ের বিশেষজ্ঞ সিস্টেম , লেখা পাতার মর্মর তাঁর পুস্তক কৃত্রিম বুদ্ধিমত্তা প্রোগ্রামিং এর paradigms: প্রচলিত পাতার মর্মর মধ্যে কেস স্টাডিজ , যা করেনি ঠিক করেছেন।

আপনার গবেষণা শুরু করার জন্য এটি সম্ভবত ভাল জায়গা। আপনি নিয়ম বেসের সাথে অনলাইনে উত্স কোডটি পাবেন , তবে আমি দৃ strongly়ভাবে পাঠ্যটি পড়ার পরামর্শ দিচ্ছি এবং কেবল উত্স কোড থেকে এটি বোঝার চেষ্টা করবেন না।

আপনি এমাইসিনের জন্য আমার পৃষ্ঠায় সরাসরি যেতে পারেন (আমার জোর),

এমাইসিন হ'ল একটি বিশেষজ্ঞ সিস্টেম শেল, প্রোগ্রামগুলি তৈরির জন্য একটি কাঠামো যা ডোমেন বিশেষজ্ঞদের জ্ঞান রেকর্ড করে এবং সেই জ্ঞানটি অ-বিশেষজ্ঞ ব্যবহারকারীদের সমস্যা সমাধানে সহায়তা করতে ব্যবহার করে। এটি এমন একটি ইন্টারফেস সরবরাহ করে যা বিশেষজ্ঞরা ডেটা প্রকার এবং নিয়ম সংজ্ঞায়িত করতে সহায়তা করে, পিছনের দিকে শৃঙ্খলা যুক্তিযুক্ত অ্যালগরিদম (প্রোলোগের অনুরূপ, তবে মূল পার্থক্য সহ), অনিশ্চয়তা মোকাবেলার জন্য একটি ব্যবস্থা এবং অন্তর্নিবেশের জন্য সুবিধা যা ব্যবহারকারীদের সিস্টেমটি কী তা জানতে শেখার অনুমতি দেয় এবং এটি কি করছে


2
বিশেষজ্ঞ সিস্টেমগুলি আর খুব বেশি জনপ্রিয় না হওয়ার কারণ রয়েছে, যদিও সমস্ত নিয়মকে কোড করা শক্ত।
অ্যাড্রিয়ানএন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.