প্রশিক্ষণ হিসাবে শুধুমাত্র ইতিবাচক মামলা দিয়ে ফলাফল কীভাবে ভবিষ্যদ্বাণী করা যায়?

সরলতার স্বার্থে, যাক আমি স্প্যাম / নন-স্প্যাম ইমেলের ক্লাসিক উদাহরণ নিয়ে কাজ করছি on

আমার 20000 ইমেলের সেট রয়েছে। এর মধ্যে, আমি জানি যে 2000 টি স্প্যাম তবে নন-স্প্যাম ইমেলের কোনও উদাহরণ আমার কাছে নেই। বাকি 18000 টি স্প্যাম কিনা তা আমি ভবিষ্যদ্বাণী করতে চাই। আদর্শভাবে, আমি যে ফলাফলটি সন্ধান করছি তা হ'ল ইমেলটি স্প্যাম a এমন একটি সম্ভাবনা (বা একটি পি-মান)।

এই পরিস্থিতিতে একটি বুদ্ধিমান ভবিষ্যদ্বাণী করতে আমি কোন অ্যালগরিদম (গুলি) ব্যবহার করতে পারি?

এই মুহুর্তে, আমি একটি দূরত্ব ভিত্তিক পদ্ধতির কথা ভাবছি যা আমাকে জানবে যে কোনও পরিচিত স্প্যাম ইমেলের সাথে আমার ইমেলটি কতটা সমান। আমার কাছে কী বিকল্প আছে?

আরও সাধারণভাবে, আমি কী তত্ত্বাবধানে শেখার পদ্ধতি ব্যবহার করতে পারি, বা তা করার জন্য আমার প্রশিক্ষণে অগত্যা নেতিবাচক কেসগুলি থাকা দরকার? আমি কি নিরীক্ষণযোগ্য শেখার পদ্ধতির মধ্যে সীমাবদ্ধ? আধা তত্ত্বাবধান পদ্ধতি সম্পর্কে কী?

— enricoferrero
সূত্র

আপনি যে কোনও শিখার অ্যালগরিদম ব্যবহার করবেন তা সমস্ত মেলকে স্প্যাম হিসাবে পূর্বাভাস দেবে। যে কোনও বুদ্ধিমান শেখার জন্য আপনার অবশ্যই দুটি বিভাগের উদাহরণ থাকতে হবে।

— জনরোস

ঠিক আছে, এটি ক্লাসিক তত্ত্বাবধানে থাকা শিক্ষার পদ্ধতির বিষয়টি অস্বীকার করবে। তবে কি এমন একটি অ্যালগরিদম রয়েছে যা কিছু ধরণের মিলের মেট্রিকগুলি দেয়? উদাহরণস্বরূপ: এই ইমেলটি একটি স্প্যাম ইমেলের সাথে খুব মিল, এই অন্যটি নয়।

— এনক্রোফেরেরো

@ জনরস সত্য নয়, ইতিবাচক এবং লেবেলযুক্ত ডেটা থেকে আধা-তত্ত্বাবধানে শেখার একটি বড় বিষয় এবং এটি বর্ণনা করার মতো কিছুই নয়।

— মার্ক Claesen

@ মার্কক্লেসেন: আমি এই (খুব শীতল) গবেষণার লাইনের সাথে অপরিচিত ছিলাম। আমি দেখতে পাচ্ছি যে যাদুটি অনুমানের মধ্যে রয়েছে যে লেবেলযুক্ত ডেটা স্প্যাম এবং অ-স্প্যামের মিশ্রণ, যা সমস্যার সমাধানযোগ্য।

— জনরোস

@ জনরোস হুবহু, এবং আমি শীতলতা ফ্যাক্টরের সাথে একমত। যা আমি সত্যিই শীতল মনে করি তা হ'ল আমরা সাম্প্রতিক সময়ে অবিশ্বাস্য সারণীর উপর ভিত্তি করে traditionalতিহ্যবাহী পারফরম্যান্স মেট্রিকগুলি (যেমন নির্ভুলতা, যথার্থতা, প্রত্যাহার, ...) কীভাবে নেতিবাচক ছাড়াই গণনা করব তা দেখাতে সক্ষম হয়েছি !

— মার্ক ক্লেসেন

উত্তর:

একে বলা হয় ইতিবাচক এবং লেবেলযুক্ত ডেটা থেকে শিখন, বা সংক্ষেপে পিইউ শেখা, এবং এটি আধা-তত্ত্বাবধানে শিক্ষার একটি সক্রিয় কুলুঙ্গি।

সংক্ষেপে, শেখার প্রক্রিয়াবিহীন লেবেলযুক্ত ডেটা ব্যবহার করা গুরুত্বপূর্ণ কারণ এটি তথাকথিত একক-শ্রেণীর শ্রেণিবদ্ধদের তুলনায় উল্লেখযোগ্যভাবে উন্নত মডেলগুলি অর্জন করে যা পরিচিত ধনাত্মকদের উপর একচেটিয়াভাবে প্রশিক্ষিত হয়। লেবেলযুক্ত ডেটা বিভিন্ন উপায়ে সংহত করা যায়, প্রধানত নিম্নলিখিত পদ্ধতিগুলি হ'ল:

লেবেলযুক্ত ডেটা থেকে কোনওভাবে সম্ভাব্য নেতিবাচক সেটগুলি আবিষ্কার করুন এবং তারপরে এই অনুমিত negativeণাত্মক থেকে পরিচিত ধনাত্মককে আলাদা করতে একটি তদারকি করা মডেলকে প্রশিক্ষণ দিন।
লেবেলযুক্ত সেটটিকে negativeণাত্মক হিসাবে গণ্য করুন এবং উপস্থিত হিসাবে পরিচিত লেবেল শব্দের জন্য কোনওরকম অ্যাকাউন্ট account

আমি এই ক্ষেত্রে সক্রিয়, এবং এটি এখানে আপনার জন্য সংক্ষিপ্ত বিবরণ না করে, আমি ডোমেনের একটি ওভারভিউ পেতে আমার দুটি কাগজপত্র এবং এর উল্লেখগুলি পড়ার পরামর্শ দিচ্ছি:

ইতিবাচক এবং লেবেলযুক্ত ডেটা থেকে মডেলগুলি শিখতে একটি অত্যাধুনিক প্রযুক্তি (আনুষ্ঠানিক প্রকাশনা এখানে উপলব্ধ ): http://arxiv.org/abs/1402.3144
পরিচিত negativeণাত্মক ছাড়াই সাধারণভাবে ব্যবহৃত পারফরম্যান্স মেট্রিকগুলি গণনা করার একটি কৌশল (পর্যালোচনা অনুযায়ী, এটি এটি প্রথম ধরণের): http://arxiv.org/abs/1504.06837

— মার্ক ক্লেসেন
সূত্র

অসাধারণ! রেফারেন্সের জন্য অনেক ধন্যবাদ। RESVM এবং ব্যাগ প্রাপ্ত SVM পি ইউ শিখার সেটিংয়ে একইভাবে সম্পাদন করছে বলে মনে হচ্ছে। আপনি যে কোনও একটি অ্যালগোরিদমের (অগ্রাধিকারী আর) প্রয়োগের প্রস্তাব দিতে পারেন? দুর্ভাগ্যক্রমে উভয়ই ক্যারেটের অন্তর্ভুক্ত বলে মনে হচ্ছে না।

— এনক্রোফেরেরো

@ এরিক্রোফেরেরো হ্যাঁ, মিথ্যা (পরিচিত) ধনাত্মকতা না থাকলে তারা একইভাবে সঞ্চালন করে, এই ক্ষেত্রে RESVM ব্যাগিং এসভিএমকে উল্লেখযোগ্যভাবে ছাড়িয়ে যায় (আমি সেই কাজের জন্য আরইএসভিএম ডিজাইন করেছি, কারণ আমি যে অ্যাপ্লিকেশনটিতে কাজ করি তা ভ্রান্ত ইতিবাচক থাকে)। আমি মনে করি না যে আর বাস্তবায়ন সহজলভ্যভাবে পাওয়া যায় তবে আপনি এসভিএম বাস্তবায়ন kernlabবা এর মতো মোড়কের মাধ্যমে উভয়টি বেশ সহজেই বাস্তবায়ন করতে পারেন e1071। মনে রাখবেন ব্যাগিং এসভিএম এবং আরএসইভিএম উভয়েরই বেশ কয়েকটি হাইপারপ্যারামিটার রয়েছে যা আপনাকে অনুকূল করতে হবে, যার জন্য আমি অপ্টিনিউশন লাইব্রেরির (একটি আর ইন্টারফেস আছে) সুপারিশ করি ।

— মার্ক ক্লিসেন

@enricoferrero আমার কাছে github.com/claesenm/resvm এ RESVM- র একটি কমান্ড-লাইন প্রয়োগ রয়েছে , যদিও এই কোডটি খুব ভালভাবে পোলিশ করা হয়নি। সেই নির্দিষ্ট রেপো পাইথনে লেখা এবং এনসেম্বলএসভিএম প্যাকেজটির ড্রাইভার হিসাবে ব্যবহৃত হয় ।

— মার্ক ক্লেসেন

দেখে মনে হচ্ছে ব্যাগযুক্ত এসভিএম অ্যালগরিদমের জন্য আর একটি ভাল বিকল্প হ'ল কোনও এসভিএম শিক্ষার্থীর চারপাশে ব্যাগিং মোড়কের সাহায্যে আর-তে mlr প্যাকেজটি ব্যবহার করা যেতে পারে ।

— এনক্রোফেরেরো

আমি ধরে নিচ্ছি যে আপনার 18000 মামলায় স্প্যামের মতো মামলা নেই। এটিতে তত্ত্বাবধানে শেখার পদ্ধতির ব্যবহার করতে আপনার ডেটাতে আপনার 1 টির বেশি বিভাগ / শ্রেণি থাকা দরকার। যেহেতু আপনি জানেন 2000 কেস স্প্যাম, তাই আপনি বাকি 18000 কেসগুলিকে 'অজানা বিভাগ' হিসাবে লেবেল করতে পারেন এবং কোনও তদারকি শেখার মডেলকে অনুমান করতে প্রশিক্ষণ দিতে পারেন যে কোনও মামলা স্প্যাম বা অজানা বিভাগে রয়েছে কিনা। তারপরে মডেলটি 2 বিভাগগুলির মধ্যে পার্থক্য করার জন্য কতটা ভাল পারফর্ম করে তা দেখতে আপনার নমুনা মডেল যথার্থতার পরীক্ষা করে দেখুন। যদি এটি ভাল অভিনয় করে, তবে 'অজানা' বিভাগে আমার কয়েকটি স্প্যাম ক্ষেত্রে অনুমিত হওয়া দরকার। যদি এটি ভাল সম্পাদন করে না, তবে আপনাকে ক্লাস্টার করতে এবং আপনার ডেটাতে পৃথক একজাতীয় গোষ্ঠী সনাক্ত করতে একটি নিরীক্ষণযোগ্য শিক্ষানবিশ (যেমন kmeans, ইত্যাদি) ব্যবহার করতে হবে। তারপরে কোন ক্লাস্টারে সর্বাধিক 2000 টি স্প্যাম ইমেল রয়েছে তা সনাক্ত করুন, এবং কোনটি তা না করে এবং যথাক্রমে এগুলিকে স্প্যাম এবং অ স্প্যাম হিসাবে লেবেল করে। এরপরে, আমি আগে বর্ণিত মত তত্ত্বাবধানী শিক্ষানবিসকে ব্যবহার করে মডেলিংয়ের সাথে এগিয়ে যেতে পারি।

— FelixNNelson
সূত্র

ওপি যা বলছে তা এক শ্রেণির শ্রেণিবিন্যাসের কাজ, যা অত্যন্ত চ্যালেঞ্জিং কাজ।

বিভিন্ন গবেষণা ক্ষেত্র জুড়ে এই টাস্কে অনেকগুলি কাগজপত্র রয়েছে। আমি এনসেম্বল লার্নিংয়ের উপর ভিত্তি করে একটি এফিলিটি ইন্টারসিস্টিক রচয়িতা যাচাইকরণ প্রকল্পও লিখেছিলাম । লেখকদের চেয়ে স্প্যাম / স্প্যাম নয় শ্রেণিবদ্ধ করার জন্য এটিকে মানিয়ে নেওয়া খুব সহজ। এটি ব্যবহার করে দেখুন এবং আপনার আরও বিশদ বিবরণ প্রয়োজন হলে আমাকে জানান ...

— অপরিবর্তিত ব্যতিক্রম
সূত্র

আপনার লিঙ্কটি অনুসরণ করার সময় আমি একটি 404 ত্রুটি পেয়েছি।

— এনক্রোফেরেরো

একটি টাইপো ছিল। তার জন্য দুঃখিত, এখনই কাজ করা উচিত ;-)

— হাতছাড়া হওয়া ব্যতিক্রম