কেবলমাত্র ইতিবাচক এবং লেবেলযুক্ত ডেটা সহ একটি বাইনারি শ্রেণিবদ্ধকারী তৈরি করুন

11

আমার কাছে দুটি ডেটাসেট রয়েছে, আমি কী সনাক্ত করতে চাই তার ইতিবাচক উদাহরণ সহ একটি এবং লেবেলযুক্ত দৃষ্টান্ত সহ একটি। আমি কোন পদ্ধতি ব্যবহার করতে পারি?

উদাহরণ হিসাবে, ধরুন আমরা কয়েকটি কাঠামোগত ইমেল বৈশিষ্ট্যের ভিত্তিতে স্প্যাম ইমেল সনাক্ত করতে বুঝতে চাই understand আমাদের কাছে 10000 স্প্যাম ইমেলের একটি ডেটাসেট রয়েছে এবং 100000 ইমেলের একটি ডেটাসেট রয়েছে যার জন্য আমরা জানি না সেগুলি স্প্যাম কিনা তা।

আমরা কীভাবে এই সমস্যাটি মোকাবেলা করতে পারি (লেবেলবিহীন কোনও ডেটা ম্যানুয়ালি লেবেল না দিয়ে)?

লেবেলযুক্ত ডেটাতে স্প্যামের অনুপাত সম্পর্কে অতিরিক্ত তথ্য (আমরা যদি 100000 লেবেলযুক্ত ইমেলগুলির মধ্যে 20-40% এর মধ্যে স্প্যাম বলে অনুমান করি তবে কী করতে পারি) আমরা কী করতে পারি?

classification semi-supervised-learning

— nassimhddd
সূত্র

1

পোস্টটি আধা তত্ত্বাবধানে এবং পু-লার্নিং ট্যাগগুলি যুক্ত করা উচিত। এই ট্যাগগুলি এখনও বিদ্যমান নেই এবং বর্তমানে আমি এগুলি তৈরি করতে পারি না।

— ডએএল

@ ড্যানল্যাভিন হ্যাঁ, [ট্যাগ: আধা-তত্ত্বাবধানে-শেখানো] অর্থবোধ করে। যোগ করা :) আমি পু-লার্নিং অংশের সাথে নিশ্চিত নই (অন্তত আমি এটি সম্পর্কে অবগত নই), যাতে অন্য কেউ এটি করতে পারে!

— দাওয়ানি 33

1

পিইউ-লার্নিং আধা তত্ত্বাবধানে শেখার একটি নির্দিষ্ট ক্ষেত্রে। এটি কম সাধারণ (গুগলে 7 কে ফলাফল) এর পরে আধা তত্ত্বাবধানে (গুগলে 298 কে ফলাফল) যে এই প্রশ্নটি পিইউ (লেবেলযুক্ত ডেটাসেটটি কেবল ইতিবাচক)। বিষয়টি যখন একাডেমি নিয়ে আলোচনা করা হয়েছে (যেমন, cs.uic.edu/~liub/NSF/PSC-IIS-0307239.html ) সম্ভবত এই প্রশ্নটি এই ট্যাগটি নিয়ে বেশ কিছুক্ষণ থাকবে alone

— ডএল

7

আমার পরামর্শটি হ'ল আপনার লেবেলযুক্ত ডেটাতে কিছুটা ক্লাস্টারিং গড়ে তোলার চেষ্টা করা হবে যা কিছুটা লেবেলযুক্ত ডেটাসেটের সমান করে দেয়। যুক্তি কমবেশি নিম্নরূপ:

আপনার দস্তাবেজগুলি উপস্থাপন করার জন্য আপনার কাছে কিছু বৈশিষ্ট্য ভেক্টর রয়েছে
বৈশিষ্ট্যটির ভেক্টরের ভিত্তিতে, আপনি অস্পষ্ট, রুক্ষ বা শ্রেণিবদ্ধ ক্লাস্টারিং পদ্ধতিগুলির সাথে বিভিন্ন ক্লাস্টারিংয়ের সাথে আসতে পারেন either
ইতিবাচক উদাহরণটি দেখতে কেমন তা জেনে আপনি খুব দ্রুত আপনার ইতিবাচক ক্লাস্টারের সাথে একটি ক্লাস্টারের সামগ্রিক মিলটি মূল্যায়ন করতে পারবেন
সত্যিই কেবল দুটি ক্লাস্টার থাকতে হবে তা জেনেও আপনি আপনার ক্লাস্টারিং পদ্ধতিতে হাইপারপ্রেটারিগুলি সামঞ্জস্য করতে পারেন যাতে উপরের দুটি মেট্রিকগুলি সন্তুষ্টির কাছাকাছি এবং আরও কাছাকাছি হয়
দুটি ক্লাস্টারের সাহায্যে আপনার কাছে সম্ভবত লেবেলযুক্ত ডেটাসেটের ঘনিষ্ঠতা রয়েছে যা আপনি আপনার মডেলটিকে প্রকৃতপক্ষে প্রশিক্ষণের জন্য রূপালী-মানক কর্পাস হিসাবে ব্যবহার করতে পারেন then

আশা করি যে জ্ঞান করে তোলে, যদি আপনি বিশেষভাবে ক্লাস্টারিং আলগোরিদিম খুঁজছেন, কয়েক যে আমি ব্যক্তিগতভাবে এই দৃশ্যকল্প মধ্যে যে ভাল হতে পারে উপভোগ হয় শিখা এবং tsne । পর্যায়ক্রমে, পাইথনের দর্শনীয় জিনসিম গ্রন্থাগারের দিকে তাকালে আপনি যে ক্লাস্টারিংয়ের সন্ধান করছেন তার দিকে আপনি দীর্ঘ পথ পাবে।

আশা করি এটি সহায়তা করে এবং তা বোধগম্য, আপনার যদি কোনও প্রশ্ন থাকে তবে একটি মন্তব্য করুন।

— indico
সূত্র

আপনার উত্তরের জন্য ধন্যবাদ. আমি কি ঠিক বুঝতে পারি: আপনার প্রারম্ভিক বিন্দুটি 2 ডেটাসেটকে একীভূত করতে হবে?

— nassimhddd

@ ক্যাফে ৮76। এটি অবশ্যই শুরু করার এক উপায় এবং এরপরে মূলত একটি ক্লাস্টার পুনরায় তৈরি করার চেষ্টা করা যা আসলটির কাছাকাছি।

— ইন্দো

3

আপনার সমস্যা পিইউ শেখার কাঠামোর সাথে সম্পর্কিত (কেবল ইতিবাচক, প্রচুর শিরোনামহীন)।

এটি আধা তত্ত্বাবধানে শেখার আরও সাধারণ কাঠামোর কাছাকাছি (কয়েকটি ইতিবাচক এবং নেতিবাচক, অনেকগুলি লেবেলযুক্ত)।

অনেকগুলি জরিপ পত্র রয়েছে যা আপনি মাঠে সন্ধান করতে পারেন।

ক্ষেত্রের একটি ধ্রুপদী পদ্ধতি, এটিও আপনার ক্ষেত্রে যেমন স্প্যামের উপর পরীক্ষা করা হয়েছিল, সহ-প্রশিক্ষণ কো প্রশিক্ষণে আপনি দুটি স্বতন্ত্র শিখর তৈরি করেন (যেমন মেল সামগ্রীর উপর ভিত্তি করে একটি এবং প্রেরণ প্রকল্পের ভিত্তিতে একটি) এবং আপনি ব্যবহার করেন অন্যটির বিপরীতে প্রশিক্ষণ দেওয়ার জন্য একটির ফলাফল।

— ডাল
সূত্র

2

প্রশিক্ষণ 2 জেনারেটাল মডেল, প্রতিটি ডেটাসেটের জন্য একটি (কেবল স্প্যাম, স্প্যাম প্লাস হ্যাম), এটি আপনাকে প্রশিক্ষণের ডেটার একই সম্ভাবনা বন্টন থেকে কোনও ডেটাপয়েন্ট আঁকার সম্ভাবনা দেয়। কোনও মডেল আপনাকে প্রশিক্ষণের জন্য ব্যবহৃত প্রশিক্ষণ ডেটা থেকে উদ্ভূত নথির সর্বোচ্চ সম্ভাবনা দেয় তার ভিত্তিতে স্প্যাম বা হ্যাম হিসাবে ইমেলগুলি অর্পণ করুন ign উদাহরণস্বরূপ জেনারেটাল মডেলগুলি হলেন আরবিএম, অটোরকোডার (সেক্ষেত্রে, কোন মডেলটির মধ্যে সবচেয়ে কম পুনর্গঠন ত্রুটি রয়েছে)। সম্ভবত কিছু বেয়েসিয়ান জেনারেটরি মডেল রয়েছে যা কিছু প্রশিক্ষণের ডেটার উপর ভিত্তি করে ডেটা পয়েন্টে সম্ভাব্যতা নির্ধারণ করবে।

তবে সবচেয়ে ভাল বিকল্প হ'ল কেবল হ্যামযুক্ত দ্বিতীয় ডেটাসেটের সার্থক করার জন্য সময় নেওয়া। এটি আপনাকে উচ্চতর শ্রেণিবিন্যাসের নির্ভুলতা দেবে। হ্যাম ইমেলগুলিতে স্প্যামের একটি কম অনুপাত ধরে নেওয়া, এটি খুব কঠিন হওয়া উচিত নয়। এমনকি আপনার কাছে সময় বা সংস্থান (বা ইন্টার্নস \ গ্র্যাজুয়েট শিক্ষার্থী বা অন্যান্য সস্তা শ্রম) এর অভাব থাকলে আপনি যান্ত্রিক তুর্কও ব্যবহার করতে পারেন।

— সাইমন
সূত্র

আপনার উত্তরের জন্য ধন্যবাদ. এটি বৈষম্যমূলক মডেলগুলি কী করতে পারে তা জেনারেটরি মডেলগুলি কী করতে পারে তার একটি দুর্দান্ত উদাহরণ।

— nassimhddd