কেবলমাত্র ইতিবাচক এবং লেবেলযুক্ত ডেটা সহ একটি বাইনারি শ্রেণিবদ্ধকারী তৈরি করুন


11

আমার কাছে দুটি ডেটাসেট রয়েছে, আমি কী সনাক্ত করতে চাই তার ইতিবাচক উদাহরণ সহ একটি এবং লেবেলযুক্ত দৃষ্টান্ত সহ একটি। আমি কোন পদ্ধতি ব্যবহার করতে পারি?

উদাহরণ হিসাবে, ধরুন আমরা কয়েকটি কাঠামোগত ইমেল বৈশিষ্ট্যের ভিত্তিতে স্প্যাম ইমেল সনাক্ত করতে বুঝতে চাই understand আমাদের কাছে 10000 স্প্যাম ইমেলের একটি ডেটাসেট রয়েছে এবং 100000 ইমেলের একটি ডেটাসেট রয়েছে যার জন্য আমরা জানি না সেগুলি স্প্যাম কিনা তা।

আমরা কীভাবে এই সমস্যাটি মোকাবেলা করতে পারি (লেবেলবিহীন কোনও ডেটা ম্যানুয়ালি লেবেল না দিয়ে)?

লেবেলযুক্ত ডেটাতে স্প্যামের অনুপাত সম্পর্কে অতিরিক্ত তথ্য (আমরা যদি 100000 লেবেলযুক্ত ইমেলগুলির মধ্যে 20-40% এর মধ্যে স্প্যাম বলে অনুমান করি তবে কী করতে পারি) আমরা কী করতে পারি?


1
পোস্টটি আধা তত্ত্বাবধানে এবং পু-লার্নিং ট্যাগগুলি যুক্ত করা উচিত। এই ট্যাগগুলি এখনও বিদ্যমান নেই এবং বর্তমানে আমি এগুলি তৈরি করতে পারি না।
ডએএল

@ ড্যানল্যাভিন হ্যাঁ, [ট্যাগ: আধা-তত্ত্বাবধানে-শেখানো] অর্থবোধ করে। যোগ করা :) আমি পু-লার্নিং অংশের সাথে নিশ্চিত নই (অন্তত আমি এটি সম্পর্কে অবগত নই), যাতে অন্য কেউ এটি করতে পারে!
দাওয়ানি 33

1
পিইউ-লার্নিং আধা তত্ত্বাবধানে শেখার একটি নির্দিষ্ট ক্ষেত্রে। এটি কম সাধারণ (গুগলে 7 কে ফলাফল) এর পরে আধা তত্ত্বাবধানে (গুগলে 298 কে ফলাফল) যে এই প্রশ্নটি পিইউ (লেবেলযুক্ত ডেটাসেটটি কেবল ইতিবাচক)। বিষয়টি যখন একাডেমি নিয়ে আলোচনা করা হয়েছে (যেমন, cs.uic.edu/~liub/NSF/PSC-IIS-0307239.html ) সম্ভবত এই প্রশ্নটি এই ট্যাগটি নিয়ে বেশ কিছুক্ষণ থাকবে alone
ডএল

উত্তর:


7

আমার পরামর্শটি হ'ল আপনার লেবেলযুক্ত ডেটাতে কিছুটা ক্লাস্টারিং গড়ে তোলার চেষ্টা করা হবে যা কিছুটা লেবেলযুক্ত ডেটাসেটের সমান করে দেয়। যুক্তি কমবেশি নিম্নরূপ:

  • আপনার দস্তাবেজগুলি উপস্থাপন করার জন্য আপনার কাছে কিছু বৈশিষ্ট্য ভেক্টর রয়েছে
  • বৈশিষ্ট্যটির ভেক্টরের ভিত্তিতে, আপনি অস্পষ্ট, রুক্ষ বা শ্রেণিবদ্ধ ক্লাস্টারিং পদ্ধতিগুলির সাথে বিভিন্ন ক্লাস্টারিংয়ের সাথে আসতে পারেন either
  • ইতিবাচক উদাহরণটি দেখতে কেমন তা জেনে আপনি খুব দ্রুত আপনার ইতিবাচক ক্লাস্টারের সাথে একটি ক্লাস্টারের সামগ্রিক মিলটি মূল্যায়ন করতে পারবেন
  • সত্যিই কেবল দুটি ক্লাস্টার থাকতে হবে তা জেনেও আপনি আপনার ক্লাস্টারিং পদ্ধতিতে হাইপারপ্রেটারিগুলি সামঞ্জস্য করতে পারেন যাতে উপরের দুটি মেট্রিকগুলি সন্তুষ্টির কাছাকাছি এবং আরও কাছাকাছি হয়
  • দুটি ক্লাস্টারের সাহায্যে আপনার কাছে সম্ভবত লেবেলযুক্ত ডেটাসেটের ঘনিষ্ঠতা রয়েছে যা আপনি আপনার মডেলটিকে প্রকৃতপক্ষে প্রশিক্ষণের জন্য রূপালী-মানক কর্পাস হিসাবে ব্যবহার করতে পারেন then

আশা করি যে জ্ঞান করে তোলে, যদি আপনি বিশেষভাবে ক্লাস্টারিং আলগোরিদিম খুঁজছেন, কয়েক যে আমি ব্যক্তিগতভাবে এই দৃশ্যকল্প মধ্যে যে ভাল হতে পারে উপভোগ হয় শিখা এবং tsne । পর্যায়ক্রমে, পাইথনের দর্শনীয় জিনসিম গ্রন্থাগারের দিকে তাকালে আপনি যে ক্লাস্টারিংয়ের সন্ধান করছেন তার দিকে আপনি দীর্ঘ পথ পাবে।

আশা করি এটি সহায়তা করে এবং তা বোধগম্য, আপনার যদি কোনও প্রশ্ন থাকে তবে একটি মন্তব্য করুন।


আপনার উত্তরের জন্য ধন্যবাদ. আমি কি ঠিক বুঝতে পারি: আপনার প্রারম্ভিক বিন্দুটি 2 ডেটাসেটকে একীভূত করতে হবে?
nassimhddd

@ ক্যাফে ৮76। এটি অবশ্যই শুরু করার এক উপায় এবং এরপরে মূলত একটি ক্লাস্টার পুনরায় তৈরি করার চেষ্টা করা যা আসলটির কাছাকাছি।
ইন্দো

3

আপনার সমস্যা পিইউ শেখার কাঠামোর সাথে সম্পর্কিত (কেবল ইতিবাচক, প্রচুর শিরোনামহীন)।

এটি আধা তত্ত্বাবধানে শেখার আরও সাধারণ কাঠামোর কাছাকাছি (কয়েকটি ইতিবাচক এবং নেতিবাচক, অনেকগুলি লেবেলযুক্ত)।

অনেকগুলি জরিপ পত্র রয়েছে যা আপনি মাঠে সন্ধান করতে পারেন।

ক্ষেত্রের একটি ধ্রুপদী পদ্ধতি, এটিও আপনার ক্ষেত্রে যেমন স্প্যামের উপর পরীক্ষা করা হয়েছিল, সহ-প্রশিক্ষণ কো প্রশিক্ষণে আপনি দুটি স্বতন্ত্র শিখর তৈরি করেন (যেমন মেল সামগ্রীর উপর ভিত্তি করে একটি এবং প্রেরণ প্রকল্পের ভিত্তিতে একটি) এবং আপনি ব্যবহার করেন অন্যটির বিপরীতে প্রশিক্ষণ দেওয়ার জন্য একটির ফলাফল।


2

প্রশিক্ষণ 2 জেনারেটাল মডেল, প্রতিটি ডেটাসেটের জন্য একটি (কেবল স্প্যাম, স্প্যাম প্লাস হ্যাম), এটি আপনাকে প্রশিক্ষণের ডেটার একই সম্ভাবনা বন্টন থেকে কোনও ডেটাপয়েন্ট আঁকার সম্ভাবনা দেয়। কোনও মডেল আপনাকে প্রশিক্ষণের জন্য ব্যবহৃত প্রশিক্ষণ ডেটা থেকে উদ্ভূত নথির সর্বোচ্চ সম্ভাবনা দেয় তার ভিত্তিতে স্প্যাম বা হ্যাম হিসাবে ইমেলগুলি অর্পণ করুন ign উদাহরণস্বরূপ জেনারেটাল মডেলগুলি হলেন আরবিএম, অটোরকোডার (সেক্ষেত্রে, কোন মডেলটির মধ্যে সবচেয়ে কম পুনর্গঠন ত্রুটি রয়েছে)। সম্ভবত কিছু বেয়েসিয়ান জেনারেটরি মডেল রয়েছে যা কিছু প্রশিক্ষণের ডেটার উপর ভিত্তি করে ডেটা পয়েন্টে সম্ভাব্যতা নির্ধারণ করবে।

তবে সবচেয়ে ভাল বিকল্প হ'ল কেবল হ্যামযুক্ত দ্বিতীয় ডেটাসেটের সার্থক করার জন্য সময় নেওয়া। এটি আপনাকে উচ্চতর শ্রেণিবিন্যাসের নির্ভুলতা দেবে। হ্যাম ইমেলগুলিতে স্প্যামের একটি কম অনুপাত ধরে নেওয়া, এটি খুব কঠিন হওয়া উচিত নয়। এমনকি আপনার কাছে সময় বা সংস্থান (বা ইন্টার্নস \ গ্র্যাজুয়েট শিক্ষার্থী বা অন্যান্য সস্তা শ্রম) এর অভাব থাকলে আপনি যান্ত্রিক তুর্কও ব্যবহার করতে পারেন।


আপনার উত্তরের জন্য ধন্যবাদ. এটি বৈষম্যমূলক মডেলগুলি কী করতে পারে তা জেনারেটরি মডেলগুলি কী করতে পারে তার একটি দুর্দান্ত উদাহরণ।
nassimhddd
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.