তত্ত্বাবধানে শেখার অ্যালগরিদমের একাধিক লেবেল


10

আমার সাথে সম্পর্কিত বিষয়গুলির সাথে একটি পাঠ্য সংকলন রয়েছে। উদাহরণস্বরূপ "A rapper Tupac was shot in LA"এবং এটি হিসাবে লেবেলযুক্ত ছিল ["celebrity", "murder"]। সুতরাং মূলত প্রতিটি বৈশিষ্ট্যের ভেক্টরের অনেকগুলি লেবেল থাকতে পারে (একই পরিমাণ নয় The প্রথম বৈশিষ্ট্য ভেক্টরটিতে 3 টি লেবেল থাকতে পারে, দ্বিতীয় 1, তৃতীয় 5)।

আমি যদি প্রতিটি লেখার সাথে কেবল একটি লেবেল যুক্ত করে থাকি তবে আমি একটি নাইভ বেয়েস শ্রেণিবদ্ধের চেষ্টা করতাম, তবে আমি জানি না যে আমার আরও অনেকগুলি লেবেল থাকলে কীভাবে এগিয়ে যেতে হবে।

নাইভ বেয়েসকে মাল্টি লেবেল শ্রেণিবদ্ধকরণ সমস্যায় রূপান্তর করার কোনও উপায় আছে (যদি আরও ভাল পদ্ধতির থাকে - দয়া করে আমাকে জানান)

আমার কাছে থাকা ডেটা সম্পর্কে PS কিছু জিনিস।

  • ডেটাসেটে আনুমানিক 10.000 উপাদান
  • পাঠ্য প্রায় 2-3 বাক্য
  • প্রতি পাঠ্য সর্বাধিক 7 লেবেল

@ ফোর্ডপ্রেফেক্ট মাল্টিনোমিয়াল নাইভ বেইস কিছু বৈশিষ্ট্যের সম্ভাব্যতার জন্য বহু শ্রেণীর বিতরণ ব্যবহার করেছে যাতে শ্রেণি দেওয়া হয়: । ওপি একাধিক আউটপুট পরিচালনা করার জন্য একটি শ্রেণিবদ্ধী চায় যা থিগ্রিমসায়েন্টিস্ট বর্ণনা করেছেন। পি(আমি|)
রবার্ট স্মিথ

উত্তর:


6

প্রারম্ভিকদের জন্য, নাইভ বেইস সম্ভবত এখানে উপযুক্ত নয়। এটি ইনপুটগুলির মধ্যে স্বতন্ত্রতা ধরে নিয়েছে (সুতরাং "নিষ্পাপ") এবং একটি বাক্যে শব্দগুলি খুব নির্ভরশীল।

তবে, ধরে নিই যে আপনি আপনার পরীক্ষা শুরু করার জন্য অ্যালগরিদম হিসাবে NB- এর সাথে সত্যিই দৌড়াতে চান, আমি দুটি বিকল্প বিবেচনা করব:

অবারগ্রাফুল: প্রচুর এনবি শ্রেণিবদ্ধ

এটি বিকল্প পদ্ধতি হবে। আপনার ইনপুটসের ভেক্টর হিসাবে পরিলক্ষিত সমস্ত শব্দের একটি করপাস তৈরি করুন। আপনার আউটপুটগুলির ভেক্টর হিসাবে পর্যবেক্ষণ করা সমস্ত ট্যাগকে একটি কর্পস তৈরি করুন। একাধিক আউটপুট সহ একটি এনবি শ্রেণিবদ্ধকারী প্রতিটি এক আউটপুট সহ একাধিক এনবি শ্রেণিবদ্ধকারী হওয়ার সমতুল্য (সুতরাং আপনি যে কোনও সফ্টওয়্যার কাঠামো ব্যবহার করছেন তাতে যা প্রয়োগ করা সহজ হবে)। প্রতিটি উপাদানকে প্রশিক্ষণের নমুনা হিসাবে বিবেচনা করুন যেখানে প্রদত্ত ইনপুট (একটি শব্দ) 1যদি সেই শব্দটি উপস্থিত থাকে এবং 0যদি শব্দটি না থাকে তবে একটি । আউটপুট জন্য একই বাইনারি স্কিম ব্যবহার করুন।

এই ব্রুটটি আপনার উপাত্তগুলিতে এনবি ক্লাসিফায়ারের প্রয়োগকে বাধ্য করে এবং আপনি যে ক্লাসিফায়ারদের রেখে গেছেন তার বিশাল সেটটি খনিতে এখনও হ্যাভ করে আপনি অর্থ খুঁজে পেতে চলেছেন।

আরও করুণাময়: আপনার ডেটা প্রক্রিয়া করুন

আপনি যদি একাধিক-শ্রেণীর এনবি ক্লাসিফায়ার দিয়ে চালাতে চান তবে আমি এই পদ্ধতির প্রস্তাব দিই।

এখানে আপনার লক্ষ্যটি হ'ল প্রতিটি ট্যাগকে কীভাবে একটি ক্লাসে মানচিত্র করা যায়। আমি নিশ্চিত যে এখানে কিছু ধরণের ক্লাস্টারিং স্কিম বা নেটওয়ার্ক বিশ্লেষণ রয়েছে (সম্ভবত ["সেলিব্রিটি"]] ["হত্যার সাথে" লিখিতভাবে একটি বিভাগে পরিণত হতে পারে ["দেবাচারী"]) যা বুদ্ধিমানভাবে আপনার ট্যাগগুলিকে একক ক্লাস্টারে ম্যাপ করবে। আপনি যদি ট্যাগগুলিকে নোড হিসাবে এবং দুটি প্রদত্ত ট্যাগকে লিংক হিসাবে বিবেচনা করেন, তবে আপনি সম্প্রদায় সনাক্তকরণ অ্যালগরিদমগুলি দেখতে চান (এটি যেখানে আমি শুরু করেছি)। তবে, যদি আপনি কেবল কিছু কাজ করতে চান, তবে ট্যাগগুলিতে কিছু ধরণের হ্যাক যা ট্যাগগুলির একটি তালিকা কেবলমাত্র সেই ট্যাগে রূপান্তরিত করে যা আপনার ডাটাবেসে সর্বাধিক দেখা যায় তা যথেষ্ট।

এই পদ্ধতিটি আপনার ডেটা পরিষ্কার করার কাজটি সামঞ্জস্য করে এবং এনবি শ্রেণিবদ্ধের আউটপুট বুঝতে সহজ করে তোলে।


আপনার ইনপুট জন্য আপনাকে ধন্যবাদ, NB এর চেয়ে ভাল কি হতে পারে আপনার যদি ধারণা থাকে তবে দয়া করে আমাকে জানান।
সালভাদোর ডালি

1
এই স্লাইড ডেকের "বিদ্যমান সমাধানগুলি" বিভাগটি আমার জবাবদিহি করতে পারে এমন সমস্ত কিছু ধারণ করে, আরও অনেকগুলি (ধরে নিও যে আপনাকে বিশেষত শ্রেণিবদ্ধের প্রয়োজন নেই এবং কেবল ট্যাগ ব্যবহার করার উপায় চান)। আমি আশা করি এটি আপনার কাজে লাগবে
TheGrimmScientist

@ দ্য গ্রিমসায়েন্টিস্ট প্রথম পন্থাটি ব্যবহার করা কি যুক্তিসঙ্গত হবে না? আপনার যদি f1, f2, f3 বৈশিষ্ট্যগুলির ভেক্টর থাকে এবং আসুন আমরা বলি যে এই ভেক্টরটির জন্য 3 টি লেবেল রয়েছে, তবে আমরা আউটপুট হিসাবে বিভিন্ন লেবেলের সাথে 3 টি ভেক্টরগুলিতে (একই বৈশিষ্ট্য F1, f2, f3) বিভাজন করতে পারি। তারপরে যথারীতি নাইভ বেয়েস ব্যবহার করা সম্ভব। আমি মনে করি না যে এটি আপনার মনে মনে ছিল কিনা।
রবার্ট স্মিথ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.