পাঠ্য শ্রেণিবিন্যাস এবং বিষয় মডেলগুলির মধ্যে পার্থক্য কী?


20

আমি মেশিন লার্নিংয়ে ক্লাস্টারিং এবং শ্রেণিবিন্যাসের মধ্যে পার্থক্য জানি, তবে আমি নথির জন্য পাঠ্য শ্রেণিবিন্যাস এবং বিষয় মডেলিংয়ের মধ্যে পার্থক্য বুঝতে পারি না। কোনও বিষয় শনাক্ত করার জন্য আমি কী নথির উপরে টপিক মডেলিং ব্যবহার করতে পারি? আমি এই নথির ভিতরে থাকা পাঠ্যকে শ্রেণিবদ্ধ করতে শ্রেণিবদ্ধকরণ পদ্ধতিগুলি ব্যবহার করতে পারি?

উত্তর:


28

পাঠ্য শ্রেণিবদ্ধকরণ

আমি আপনাকে কয়েকটি দলিল দেব, যার প্রত্যেকটিতে একটি লেবেল সংযুক্ত রয়েছে। আমি আপনাকে কেন ডকুমেন্টের বিষয়বস্তুতে তাদের কথার ভিত্তিতে এই লেবেলগুলি দেওয়া হয়েছে বলে শিখতে বলছি। তারপরে আমি আপনাকে নতুন দস্তাবেজ দিচ্ছি এবং প্রত্যেকটির লেবেলটি আপনার কী হওয়া উচিত বলে মনে করেন। লেবেলগুলি আপনার কাছে প্রয়োজনীয় তাৎপর্যপূর্ণ নয়।

বিষয় মডেলিং

আমি আপনাকে লেবেল ছাড়াই একগুচ্ছ নথি দিচ্ছি। আমি আপনাকে প্রত্যেকটি "সম্পর্কে" কিছু বিষয় চিহ্নিত করে ডকুমেন্টগুলিতে শব্দগুলি কেন তা বোঝাতে বলছি। আপনি প্রতিটি নথিতে প্রতিটি কতটি আছে তা আমাকে বলার মাধ্যমে আপনি আমাকে বিষয়গুলি বলুন এবং আমি সিদ্ধান্ত নিই যে বিষয়গুলি কিছু বলতে গেলে "কী" বোঝায়।

"আমাকে একটি বিষয় চিহ্নিত করুন" বা "পাঠ্যটির শ্রেণিবদ্ধকরণ" দ্বারা আপনি আমাকে কী স্পষ্ট করতে হবে।


10

তবে আমি জানি না যে নথিতে পাঠ্য শ্রেণিবদ্ধকরণ এবং বিষয়গুলির মডেলগুলির মধ্যে পার্থক্য

Text Classificationতত্ত্বাবধানে শেখার একটি ফর্ম, সুতরাং সম্ভাব্য শ্রেণীর সেটগুলি আগে থেকেই পরিচিত / সংজ্ঞায়িত হয় , এবং পরিবর্তন হয় না।

Topic Modelingনিরীক্ষণযোগ্য শেখার একধরণের (ক্লাস্টারিংয়ের অনুরূপ), সুতরাং সম্ভাব্য বিষয়ের সেটটি অজানা এপ্রোরি । এগুলি বিষয় মডেলগুলি উত্পন্ন করার অংশ হিসাবে সংজ্ঞায়িত করা হয়েছে। এলডিএ-এর মতো অ-সংজ্ঞা-অ্যালগরিদম সহ, আপনি প্রতিবার অ্যালগরিদম চালানোর সময় আপনি বিভিন্ন বিষয় পেয়ে যাবেন।

Text classificationপ্রায়শই পারস্পরিক একচেটিয়া ক্লাস জড়িত - এগুলি বালতি হিসাবে মনে করুন।
তবে এটি করার দরকার নেই: সঠিক ধরণের লেবেলযুক্ত ইনপুট ডেটা দেওয়াতে, আপনি নন-পারস্পরিক-এক্সক্লুসিভ বাইনারি শ্রেণিবদ্ধের একটি সিরিজ সেট করতে পারেন।

Topic modelingসাধারণত পারস্পরিক-একচেটিয়া নয়: একই নথিতে এর সম্ভাব্যতা বিতরণ অনেকগুলি বিষয়ের মধ্যে ছড়িয়ে থাকতে পারে। এছাড়াও, এখানে শ্রেণিবদ্ধ বিষয় মডেলিং পদ্ধতিও রয়েছে।

এছাড়াও আমি কোনও বিষয় শনাক্ত করার জন্য নথির জন্য টপিক মডেল ব্যবহার করতে পারি পরে কি এই নথির অভ্যন্তরের পাঠ্যটিকে শ্রেণিবদ্ধ করার জন্য আমি শ্রেণিবিন্যাসটি ব্যবহার করতে পারি?

যদি আপনি জিজ্ঞাসা করছেন যে আপনি কোনও বিষয়কে মডেলিং অ্যালগরিদম দ্বারা একটি বিষয়ে অর্পিত সমস্ত নথিগুলি নিতে পারেন এবং তারপরে সেই সংকলনে কোনও শ্রেণিবদ্ধকারী প্রয়োগ করতে পারেন, তবে হ্যাঁ, আপনি অবশ্যই এটি করতে পারেন।

আমি নিশ্চিত নই যে এটি বেশি অর্থবোধ করেছে, যদিও: সর্বনিম্ন, আপনার উপরে সম্ভাব্য বন্টন বিষয়টির জন্য একটি থ্রোসোল্ড বাছাই করা দরকার যা আপনি আপনার সংগ্রহে নথিগুলি অন্তর্ভুক্ত করবেন (সাধারণত 0.05-0.1)।

আপনি আপনার ব্যবহারের ক্ষেত্রে বিস্তারিত বলতে পারেন?

উপায় দ্বারা, জাভা জন্য MALLET লাইব্রেরি ব্যবহার করে টপিক মডেলিংয়ের একটি দুর্দান্ত টিউটোরিয়াল এখানে পাওয়া যায়: টপিক মডেলিং এবং MALLET দিয়ে শুরু করা


4

বিষয়গুলির মডেলগুলি সাধারণত নিরীক্ষণ করা হয় । এছাড়াও "তদারকি বিষয়গুলির মডেল" রয়েছে; তবুও তারা মডেল করার চেষ্টা করে ক্লাসের মধ্যে বিষয়গুলি

যেমন আপনার একটি ক্লাস "ফুটবল" থাকতে পারে, তবে এই শ্রেণীর ভিতরে এমন বিষয় থাকতে পারে যা নির্দিষ্ট ম্যাচ বা দলগুলির সাথে সম্পর্কিত।

বিষয়গুলির সাথে চ্যালেঞ্জ হ'ল তারা সময়ের সাথে সাথে পরিবর্তিত হয়; উপরের ম্যাচগুলির উদাহরণ বিবেচনা করুন। এই জাতীয় বিষয়গুলি উদ্ভূত হতে পারে এবং আবার অদৃশ্য হয়ে যেতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.