তবে আমি জানি না যে নথিতে পাঠ্য শ্রেণিবদ্ধকরণ এবং বিষয়গুলির মডেলগুলির মধ্যে পার্থক্য
Text Classification
তত্ত্বাবধানে শেখার একটি ফর্ম, সুতরাং সম্ভাব্য শ্রেণীর সেটগুলি আগে থেকেই পরিচিত / সংজ্ঞায়িত হয় , এবং পরিবর্তন হয় না।
Topic Modeling
নিরীক্ষণযোগ্য শেখার একধরণের (ক্লাস্টারিংয়ের অনুরূপ), সুতরাং সম্ভাব্য বিষয়ের সেটটি অজানা এপ্রোরি । এগুলি বিষয় মডেলগুলি উত্পন্ন করার অংশ হিসাবে সংজ্ঞায়িত করা হয়েছে। এলডিএ-এর মতো অ-সংজ্ঞা-অ্যালগরিদম সহ, আপনি প্রতিবার অ্যালগরিদম চালানোর সময় আপনি বিভিন্ন বিষয় পেয়ে যাবেন।
Text classification
প্রায়শই পারস্পরিক একচেটিয়া ক্লাস জড়িত - এগুলি বালতি হিসাবে মনে করুন।
তবে এটি করার দরকার নেই: সঠিক ধরণের লেবেলযুক্ত ইনপুট ডেটা দেওয়াতে, আপনি নন-পারস্পরিক-এক্সক্লুসিভ বাইনারি শ্রেণিবদ্ধের একটি সিরিজ সেট করতে পারেন।
Topic modeling
সাধারণত পারস্পরিক-একচেটিয়া নয়: একই নথিতে এর সম্ভাব্যতা বিতরণ অনেকগুলি বিষয়ের মধ্যে ছড়িয়ে থাকতে পারে। এছাড়াও, এখানে শ্রেণিবদ্ধ বিষয় মডেলিং পদ্ধতিও রয়েছে।
এছাড়াও আমি কোনও বিষয় শনাক্ত করার জন্য নথির জন্য টপিক মডেল ব্যবহার করতে পারি পরে কি এই নথির অভ্যন্তরের পাঠ্যটিকে শ্রেণিবদ্ধ করার জন্য আমি শ্রেণিবিন্যাসটি ব্যবহার করতে পারি?
যদি আপনি জিজ্ঞাসা করছেন যে আপনি কোনও বিষয়কে মডেলিং অ্যালগরিদম দ্বারা একটি বিষয়ে অর্পিত সমস্ত নথিগুলি নিতে পারেন এবং তারপরে সেই সংকলনে কোনও শ্রেণিবদ্ধকারী প্রয়োগ করতে পারেন, তবে হ্যাঁ, আপনি অবশ্যই এটি করতে পারেন।
আমি নিশ্চিত নই যে এটি বেশি অর্থবোধ করেছে, যদিও: সর্বনিম্ন, আপনার উপরে সম্ভাব্য বন্টন বিষয়টির জন্য একটি থ্রোসোল্ড বাছাই করা দরকার যা আপনি আপনার সংগ্রহে নথিগুলি অন্তর্ভুক্ত করবেন (সাধারণত 0.05-0.1)।
আপনি আপনার ব্যবহারের ক্ষেত্রে বিস্তারিত বলতে পারেন?
উপায় দ্বারা, জাভা জন্য MALLET লাইব্রেরি ব্যবহার করে টপিক মডেলিংয়ের একটি দুর্দান্ত টিউটোরিয়াল এখানে পাওয়া যায়: টপিক মডেলিং এবং MALLET দিয়ে শুরু করা