প্রারম্ভিকদের জন্য, নাইভ বেইস সম্ভবত এখানে উপযুক্ত নয়। এটি ইনপুটগুলির মধ্যে স্বতন্ত্রতা ধরে নিয়েছে (সুতরাং "নিষ্পাপ") এবং একটি বাক্যে শব্দগুলি খুব নির্ভরশীল।
তবে, ধরে নিই যে আপনি আপনার পরীক্ষা শুরু করার জন্য অ্যালগরিদম হিসাবে NB- এর সাথে সত্যিই দৌড়াতে চান, আমি দুটি বিকল্প বিবেচনা করব:
অবারগ্রাফুল: প্রচুর এনবি শ্রেণিবদ্ধ
এটি বিকল্প পদ্ধতি হবে। আপনার ইনপুটসের ভেক্টর হিসাবে পরিলক্ষিত সমস্ত শব্দের একটি করপাস তৈরি করুন। আপনার আউটপুটগুলির ভেক্টর হিসাবে পর্যবেক্ষণ করা সমস্ত ট্যাগকে একটি কর্পস তৈরি করুন। একাধিক আউটপুট সহ একটি এনবি শ্রেণিবদ্ধকারী প্রতিটি এক আউটপুট সহ একাধিক এনবি শ্রেণিবদ্ধকারী হওয়ার সমতুল্য (সুতরাং আপনি যে কোনও সফ্টওয়্যার কাঠামো ব্যবহার করছেন তাতে যা প্রয়োগ করা সহজ হবে)। প্রতিটি উপাদানকে প্রশিক্ষণের নমুনা হিসাবে বিবেচনা করুন যেখানে প্রদত্ত ইনপুট (একটি শব্দ) 1
যদি সেই শব্দটি উপস্থিত থাকে এবং 0
যদি শব্দটি না থাকে তবে একটি । আউটপুট জন্য একই বাইনারি স্কিম ব্যবহার করুন।
এই ব্রুটটি আপনার উপাত্তগুলিতে এনবি ক্লাসিফায়ারের প্রয়োগকে বাধ্য করে এবং আপনি যে ক্লাসিফায়ারদের রেখে গেছেন তার বিশাল সেটটি খনিতে এখনও হ্যাভ করে আপনি অর্থ খুঁজে পেতে চলেছেন।
আরও করুণাময়: আপনার ডেটা প্রক্রিয়া করুন
আপনি যদি একাধিক-শ্রেণীর এনবি ক্লাসিফায়ার দিয়ে চালাতে চান তবে আমি এই পদ্ধতির প্রস্তাব দিই।
এখানে আপনার লক্ষ্যটি হ'ল প্রতিটি ট্যাগকে কীভাবে একটি ক্লাসে মানচিত্র করা যায়। আমি নিশ্চিত যে এখানে কিছু ধরণের ক্লাস্টারিং স্কিম বা নেটওয়ার্ক বিশ্লেষণ রয়েছে (সম্ভবত ["সেলিব্রিটি"]] ["হত্যার সাথে" লিখিতভাবে একটি বিভাগে পরিণত হতে পারে ["দেবাচারী"]) যা বুদ্ধিমানভাবে আপনার ট্যাগগুলিকে একক ক্লাস্টারে ম্যাপ করবে। আপনি যদি ট্যাগগুলিকে নোড হিসাবে এবং দুটি প্রদত্ত ট্যাগকে লিংক হিসাবে বিবেচনা করেন, তবে আপনি সম্প্রদায় সনাক্তকরণ অ্যালগরিদমগুলি দেখতে চান (এটি যেখানে আমি শুরু করেছি)। তবে, যদি আপনি কেবল কিছু কাজ করতে চান, তবে ট্যাগগুলিতে কিছু ধরণের হ্যাক যা ট্যাগগুলির একটি তালিকা কেবলমাত্র সেই ট্যাগে রূপান্তরিত করে যা আপনার ডাটাবেসে সর্বাধিক দেখা যায় তা যথেষ্ট।
এই পদ্ধতিটি আপনার ডেটা পরিষ্কার করার কাজটি সামঞ্জস্য করে এবং এনবি শ্রেণিবদ্ধের আউটপুট বুঝতে সহজ করে তোলে।