আমি নিম্ন মাত্রিক স্থানে নথিগুলির একটি কর্পাস উপস্থাপনের জন্য সুপ্ত শব্দার্থবিজ্ঞান ব্যবহার করছি। আমি এই দস্তাবেজগুলিকে কে-মাধ্যম ব্যবহার করে দুটি গ্রুপে গুচ্ছ করতে চাই।
বেশ কয়েক বছর আগে, আমি পাইথনের জিনসিম ব্যবহার করে এটি করেছি এবং আমার নিজের কে-মানে অ্যালগোরিদম লিখেছিলাম। আমি ইউক্যালিডিয়ান দূরত্ব ব্যবহার করে ক্লাস্টার সেন্ট্রয়েডগুলি নির্ধারণ করেছি, তবে তারপরে সেন্ট্রয়েডের কোসাইন মিলের উপর ভিত্তি করে প্রতিটি নথি ক্লাস্টার করেছি। দেখে মনে হচ্ছে এটি বেশ ভাল কাজ করেছে।
এখন আমি নথির অনেক বড় কর্পাসে এটি করার চেষ্টা করছি। কে-মানেগুলি রূপান্তরিত হচ্ছে না, এবং আমি ভাবছি যে এটি আমার কোডে কোনও বাগ। আমি সম্প্রতি পড়েছি যে আপনার কোসাইন সাদৃশ্য ব্যবহার করে গুচ্ছ হওয়া উচিত নয় , কারণ কে-মানে কেবল ইউক্লিডিয়ান দূরত্বের উপর কাজ করে। যদিও আমি যেমনটি উল্লেখ করেছি, এটি আমার ছোট পরীক্ষার ক্ষেত্রে ভাল কাজ করেছে বলে মনে হয়েছে।
এখন আমি এলএসএ উইকিপিডিয়া পৃষ্ঠায় এটি জুড়ে এসেছি :
নথি এবং শব্দ ভেক্টরের উপস্থাপনাগুলি কো-কোসিনের মতো মিলের ব্যবস্থা ব্যবহার করে -তিহ্যবাহী ক্লাস্টারিং অ্যালগরিদমগুলি ব্যবহার করে ক্লাস্টার করা যায়।
তাহলে এটি কোনটি? আমি কি কোসাইন মিল ব্যবহার করতে পারি না?
I then assigned each document to a cluster based on cosine similarity
- একটি ডক এবং সেন্ট্রয়েডের মধ্যে কোসিন? এবং সমস্ত দস্তাবেজ নির্ধারিত হওয়ার পরে আপনি একটি সাধারণ (ইউক্লিডিয়ান) উপায়ে সেন্ট্রয়েডগুলি আপডেট করেন কারণ স্থানটিতে ডক্সের স্থানাঙ্কগুলি পরিচিত। তাই নাকি?