আমি নথি-স্তরের ক্লাস্টারিংয়ের চেষ্টা করছি। আমি টার্ম-ডকুমেন্ট ফ্রিকোয়েন্সি ম্যাট্রিক্সটি তৈরি করেছি এবং আমি কে-মাধ্যম ব্যবহার করে এই উচ্চ মাত্রিক ভেক্টরগুলিকে ক্লাস্টার করার চেষ্টা করছি। সরাসরি ক্লাস্টারিংয়ের পরিবর্তে, আমি যা করেছি তা হ'ল প্রথমে ইউ, এস, ভিটি ম্যাট্রিকেসগুলি অর্জনের জন্য এলএসএ'র (প্রচ্ছন্ন সিমেটিক বিশ্লেষণ) একক ভেক্টর পচন প্রয়োগ করতে হবে এবং স্ক্রিট প্লট ব্যবহার করে একটি উপযুক্ত প্রান্তিক নির্বাচন করে হ্রাসিত ম্যাট্রিকগুলিতে ক্লাস্টারিং প্রয়োগ করা হয়েছিল (বিশেষত ভ্যাট কারণ) এটি আমাকে একটি ধারণা-দস্তাবেজের তথ্য দেয়) যা দেখে মনে হয় আমাকে ভাল ফলাফল দিচ্ছে।
আমি কিছু কিছু মানুষের SVD (একবচন ভেক্টর পচানি) বলতে শুনেছি হয় ক্লাস্টারিং (কোসাইন আদল পরিমাপ ইত্যাদি ব্যবহার করে) এবং নিশ্চিত না যদি আমি SVD আউটপুট উপর K-উপায়ে আবেদন পারে। আমি ভেবেছিলাম এটি যুক্তিযুক্তভাবে সঠিক কারণ এসভিডি একটি মাত্রিক হ্রাস কৌশল, আমাকে নতুন ভেক্টরগুলির একটি গুচ্ছ দেয়। অন্যদিকে, কে-মানে ক্লাস্টারগুলির সংখ্যা ইনপুট হিসাবে গ্রহণ করবে এবং এই ভেক্টরগুলিকে নির্দিষ্ট সংখ্যক ক্লাস্টারে বিভক্ত করবে। এই পদ্ধতিটি ত্রুটিযুক্ত বা এর কোন উপায় রয়েছে যেখানে এটি উন্নত করা যেতে পারে? কোনও পরামর্শ?