আমি একটি প্রকল্পের জন্য লেটেন্ট ডিরিচলেট বরাদ্দ ব্যবহার করতে চাই এবং আমি জিনসিম লাইব্রেরি সহ পাইথন ব্যবহার করছি। বিষয়গুলি সন্ধান করার পরে আমি কে-মানেগুলির মতো অ্যালগরিদম ব্যবহার করে দস্তাবেজগুলি ক্লাস্টার করতে চাই (আদর্শভাবে আমি ওভারল্যাপিং ক্লাস্টারগুলির জন্য একটি ভাল ব্যবহার করতে চাই যাতে কোনও প্রস্তাবনা স্বাগত হয়)। আমি বিষয়গুলি পরিচালনা করতে পেরেছি তবে সেগুলি আকারে রয়েছে:
0.041 * মন্ত্রী + 0.041 * কী + 0.041 * মুহূর্ত + 0.041 * বিতর্কিত + 0.041 * প্রধান
একটি ক্লাস্টারিং অ্যালগরিদম প্রয়োগ করার জন্য, এবং আমি ভুল হলে আমাকে সংশোধন করতে, আমি বিশ্বাস করি যে tfidf বা word2vec ব্যবহার করে প্রতিটি শব্দকে একটি সংখ্যা হিসাবে উপস্থাপন করার উপায় খুঁজে পাওয়া উচিত।
কীভাবে আমি কোনও তালিকা থেকে পাঠ্য তথ্যকে "স্ট্রিপ" করতে পারলাম তার জন্য কোনও ধারণা আছে যাতে করে এটি করতে এবং তারপরে যথাযথ গুণণের জন্য এটি আবার রেখে দিতে পারি?
উদাহরণস্বরূপ আমি যেভাবে দেখছি তাতে যদি শব্দমন্ত্রীটির টিফিডফ ওজন 0.042 হয় এবং একই বিষয়টির মধ্যে অন্য কোনও শব্দের জন্য আমার এমন কিছু গণনা করা উচিত:
0.041 * 0.42 + ... + 0.041 * tfidf (প্রধানমন্ত্রী) এবং ফলাফল ক্লাস্টার করার জন্য পরে ব্যবহার করা হবে এমন একটি ফলাফল পান।
সময় দেয়ার জন্য ধন্যবাদ.