উত্সর্গীয়ভাবে আমি এলএসএকে প্রতিবার এলডিএর চেয়ে অনেক বেশি উন্নত পেয়েছি এবং প্রতিটি ডেটাसेटে আমি এটি চেষ্টা করেছি। আমি অন্য লোকদের সাথে কথা বলেছি যারা একই কথা বলেছে। এটি নথির মধ্যে শব্দার্থক মিলটি পরিমাপ করার জন্য অনেকগুলি সেমিভাল প্রতিযোগিতা জিতে ব্যবহার করতে ব্যবহৃত হয়েছিল, প্রায়শই ওয়ার্ডনেট ভিত্তিক পরিমাপের সংমিশ্রণে, তাই আমি এটি বলব না যে এটি ফ্যাশনটি বাইরে চলেছে, বা অবশ্যই এলডিএর চেয়ে নিকৃষ্টতর, যা আরও ভাল টপিক মডেলিংয়ের জন্য এবং আমার অভিজ্ঞতার অর্থগত মিল নয়, কিছু প্রতিক্রিয়াকারীরা যা বলেছেন তার বিপরীতে।
আপনি যদি জিনসিম (একটি অজগর গ্রন্থাগার) ব্যবহার করেন তবে এটিতে এলএসএ, এলডিএ এবং ওয়ার্ড 2vec রয়েছে, তাই আপনি সহজেই 3. ডক্টুভেক তুলনা করতে পারেন একটি দুর্দান্ত ধারণা, তবে খুব ভালভাবে স্কেল করেন না এবং সম্ভবত আমি নিজেই এটি প্রয়োগ করতে হবে কোনও ওপেন সোর্স বাস্তবায়ন সম্পর্কে অসচেতন। এটি প্রতিটি নথির মতো স্কেল করে না, এসজিডি, একটি ধীর মেশিন লার্নিং অ্যালগরিদম ব্যবহার করে একটি নতুন এবং পৃথক মডেল তৈরি করতে হবে। তবে এটি সম্ভবত আপনাকে সবচেয়ে সঠিক ফলাফল দেবে। এলএসএ এবং এলডিএও ভাল স্কেল করে না (ওয়ার্ড টুভেক তবে হয়), সাধারণভাবে এলডিএ স্কেলগুলি আরও খারাপ। Gensim এর প্রয়োগগুলি তবে খুব দ্রুত, কারণ এটি পুনরাবৃত্ত এসভিডি ব্যবহার করে।
অন্য একটি নোট, যদি আপনি word2vec ব্যবহার করেন তবে আপনাকে ডকুমেন্টগুলি থেকে ভেক্টর রচনা করার একটি উপায় নির্ধারণ করতে হবে, কারণ এটি আপনাকে প্রতি শব্দে আলাদা ভেক্টর দেয়। এটি করার সহজতম উপায় হ'ল প্রতিটি ভেক্টরকে সাধারণকরণ এবং নথিতে সমস্ত শব্দের ভেক্টরগুলির চেয়ে গড় গ্রহণ করা, বা প্রতিটি শব্দের আইডিএফ ওজন দ্বারা একটি ওজনযুক্ত গড় নেওয়া। সুতরাং এটি 'ওয়ার্ড টুভেক ব্যবহার করুন' এর মতো সহজ নয়, নথির সাদৃশ্য গণনা করার জন্য আপনাকে আরও কিছু করতে হবে।
আমি ব্যক্তিগতভাবে এলএসএর সাথে যাব, যেহেতু আমি দেখেছি এটি অভিজ্ঞতাবাদীভাবে ভাল কাজ করেছে এবং জিনসিমের লাইব্রেরিটি খুব ভালভাবে আঁকছে। যাইহোক, কোনও নিখরচায় দুপুরের খাবার নেই, তাই প্রতিটি পদ্ধতির পছন্দ করে নিন এবং দেখুন যা আপনার ডেটার জন্য আরও ভাল কাজ করে।