আমি ডকুমেন্ট ক্লাস্টারিংয়ে ব্যবহৃত বিভিন্ন কৌশলগুলি তদন্ত করছি এবং আমি পিসিএ (মূল উপাদান বিশ্লেষণ) এবং এলএসএ (সুপ্ত শব্দার্থ বিশ্লেষণ) সম্পর্কিত কিছু সন্দেহ মুছে ফেলতে চাই।
প্রথম জিনিস - তাদের মধ্যে পার্থক্য কি? আমি জানি যে পিসিএতে, এসভিডি পচনটি টার্ম-কোভারিয়েন্স ম্যাট্রিক্সে প্রয়োগ করা হয়, যখন এলএসএতে এটি টার্ম-ডকুমেন্ট ম্যাট্রিক্স হয়। আর কিছু আছে?
দ্বিতীয় - ডকুমেন্ট ক্লাস্টারিং পদ্ধতিতে তাদের ভূমিকা কী? আমি এ পর্যন্ত যা পড়েছি তা থেকে, আমি অনুমান করি যে তাদের উদ্দেশ্যটি মাত্রিকতা হ্রাস করা, গোলমাল হ্রাস এবং শর্তাদির মধ্যে সম্পর্কগুলিকে প্রতিনিধিত্বতে অন্তর্ভুক্ত করা। পিসিএ বা এলএসএ সম্পাদন করার পরে, কে-মানে বা অ্যাগ্রোমেটিভ পদ্ধতিগুলির মতো traditionalতিহ্যবাহী অ্যালগরিদমগুলি হ্রাসকৃত স্থানে প্রয়োগ করা হয় এবং কোস্টিনের দূরত্বের মতো সাধারণ মিলতার ব্যবস্থাগুলি ব্যবহৃত হয়। আমি ভুল হলে আমাকে সংশোধন করুন।
তৃতীয় - পিসিএ / এলএসএ প্রয়োগের আগে টিএফ / আইডিএফ টার্ম ভেক্টরগুলি স্বাভাবিক করা হয়েছে কিনা তা বিবেচনা করে? এবং তারপরে কি এগুলি আবার স্বাভাবিক করা উচিত?
চতুর্থ - ধরা যাক আমি এলএসএ / পিসিএ দ্বারা হ্রাস স্থান শব্দটি সম্পর্কে কিছু ক্লাস্টারিং করেছি। এখন, আমি কীভাবে ফলাফল ক্লাস্টারে লেবেলগুলি অর্পণ করব? যেহেতু মাত্রাগুলি প্রকৃত শব্দের সাথে মিল নয়, এটি বরং একটি কঠিন সমস্যা। আমার মনে একমাত্র ধারণাটি আসল শব্দ ভেক্টর ব্যবহার করে প্রতিটি ক্লাস্টারের জন্য সেন্ট্রয়েডগুলি গণনা করা এবং শীর্ষ ওজনের সাথে পদ নির্বাচন করা তবে এটি খুব কার্যকর বলে মনে হয় না। এই সমস্যার জন্য কিছু নির্দিষ্ট সমাধান আছে? আমি কিছুই খুঁজে পাচ্ছিলাম না।
আমি এই বিষয়গুলি পরিষ্কার করার জন্য খুব কৃতজ্ঞ থাকব।