পাঠ্য নথির জন্য, বৈশিষ্ট্যটির ভেক্টরগুলি মানক উপস্থাপনাগুলির (শব্দগুলির ব্যাগ বা টিএফ-আইডিএফ ইত্যাদি) এর অধীনে খুব উচ্চ মাত্রিক এবং স্পারস হতে পারে। এই জাতীয় প্রতিনিধির অধীনে সরাসরি দূরত্বগুলি পরিমাপ করা নির্ভরযোগ্য নয় কারণ এটি একটি সত্য সত্য যে খুব উচ্চ মাত্রায়, যে কোনও দুটি পয়েন্টের মধ্যে দূরত্ব একই দেখাতে শুরু করে। এর সাথে মোকাবিলা করার একটি উপায় হ'ল পিসিএ বা এলএসএ ( ল্যাটেন্ট সিমান্টিক বিশ্লেষণ ; ল্যাটেন্ট সিমেেন্টিক ইনডেক্সিং নামে পরিচিত ) ব্যবহার করে ডেটা মাত্রিকতা হ্রাস করা এবং তারপরে নতুন স্থানের দূরত্বগুলি পরিমাপ করা। পিসিএ-র উপরে এলএসএ-এর মতো কিছু ব্যবহার করা সুবিধাজনক কারণ এটি নিম্ন মাত্রিক স্থানে দূরত্বগুলি পরিমাপ করার পরিবর্তে "শব্দার্থিক ধারণা" এর ক্ষেত্রে অর্থবহ উপস্থাপনা দিতে পারে।
সম্ভাব্যতা বিতরণের উপর ভিত্তি করে নথিগুলির তুলনা করা প্রতিটি নথির বিষয় বিতরণকে প্রথমে গণনা করে ( ল্যাটেন্ট ডিরিচলেট বরাদ্দের মতো কিছু ব্যবহার করে ) এবং তারপরে দলিলপত্রের জোড়া বিতরণের বিষয়গুলির মধ্যে কিছু প্রকারের বিচ্যুতি (উদাহরণস্বরূপ, কেএল ডাইভারজেন) গণনা করে করা হয়। একটি উপায়ে, এটি আসলে LSA করার মতো এবং পরে ভেক্টরগুলির মধ্যে কেএল-ডাইভারজেন্স (কোসাইন মিলের পরিবর্তে) ব্যবহার করে এলএসএ স্পেসের দূরত্বগুলি পরিমাপ করার অনুরূপ।
কেএল-ডাইভারজেন্সটি ডিস্ট্রিবিউশনগুলির সাথে তুলনা করার জন্য একটি দূরত্ব পরিমাপ তাই ডকুমেন্টের উপস্থাপনা কিছু বিতরণের ক্ষেত্রে (যা প্রায়শই বাস্তবে থাকে - যেমন, এলডিএ-তে যেমন বিষয়গুলিতে বিতরণ হিসাবে উপস্থাপিত দস্তাবেজগুলি থাকে) তবে এটি ভাল। এছাড়াও মনে রাখবেন যে এই জাতীয় উপস্থাপনার অধীনে বৈশিষ্ট্য ভেক্টরের প্রবেশদ্বারগুলির সমষ্টি হবে (যেহেতু আপনি মূলত নথিকে বিষয় বা শব্দার্থক ধারণাগুলির উপর বিতরণ হিসাবে বিবেচনা করছেন )।
এখানে একটি সম্পর্কিত থ্রেড দেখুন ।