একটি পাঠ্য খনির অ্যাপ্লিকেশনটিতে, একটি সহজ পদ্ধতির মধ্যে রয়েছে ডকুমেন্টগুলির কমপ্যাক্ট স্পার্স উপস্থাপনা হিসাবে ভেক্টর তৈরি করতে heuristic ব্যবহার করা । ব্যাচ সেটিংয়ের ক্ষেত্রে এটি ঠিক আছে, যেখানে পুরো কর্পাসটি পূর্ব-পূর্ব হিসাবে পরিচিত, কারণ জন্য পুরো কর্পাসের প্রয়োজন হয়i d f
যেখানে একটি শব্দ, একটি নথি, হ'ল ডকুমেন্ট কর্পাস, এবং (দেখানো হয়নি) অভিধান।d D T
তবে সাধারণত সময়ের সাথে সাথে নতুন নথি পাওয়া যায়। একটি বিকল্প হ'ল বিদ্যমান নির্দিষ্ট সংখ্যক নতুন নথি প্রাপ্ত না হওয়া অবধি ব্যবহার করা চালিয়ে যাওয়া এবং এটি পুনরায় গণনা করা। তবে এটি বরং অকার্যকর বলে মনে হচ্ছে। সমস্ত ডেটা আগে থেকে দেখা গেলে কোনও বর্ধিত আপডেট স্কিম সম্পর্কে (সম্ভবত প্রায়) মানকে রূপান্তর করে এমন কি কেউ জানেন? বা বিকল্পভাবে এমন কোনও ধারণা রয়েছে যা একই ধারণাটি ধারণ করে তবে বর্ধিত ফ্যাশনে গণনা করা যায়?
সাথে সাথে একটি ভাল পরিমাপ থেকে যায় কিনা তা নিয়েও একটি সম্পর্কিত প্রশ্ন রয়েছে। যেহেতু আইডিএফ কর্পাস শব্দের ফ্রিকোয়েন্সিটির ধারণাটি ধারণ করে, তাই ধারণা করা যায় যে কর্পাসের পুরানো নথিগুলি (উদাহরণস্বরূপ বলুন যে আমার কর্পাসে 100 বছরেরও বেশি জার্নাল নিবন্ধ অন্তর্ভুক্ত রয়েছে), সময়ের সাথে সাথে বিভিন্ন শব্দের ফ্রিকোয়েন্সি পরিবর্তিত হয়। স্লাইডিং উইন্ডো ব্যবহার করে নতুন ক্ষেত্রে আসার সময় পুরানো নথিগুলি ফেলে দেওয়া আসলে বোধগম্য হতে পারে । অনুমানযোগ্যভাবে, একজন নতুন সমস্ত গণনা করা হয় বলে পূর্ববর্তী সমস্ত ভেক্টরগুলিকেও সংরক্ষণ করতে পারে এবং তারপরে আমরা যদি 1920-1930 বলে নথিগুলি পুনরুদ্ধার করতে চাই, আমরা সেই তারিখের সীমাতে নথি থেকে গণনা করা ব্যবহার করতে পারি । এই পদ্ধতির অর্থ কি?i d f i d f i d f
সম্পাদনা: অভিধান সম্পর্কে একটি পৃথক তবে সম্পর্কিত সমস্যা রয়েছে । সময়ের বিবর্তনের সাথে সাথে নতুন অভিধানের পদ থাকবে যা এর আগে উপস্থিত হয়নি, তাইবৃদ্ধি পেতে হবে, এবং ভেক্টরের দৈর্ঘ্য । দেখে মনে হচ্ছে এটি কোনও সমস্যা হবে না, কারণ পুরানো ভেক্টরগুলিতে শূন্যগুলি যুক্ত করা যেতে পারে ।| টি | i d f i d f