উত্তরটি খুব সোজা-এগিয়ে: টিএফ-আইডিএফ কিছু তদারকি পদ্ধতির সাথে একত্রিত হলে সাধারণ মেয়াদে ফ্রিকোয়েন্সিগুলির চেয়ে ভাল ফলাফল অর্জন করতে পারে।
ক্যানোনিকাল উদাহরণটি নথিগুলির মধ্যে মিলের পরিমাপ হিসাবে কোসাইন মিলকে ব্যবহার করছে। টিএফ-আইডিএফ ভেক্টর নথিগুলির উপস্থাপনার মধ্যে কোণটির কোসাইন গ্রহণ করা কেবলমাত্র টিএফের চেয়ে উচ্চতর যথার্থতার সাথে প্রাসঙ্গিক অনুরূপ নথিগুলি সফলভাবে উদ্ধার করতে পারে।
আইডিএফ সাধারণ শব্দের প্রদত্ত ওজন হ্রাস করে এবং একটি নথিতে অস্বাভাবিক শব্দগুলিকে হাইলাইট করে This বেশিরভাগ নিউজ নিবন্ধগুলি উটপাখি সম্পর্কে নয়, সুতরাং "উটপাখি" সমন্বিত একটি নিউজ নিবন্ধটি অস্বাভাবিক, এবং আমরা জানতে চাই যে অনুরূপ নথিগুলি সন্ধানের চেষ্টা করার সময়।
কিন্তু স্ট্যান্ডার্ড তদারকি করা এমএল কৌশলগুলি ব্যবহার করে পাঠ্য শ্রেণীবদ্ধকরণের ক্ষেত্রে কর্পাসের নথির ফ্রিকোয়েন্সি দ্বারা নিম্ন ওজনকে কেন বিরক্ত করবেন? প্রতিটি শব্দ / শব্দের সংমিশ্রণের জন্য শিখর নিজেই কী গুরুত্ব দেবে না?
এক্সYএক্সYY), এরপরে আমরা নিজের উপর এবং আমাদের দুর্বল ওভারওয়াকড কম্পিউটারগুলিতে কাজটি আরও সহজ করে দিয়েছি! আমি মনে করি এটি ক্ষেত্রের একটি স্বল্প-প্রশংসিত উপাদান - লোকেরা অ্যালগরিদমগুলি অধ্যয়ন ও বিবেচনায় প্রচুর সময় ব্যয় করে কারণ তারা ডোমেন-স্বতন্ত্র, তবে আপনার ডেটা এবং আপনি যে সমস্যাটি সমাধান করার চেষ্টা করছেন সে সম্পর্কে আরও জানার পথগুলি নির্দেশ করতে পারে উন্নত ডেটা সংগ্রহ বা ডেটা উপস্থাপনা যা কাজটিকে এত সহজ করে তোলে - এবং এত সহজ যে অলঙ্কৃত পরিশীলনের একটি মডেল অপ্রয়োজনীয়।
এখানে প্রচুর সংস্থান পাওয়া যায় , যা আমি সুবিধার জন্য পুনরুত্পাদন করি।
কে স্পার্ক জোন্স। "শব্দ নির্দিষ্টকরণের একটি পরিসংখ্যানগত ব্যাখ্যা এবং পুনরুদ্ধারে এর প্রয়োগ"। জার্নাল অফ ডকুমেন্টেশন, 28 (1)। 1972।
জি সালটন এবং এডওয়ার্ড ফক্স এবং উ হ্যারি উ। "বর্ধিত বুলিয়ান তথ্য পুনরুদ্ধার"। এসিএমের যোগাযোগ, 26 (11) 1983।
জি। সালটন এবং এমজে ম্যাকগিল। "আধুনিক তথ্য পুনরুদ্ধারের ভূমিকা"। 1983
জি সাল্টন এবং সি বাকলি। "স্বয়ংক্রিয় পাঠ্য পুনরুদ্ধারে টার্ম-ওজন পদ্ধতি" aches তথ্য প্রসেসিং এবং পরিচালনা, 24 (5) 1988।
এইচ। উ ও আর। লুক এবং কে ওং এবং কে কোক। "টিএফ-আইডিএফ শব্দটির ওজনকে প্রাসঙ্গিকতা সিদ্ধান্ত হিসাবে ব্যাখ্যা করা"। তথ্য সিস্টেমের উপর এসিএম লেনদেন, 26 (3) 2008।