টিএফ-আইডিএফ লগারিদমে লোগারিদমের ব্যবহার বোঝা


10

আমি পরিতেছিলাম:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

তবে সূত্রটি কেন ঠিক এমনভাবে তৈরি করা হয়েছিল তা আমি বুঝতে পারি না।

আমি কি বুঝতে পারি:

আইডিএফকে কিছু স্তরে পরিমাপ করা উচিত যে প্রতিটি নথিতে একটি শব্দ এস কতবার প্রকাশিত হয়, শব্দটি আরও ঘন ঘন প্রদর্শিত হওয়ায় মান হ্রাস পায়।

সেই দৃষ্টিকোণ থেকে

আমিডিএফ(এস)=# নথির# এসযুক্ত নথিগুলির

তদুপরি টার্ম ফ্রিকোয়েন্সি যথাযথভাবে বর্ণনা করা যায়

টি(এস,ডি)=# নথিতে এস এর সংঘটনগুলির ডি# ডকুমেন্ট ডি-তে কোনও স্ট্রিং Q এর সর্বাধিক সংখ্যক ঘটনা

সুতরাং তারপর পরিমাপ

আমিডিএফ(এস)×টি(এস,ডি)

কোনও উপায়ে কোনও প্রদত্ত নথিতে প্রায়শই কী শব্দটি প্রকাশিত হয় তার সাথে আনুপাতিক এবং ডকুমেন্টগুলির সেটের তুলনায় সেই শব্দটি কতটা অনন্য।

আমি কি বুঝতে পারি না

তবে প্রদত্ত সূত্রটি এটিকে বর্ণনা করে

(লগ(আমিডিএফ(এস)))(12+ +লগ(12টি(এস,ডি)))

সংজ্ঞায় বর্ণিত লগারিদমগুলির প্রয়োজনীয়তাটি বুঝতে আগ্রহী। যেমন, তারা সেখানে কেন? তারা কোন দিকটি জোর দেয়?

উত্তর:


9

জোর দেওয়া দিকটি হ'ল একটি পদ বা ডকুমেন্টের প্রাসঙ্গিকতা (বা ডকুমেন্ট) ফ্রিকোয়েন্সি সহ আনুপাতিকভাবে বৃদ্ধি পায় না। একটি সাব-লিনিয়ার ফাংশন ব্যবহার করে সুতরাং এই প্রভাবটি ডাম্প করতে সহায়তা করে। খুব বড় বা খুব ছোট মানগুলির প্রভাবকে প্রসারিত করতে (যেমন খুব বিরল শব্দ) এছাড়াও মোড়কিত করা হয়। অবশেষে বেশিরভাগ লোকেরা স্বজ্ঞাতভাবে লোগারিদমগুলি ব্যবহার করে স্কোরিং ফাংশনগুলি কিছুটা যুক্ত করার জন্য উপলব্ধি করে যা থেকে পৃথক পৃথক পদগুলির সম্ভাবনা তৈরি করবেপি(একজন,বি)=পি(একজন)পি(বি)লগ(পি(একজন,বি))=লগ(পি(একজন))+ +লগ(পি(বি))

উইকিপিডিয়া নিবন্ধ হিসাবে আপনি সংযুক্ত করেছেন যে নোটগুলি টিএফ-আইডিএফ এর ন্যায়সঙ্গত এখনও সুপ্রতিষ্ঠিত নয়; এটি একটি বাতুল্য যে আমরা কঠোর করতে চাই, একটি কঠোর ধারণা নয় যা আমরা আসল বিশ্বে স্থানান্তর করতে চাই। @ অ্যানি-মৌসে যে বিষয়টি খুব ভালভাবে পড়েছেন হিসাবে উল্লেখ করেছেন তা হ'ল রবার্টসনের বোঝাপড়া বিপরীত দলিল ফ্রিকোয়েন্সি: আইডিএফের জন্য তাত্ত্বিক যুক্তিগুলিতে । এটি পুরো কাঠামোটির একটি বিস্তৃত ওভারভিউ দেয় এবং অনুসন্ধান শব্দগুলির প্রাসঙ্গিকতা ওজনকে টিএফ-আইডিএফ পদ্ধতিটি ভিত্তি করে দেওয়ার চেষ্টা করে।


4
টিএফ-আইডিএফ-এর কিছুটা ন্যায়সঙ্গততা পাওয়া যায় "ফ্যাং, হুই এট আল ( পিডিএফ ) দ্বারা 2004" তথ্য পুনরুদ্ধার হিউরিস্টিক্সের একটি আনুষ্ঠানিক গবেষণা "in
আলেক্সি গ্রিগোরভ

3
আমি মনে করি এটি টিএফ-আইডিএফ ন্যায্যতার জন্য আরও ভাল রেফারেন্স: রবার্টসন, এস। (2004)। "বিপরীত দলিলের ফ্রিকোয়েন্সি বোঝা: আইডিএফের জন্য তাত্ত্বিক আর্গুমেন্টগুলিতে"। জার্নাল অফ ডকুমেন্টেশন 60 (5): 503–520।
কিট আছে - অ্যানি-মৌসে

ভদ্রলোকদের মন্তব্যের জন্য আপনাকে ধন্যবাদ (এবং বিশেষভাবে ধন্যবাদ আলেক্সিকে সংশোধন করার জন্য \log, আমি তাদের ক্রমাগত ভুলে যাই); উভয়কে +1 করুন। আমি রবার্টসন পেপার দেখেছি এবং এটিকে যুক্ত করার চিন্তাভাবনা করেছি; এটি সত্যিই ভাল পঠিত, আমি এটি মূল শরীরে যুক্ত করব।
usεr11852


"ডকুমেন্ট ডি-তে যে কোনও স্ট্রিং Q এর জন্য সর্বাধিক সংখ্যক সংঘটন" কেন ব্যবহার করা হয় তা জানতে চাই number of occurrences for all strings in document D। আমরা কেন সমস্ত শব্দের গণনার পরিবর্তে সর্বাধিক প্রচলিত শব্দের গণনা চাই?
জিওনক্রস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.