বর্ধিত আইডিএফ (বিপরীত দলিল ফ্রিকোয়েন্সি)


11

একটি পাঠ্য খনির অ্যাপ্লিকেশনটিতে, একটি সহজ পদ্ধতির মধ্যে রয়েছে ডকুমেন্টগুলির কমপ্যাক্ট স্পার্স উপস্থাপনা হিসাবে ভেক্টর তৈরি করতে heuristic ব্যবহার করা । ব্যাচ সেটিংয়ের ক্ষেত্রে এটি ঠিক আছে, যেখানে পুরো কর্পাসটি পূর্ব-পূর্ব হিসাবে পরিচিত, কারণ জন্য পুরো কর্পাসের প্রয়োজন হয়i d ftfidfidf

idf(t)=log|D||{d:td}|

যেখানে একটি শব্দ, একটি নথি, হ'ল ডকুমেন্ট কর্পাস, এবং (দেখানো হয়নি) অভিধান।d D TtdDT

তবে সাধারণত সময়ের সাথে সাথে নতুন নথি পাওয়া যায়। একটি বিকল্প হ'ল বিদ্যমান নির্দিষ্ট সংখ্যক নতুন নথি প্রাপ্ত না হওয়া অবধি ব্যবহার করা চালিয়ে যাওয়া এবং এটি পুনরায় গণনা করা। তবে এটি বরং অকার্যকর বলে মনে হচ্ছে। সমস্ত ডেটা আগে থেকে দেখা গেলে কোনও বর্ধিত আপডেট স্কিম সম্পর্কে (সম্ভবত প্রায়) মানকে রূপান্তর করে এমন কি কেউ জানেন? বা বিকল্পভাবে এমন কোনও ধারণা রয়েছে যা একই ধারণাটি ধারণ করে তবে বর্ধিত ফ্যাশনে গণনা করা যায়?idf

সাথে সাথে একটি ভাল পরিমাপ থেকে যায় কিনা তা নিয়েও একটি সম্পর্কিত প্রশ্ন রয়েছে। যেহেতু আইডিএফ কর্পাস শব্দের ফ্রিকোয়েন্সিটির ধারণাটি ধারণ করে, তাই ধারণা করা যায় যে কর্পাসের পুরানো নথিগুলি (উদাহরণস্বরূপ বলুন যে আমার কর্পাসে 100 বছরেরও বেশি জার্নাল নিবন্ধ অন্তর্ভুক্ত রয়েছে), সময়ের সাথে সাথে বিভিন্ন শব্দের ফ্রিকোয়েন্সি পরিবর্তিত হয়। স্লাইডিং উইন্ডো ব্যবহার করে নতুন ক্ষেত্রে আসার সময় পুরানো নথিগুলি ফেলে দেওয়া আসলে বোধগম্য হতে পারে । অনুমানযোগ্যভাবে, একজন নতুন সমস্ত গণনা করা হয় বলে পূর্ববর্তী সমস্ত ভেক্টরগুলিকেও সংরক্ষণ করতে পারে এবং তারপরে আমরা যদি 1920-1930 বলে নথিগুলি পুনরুদ্ধার করতে চাই, আমরা সেই তারিখের সীমাতে নথি থেকে গণনা করা ব্যবহার করতে পারি । এই পদ্ধতির অর্থ কি?i d f i d f i d fidfidfidfidf

সম্পাদনা: অভিধান সম্পর্কে একটি পৃথক তবে সম্পর্কিত সমস্যা রয়েছে । সময়ের বিবর্তনের সাথে সাথে নতুন অভিধানের পদ থাকবে যা এর আগে উপস্থিত হয়নি, তাইবৃদ্ধি পেতে হবে, এবং ভেক্টরের দৈর্ঘ্য । দেখে মনে হচ্ছে এটি কোনও সমস্যা হবে না, কারণ পুরানো ভেক্টরগুলিতে শূন্যগুলি যুক্ত করা যেতে পারে ।| টি | i d f i d fT|T|idfidf


বোকা প্রশ্ন: প্রতিটি টিয়ের জন্য ডিনোমিনেটর সংরক্ষণ করা কি সমস্যা? | টি | এর অনুপাত কীভাবে হয় থেকে | ডি | দেখতে দেখতে (সাধারণভাবে)?
স্টেফেন

দুঃখিত, সমীকরণটি পরিষ্কার নয় - হ'ল সময় t এর পরিবর্তে টার্ম টি এর বিপরীত ডকুমেন্ট ফ্রিকোয়েন্সি । তাই সময়ে টি আপনি দৈর্ঘ্যের একটি ভেক্টর হবে | টি | উদাহরণস্বরূপ, অভিধানের আকার (এটিও পরিবর্তিত হতে পারে)। আমি সেই প্রসঙ্গে সম্পাদনা করব। idf(t)tt|T|
tdc

1
আমি সমীকরণ বুঝতে পেরেছি। আমার প্রশ্ন ছিল: অভিধানটি সংরক্ষণ করার পরে যদি সমস্যা হয় না: পরিবর্তে | টি | আইডিএফএস একটি স্টোর | টি | বিভাজন (সমীকরণের) + নথির সংখ্যা। বর্ধিত আপডেটের কোনও সমস্যা নেই তখন আইডিএফটি ফ্লাইতে গণনা করা হয়। আমার অনুভূতি আছে যে আমি কিছু উপেক্ষা করেছি।
স্টেফেন

তুমি এত খারাপ কিছু, কোন নতুন দস্তাবেজ দেওয়া , যদি আমরা মান আছে : T , কেবলমাত্র আমরা এক জন্য হর যোগ টি : T *dd:tdt:td
TDC

অবিকল। এটা যদি সম্ভব হয়?
স্টেফেন

উত্তর:


6

ঠিক আছে, দরকারী মন্তব্যের জন্য স্টিফেনকে ধন্যবাদ। আমি অনুমান করি শেষ পর্যন্ত উত্তরটি বেশ সহজ। যেমনটি তিনি বলেছেন, আমাদের কেবলমাত্র বর্তমান ডিনোমিনেটর সংরক্ষণ করতে হবে (একে ):z

z(t)=|{d:td}|

এখন দেওয়া একটি নতুন দস্তাবেজ , আমরা দ্বারা কেবল হর আপডেট করুন:d

z(t)=z(t)+{1iftd0otherwise

tfidfidf

একইভাবে একটি পুরানো দস্তাবেজ মুছে ফেলার জন্য, আমরা একটি অনুরূপ ফ্যাশনে অঙ্ক হ্রাস করি।

tftfidftfidf

idfzzidftf

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.