বর্ধিত আইডিএফ (বিপরীত দলিল ফ্রিকোয়েন্সি)

একটি পাঠ্য খনির অ্যাপ্লিকেশনটিতে, একটি সহজ পদ্ধতির মধ্যে রয়েছে ডকুমেন্টগুলির কমপ্যাক্ট স্পার্স উপস্থাপনা হিসাবে ভেক্টর তৈরি করতে heuristic ব্যবহার করা । ব্যাচ সেটিংয়ের ক্ষেত্রে এটি ঠিক আছে, যেখানে পুরো কর্পাসটি পূর্ব-পূর্ব হিসাবে পরিচিত, কারণ জন্য পুরো কর্পাসের প্রয়োজন হয় $tf-idf$ $idf$

i d f (t) = \log \frac{| D |}{| {d : t \in d} |}

$\mathrm{idf}(t) = \log \frac{|D|}{|\{d: t \in d\}|}$

যেখানে একটি শব্দ, একটি নথি, হ'ল ডকুমেন্ট কর্পাস, এবং (দেখানো হয়নি) অভিধান। $t$ $d$ $D$ $T$

তবে সাধারণত সময়ের সাথে সাথে নতুন নথি পাওয়া যায়। একটি বিকল্প হ'ল বিদ্যমান নির্দিষ্ট সংখ্যক নতুন নথি প্রাপ্ত না হওয়া অবধি ব্যবহার করা চালিয়ে যাওয়া এবং এটি পুনরায় গণনা করা। তবে এটি বরং অকার্যকর বলে মনে হচ্ছে। সমস্ত ডেটা আগে থেকে দেখা গেলে কোনও বর্ধিত আপডেট স্কিম সম্পর্কে (সম্ভবত প্রায়) মানকে রূপান্তর করে এমন কি কেউ জানেন? বা বিকল্পভাবে এমন কোনও ধারণা রয়েছে যা একই ধারণাটি ধারণ করে তবে বর্ধিত ফ্যাশনে গণনা করা যায়? $idf$

সাথে সাথে একটি ভাল পরিমাপ থেকে যায় কিনা তা নিয়েও একটি সম্পর্কিত প্রশ্ন রয়েছে। যেহেতু আইডিএফ কর্পাস শব্দের ফ্রিকোয়েন্সিটির ধারণাটি ধারণ করে, তাই ধারণা করা যায় যে কর্পাসের পুরানো নথিগুলি (উদাহরণস্বরূপ বলুন যে আমার কর্পাসে 100 বছরেরও বেশি জার্নাল নিবন্ধ অন্তর্ভুক্ত রয়েছে), সময়ের সাথে সাথে বিভিন্ন শব্দের ফ্রিকোয়েন্সি পরিবর্তিত হয়। স্লাইডিং উইন্ডো ব্যবহার করে নতুন ক্ষেত্রে আসার সময় পুরানো নথিগুলি ফেলে দেওয়া আসলে বোধগম্য হতে পারে । অনুমানযোগ্যভাবে, একজন নতুন সমস্ত গণনা করা হয় বলে পূর্ববর্তী সমস্ত ভেক্টরগুলিকেও সংরক্ষণ করতে পারে এবং তারপরে আমরা যদি 1920-1930 বলে নথিগুলি পুনরুদ্ধার করতে চাই, আমরা সেই তারিখের সীমাতে নথি থেকে গণনা করা ব্যবহার করতে পারি । এই পদ্ধতির অর্থ কি? $idf$ $idf$ $idf$ $idf$

সম্পাদনা: অভিধান সম্পর্কে একটি পৃথক তবে সম্পর্কিত সমস্যা রয়েছে । সময়ের বিবর্তনের সাথে সাথে নতুন অভিধানের পদ থাকবে যা এর আগে উপস্থিত হয়নি, তাইবৃদ্ধি পেতে হবে, এবং ভেক্টরের দৈর্ঘ্য । দেখে মনে হচ্ছে এটি কোনও সমস্যা হবে না, কারণ পুরানো ভেক্টরগুলিতে শূন্যগুলি যুক্ত করা যেতে পারে । $T$ $|T|$ $idf$ $idf$

time-series text-mining

— TDC
সূত্র

বোকা প্রশ্ন: প্রতিটি টিয়ের জন্য ডিনোমিনেটর সংরক্ষণ করা কি সমস্যা? | টি | এর অনুপাত কীভাবে হয় থেকে | ডি | দেখতে দেখতে (সাধারণভাবে)?

— স্টেফেন

দুঃখিত, সমীকরণটি পরিষ্কার নয় -

হ'ল সময়

পরিবর্তে টার্ম টি এর বিপরীত ডকুমেন্ট ফ্রিকোয়েন্সি । তাই সময়ে

আপনি দৈর্ঘ্যের একটি ভেক্টর হবে

উদাহরণস্বরূপ, অভিধানের আকার (এটিও পরিবর্তিত হতে পারে)। আমি সেই প্রসঙ্গে সম্পাদনা করব।

i d f (t)

$idf(t)$

t

$t$

t

$t$

| T |

$|T|$

— tdc

আমি সমীকরণ বুঝতে পেরেছি। আমার প্রশ্ন ছিল: অভিধানটি সংরক্ষণ করার পরে যদি সমস্যা হয় না: পরিবর্তে | টি | আইডিএফএস একটি স্টোর | টি | বিভাজন (সমীকরণের) + নথির সংখ্যা। বর্ধিত আপডেটের কোনও সমস্যা নেই তখন আইডিএফটি ফ্লাইতে গণনা করা হয়। আমার অনুভূতি আছে যে আমি কিছু উপেক্ষা করেছি।

— স্টেফেন

তুমি এত খারাপ কিছু, কোন নতুন দস্তাবেজ দেওয়া

, যদি আমরা মান আছে

, কেবলমাত্র আমরা এক জন্য হর যোগ

d^{*}

$d^*$

d : t \in d

${d:t \in d}$

t : t \in d^{*}

${t:t \in d^*}$

— TDC

অবিকল। এটা যদি সম্ভব হয়?

— স্টেফেন

ঠিক আছে, দরকারী মন্তব্যের জন্য স্টিফেনকে ধন্যবাদ। আমি অনুমান করি শেষ পর্যন্ত উত্তরটি বেশ সহজ। যেমনটি তিনি বলেছেন, আমাদের কেবলমাত্র বর্তমান ডিনোমিনেটর সংরক্ষণ করতে হবে (একে ): $z$

$z(t) = |\{d:t\in d\}|$

এখন দেওয়া একটি নতুন দস্তাবেজ , আমরা দ্বারা কেবল হর আপডেট করুন: $d^*$

$z^*(t) = z(t) + \left\{ \begin{array}{ll} 1 & \mbox{if}\; {t\in d^*} \\ 0 & \mbox{otherwise} \end{array} \right.$

$tf-idf$ $idf$

একইভাবে একটি পুরানো দস্তাবেজ মুছে ফেলার জন্য, আমরা একটি অনুরূপ ফ্যাশনে অঙ্ক হ্রাস করি।

$tf$ $tf-idf$ $tf-idf$

$idf$ $z$ $z$ $idf$ $tf$

— TDC
সূত্র