অনুযায়ী ড্যান Jurafsky ও জেমস এইচ মার্টিন বই:
"তবে দেখা যাচ্ছে যে সাধারণ ফ্রিকোয়েন্সি শব্দের মধ্যে সংঘর্ষের সর্বোত্তম মাপকাঠি নয় One একটি সমস্যা হ'ল কাঁচা ফ্রিকোয়েন্সি খুব স্কিউড এবং খুব বেশি বৈষম্যমূলক নয় we আমরা যদি জানতে চাই যে এপ্রিকট এবং আনারসের সাথে কী ধরণের প্রসঙ্গগুলি ভাগ করা হয় তবে ডিজিটাল এবং তথ্য দিয়ে নয়, আমরা এর মতো শব্দগুলির থেকে বা তাদের শব্দগুলির থেকে ভাল বৈষম্য পেতে যাচ্ছি না, যা প্রায়শই বিভিন্ন ধরণের শব্দের সাথে ঘটে এবং কোনও নির্দিষ্ট শব্দ সম্পর্কে তথ্যপূর্ণ হয় না ""
কখনও কখনও আমরা ইতিবাচক পয়েন্টওয়্যার মিউচুয়াল তথ্যগুলির সাথে এই কাঁচা ফ্রিকোয়েন্সিটি প্রতিস্থাপন করি:
PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)
পিএমআই নিজেই দেখায় যে প্রসঙ্গ শব্দের সাথে একটি শব্দ ডাব্লু পর্যবেক্ষণ করা কতটা সম্ভব তা সেগুলি স্বাধীনভাবে পর্যবেক্ষণের সাথে তুলনা করে। পিপিএমআইতে আমরা কেবল পিএমআইর ইতিবাচক মান রাখি। আসুন পিএমআই কবে হয় + বা - এবং আমরা কেবল নেতিবাচক কেন রাখি সে সম্পর্কে ভাবি:
ইতিবাচক পিএমআই বলতে কী বোঝায়?
P(w,c)(P(w)P(c))>1
P(w,c)>(P(w)P(c))
এটি ঘটে যখন এবং পৃথকভাবে কিক এবং বলের মতো পারস্পরিকভাবে বেশি ঘটে। আমরা এগুলি রাখতে চাই!wc
নেতিবাচক পিএমআই বলতে কী বোঝায়?
P(w,c)(P(w)P(c))<1
P(w,c)<(P(w)P(c))
এর অর্থ হ'ল এবং উভয়ই বা এর মধ্যে একটির স্বতন্ত্রভাবে ঘটতে থাকে! এটি সীমিত ডেটার কারণে অবিশ্বাস্য পরিসংখ্যানগুলি নির্দেশ করতে পারে অন্যথায় এটি অপ্রয়োজনীয় সহ-উপস্থিতি যেমন, '' এবং 'বল' দেখায়। ('শব্দটি' বেশিরভাগ শব্দের সাথেই ঘটে))wc
পিএমআই বা বিশেষত পিপিএমআই আমাদের তথ্যবহুল সহ-সংঘটন সহ এইরকম পরিস্থিতি ধরতে সহায়তা করে।