শব্দ ফ্রিকোয়েন্সি ডেটা মধ্যে ছড়িয়ে পড়া পরিমাপ কিভাবে?


10

আমি কীভাবে শব্দের পরিসংখ্যানগুলির একটি ভেক্টরে বিচ্ছুরণের পরিমাণকে মাপ দিতে পারি? আমি এমন একটি পরিসংখ্যান খুঁজছি যা নথির A এর জন্য উচ্চতর হবে, কারণ এতে অনেকগুলি বিভিন্ন শব্দ রয়েছে যা প্রায়ই ঘটে থাকে এবং ডকুমেন্ট বি এর জন্য কম থাকে, কারণ এতে একটি শব্দ (বা কয়েকটি শব্দ) থাকে যা প্রায়শই ঘটে।

আরও সাধারণভাবে, কেউ নামমাত্র ডেটাতে কীভাবে ছড়িয়ে পড়ে বা "স্প্রেড" পরিমাপ করে?

পাঠ্য বিশ্লেষণ সম্প্রদায়ের এটি করার কোনও স্ট্যান্ডার্ড উপায় আছে?

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন

উত্তর:


10

সম্ভাব্যতার জন্য (অনুপাত বা শেয়ার) সমষ্টি 1, পরিবারের এই অঞ্চলে ব্যবস্থাগুলি (সূচী, গুণফল, যাই হোক না কেন) এর জন্য বেশ কয়েকটি প্রস্তাবকে আবদ্ধ করে। এইভাবেpipia[ln(1/pi)]b

  1. a=0,b=0 স্বতন্ত্র শব্দগুলির পর্যবেক্ষণের সংখ্যাটি প্রত্যাবর্তন করে, সম্ভাব্যতার মধ্যে এটি উপেক্ষা না করে পার্থক্য বিবেচনা না করেই ভাবাই সহজ is শুধুমাত্র প্রসঙ্গ হিসাবে এটি সর্বদা দরকারী। অন্যান্য ক্ষেত্রগুলিতে, এটি কোনও সেক্টরে ফার্মগুলির সংখ্যা, কোনও সাইটে পর্যবেক্ষণ করা প্রজাতির সংখ্যা এবং আরও কিছু হতে পারে। সাধারণভাবে, আসুন আমরা এটিকে স্বতন্ত্র আইটেমের সংখ্যা বলি ।

  2. a=2,b=0 গিনি-টুরিং-সিম্পসন-হার্ফিন্ডহাল-হির্সম্যান-গ্রিনবার্গের বর্গক্ষেত্রের সম্ভাবনার যোগফল দেয়, অন্যথায় পুনরাবৃত্তি হার বা বিশুদ্ধতা বা ম্যাচের সম্ভাব্যতা বা সমজাতীয়তা হিসাবে পরিচিত as এটি প্রায়শই এর পরিপূরক বা এর পারস্পরিক ক্রিয়াকলাপ হিসাবে প্রকাশিত হয়, কখনও কখনও অন্য নামে যেমন অপরিষ্কারতা বা ভিন্ন ভিন্ন হিসাবে under এই প্রসঙ্গে, এটি সম্ভাবনা যা এলোমেলোভাবে নির্বাচিত দুটি শব্দ একই এবং এটির পরিপূরক দুটি শব্দ পৃথক হওয়ার সম্ভাবনা। পারস্পরিক এর সমান সাধারণ শ্রেণির সমতুল্য সংখ্যা হিসাবে একটি ব্যাখ্যা রয়েছে; এটিকে কখনও কখনও সংখ্যার সমতুল্য বলা হয়। এ ধরনের ব্যাখ্যা লক্ষ করেন, দ্বারা দেখা যায় সমানভাবে সাধারণ বিভাগ (প্রতিটি সম্ভাব্যতা এইভাবে1pi21/pi2k1/k ) বোঝায় যাতে সম্ভাবনার পারস্পরিক ক্রিয়াকলাপ কেবল । একটি নাম বাছাই করা সম্ভবত আপনি যে ক্ষেত্রে কাজ করছেন সেই ক্ষেত্রে বিশ্বাসঘাতকতা করা। প্রতিটি ক্ষেত্র তাদের নিজস্ব পূর্বপুরুষদের সম্মান করে তবে আমি ম্যাচের সম্ভাব্যতাটিকে সাধারণ এবং সর্বাধিক স্ব-সংজ্ঞায়িত হিসাবে প্রশংসা করি ।pi2=k(1/k)2=1/kk

  3. এইচ এক্সপ্রেস ( এইচ ) কে এইচ = কে ( 1 / কে ) এলএন [ 1 / ( 1 / কে ) ] = এলএন কে এক্সপ্রেস ( এইচ ) = এক্সপ্রেস ( এলএন কে ) কেa=1,b=1 শ্যানন এন্ট্রপি প্রদান করে, প্রায়শই চিহ্নিত করে এবং ইতিমধ্যে প্রত্যক্ষ বা অপ্রত্যক্ষভাবে পূর্ববর্তী উত্তরে সিগন্যাল করে। নামটি এনট্রপি এখানে আটকে গেছে, দুর্দান্ত এবং খুব ভাল কারণগুলির মধ্যে নাও মিশ্রিত হয়েছে, এমনকি মাঝে মধ্যে পদার্থবিজ্ঞানের vyর্ষা। লক্ষ্য করুন হিসাবে অনুরূপ শৈলী লক্ষ করেন, দ্বারা দেখা, সংখ্যা এই পরিমাপ জন্য সমতূল্য সমানভাবে সাধারণ বিভাগ উত্পাদ , এবং তাই আপনাকে ফেরত দেয় । এন্ট্রপিতে রয়েছে অনেক জাঁকজমকপূর্ণ বৈশিষ্ট্য; "তথ্য তত্ত্ব" একটি ভাল অনুসন্ধান শব্দ।Hexp(H)kH=k(1/k)ln[1/(1/k)]=lnkexp(H)=exp(lnk)k

সূত্রটি আইজে গুডে পাওয়া যায়। 1953. প্রজাতির জনসংখ্যা ফ্রিকোয়েন্সি এবং জনসংখ্যার পরামিতিগুলির অনুমান। বায়োমেটিকার 40: 237-264। www.jstor.org/stable/2333344

লগারিদমের অন্যান্য ঘাঁটিগুলি (যেমন 10 বা 2) স্বাদ বা নজির বা সুবিধার্থে সমানভাবে সম্ভব, উপরের কিছু সূত্রের জন্য কেবল সাধারণ পরিবর্তনের সাথে জড়িত।

দ্বিতীয় পরিমাপের স্বতন্ত্র পুনঃ আবিষ্কার (বা পুনর্নবীকরণ) বেশ কয়েকটি শাখা জুড়ে বহুগুণে এবং উপরের নামগুলি সম্পূর্ণ তালিকা থেকে অনেক দূরে।

একটি পরিবারে সাধারণ ব্যবস্থাগুলি একসাথে বেঁধে রাখা কেবল গণিতের জন্য হালকাভাবে আবেদন নয়। এটি আন্ডারলাইন করে যে দুর্লভ এবং সাধারণ আইটেমগুলিতে প্রয়োগ করা আপেক্ষিক ওজনের উপর নির্ভর করে পরিমাপের একটি পছন্দ রয়েছে, এবং সুতরাং আপত্তিজনকভাবে স্বেচ্ছাসেবক প্রস্তাবগুলির একটি ছোট্ট অনুপ্রবেশ দ্বারা নির্মিত অ্যাডহকরির কোনও ছাপ হ্রাস করে। কিছু ক্ষেত্রের সাহিত্যগুলি কাগজপত্র এমনকি এমনকী পুস্তকগুলির উপর ভিত্তি করে বইগুলি দুর্বল করে দেয় যে লেখক (গুলি) দ্বারা পছন্দ করা কিছু পরিমাপ হ'ল প্রত্যেককে ব্যবহার করা উচিত সর্বোত্তম মাপ।

আমার গণনাগুলি ইঙ্গিত করে যে উদাহরণগুলি প্রথম স্থান ব্যতীত এ এবং বি এর চেয়ে আলাদা নয়:

----------------------------------------------------------------------
          |  Shannon H      exp(H)     Simpson   1/Simpson      #items
----------+-----------------------------------------------------------
        A |      0.656       1.927       0.643       1.556          14
        B |      0.684       1.981       0.630       1.588           9 
----------------------------------------------------------------------

(কেউ কেউ খেয়াল করতে আগ্রহী হতে পারে যে এখানে সিম্পসন নামকরণ করা হয়েছে (এডওয়ার্ড হিউ সিম্পসন, ১৯২২-) সিম্পসনের প্যারাডক্স নামে সম্মানিত একইরকম। তিনি দুর্দান্ত কাজ করেছিলেন, তবে তিনি কোনও জিনিসই আবিষ্কার করেননি যার জন্য তিনি আবিষ্কার করেছিলেন) তার নামকরণ করা হয়েছে, যা ঘুরেফিরে স্টিলারের প্যারাডক্স, যা ঘুরেফিরে ....)


এটি একটি উজ্জ্বল উত্তর (এবং 1953 এর উত্তম কাগজের চেয়ে বেশি সহজে অনুসরণ করা))) ধন্যবাদ!
ডিবি '

7

এটি করার একটি সাধারণ উপায় আছে কিনা তা আমি জানি না, তবে এটি আমার কাছে অর্থনীতিতে অসমতার প্রশ্নের সাথে সাদৃশ্যপূর্ণ বলে মনে হয়। যদি আপনি প্রতিটি শব্দকে পৃথক হিসাবে গণ্য করেন এবং তাদের গণনা আয়ের সাথে তুলনামূলক হিসাবে বিবেচনা করেন, তবে শব্দের ব্যাগটি প্রতিটি শব্দের সমান গণনা (সম্পূর্ণ সমতা) বা একটি শব্দ যার সমস্ত গুণ রয়েছে তার মধ্যে তুলনা করতে আগ্রহী এবং অন্য সবাই শূন্য। যে জটিলতাটি "জিরোস" প্রদর্শন করে না, আপনি সাধারণত একটি শব্দ হিসাবে একটি ব্যাগের মধ্যে 1 এর চেয়ে কম গণনা করতে পারবেন না ...

A এর গিনি সহগ 0.18, এবং B এর 0.43, যা দেখায় যে A বি এর চেয়ে "সমান" that

library(ineq)

A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)

আমি অন্য যে কোনও উত্তরে আগ্রহী। স্পষ্টতই গণনাগুলিতে পুরানো ফ্যাশনের বৈকল্পিকতাও একটি প্রাথমিক পয়েন্ট হতে পারে তবে এটি আপনাকে বিভিন্ন আকারের ব্যাগের সাথে তুলনা করার জন্য এটি কোনওভাবেই স্কেল করতে হবে এবং শব্দের প্রতি ভিন্ন ভিন্ন গণনা।


শুভ কল - গিনি সহগ ছিল আমার প্রথম চিন্তাও! গুগল পণ্ডিতদের সন্ধান করা, যদিও আমি পাঠ্য ডেটা সহ এটি ব্যবহার করার নজির খুব বেশি খুঁজে পাই না। আমি ভাবছি যদি এনএলপি / পাঠ্য পুনরুদ্ধার সম্প্রদায়ের এই ধরণের জিনিসটির জন্য আরও মানক ব্যবস্থা থাকে ...
ডিবি '

সতর্কতা অবলম্বন করুন: আমার গণনায় গিনিকে অন্তত তিনটি পৃথক ব্যবস্থার নাম হিসাবে দেওয়া হয়েছে। ইতিহাস প্রতিটি ক্ষেত্রেই ডিফেন্সেবল, তবে লোকেরা ব্যবহৃত সূত্রটি দেখতে হবে।
নিক কক্স

1
ভাল পয়েন্ট @ নিককক্স - আমি অসম্পূর্ণতার জন্য ব্যবহৃত হিসাবে আমি এটির বিষয়ে ভাবছিলাম, যা আমি মনে করি এটি সবচেয়ে সাধারণ ব্যবহার: ellisp.github.io/blog/2017/08/05/weighted-gini আমি বিভিন্ন পদ্ধতি দেখেছি এটিকে প্রাক্কলন / গণনা করা, তবে সমস্ত একই প্রসঙ্গে, এই প্রসঙ্গে definition আমি জানি মেশিন লার্নিং লোকেরা এটি অন্যরকম কিছুতে ব্যবহার করে তবে তাদের অজুহাত দেখেনি ...
পিটার এলিস

1
: @dB 'আমি একটি টেক্সট অ্যাপ্লিকেশনে গিনি ব্যবহারের এই কাগজ পাওয়া proceedings.mlr.press/v10/sanasam10a/sanasam10a.pdf (আমি গৃহীত এক এই উত্তর পছন্দ কেবল এটি আপনার একটি পার্থক্য শ্রেষ্ঠ পেশা আছে, বি!)
ড্যারেন কুক

5

এই নিবন্ধটি ভাষাতত্ত্ববিদদের দ্বারা ব্যবহৃত স্ট্যান্ডার্ড বিস্তারের ব্যবস্থাগুলির একটি পর্যালোচনা রয়েছে। এগুলিকে একক-শব্দ বিস্তারের ব্যবস্থা হিসাবে তালিকাভুক্ত করা হয়েছে (তারা বিভাগসমূহ, পৃষ্ঠাগুলি ইত্যাদিতে শব্দের বিস্তৃতি পরিমাপ করে) তবে শব্দটি ফ্রিকোয়েন্সি বিচ্ছুরণ ব্যবস্থারূপে ব্যবহার করা যেতে পারে। মানক পরিসংখ্যানগুলি মনে হয়:

  1. সর্বোচ্চ-সর্বনিম্ন
  2. আদর্শ চ্যুতি
  3. ভিন্নতার সহগCV
  4. চি-স্কোয়ার্ডχ2

ক্লাসিকগুলি হ'ল:

  1. জুলার্ডের rac q স্ক্র্টD=1CVn1
  2. রোজেনগ্রেন এরS=N(i=1nni)2n
  3. ক্যারোলেরD2=(log2Ni=1nnilog2niN)/log2(n)
  4. লাইনেরD3=1χ24N

যেখানে পাঠ্যটিতে হ'ল মোট শব্দের সংখ্যা, হ'ল স্বতন্ত্র শব্দের সংখ্যা এবং পাঠ্যের i-th শব্দের সংখ্যার সংখ্যা।এন এন iNnni

পাঠ্যটিতে আরও ছড়িয়ে ছিটিয়ে থাকা আরও দুটি পদক্ষেপের কথা উল্লেখ করা হয়েছে তবে তারা শব্দের স্থানিক অবস্থানের উপর নির্ভর করে, তাই এটি শব্দের মডেলের ব্যাগের জন্য অনুপযুক্ত।

  • দ্রষ্টব্য : আমি সূত্রটি আদর্শ স্বরলিখনের সাথে আরও সুসংগত করতে নিবন্ধ থেকে মূল স্বরলিপিটি পরিবর্তন করেছি।

fxi

vi

1
উত্স থেকে সমীকরণগুলি কেন হুবহু অনুলিপি করা হয় না (এটি কেবলমাত্র প্রকাশের মধ্যে লেবেলের পরিবর্তন নয় তবে অভিব্যক্তির পরিবর্তন, বা কমপক্ষে লেবেল / ভেরিয়েবলগুলির ধারাবাহিক পরিবর্তন নয়) কেন?
সেক্সটাস এম্পেরিকাস

@ নিককক্স এটি ধরার জন্য আপনাকে ধন্যবাদ, আমি কেবলমাত্র সংজ্ঞায়িত পরিমাণগুলিকে অন্তর্ভুক্ত করার জন্য সূত্রগুলি সংশোধন করেছি।
ক্রিস নভাক

@ মার্তিজজন ওয়েটারিংস আপনি ঠিক বলেছেন যে মূলত নিবন্ধটি একক শব্দ ছড়িয়ে দেওয়ার মেট্রিকগুলির সাথে আচরণ করেছে, যদিও এগুলি শব্দ ফ্রিকোয়েন্সিটিকে তুচ্ছ বলে মনে হয়। সেক্ষেত্রে আমি সেই তথ্যটি উত্তরে অন্তর্ভুক্ত করেছি। আমি শব্দের মডেলের ব্যাগে এগুলি প্রযোজ্য করার জন্য মূল স্বরলিপিটি পরিবর্তন করেছি (এন এবং v_i এর সাথে এন_আই দিয়ে প্রতিস্থাপন)। আমি এটির ইঙ্গিত দেওয়ার জন্য একটি নোট যুক্ত করেছি, তবে আপনি যদি মনে করেন এটি এখনও বিভ্রান্তিকর হয় তবে আমি উত্তরে দীর্ঘতর ন্যায়সঙ্গততা সরবরাহ করতে পারি।
ক্রিস নভাক

4

আমি প্রথমে যা করব শ্যাননের এনট্রপি গণনা করা। আপনি আর প্যাকেজ ব্যবহার করতে পারেন infotheo, ফাংশন entropy(X, method="emp")। আপনি যদি natstobits(H)এটি চারপাশে মোড়ানো থাকেন তবে আপনি এই উত্সটির এনট্রপি পাবেন বিটগুলিতে।


3

সাম্যতার একটি সম্ভাব্য পরিমাণ যা আপনি ব্যবহার করতে পারেন তা হল স্কেলড শ্যানন এনট্রপি । আপনার যদি অনুপাতের ভেক্টর থাকে তবে এই পরিমাপটি দেওয়া হয়:p(p1,...,pn)

H¯(p)pilnpilnn.

এটি সহ একটি বা অসমতার চূড়ান্ততায় প্রকাশিত চরম মান সহ একটি । শ্যানন এনট্রপি তথ্যগুলির একটি পরিমাপ এবং স্কেলড সংস্করণটি বিভিন্ন সংখ্যার বিভাগের ক্ষেত্রেগুলির মধ্যে তুলনা করতে দেয়।0H¯(p)1

  • চরম বৈষম্য: সমস্ত গণনা কিছু বিভাগে রয়েছে । আমাদের কাছে এবং এটি আমাদের ।kpi=I(i=k)H¯(p)=0

  • চরম সমতা: সমস্ত বিষয় সমস্ত বিভাগের তুলনায় সমান। এই ক্ষেত্রে আমাদের কাছে এবং এটি আমাদের ।pi=1/nH¯(p)=1

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.