জিআইএনআই স্কোর এবং লগ-সম্ভাবনা অনুপাতের মধ্যে সম্পর্ক কী


21

আমি শ্রেণিবদ্ধকরণ এবং রিগ্রেশন গাছগুলি অধ্যয়ন করছি এবং বিভক্ত অবস্থানের জন্য অন্যতম একটি পদক্ষেপ হ'ল জিআইএনআই স্কোর।

এখন আমি দুটি বিভক্তির মধ্যে একই তথ্যের সম্ভাবনা অনুপাতের লগ শূন্য হলে সর্বাধিক বিভক্ত অবস্থান নির্ধারণ করতে অভ্যস্ত, যার অর্থ সদস্যতার সম্ভাবনাও সমান সম্ভাবনা।

আমার অন্তর্নিহিততা বলছে যে কোনও না কোনও সংযোগের অবশ্যই সংযোগ থাকতে হবে, জিআইএনআইয়ের একটি গাণিতিক তথ্যের (শ্যানন) তত্ত্বের একটি ভাল ভিত্তি থাকতে হবে তবে আমি নিজে জিনিকে খুব ভালভাবে বুঝতে পারি না যে এই সম্পর্কটি নিজেকে আবিষ্কার করতে পারে।

প্রশ্নাবলী:

  • বিভাজনের জন্য একটি পরিমাপ হিসাবে জিনি অপরিষ্কার স্কোরের "প্রথম নীতিগুলি" কী কী?
  • জিআইএনআই স্কোর কীভাবে সম্ভাবনা অনুপাত বা অন্যান্য তথ্য-তাত্ত্বিক মৌলিক লগগুলির সাথে সম্পর্কিত (শ্যানন এন্ট্রপি, পিডিএফ , এবং ক্রস এনট্রপি সেগুলির অংশ)?

তথ্যসূত্র:

শ্যাননের এন্ট্রপি বর্ণনা করা হয়েছে:

H(x)=ΣiP(xi)logbP(xi)

এটি আমরা যে বহুবিধ ক্ষেত্রে পেয়েছি তাতে বাড়ানো:

H(X,Y)=ΣxΣyP(x,y)logbP(x,y)

শর্তসাপেক্ষ এন্ট্রপি নিম্নলিখিত হিসাবে সংজ্ঞায়িত করা হয়:

H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,H(X|Y)=H(X,Y)H(Y)

সম্ভাবনার অনুপাতের লগটি হঠাৎ পরিবর্তন সনাক্তকরণের জন্য ব্যবহৃত হয় এবং এগুলি ব্যবহার করে উদ্ভূত হয়। (আমার সামনে উদ্দীপনা নেই))

জিনি অপরিষ্কার:

  • জিনি অপরিষ্কারের সাধারণ রূপটি হ'ল I=i=1mfi(1fi)

থটস:

  • অপরিষ্কারের একটি পরিমাপে বিভক্ত করা হয়। উচ্চ "বিশুদ্ধতা" সম্ভবত কম এন্ট্রপির সমান। পদ্ধতির সম্ভবত এনট্রপি মিনিমাইজেশনের সাথে সম্পর্কিত।
  • সম্ভবত এটি অনুমান করা হয় যে ভিত্তি বিতরণ একরকম, বা সম্ভবত হাতে-তরঙ্গী সহ গাউসিয়ান। তারা সম্ভবত বিতরণের মিশ্রণ তৈরি করছে।
  • আমি ভাবছি শেওহার্ট চার্ট ডেরাইভেশন যদি এখানে প্রয়োগ করতে পারে?
  • জিআইএনআই অপরিচ্ছন্নতা 2 টি পরীক্ষার, এবং একটি সাফল্যের দ্বিপদী বিতরণের জন্য সম্ভাব্যতা ঘনত্ব ফাংশনের অবিচ্ছেদ্য বলে মনে হচ্ছে। P(x=k)=(21)p(1p)

(অতিরিক্ত)

  • ফর্মটি বিটা-বাইনোমিয়াল বিতরণের সাথেও সামঞ্জস্যপূর্ণ যা হাইপারজমেট্রিক বিতরণের আগে সম্মিলিত। হাইপারজেমেট্রিক পরীক্ষাগুলি প্রায়শই কোন নমুনায় প্রতিনিধিত্ব করা হয় বা কোনটির নিচে প্রদর্শিত হয় তা নির্ধারণ করতে ব্যবহৃত হয় are ফিশারের সঠিক পরীক্ষার সাথে একটি সম্পর্কও রয়েছে, যা কিছু হোক না কেন (স্বত্বে নোট করুন, এ সম্পর্কে আরও জানুন)।

সম্পাদনা: আমার সন্দেহ আছে যে জিনির একটি ফর্ম রয়েছে যা ডিজিটাল যুক্তি এবং / অথবা আরবি-ট্রিগুলির সাথে খুব ভালভাবে কাজ করে। আমি আশা করি এই শরতে একটি শ্রেণিক প্রকল্পে এটি অন্বেষণ করব।


1
আমি আমার নিজের প্রশ্নের উত্তর দিলে সমস্যা হয়?
এনগ্রিস্টুডেন্ট - মনিকা

1
একদম না. আপনি যদি মনে করেন যে আপনি একটি যুক্তিসঙ্গত উত্তর বলে মনে করেন তবে আগুন থেকে দূরে সরে যান।
গুং - মনিকা পুনরায়

@EngrStudent। ভাল প্রশ্ন তবে আপনি রেফারেন্স বিভাগে প্রথম লিঙ্কটি সরবরাহ করেছেন গিনি সহগের সাথে সম্পর্কিত, যার কার্টে ব্যবহৃত গিনি পরিমাপের সাথে কোনও সম্পর্ক নেই
এন্টোইন

গিনি সূচক সম্পর্কে আমি একটি সহজ ব্যাখ্যা পোস্ট করেছি: stats.stackexchange.com/questions/308885/…
ভিনসেন্ট

উত্তর:


11

আমি এখানে ব্যবহৃত একই স্বরলিপি ব্যবহার করব: শ্রেণিবদ্ধকরণ এবং রিগ্রেশন গাছের পিছনে গণিত

IGI

  1. Gini:Gini(E)=1j=1cpj2
  2. Entropy:H(E)=j=1cpjlogpj

They actually are particular values of a more general entropy measure (Tsallis' Entropy) parametrized in β:

Hβ(E)=1β1(1j=1cpjβ)

Gini is obtained with β=2 and H with β1.

The log-likelihood, also called G-statistic, is a linear transformation of Information Gain:

G-statistic=2|E|IG

Depending on the community (statistics/data mining) people prefer one measure or the the other (Related question here). They might be pretty much equivalent in the decision tree induction process. Log-likelihood might give higher scores to balanced partitions when there are many classes though [Technical Note: Some Properties of Splitting Criteria. Breiman 1996].

Gini Gain can be nicer because it doesn't have logarithms and you can find the closed form for its expected value and variance under random split assumption [Alin Dobra, Johannes Gehrke: Bias Correction in Classification Tree Construction. ICML 2001: 90-97]. It is not as easy for Information Gain (If you are interested, see here).


1

Good question. Unfortunately I don't have enough reputation yet to upvote or comment, so answering instead!

I'm not very familiar with the ratio test, but it strikes me that it is a formalism used to compare the likelihood of data arising from two (or more) different distributions, whereas the Gini coefficient is a summary statistic of a single distribution.

A useful way to think of the Gini coefficient (IMO) is as the area under the Lorenz curve (related to the cdf).

It may be possible to equate Shannon's entropy with Gini using the definition given in the OP for entropy:

H=ΣiP(xi)logbP(xi)

and the definition of Gini:

G=11μΣiP(xi)(Si1+Si), where

Si=Σj=1iP(xi)xi (i.e. the cumulative mean up to xi).

It doesn't look like an easy task though!


A log likelihood ratio is operated on the same data. One of the distributions can be the same general form as the other, but its parameters were fitted to data when some other criterion was true. For instance, you could have one distribution whose parameters describe healthy production process variation (not necessarily Gaussian) and another that is fit to current production process values, and operate both on current production process values compare the log-likelihood ratio to a threshold value indicating possibility of excursion. It can the actual to be compared with the ideal.
EngrStudent - Reinstate Monica
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.