তথ্য প্রাপ্তির বিপরীতে আমি কখন গিনি অপরিষ্কার ব্যবহার করব?


66

কেউ কি জ্ঞানহীনতা বনাম তথ্য প্রাপ্তির (এন্ট্রপির উপর ভিত্তি করে) পিছনে যুক্তিটি কার্যত ব্যাখ্যা করতে পারেন ?

সিদ্ধান্ত গাছ ব্যবহার করার সময় কোন ম্যাট্রিক বিভিন্ন পরিস্থিতিতে ব্যবহার করা ভাল?


5
@ অ্যানি-মাউসে আমার ধারণা এটি আপনার মন্তব্যের আগে সুস্পষ্ট ছিল। উভয়ের সুবিধাগুলি থাকলে প্রশ্নটি নয়, তবে কোন পরিস্থিতিতে একটির পরিস্থিতি অপরের চেয়ে ভাল।
মার্টিন থোমা

সম্পর্কিত লিঙ্কগুলিতে চিহ্নিত হিসাবে এটি বেশ কাছাকাছি (আইএমএইচও) থাকার কারণে আমি "এন্ট্রপি" এর পরিবর্তে "তথ্য লাভ" করার প্রস্তাব দিয়েছি। তারপরে, প্রশ্নটি একটি ভিন্ন রূপে জিজ্ঞাসা করা হয়েছিল কখন গিনি অপরিষ্কার ব্যবহার করবেন এবং কখন তথ্য প্রাপ্তি ব্যবহার করবেন?
লরেন্ট ডুভাল

1
আমি এখানে গিনি অপরিষ্কারের একটি সহজ ব্যাখ্যা পোস্ট করেছি যা সহায়ক হতে পারে।
পিকাড ভিনসেন্ট

উত্তর:


47

গিনি অপরিষ্কার এবং তথ্য প্রাপ্ত এন্ট্রপি বেশ একই রকম। এবং মানুষ মূল্যবোধকে বিনিময়যোগ্যভাবে ব্যবহার করে। নীচে উভয়ের সূত্র রয়েছে:

  1. Gini:Gini(E)=1j=1cpj2
  2. Entropy:H(E)=j=1cpjlogpj

একটি পছন্দ দেওয়া হয়েছে, আমি গিনি অপরিষ্কার ব্যবহার করব, কারণ এটি আমাকে লগারিদমিক ফাংশনগুলি গণনা করার প্রয়োজন হয় না, যা গণনাগতভাবে নিবিড় হয়। এর সমাধানটির বদ্ধ ফর্মটিও পাওয়া যাবে।

সিদ্ধান্ত গাছ ব্যবহার করার সময় কোন ম্যাট্রিক বিভিন্ন পরিস্থিতিতে ব্যবহার করা ভাল?

গিনি অপরিষ্কার, উপরে বর্ণিত কারণে।

সুতরাং, কার্ট বিশ্লেষণের ক্ষেত্রে এটি বেশ সমান।

দুটি পদ্ধতির গণনামূলক তুলনার জন্য সহায়ক রেফারেন্স


1
এনট্রপির সূত্রটি দেখা এতটাই সাধারণ, যদিও সিদ্ধান্তের গাছটিতে যা ব্যবহার করা হয় তা শর্তসাপেক্ষ এনট্রপির মতো দেখায়। আমি মনে করি এটি গুরুত্বপূর্ণ পার্থক্য বা কিছু মিস করছি?
ব্যবহারকারী 1700890

@ user1700890 ID3 অ্যালগরিদম তথ্য ব্যবহার করে। এনট্রপি লাভ। আমাকে শর্তসাপেক্ষ এনট্রপি পড়তে হবে। সম্ভবত ID3 এর চেয়ে বেশি উন্নতি :)
ডওয়ানি 33

1
: আমার মনে হয় গিনি impurtiy আপনার সংজ্ঞা হতে পারে ভুল en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
মার্টিন Thoma

22

সাধারণত, আপনি গিনি অপবিত্রতা বা এন্ট্রপি ব্যবহার করেন না কেন আপনার সম্পাদনা পরিবর্তন হবে না change

লরার এ্যালিনা রাইলেয়ানু এবং কিলিয়ান স্টোফেল উভয়কে " গিনি সূচক এবং তথ্য অর্জনের মানদণ্ডের মধ্যে তাত্ত্বিক তুলনা " হিসাবে তুলনা করেছিলেন । সর্বাধিক গুরুত্বপূর্ণ মন্তব্যগুলি ছিল:

  • আপনি কেবল গিনি অপরিষ্কার ব্যবহার করেন বা এনট্রপি ব্যবহার করেন তা কেবল 2% ক্ষেত্রেই এটি গুরুত্বপূর্ণ।
  • এনট্রপি গণনা করতে কিছুটা ধীর হতে পারে (কারণ এটি লগারিদম ব্যবহার করে)।

আমাকে একবার বলা হয়েছিল যে উভয় মেট্রিকের উপস্থিতি কারণ তারা বিজ্ঞানের বিভিন্ন শাখায় আবির্ভূত হয়েছিল।


16

দুটি মান সহ একটি ভেরিয়েবলের ক্ষেত্রে, ভগ্নাংশ f এবং (1-f) এর সাথে উপস্থিত হয়ে,
গিনি এবং এন্ট্রপি দেওয়া হয়:
gini = 2 * f (1-f)
এনট্রপি = f * ln (1 / f) + (1-চ) * এলএন (1 / (1-চ))
এই পদক্ষেপগুলি খুব কম হয় যদি 1.0 এ স্কেল করা হয় (2 * জিনি এবং এনট্রপি / এলএন (2) প্লট করা):

গিনি (y4, বেগুনি) এবং এন্ট্রপি (y3, সবুজ) মানের তুলনা করার জন্য স্কেল করা হয়েছে


14

গিনি ধারাবাহিক বৈশিষ্ট্যের জন্য এবং এন্ট্রপি ক্লাসে ঘটে যাওয়া বৈশিষ্ট্যের জন্য

গিনি ভুল সংক্ষিপ্তকরণ হ্রাস করতে হবে
এন্ট্রপি অনুসন্ধান বিশ্লেষণের জন্য

এনট্রপি গণনা করতে একটু ধীর হয়


7

আরও কম-বেশি একই রয়েছে এই বিষয়টি যুক্ত করার জন্য, এই সত্যটিও বিবেচনা করুন: যাতে: দুটির নীচের প্লটটি দেখুন সর্বাধিক মান হিসাবে 1 পেতে ফাংশনগুলি স্বাভাবিক করা হয়: লাল বক্ররেখা গিনির জন্য থাকে তবে কালো রঙটি এন্ট্রপির জন্য।

0<u<1,log(1u)=uu2/2u3/3+0<p<1,log(p)=p1(1p)2/2(1p)3/3+
0<p<1,plog(p)=p(1p)+p(1p)2/2+p(1p)3/3+
গিনি এবং এন্ট্রপির মানদণ্ডকে সাধারণ করা

@ নিমিশান কর্তৃক বর্ণিত হিসাবে শেষ পর্যন্ত গিনির ভুল প্রতিবন্ধীকরণ হ্রাস করার পক্ষে আরও উপযুক্ত কারণ এটি সিমেট্রিক ০.৫, অন্যদিকে এনট্রপি আরও ক্ষুদ্র সম্ভাবনাগুলিকে দণ্ডিত করবে।


3

লগ হিসাবের কারণে এন্ট্রপি গিনি সূচকের তুলনায় কিছুটা বেশি সময় নেওয়ার সময় নেয়, সম্ভবত এই কারণেই গিনি সূচক অনেক এমএল অ্যালগরিদমের জন্য ডিফল্ট বিকল্প হয়ে উঠেছে। তবে, ট্যান এট থেকে। একটি বই ডেটা মাইনিং পরিচিতি

"অপরিষ্কার পরিমাপ একে অপরের সাথে সামঞ্জস্যপূর্ণ ... প্রকৃতপক্ষে, গাছকে ছাঁটাই করতে ব্যবহৃত কৌশলটি অপরিষ্কার পরিমাপের পছন্দের চেয়ে চূড়ান্ত গাছের উপর আরও বেশি প্রভাব ফেলে।"

সুতরাং, দেখে মনে হচ্ছে অশুচিতা পরিমাপের নির্বাচনের একক সিদ্ধান্ত গাছের অ্যালগরিদমের কার্যকারিতাতে খুব কম প্রভাব পড়ে।

এছাড়াও। "গিনি পদ্ধতি কেবল তখনই কাজ করে যখন টার্গেট ভেরিয়েবল একটি বাইনারি ভেরিয়েবল হয়।" - পাইথনের সাথে অনুমানমূলক বিশ্লেষণ শেখা।


3

আমি গত সপ্তাহের জন্য বাইনারি শ্রেণিবদ্ধকরণের উপর অনুকূলিতকরণ করছি + এবং প্রতিটি ক্ষেত্রে এনট্রপি গিনিকে উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে। এটি ডেটা নির্দিষ্টভাবে নির্দিষ্ট হতে পারে তবে হাইপারপ্যারামিটারগুলি টিউন করা সময় বিবেচনা করার আগে মডেল সম্পর্কে অনুমান করার পরিবর্তে যৌক্তিক পছন্দ হিসাবে এটি উভয়ের চেষ্টা করার মতো মনে হবে।

আপনি পরিসংখ্যান চালা না করা পর্যন্ত ডেটা কীভাবে প্রতিক্রিয়া জানায় তা আপনি কখনই জানেন না।


0

পার্সিমনি অধ্যক্ষ গিনির তুলনায় স্বাচ্ছন্দ্যের হিসাবে এনট্রোপি (লগ সুস্পষ্ট যে প্রসেসর / মেশিন পর্যায়ে সরল গুণে বরং আরও বেশি গণনা জড়িত রয়েছে)।

তবে উচ্চ ভারসাম্যহীনতার সাথে জড়িত কিছু ডেটা ক্ষেত্রে এনট্রপির অবশ্যই প্রান্ত রয়েছে।

যেহেতু এনট্রপি সম্ভাবনার লগ ব্যবহার করে এবং ইভেন্টের সম্ভাব্যতাগুলির সাথে গুণ করে, পটভূমিতে যা ঘটছে তা হ'ল নিম্ন সম্ভাবনার মান।

যদি আপনার ডেটা সম্ভাব্যতা বিতরণ ক্ষতিকারক বা ল্যাপ্লেস হয় (যেমন গভীর শিক্ষার ক্ষেত্রে যেখানে আমাদের তীব্র পর্যায়ে সম্ভাবনা বন্টন প্রয়োজন) এনট্রপি আউটফর্ম গিনি।

আপনার কাছে 2 টি ইভেন্টের একটি .01 সম্ভাবনা এবং অন্যান্য .99 সম্ভাব্যতা থাকলে একটি উদাহরণ দেওয়ার জন্য।

গিনি প্রোব বর্গক্ষেত্র হবে .01 ^ 2 + .99 ^ 2, .0001 + .9801 অর্থ হ'ল কম সম্ভাবনা কোনও ভূমিকা পালন করে না কারণ সমস্ত কিছু সংখ্যাগরিষ্ঠ সম্ভাবনার দ্বারা পরিচালিত হয়।

এখন এনট্রপি ক্ষেত্রে .01 * লগ (.01) +। 99 * লগ (.99) = .01 * (- 2) + .99 * (-। 00436) = -02-.00432 এখন এই ক্ষেত্রে পরিষ্কারভাবে দেখা কম সম্ভাব্যতা আরও ভাল ওজন-বয়স দেওয়া হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.