গিনি হ্রাস এবং গিনি শিশু নোডের অপরিষ্কারতা


15

আমি এলোমেলো বনের জন্য গিনি বৈশিষ্ট্য গুরুত্ব পরিমাপে কাজ করছি। অতএব, আমার নোড অপরিষ্কারের গিনি হ্রাস গণনা করা উচিত। আমি এখানে এমনভাবেই চলেছি, যা সংজ্ঞার সাথে দ্বন্দ্বের দিকে পরিচালিত করে, যা আমাকে কোথাও ভুল হতে হবে তা বোঝায় ... :)

বাইনারি গাছের জন্য, এবং বাম এবং ডান বাচ্চাদের সম্ভাব্যতাগুলি দেওয়া, আমি একটি নোড এর গিনি অপরিষ্কার গণনা করতে পারি n:

i(n)=1pl2pr2

এবং গিনি হ্রাস:

Δi(n)=i(n)pli(nl)pri(nr)

সুতরাং, উদাহরণস্বরূপ নোডে ১১০ টি পর্যবেক্ষণ সহ:

- node (110)
   - left (100)
      - left_left (60)
      - left_right (40)
   - right (10)
      - right_left (5)
      - right_right (5)

আমি নোডের জন্য গিনি হ্রাস এইভাবে গণনা করব :

i(left)=1(60/100)²(40/100)²=0.48i(right)=1(5/10)²(5/10)²=0.50i(node)=1(100/110)²(10/110)²=0.16

তবে ব্রেইমান সংজ্ঞা অনুসরণ করে (বা সিভিতে এই উত্তর: কার্ট ব্যবহার করার সময় "পরিবর্তনশীল গুরুত্ব" কীভাবে পরিমাপ করা / র‌্যাঙ্ক করা যায় , তবে রেফারেন্সড বইটিতে আমার অ্যাক্সেস নেই), বংশধরের অশুদ্ধতার মানদণ্ড কম হওয়া উচিত পিতামাতার চেয়ে নোড:

গিনি গুরুত্ব
প্রতিবার নোডের একটি বিভাজন পরিবর্তনশীল মি-তে তৈরি হওয়ার পরে দুটি বংশধর নোডের জন্য গিনি অপরিষ্কারের মানদণ্ড প্যারেন্ট নোডের চেয়ে কম হয়। বনের সমস্ত গাছের তুলনায় প্রতিটি পৃথক ভেরিয়েবলের জন্য গিনিকে যুক্ত করা একটি দ্রুত পরিবর্তনশীল গুরুত্ব দেয় যা প্রায়শই ক্রমবর্ধমান গুরুত্ব পরিমাপের সাথে খুব সামঞ্জস্যপূর্ণ হয়।

কারণ অন্যথায়, এটি নেতিবাচক গিনি হ্রাস বাড়ে ...

Δi(node)=i(node)(100/110)i(left)(10/110)i(right)=0.32

সুতরাং, যদি আমি বলতে পারি যে আমি কোথায় ভুল করছি, আমি খুব কৃতজ্ঞ হব কারণ মনে হচ্ছে আমি এখানে কিছু স্পষ্ট মনে করছি ...

উত্তর:


16

আপনি কেবল লক্ষ্য শ্রেণীর ভেরিয়েবলটি মোটেই ব্যবহার করেননি। অন্য সমস্ত অপরিষ্কার কাজ হিসাবে গিনি অপরিষ্কার, একটি বিভক্তির পরে আউটপুট অপরিষ্কার পরিমাপ করে। আপনি যা করেছেন তা হ'ল কেবলমাত্র নমুনা আকার ব্যবহার করে কিছু পরিমাপ করা।

আমি আপনার মামলার সূত্র বের করার চেষ্টা করছি।

ধরুন সরলতার জন্য আপনার কাছে বাইনারি ক্লাসিফায়ার রয়েছে। সঙ্গে বোঝাতে পরীক্ষা অ্যাট্রিবিউট, সঙ্গে সি বর্গ অ্যাট্রিবিউট আছে, যা + + , -ACc+,c মান।

বিভাজনের আগে প্রাথমিক গিনি সূচকটি যেখানে পি ( + ) সি + আছে এমন ডেটা পয়েন্টের অনুপাত

I(A)=1P(A+)2P(A)2
P(A+)c+ শ্রেণি ভেরিয়েবলের মান থাকে।

I(Al)=1P(Al+)2P(Al)2
I(Ar)=1P(Ar+)2P(Ar)2
P(Al+)Ac+

এখন গিনিগেইনের চূড়ান্ত সূত্রটি হবে

GiniGain(A)=I(A)pleftI(Al)prightI(Ar)
pleft#|Al|#|Al|+#|Ar|A

আমি মনে করি আমার স্বরলিখনটি উন্নত হতে পারে, আমি আরও সময় পাব পরে পরে দেখব।

উপসংহার

কেবলমাত্র সংখ্যার ডেটা পয়েন্ট ব্যবহার করা যথেষ্ট নয়, অপরিচ্ছন্নতার অর্থ একটি বৈশিষ্ট্য (পরীক্ষার বৈশিষ্ট্য) অন্য বৈশিষ্ট্য (শ্রেণি বৈশিষ্ট্য) এর বিতরণ পুনরুত্পাদন করতে সক্ষম। পরীক্ষামূলক বৈশিষ্ট্য বিতরণ আপনি ব্যবহৃত নম্বর উত্পাদন করে (কীভাবে বামে, কীভাবে ডান করবেন), তবে শ্রেণীর বৈশিষ্ট্যটির বিতরণ আপনার সূত্রগুলিতে ব্যবহৃত হয় না।

পরে সম্পাদনা করুন - কেন হ্রাস হয় তা প্রমাণ করুন

এখন আমি লক্ষ্য করেছি যে আমি সেই অংশটি মিস করেছি যা প্রমাণ করে কেন এটি সর্বদা চাইল্ড নোডের জিনি সূচকটি পিতামাতার নোডের চেয়ে কম থাকে। আমার কাছে একটি সম্পূর্ণ প্রোভ বা যাচাই করা নেই, তবে আমি ভাবছি এটি একটি বৈধ প্রমাণ। এই বিষয়ের সাথে সম্পর্কিত অন্যান্য ইন্টিরিটেটিং জিনিসের জন্য আপনি প্রযুক্তিগত নোট পরীক্ষা করতে পারেন : বিভক্ত মানদণ্ডের কয়েকটি বৈশিষ্ট্য - লিও ব্রেইমান । এখন এটি আমার প্রমাণ অনুসরণ করবে।

(একটি,)একটি(একটি,)

সর্বোত্তম বিভক্ততা সন্ধানের জন্য আমরা পরীক্ষার বৈশিষ্ট্য অনুসারে দৃষ্টান্তগুলি বাছাই করি এবং বাইনারি সম্ভব সমস্ত বিভাজন চেষ্টা করি। প্রদত্ত বৈশিষ্ট্য অনুসারে বাছাই করা হ'ল প্রকৃতপক্ষে উদাহরণের ক্রমশারণ, যেখানে ক্লাস প্রথম শ্রেণীর উদাহরণ বা দ্বিতীয় শ্রেণির উদাহরণ দিয়ে শুরু হয়। সাধারণতাটি ছাড়াই, আমরা ধরে নেব যে এটি প্রথম শ্রেণীর উদাহরণ দিয়ে শুরু হয়েছে (যদি এটি না হয় তবে আমাদের কাছে একই গণনা সহ একটি আয়না প্রমাণ রয়েছে)।

(1,0)(একটি-1,)h(left)=1(1/1)2(0/1)2=0। সুতরাং বাম দিকে আমরা একটি ছোট gini সূচক মান আছে। কিভাবে সঠিক নোড সম্পর্কে?

h(parent)=1(aa+b)2(ba+b)2
h(right)=1(a1(a1)+b)2(b(a1)+b)2

a0

এখন প্রমাণের চূড়ান্ত পর্যায়ে নোড দেওয়া হচ্ছে যে আমাদের কাছে থাকা ডেটা দ্বারা নির্ধারিত সমস্ত সম্ভাব্য বিভাজন পয়েন্টগুলি বিবেচনা করার সময়, আমরা একটিকে রাখি যার মধ্যে ক্ষুদ্রতম সমষ্টিগত গিনি সূচক রয়েছে যার অর্থ আমরা বেছে নেওয়া সর্বোত্তমটি কম বা সমান তুচ্ছ একটি যা আমি প্রবণতা যে ছোট। যা উপসংহারে আসে যে শেষ পর্যন্ত জিনি সূচক হ্রাস পাবে।

চূড়ান্ত উপসংহার হিসাবে আমাদের নোট করতে হবে এমনকি বিভিন্ন বিভাজনগুলি যদি প্যারেন্ট নোডকে আরও বড় মান দিতে পারে তবে আমরা যেটি বেছে নিই সেগুলির মধ্যে সবচেয়ে ছোট এবং পিতামাতার গিনি সূচকের মানটি আরও ছোট হবে।

আশা করি এটা সাহায্য করবে.


আপনাকে অনেক ধন্যবাদ, আপনি আমার মস্তিষ্ককে আনলক করেছেন ... আসলে, যেহেতু আমি রিগ্রেশন ট্রি নিয়ে কাজ করছি, টার্গেট ক্লাস ভেরিয়েবল ব্যবহার করে খাঁটি শ্রেণিবিন্যাসের চেয়ে কম স্পষ্ট দেখা গেছে। তবে এটি এখন পুরোপুরি অর্থপূর্ণ।
রেমি মলিসন

আমি অনুপস্থিত অংশগুলি ধারণ করতে উত্তর আপডেট করেছি updated
রাপাইও
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.