আপনি কেবল লক্ষ্য শ্রেণীর ভেরিয়েবলটি মোটেই ব্যবহার করেননি। অন্য সমস্ত অপরিষ্কার কাজ হিসাবে গিনি অপরিষ্কার, একটি বিভক্তির পরে আউটপুট অপরিষ্কার পরিমাপ করে। আপনি যা করেছেন তা হ'ল কেবলমাত্র নমুনা আকার ব্যবহার করে কিছু পরিমাপ করা।
আমি আপনার মামলার সূত্র বের করার চেষ্টা করছি।
ধরুন সরলতার জন্য আপনার কাছে বাইনারি ক্লাসিফায়ার রয়েছে। সঙ্গে বোঝাতে পরীক্ষা অ্যাট্রিবিউট, সঙ্গে সি বর্গ অ্যাট্রিবিউট আছে, যা গ + + , গ -ACc+,c− মান।
বিভাজনের
আগে প্রাথমিক গিনি সূচকটি
যেখানে পি ( এ + ) সি + আছে এমন ডেটা পয়েন্টের অনুপাত
I(A)=1−P(A+)2−P(A−)2
P(A+)c+ শ্রেণি ভেরিয়েবলের মান থাকে।
I(Al)=1−P(Al+)2−P(Al−)2
I(Ar)=1−P(Ar+)2−P(Ar−)2
P(Al+)Ac+
এখন গিনিগেইনের চূড়ান্ত সূত্রটি হবে
GiniGain(A)=I(A)−pleftI(Al)−prightI(Ar)
pleft#|Al|#|Al|+#|Ar|A
আমি মনে করি আমার স্বরলিখনটি উন্নত হতে পারে, আমি আরও সময় পাব পরে পরে দেখব।
উপসংহার
কেবলমাত্র সংখ্যার ডেটা পয়েন্ট ব্যবহার করা যথেষ্ট নয়, অপরিচ্ছন্নতার অর্থ একটি বৈশিষ্ট্য (পরীক্ষার বৈশিষ্ট্য) অন্য বৈশিষ্ট্য (শ্রেণি বৈশিষ্ট্য) এর বিতরণ পুনরুত্পাদন করতে সক্ষম। পরীক্ষামূলক বৈশিষ্ট্য বিতরণ আপনি ব্যবহৃত নম্বর উত্পাদন করে (কীভাবে বামে, কীভাবে ডান করবেন), তবে শ্রেণীর বৈশিষ্ট্যটির বিতরণ আপনার সূত্রগুলিতে ব্যবহৃত হয় না।
পরে সম্পাদনা করুন - কেন হ্রাস হয় তা প্রমাণ করুন
এখন আমি লক্ষ্য করেছি যে আমি সেই অংশটি মিস করেছি যা প্রমাণ করে কেন এটি সর্বদা চাইল্ড নোডের জিনি সূচকটি পিতামাতার নোডের চেয়ে কম থাকে। আমার কাছে একটি সম্পূর্ণ প্রোভ বা যাচাই করা নেই, তবে আমি ভাবছি এটি একটি বৈধ প্রমাণ। এই বিষয়ের সাথে সম্পর্কিত অন্যান্য ইন্টিরিটেটিং জিনিসের জন্য আপনি প্রযুক্তিগত নোট পরীক্ষা করতে পারেন : বিভক্ত মানদণ্ডের কয়েকটি বৈশিষ্ট্য - লিও ব্রেইমান । এখন এটি আমার প্রমাণ অনুসরণ করবে।
( ক , খ )একটিখ( ক , খ )
সর্বোত্তম বিভক্ততা সন্ধানের জন্য আমরা পরীক্ষার বৈশিষ্ট্য অনুসারে দৃষ্টান্তগুলি বাছাই করি এবং বাইনারি সম্ভব সমস্ত বিভাজন চেষ্টা করি। প্রদত্ত বৈশিষ্ট্য অনুসারে বাছাই করা হ'ল প্রকৃতপক্ষে উদাহরণের ক্রমশারণ, যেখানে ক্লাস প্রথম শ্রেণীর উদাহরণ বা দ্বিতীয় শ্রেণির উদাহরণ দিয়ে শুরু হয়। সাধারণতাটি ছাড়াই, আমরা ধরে নেব যে এটি প্রথম শ্রেণীর উদাহরণ দিয়ে শুরু হয়েছে (যদি এটি না হয় তবে আমাদের কাছে একই গণনা সহ একটি আয়না প্রমাণ রয়েছে)।
( 1 , 0 )( ক - ১ , খ )h(left)=1−(1/1)2−(0/1)2=0। সুতরাং বাম দিকে আমরা একটি ছোট gini সূচক মান আছে। কিভাবে সঠিক নোড সম্পর্কে?
h(parent)=1−(aa+b)2−(ba+b)2
h(right)=1−(a−1(a−1)+b)2−(b(a−1)+b)2
a0
এখন প্রমাণের চূড়ান্ত পর্যায়ে নোড দেওয়া হচ্ছে যে আমাদের কাছে থাকা ডেটা দ্বারা নির্ধারিত সমস্ত সম্ভাব্য বিভাজন পয়েন্টগুলি বিবেচনা করার সময়, আমরা একটিকে রাখি যার মধ্যে ক্ষুদ্রতম সমষ্টিগত গিনি সূচক রয়েছে যার অর্থ আমরা বেছে নেওয়া সর্বোত্তমটি কম বা সমান তুচ্ছ একটি যা আমি প্রবণতা যে ছোট। যা উপসংহারে আসে যে শেষ পর্যন্ত জিনি সূচক হ্রাস পাবে।
চূড়ান্ত উপসংহার হিসাবে আমাদের নোট করতে হবে এমনকি বিভিন্ন বিভাজনগুলি যদি প্যারেন্ট নোডকে আরও বড় মান দিতে পারে তবে আমরা যেটি বেছে নিই সেগুলির মধ্যে সবচেয়ে ছোট এবং পিতামাতার গিনি সূচকের মানটি আরও ছোট হবে।
আশা করি এটা সাহায্য করবে.