শ্রেণিবদ্ধকরণ এবং রিগ্রেশন গাছের পিছনে গণিত


14

কেউ কি কার্টে শ্রেণিবিন্যাসের পিছনে কিছু গণিত ব্যাখ্যা করতে সহায়তা করতে পারে? আমি বুঝতে চাইছি কীভাবে দুটি প্রধান পর্যায় ঘটে। উদাহরণস্বরূপ আমি একটি ডেটাসেটে একটি কর্ট শ্রেণিবদ্ধকারীকে প্রশিক্ষণ দিয়েছি এবং এর ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্স চিহ্নিত করতে একটি টেস্টিং ডেটাসেট ব্যবহার করেছি তবে:

  1. গাছের প্রাথমিক মূলকে কীভাবে বেছে নেওয়া হয়?

  2. কেন এবং কিভাবে প্রতিটি শাখা গঠিত হয়?

আমার ডেটাসেটটি 15 টি কলাম এবং 23 টি ক্লাস সহ 400 হাজার রেকর্ড হওয়া একটি বিভ্রান্তির ম্যাট্রিক্স থেকে 100% নির্ভুলতা অর্জন করে, আমি ডেটাसेटে 10-ভাঁড়ের ক্রসওয়েডিয়েশন ব্যবহার করি। আমি সত্যিই দুর্দান্ত হতে পারি যদি কেউ কার্ট শ্রেণিবিন্যাসের স্তরগুলি ব্যাখ্যা করতে সহায়তা করতে পারে?

উত্তর:


24

অ্যালগরিদমের মতো কার্ট এবং সিদ্ধান্তের গাছগুলি প্রদত্ত টার্গেট ক্লাসে যথাসম্ভব খাঁটি সাবটেক্টগুলি অর্জনের জন্য প্রশিক্ষণের সেটটি পুনরাবৃত্তকারী বিভাজনের মাধ্যমে কাজ করে। গাছের প্রতিটি নোডের রেকর্ডের একটি নির্দিষ্ট সেটে যুক্ত করা হয় করে একটি বৈশিষ্ট্য একটি নির্দিষ্ট পরীক্ষার দ্বারা ফাটানো হয়। উদাহরণস্বরূপ, একটি অবিচ্ছিন্ন গুণাবলী A এর বিভাজন পরীক্ষা A x দ্বারা প্ররোচিত হতে পারে । রেকর্ডস টি এর সেটটি দুটি উপ-উপভাগে বিভক্ত হয় যা গাছের বাম শাখা এবং ডানদিকে নিয়ে যায়।TAAxT

Tl={tT:t(A)x}

এবং

Tr={tT:t(A)>x}

একইভাবে, একটি শ্রেণীবদ্ধ বৈশিষ্ট্য এর মান অনুসারে বিভাজন প্ররোচিত করতে ব্যবহার করা যেতে পারে। উদাহরণস্বরূপ, যদি বি = { বি 1 , , বি কে } প্রতিটি শাখা আমি পরীক্ষার দ্বারা প্ররোচিত হতে পারি বি = বি iBB={b1,,bk}iB=bi

সিদ্ধান্ত গাছকে প্ররোচিত করতে পুনরাবৃত্তির অ্যালগরিদমের বিভাজন পদক্ষেপ প্রতিটি বৈশিষ্ট্যের জন্য সমস্ত সম্ভাব্য বিভাজনকে বিবেচনা করে এবং একটি নির্বাচিত মানের পরিমাপ: বিভাজক মানদণ্ড অনুসারে সেরাটিকে খুঁজে পাওয়ার চেষ্টা করে। যদি আপনার ডেটাসেটটি নিম্নলিখিত স্কিমটিতে প্ররোচিত হয়

A1,,Am,C

যেখানে বৈশিষ্ট্য এবং সি লক্ষ্য শ্রেণি, সমস্ত প্রার্থী বিভক্ত মানদণ্ড দ্বারা বিভক্ত এবং মূল্যায়ন করা হয়। উপরে বর্ণিত হিসাবে অবিচ্ছিন্ন গুণাবলী এবং শ্রেণীবদ্ধগুলিতে বিভাজন উত্পন্ন হয়। সেরা বিভাজনের নির্বাচনটি সাধারণত অপরিষ্কার ব্যবস্থা দ্বারা পরিচালিত হয়। অভিভাবক নোডের অশুচিতা বিভাজন দ্বারা হ্রাস করতে হবে । আসুন ( E 1 , E 2 , , E k ) রেকর্ড E এর সেটের উপর ভিত্তি করে বিভক্ত হয়ে উঠুন , একটি বিভাজক মানদণ্ড যা অপরিষ্কার পরিমাপ I ( ) ব্যবহার করে:AjC(E1,E2,,Ek)EI()

Δ=I(E)i=1k|Ei||E|I(Ei)

EpjEcj

pj=|{tE:t[C]=cj}||E|
Gini(E)=1j=1Qpj2
Q

যখন সমস্ত রেকর্ড একই শ্রেণীর অন্তর্গত তখন এটি 0 টি অশুচিতার দিকে নিয়ে যায়।

T(1/2,1/2)T

ভাল বিভাজন

Tl(1,0)Tr(0,1)TlTr|Tl|/|T|=|Tr|/|T|=1/2Δ

Δ=11/221/2200=1/2

Δখারাপ বিভাজন

Δ=11/221/221/2(1(3/4)2(1/4)2)1/2(1(1/4)2(3/4)2)=1/21/2(3/8)1/2(3/8)=1/8

প্রথম বিভাজন সেরা বিভক্ত হিসাবে নির্বাচিত হবে এবং তারপরে অ্যালগোরিদমটি পুনরাবৃত্ত ফ্যাশনে এগিয়ে যায়।

সিদ্ধান্ত গাছের সাথে একটি নতুন উদাহরণটিকে শ্রেণিবদ্ধ করা সহজ, বাস্তবে মূল নোড থেকে কোনও পাতার দিকে যাওয়ার পথ অনুসরণ করা যথেষ্ট। একটি রেকর্ডটি পাতার সংখ্যাগরিষ্ঠ শ্রেণীর সাথে শ্রেণিবদ্ধ করা হয় যা এটি পৌঁছে।

বলুন যে আমরা এই চিত্রটিতে স্কোয়ার শ্রেণিবদ্ধ করতে চাই

দুটি বৈশিষ্ট্য ডেটাসেট

A,B,CCAB

একটি সম্ভাব্য প্ররোচিত সিদ্ধান্ত গাছ নিম্নলিখিত হতে পারে: এখানে চিত্র বর্ণনা লিখুন

এটা পরিষ্কার যে রেকর্ড স্কোয়ারটি বৃত্ত হিসাবে লেবেলযুক্ত পাতায় রেকর্ডটি পড়ে এমন একটি বৃত্ত হিসাবে সিদ্ধান্ত গাছ দ্বারা শ্রেণিবদ্ধ করা হবে।

এই খেলনা উদাহরণে প্রশিক্ষণের সেটটিতে যথার্থতা 100% কারণ গাছ দ্বারা কোনও রেকর্ডকে ভুলভাবে শ্রেণিবদ্ধ করা হয়নি। উপরের প্রশিক্ষণটির গ্রাফিকাল উপস্থাপনায় আমরা গাছটি নতুন দৃষ্টান্তগুলিকে শ্রেণিবদ্ধ করার জন্য সীমানা (ধূসর ড্যাশযুক্ত লাইন) দেখতে পারি।

সিদ্ধান্তের গাছগুলিতে প্রচুর সাহিত্য রয়েছে, আমি কেবল একটি স্কেচির ভূমিকা লিখতে চেয়েছিলাম। আর একটি বিখ্যাত বাস্তবায়ন সি 4.5 4


1
দুর্দান্ত চিত্র!
ক্যাম.ড্যাভিডসন.পিলন

ধন্যবাদ, দুর্ভাগ্যক্রমে মনে হচ্ছে সম্পাদক পিডিএফ ফর্ম্যাটে আপলোড সমর্থন করে না। তারা vectorial ছিল।
সাইমন

2

আমি সিআরটিএসের বিশেষজ্ঞ নই তবে আপনি "স্ট্যাটাসটিকাল লার্নিং এর উপাদান" বইটি চেষ্টা করতে পারেন যা অনলাইনে অনলাইনে পাওয়া যায় (কর্টগুলির 9 ম অধ্যায় দেখুন)। আমি বিশ্বাস করি বইটি কার্ট অ্যালগরিদমের (ফ্রেডম্যান) একজন নির্মাতা লিখেছিলেন।


এটা অনেক সাহায্য! +1 উজ্জ্বল সন্ধান!
জি গ্র

@ গারিথগ্রাহাম কোনও সমস্যা নেই, আমি ভেবেছিলাম এই বিনামূল্যে বইটি একটি "সুপরিচিত গোপনীয়তা"।
বিটওয়াইজ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.