দ্রষ্টব্য: যদিও আমি অনুভব করেছি যে আমার উত্তরটি সম্ভবত সঠিক, তবে আমি প্রায় 30-60 মিনিটের জন্য এই প্রশ্নটি পড়ার পরে এই সমস্যাটি নিয়ে চিন্তা করেই এই সমস্ত তৈরি করেছিলাম বলে সন্দেহও বোধ করি। সুতরাং আপনি আরও ভাল সংশয়ী হন এবং যাচাই করে নিন এবং আমার সম্ভবত অতিরিক্ত আত্মবিশ্বাসের লেখার স্টাইল দ্বারা বোকা হয়ে উঠবেন না (আমাকে বড় শব্দ এবং অভিনব গ্রীক চিহ্ন ব্যবহার করার অর্থ এই নয় যে আমি ঠিক আছি)।
সারসংক্ষেপ
এটি কেবল একটি সংক্ষিপ্তসার। সমস্ত বিবরণ নীচে এবং বিভাগে উল্লিখিত হয়েছে ।§ 2§1§2
আসুন শ্রেণিবদ্ধকরণের ক্ষেত্রে ধরে নেওয়া যাক (প্রতিরোধের ক্ষেত্রেও প্রসারিত হতে পারে তবে বংশবৃদ্ধির জন্য বাদ পড়ুন)। মূলত, আমাদের লক্ষ্য গাছের বনের ত্রুটিটি অনুমান করা। ব্যাগের বাইরে থাকা ত্রুটি এবং কে-ফোল্ড ক্রস-বৈধতা আমাদের সম্ভাব্যতা জানানোর চেষ্টা করে যা:
- বনটি সঠিক শ্রেণিবদ্ধকরণ দেয় (কে-ভাঁজ ক্রস-বৈধকরণ এটিকে দেখায়)।
যা সম্ভাবনার সাথে অভিন্ন যা:
- বনের গাছের সিংহভাগ ভোট সঠিক ভোট (ওওবিই এটিকে দেখায়)।
এবং উভয়ই অভিন্ন। পার্থক্যটি হ'ল কে-ভাঁজ ক্রস-বৈধকরণ এবং OOBE বিভিন্ন আকারের শেখার নমুনা ধরে নেয়। উদাহরণ স্বরূপ:
- 10-ভাঁজ ক্রস-বৈধকরণে, শেখার সেটটি 90%, যখন পরীক্ষার সেটটি 10%।
- তবে ওওবি-তে যদি প্রতিটি ব্যাগের নমুনা থাকে, যেমন পুরো ন্যামাল সেটগুলিতে মোট নমুনার সংখ্যা থাকে, তবে এর দ্বারা বোঝা যায় যে শেখার সেটটি কার্যত প্রায় 66% (দুই তৃতীয়াংশ) এবং পরীক্ষার সেটটি প্রায় 33% ( এক তৃতীয়াংশ)।n =nn=
সুতরাং আমার মতে ওওবিই বনের ত্রুটি সম্পর্কে একটি নিরাশাবাদী অনুমানের একমাত্র কারণ কেবল এটি সাধারণত কে-ফোল্ড ক্রস-বৈধকরণের (যেখানে 10 ভাঁজগুলি সাধারণ) এর চেয়ে কম সংখ্যক নমুনা দ্বারা প্রশিক্ষণ দেয়।
সেই কারণে, আমি আরও মনে করি যে 2-ভাঁড়ের ক্রস-বৈধকরণ OOBE এর তুলনায় বনের ত্রুটির আরও নিরাশাবাদী অনুমান হতে চলেছে, এবং 3 গুনের ক্রস-বৈধকরণ OOBE এর কাছে প্রায় সমান হতাশাবাদী হতে পারে।
1. ব্যাগের বাইরে থাকা ত্রুটি বোঝা
1.1 ব্যাগিংয়ের উপর সাধারণ দৃষ্টিভঙ্গি
আরএফ-এর প্রতিটি গাছ স্যাম্পেলগুলির একটি তালিকা দ্বারা উত্থিত হয় যা এলোমেলোভাবে প্রতিস্থাপনের সাথে শেখার সেট from থেকে আঁকা । এইভাবে, অনেকগুলি নমুনার সদৃশ থাকতে পারে এবং যদিতারপরে এটি পাওয়া যাবে যে in এর প্রায় এক নমুনাগুলি প্রদত্ত গাছের বৃদ্ধির জন্য ব্যবহৃত নমুনাগুলির তালিকায় অন্তর্ভুক্ত না হওয়ার সম্ভাবনা রয়েছে (এগুলি হ'ল ব্যাগের বাইরের নমুনাগুলি এই গাছটি। প্রতিটি গাছের জন্য এই প্রক্রিয়াটি স্বতন্ত্রভাবে পুনরাবৃত্তি হয়, তাই প্রতিটি গাছে ব্যাগের বাইরে থাকা নমুনাগুলির আলাদা সেট থাকে।এক্স এন এন = | এক্স | এক্স এনnXnn=|X|Xn
1.2। ব্যাগিংয়ের উপর আর একটি দৃশ্য
এখন, আসুন सामना করার জন্য আশা করা সহজ যে একটি সমান বর্ণনা প্রাপ্তির আশা নিয়ে ব্যাগিংকে কিছুটা আলাদাভাবে পুনরায় বর্ণনা করতে পারি।
আমি জানায় যে গাছ এটি করতে সেটে জিতেছেন নমুনার দ্বারা প্রশিক্ষিত করা হয় । তবে এটি ঠিক সত্য নয় কারণ সেট সদৃশ নমুনাগুলি নেই (এটি কীভাবে সেটগুলি কাজ করে), অন্যদিকে- নমুনার তালিকাতে নকল থাকতে পারে।এক্স টি ⊆ এক্স এক্স টি এনtXt⊆XXtn
অতএব, আমরা বলতে পারি যে একটি গাছ নমুনার বিশ্লেষণ করে চাষ করা হয় প্লাস থেকে টানা এলোমেলোভাবে নির্বাচিত সদৃশ একটি নম্বর , যথা , যেমন:
এক্স টি এক্স টি এক্স টি টি , 1 , এক্স টি , 2 , … , এক্স টি , আর ⊆ এক্স টি | এক্স টি | + আর ∑ আই = 1 | এক্স টি , আই | = এনtXt XtXt,1,Xt,2,…,Xt,r⊆Xt
|Xt|+∑i=1r|Xt,i|=n
সেটগুলির এই সংগ্রহ থেকে থেকে দেখতে তুচ্ছ , আমরা একটি তালিকা বর্ণনা করতে পারেন কেবল প্রতিটি সেটে উপাদানের সংযোজন করে -many নমুনা অনুরূপ একটি অ্যারের । এইভাবে, যে কোনও জন্য কমপক্ষে একটি মান বিদ্যমান যা ।C={Xt,Xt,1,…,Xt,r}nCi∈Ca1≤p≤nia[p]∈Ci
আমরা দেখতে পারেন তালিকায় অ্যারের মধ্যে নমুনা ব্যাগিং একটি সাধারণীকরণ ছাড়া কিছুই না হিসাবে আমি অনুচ্ছেদ 1. সংজ্ঞায়িত এটি দেখতে যে কিছু নির্দিষ্ট সংজ্ঞা জন্য তুচ্ছ হয় যে আমি এই বিভাগে সংজ্ঞায়িত করেছেন ( ), অ্যারের মধ্যে নমুনার তালিকা ঠিক হতে পারে অভিন্ন অনুচ্ছেদ 1 সংজ্ঞায়িত নমুনা তালিকায়।naXt§2a
1.3। সরলকরণ ব্যাগিং
পরিবর্তে গাছ ক্রমবর্ধমান অ্যারের মধ্যে নমুনা দ্বারা , আমরা তাদের দৃষ্টান্ত অনুলিপি মুক্ত তালিকা যে পাওয়া যায় দ্বারা বৃদ্ধি পায় শুধুমাত্র।taXt
আমি যে বিশ্বাস করি, যদি বৃহৎ যথেষ্ট, একটি গাছ যে নমুনা বিশ্লেষণ করে চাষ করা হয় অন্য গাছ অভিন্ন যে অ্যারের মধ্যে নমুনা থেকে চাষ করা হয় ।ntXtt′a
আমার কারণ হ'ল, নমুনাগুলির নকল করার সম্ভাবনা একই সেটে থাকা অন্য নমুনাগুলির সমান সম্ভাবনা। এর অর্থ এই যে, যখন আমরা কিছু বিভাজনের তথ্য লাভ (আইজি) পরিমাপ করি তখন আইজি অভিন্ন থাকবে কারণ এন্ট্রপিজগুলিও অভিন্ন থাকবে।Xt
এবং আমি বিশ্বাস করি যে প্রদত্ত বিভাজনের জন্য এন্ট্রপিজগুলি নিয়মতান্ত্রিকভাবে পরিবর্তিত হবে না কারণ কিছু উপ-সেটে একটি নির্দিষ্ট লেবেলযুক্ত (নমুনা সিদ্ধান্ত বিভাজন প্রয়োগ করার পরে) কোনও নমুনার অনুভূতিগতভাবে পরিমাপের সম্ভাবনাটিও পরিবর্তিত হবে না।
এবং সম্ভাবনাগুলি আমার দৃষ্টিভঙ্গিতে পরিবর্তন না করার কারণটি হ'ল এর সমস্ত নমুনাগুলি সমানভাবে কপিগুলিতে নকল হওয়ার সম্ভাবনা রয়েছে ।Xtd
1.4 ব্যাগের বাইরে থাকা ত্রুটিগুলি পরিমাপ করা
যাক আউট-অফ-ব্যাগ গাছের নমুনা হতে । অর্থাত । তারপরে একটি গাছের এর ত্রুটিটি হল:
এবং অনেক গাছের সাথে বনের মোট ত্রুটি হল:
যা হতে পারে অনুভূতভাবে পরিমাপের সম্ভাবনা হিসাবে বিবেচনা করা হয়েছিল যে কোনও বনের সমস্ত গাছের সংখ্যাগরিষ্ঠ ভোট সঠিক ভোট ।OttOt=X∖Xtt
total x in Ot correctly classified by t|Ot|
nt∑ntt=1total x in Ot correctly classified by t∑ntt=1|Ot|
2. কে-ভাঁজ ক্রস-বৈধতা বোঝা
প্রথমে আমরা শিখার সেটটি কে অনেকগুলি সমান আকারের পার্টিশন । অর্থাত , এবং যে কোনো জন্য , (এটি যা ভাগ করে বোঝায়)।XnkK={K1,K2,…,Knk}K1∪K2∪…∪Knk=XKi,Kj∈KKi∩Kj=∅
আসুন পরীক্ষার ভাঁজ এবং learning শেখার ভাঁজগুলির সেট ।KtK∖{Kt}
যাক কিছু গাছ যে ব্যবহার করে নির্মিত হয় একটি বন হতে লার্নিং সেট হিসাবে।fK∖{Kt}
তারপর, K-ভাঁজ বন ক্রস বৈধতা হল:
Σ এন ট T = 1 মোট এক্স মধ্যে কে টি সঠিকভাবে দ্বারা শ্রেণীবদ্ধ চf
∑nkt=1total x in Kt correctly classified by f∑nkt=1|Kt|
কোন সম্ভাবনা হ'ল ফরেস্ট কোনও ইনপুট নমুনাকে সঠিকভাবে শ্রেণিবদ্ধ করে।f