র্যান্ডম বন মূল্যায়ন: ওওবি বনাম সিভি


13

যখন আমরা একটি র‌্যান্ডম ফরেস্টের গুণমানকে মূল্যায়ন করি, উদাহরণস্বরূপ, এটিসি ব্যবহার করে, কী পরিমাণ ব্যাগের নমুনাগুলির উপর বা ক্রস বৈধতার সেটটি ধরে রেখে এই পরিমাণগুলি গণনা করা আরও উপযুক্ত?

আমি শুনেছি ওওবি নমুনাগুলিতে এটি কম্পিউটিং করা আরও একটি নিরাশাবাদী মূল্যায়ন দেয়, তবে কেন তা আমি দেখছি না।

উত্তর:


12

দ্রষ্টব্য: যদিও আমি অনুভব করেছি যে আমার উত্তরটি সম্ভবত সঠিক, তবে আমি প্রায় 30-60 মিনিটের জন্য এই প্রশ্নটি পড়ার পরে এই সমস্যাটি নিয়ে চিন্তা করেই এই সমস্ত তৈরি করেছিলাম বলে সন্দেহও বোধ করি। সুতরাং আপনি আরও ভাল সংশয়ী হন এবং যাচাই করে নিন এবং আমার সম্ভবত অতিরিক্ত আত্মবিশ্বাসের লেখার স্টাইল দ্বারা বোকা হয়ে উঠবেন না (আমাকে বড় শব্দ এবং অভিনব গ্রীক চিহ্ন ব্যবহার করার অর্থ এই নয় যে আমি ঠিক আছি)।

সারসংক্ষেপ

এটি কেবল একটি সংক্ষিপ্তসার। সমস্ত বিবরণ নীচে এবং বিভাগে উল্লিখিত হয়েছে ।§ 2§1§2

আসুন শ্রেণিবদ্ধকরণের ক্ষেত্রে ধরে নেওয়া যাক (প্রতিরোধের ক্ষেত্রেও প্রসারিত হতে পারে তবে বংশবৃদ্ধির জন্য বাদ পড়ুন)। মূলত, আমাদের লক্ষ্য গাছের বনের ত্রুটিটি অনুমান করা। ব্যাগের বাইরে থাকা ত্রুটি এবং কে-ফোল্ড ক্রস-বৈধতা আমাদের সম্ভাব্যতা জানানোর চেষ্টা করে যা:

  • বনটি সঠিক শ্রেণিবদ্ধকরণ দেয় (কে-ভাঁজ ক্রস-বৈধকরণ এটিকে দেখায়)।

যা সম্ভাবনার সাথে অভিন্ন যা:

  • বনের গাছের সিংহভাগ ভোট সঠিক ভোট (ওওবিই এটিকে দেখায়)।

এবং উভয়ই অভিন্ন। পার্থক্যটি হ'ল কে-ভাঁজ ক্রস-বৈধকরণ এবং OOBE বিভিন্ন আকারের শেখার নমুনা ধরে নেয়। উদাহরণ স্বরূপ:

  • 10-ভাঁজ ক্রস-বৈধকরণে, শেখার সেটটি 90%, যখন পরীক্ষার সেটটি 10%।
  • তবে ওওবি-তে যদি প্রতিটি ব্যাগের নমুনা থাকে, যেমন পুরো ন্যামাল সেটগুলিতে মোট নমুনার সংখ্যা থাকে, তবে এর দ্বারা বোঝা যায় যে শেখার সেটটি কার্যত প্রায় 66% (দুই তৃতীয়াংশ) এবং পরীক্ষার সেটটি প্রায় 33% ( এক তৃতীয়াংশ)।n =nn=

সুতরাং আমার মতে ওওবিই বনের ত্রুটি সম্পর্কে একটি নিরাশাবাদী অনুমানের একমাত্র কারণ কেবল এটি সাধারণত কে-ফোল্ড ক্রস-বৈধকরণের (যেখানে 10 ভাঁজগুলি সাধারণ) এর চেয়ে কম সংখ্যক নমুনা দ্বারা প্রশিক্ষণ দেয়।

সেই কারণে, আমি আরও মনে করি যে 2-ভাঁড়ের ক্রস-বৈধকরণ OOBE এর তুলনায় বনের ত্রুটির আরও নিরাশাবাদী অনুমান হতে চলেছে, এবং 3 গুনের ক্রস-বৈধকরণ OOBE এর কাছে প্রায় সমান হতাশাবাদী হতে পারে।

1. ব্যাগের বাইরে থাকা ত্রুটি বোঝা

1.1 ব্যাগিংয়ের উপর সাধারণ দৃষ্টিভঙ্গি

আরএফ-এর প্রতিটি গাছ স্যাম্পেলগুলির একটি তালিকা দ্বারা উত্থিত হয় যা এলোমেলোভাবে প্রতিস্থাপনের সাথে শেখার সেট from থেকে আঁকা । এইভাবে, অনেকগুলি নমুনার সদৃশ থাকতে পারে এবং যদিতারপরে এটি পাওয়া যাবে যে in এর প্রায় এক নমুনাগুলি প্রদত্ত গাছের বৃদ্ধির জন্য ব্যবহৃত নমুনাগুলির তালিকায় অন্তর্ভুক্ত না হওয়ার সম্ভাবনা রয়েছে (এগুলি হ'ল ব্যাগের বাইরের নমুনাগুলি এই গাছটি। প্রতিটি গাছের জন্য এই প্রক্রিয়াটি স্বতন্ত্রভাবে পুনরাবৃত্তি হয়, তাই প্রতিটি গাছে ব্যাগের বাইরে থাকা নমুনাগুলির আলাদা সেট থাকে।এক্স এন এন = | এক্স | এক্স এনnXnn=|X|Xn

1.2। ব্যাগিংয়ের উপর আর একটি দৃশ্য

এখন, আসুন सामना করার জন্য আশা করা সহজ যে একটি সমান বর্ণনা প্রাপ্তির আশা নিয়ে ব্যাগিংকে কিছুটা আলাদাভাবে পুনরায় বর্ণনা করতে পারি।

আমি জানায় যে গাছ এটি করতে সেটে জিতেছেন নমুনার দ্বারা প্রশিক্ষিত করা হয় । তবে এটি ঠিক সত্য নয় কারণ সেট সদৃশ নমুনাগুলি নেই (এটি কীভাবে সেটগুলি কাজ করে), অন্যদিকে- নমুনার তালিকাতে নকল থাকতে পারে।এক্স টিএক্স এক্স টি এনtXtXXtn

অতএব, আমরা বলতে পারি যে একটি গাছ নমুনার বিশ্লেষণ করে চাষ করা হয় প্লাস থেকে টানা এলোমেলোভাবে নির্বাচিত সদৃশ একটি নম্বর , যথা , যেমন: এক্স টি এক্স টি এক্স টি টি , 1 , এক্স টি , 2 , , এক্স টি , আরএক্স টি | এক্স টি | + আর আই = 1 | এক্স টি , আই | = এনtXt XtXt,1,Xt,2,,Xt,rXt

|Xt|+i=1r|Xt,i|=n

সেটগুলির এই সংগ্রহ থেকে থেকে দেখতে তুচ্ছ , আমরা একটি তালিকা বর্ণনা করতে পারেন কেবল প্রতিটি সেটে উপাদানের সংযোজন করে -many নমুনা অনুরূপ একটি অ্যারের । এইভাবে, যে কোনও জন্য কমপক্ষে একটি মান বিদ্যমান যা ।C={Xt,Xt,1,,Xt,r}nCiCa1pnia[p]Ci

আমরা দেখতে পারেন তালিকায় অ্যারের মধ্যে নমুনা ব্যাগিং একটি সাধারণীকরণ ছাড়া কিছুই না হিসাবে আমি অনুচ্ছেদ 1. সংজ্ঞায়িত এটি দেখতে যে কিছু নির্দিষ্ট সংজ্ঞা জন্য তুচ্ছ হয় যে আমি এই বিভাগে সংজ্ঞায়িত করেছেন ( ), অ্যারের মধ্যে নমুনার তালিকা ঠিক হতে পারে অভিন্ন অনুচ্ছেদ 1 সংজ্ঞায়িত নমুনা তালিকায়।naXt§2a

1.3। সরলকরণ ব্যাগিং

পরিবর্তে গাছ ক্রমবর্ধমান অ্যারের মধ্যে নমুনা দ্বারা , আমরা তাদের দৃষ্টান্ত অনুলিপি মুক্ত তালিকা যে পাওয়া যায় দ্বারা বৃদ্ধি পায় শুধুমাত্র।taXt

আমি যে বিশ্বাস করি, যদি বৃহৎ যথেষ্ট, একটি গাছ যে নমুনা বিশ্লেষণ করে চাষ করা হয় অন্য গাছ অভিন্ন যে অ্যারের মধ্যে নমুনা থেকে চাষ করা হয় ।ntXtta

আমার কারণ হ'ল, নমুনাগুলির নকল করার সম্ভাবনা একই সেটে থাকা অন্য নমুনাগুলির সমান সম্ভাবনা। এর অর্থ এই যে, যখন আমরা কিছু বিভাজনের তথ্য লাভ (আইজি) পরিমাপ করি তখন আইজি অভিন্ন থাকবে কারণ এন্ট্রপিজগুলিও অভিন্ন থাকবে।Xt

এবং আমি বিশ্বাস করি যে প্রদত্ত বিভাজনের জন্য এন্ট্রপিজগুলি নিয়মতান্ত্রিকভাবে পরিবর্তিত হবে না কারণ কিছু উপ-সেটে একটি নির্দিষ্ট লেবেলযুক্ত (নমুনা সিদ্ধান্ত বিভাজন প্রয়োগ করার পরে) কোনও নমুনার অনুভূতিগতভাবে পরিমাপের সম্ভাবনাটিও পরিবর্তিত হবে না।

এবং সম্ভাবনাগুলি আমার দৃষ্টিভঙ্গিতে পরিবর্তন না করার কারণটি হ'ল এর সমস্ত নমুনাগুলি সমানভাবে কপিগুলিতে নকল হওয়ার সম্ভাবনা রয়েছে ।Xtd

1.4 ব্যাগের বাইরে থাকা ত্রুটিগুলি পরিমাপ করা

যাক আউট-অফ-ব্যাগ গাছের নমুনা হতে । অর্থাত । তারপরে একটি গাছের এর ত্রুটিটি হল: এবং অনেক গাছের সাথে বনের মোট ত্রুটি হল: যা হতে পারে অনুভূতভাবে পরিমাপের সম্ভাবনা হিসাবে বিবেচনা করা হয়েছিল যে কোনও বনের সমস্ত গাছের সংখ্যাগরিষ্ঠ ভোট সঠিক ভোটOttOt=XXtt

total x in Ot correctly classified by t|Ot|
nt
t=1nttotal x in Ot correctly classified by tt=1nt|Ot|

2. কে-ভাঁজ ক্রস-বৈধতা বোঝা

প্রথমে আমরা শিখার সেটটি কে অনেকগুলি সমান আকারের পার্টিশন । অর্থাত , এবং যে কোনো জন্য , (এটি যা ভাগ করে বোঝায়)।XnkK={K1,K2,,Knk}K1K2Knk=XKi,KjKKiKj=

আসুন পরীক্ষার ভাঁজ এবং learning শেখার ভাঁজগুলির সেট ।KtK{Kt}

যাক কিছু গাছ যে ব্যবহার করে নির্মিত হয় একটি বন হতে লার্নিং সেট হিসাবে।fK{Kt}

তারপর, K-ভাঁজ বন ক্রস বৈধতা হল: Σ এন T = 1 মোট  এক্স  মধ্যে  কে টি  সঠিকভাবে দ্বারা শ্রেণীবদ্ধ  f

t=1nktotal x in Kt correctly classified by ft=1nk|Kt|

কোন সম্ভাবনা হ'ল ফরেস্ট কোনও ইনপুট নমুনাকে সঠিকভাবে শ্রেণিবদ্ধ করে।f

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.