এলোমেলো বন এবং চূড়ান্তভাবে এলোমেলো গাছের মধ্যে পার্থক্য


38

আমি বুঝতে পেরেছিলাম যে এলোমেলো বন এবং চূড়ান্তভাবে এলোমেলো গাছগুলি এই অর্থে পৃথক হয় যে র্যান্ডম ফরেস্টের গাছের বিভাজনগুলি নির্বিচারবাদী হয় তবে তারা চূড়ান্তভাবে এলোমেলো গাছের ক্ষেত্রে এলোমেলো হয় (আরও সঠিকভাবে বলতে গেলে, পরবর্তী বিভাজনটি সেরা বিভাজন বর্তমান গাছের জন্য নির্বাচিত ভেরিয়েবলগুলিতে এলোমেলো ইউনিফর্ম বিভাজনগুলির মধ্যে)। তবে আমি বিভিন্ন পরিস্থিতিতে এই বিভিন্ন বিভাজনের প্রভাব পুরোপুরি বুঝতে পারি না।

  • পক্ষপাত / বৈকল্পিকতার ক্ষেত্রে তারা কীভাবে তুলনা করে?
  • অপ্রাসঙ্গিক ভেরিয়েবলের উপস্থিতিতে তারা কীভাবে তুলনা করবে?
  • পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবলের উপস্থিতিতে তারা কীভাবে তুলনা করবে?

2
(ক) কখনও কখনও কম অনুকূল বিভাজনের কারণে ইআরটি আরও পক্ষপাতমূলক হতে পারে / গাছগুলি আরও সজ্জিত করার কারণে কখনও কখনও ইআরটি বৈচিত্র্য হ্রাস পাবে; (খ) আমি একই অনুমান করি, নিশ্চিত নই; (গ) আমি একই অনুমান, নিশ্চিত না। অতিরিক্ত: আমি র্যান্ডম ভেরিয়েবল স্যাম্পলিংয়ের কারণে আরএফ ডিস্ট্রিমেন্টিকের বিভাজনকে কল করব না এবং গাছগুলি অবশ্যই বুটস্ট্র্যাপিংয়ের কারণে নয়।
সোরেন হ্যাভেলন্ড ওয়েলিং

একটি কি uniform split?
অষ্টাভিয়ান

উত্তর:


27

অতিরিক্ত- (এলোমেলো)-গাছ (ET) নিবন্ধটিতে পক্ষপাত-বৈকল্পিক বিশ্লেষণ রয়েছে। পৃষ্ঠা 16 এ আপনি ছয়টি পরীক্ষায় (গাছের শ্রেণিবিন্যাস এবং তিনটি রিগ্রেশন) আরএফ সহ একাধিক পদ্ধতির সাথে তুলনা দেখতে পাবেন।

উভয় পদ্ধতিই একইরকম, যখন উচ্চ সংখ্যার কোলাহলযুক্ত বৈশিষ্ট্য রয়েছে (উচ্চ মাত্রিক ডেটা-সেটগুলিতে) ইটি কিছুটা খারাপ হয়।

এটি বলেছিল, যদি (সম্ভবত ম্যানুয়াল) বৈশিষ্ট্য নির্বাচনটি অনুকূলের কাছাকাছি হয়, তবে পারফরম্যান্স প্রায় একই রকম হয়, তবে, ইটি কম্পিউটারের গতিতে আরও দ্রুত হতে পারে।

নিবন্ধ থেকে নিজেই:

বেশ কয়েকটি পরীক্ষার সমস্যার বৈকল্পগুলিতে অ্যালগরিদমের বিশ্লেষণ এবং কে এর অনুকূল মান নির্ধারণের মাধ্যমে প্রমাণিত হয়েছে যে মানটি নীতিগতভাবে সমস্যার নির্দিষ্টকরণের উপর নির্ভর করে, বিশেষত অপ্রাসঙ্গিক গুণাবলীর অনুপাত । [...] পক্ষপাত / বৈকল্পিক বিশ্লেষণে দেখা গেছে যে অতিরিক্ত গাছগুলি একই সাথে পক্ষপাত বাড়ানোর সময় বৈচিত্র্য হ্রাস করে কাজ করে । [...] যখন র‌্যান্ডমাইজেশনটি সর্বোত্তম স্তরের উপরে বৃদ্ধি করা হয় তখন বৈকল্পিকতা কিছুটা হ্রাস পায় এবং পক্ষপাত প্রায়শই উল্লেখযোগ্যভাবে বৃদ্ধি পায়।

বরাবরের মতো রূপোর বুলেট নেই।


পিয়ের জের্টস, ড্যামিয়েন আর্নস্ট, লুই ওয়েহেনকে। "অত্যন্ত এলোমেলো গাছ"


2
উচ্চ সংখ্যার কোলাহলপূর্ণ বৈশিষ্ট্য থাকলে ইটি সম্পর্কিত কোনও রেফারেন্স (হয় অভিজ্ঞতাবাদী বা তত্ত্ব)? নাকি এটি অভিজ্ঞতার ভিত্তিতে?
রমহির

1
আমার অভিজ্ঞতার বিপরীতে সত্য: অতিরিক্ত গোলমালগুলি অনেক শোরগোলের বৈশিষ্ট্য সহ আরও ভাল করে। এই সতর্কতার সাথে আপনার একটি বড় অরণ্য থাকতে হবে (অনেকগুলি অনুমানক, স্ক্লার্নে এন_স্টিমেটার) এবং এটি কাজ করার জন্য প্রতিটি বিভাজনে বিবেচিত বৈশিষ্ট্যগুলির সংখ্যার (টিউবটিতে সর্বাধিক ফিচার) টিউন করুন। একটি একক অতিরিক্ত গাছ একটি একক এলোমেলো বন গাছের চেয়ে বেশি উপকারী হবে তবে আপনার যদি অতিরিক্ত অতিরিক্ত গাছ থাকে তবে তারা বিভিন্ন উপায়ে ওভারফিটের চেয়ে বেশি মানায় to আমি প্রায়শই 3000 অনুমানক পর্যন্ত যথেষ্ট উন্নতি পাই।
ডেনসন

3

উত্তরটি এটি নির্ভর করে। আমি পরামর্শ দিচ্ছি যে আপনি আপনার সমস্যার জন্য এলোমেলো বন এবং অতিরিক্ত গাছ উভয়ই চেষ্টা করে দেখতে পারেন। বৃহত্তর বন (১০০০ - ৩০০০ গাছ / অনুমানক, স্কলারনে এন_স্টিমেটর) চেষ্টা করুন এবং প্রতিটি বিভাজনে বিবেচিত বৈশিষ্ট্যগুলির সংখ্যা টিউন করুন (স্ক্লারনে সর্বাধিক ফিচারগুলি) পাশাপাশি বিভাজনে সর্বনিম্ন ন্যূনতম নমুনাগুলি (স্ক্লায়ারে মিনি_সাম্পল_স্প্লিট) এবং সর্বাধিক গাছের গভীরতা ( মাপদণ্ডে স্কেলার্নে সর্বোচ্চ_পথ)। এটি বলেছিল, আপনার মনে রাখা উচিত যে ওভার টিউনিং একরকমের ওভারফিটের হতে পারে।

এখানে ব্যক্তিগতভাবে দু'টি সমস্যা নিয়ে কাজ করেছি যেখানে অতিরিক্ত গোলমাল শব্দগুলির সাথে দরকারী গাছ প্রমাণিত হয়েছে:

বড়, কোলাহলপূর্ণ সামুদ্রিক বৈশিষ্ট্য সেটগুলির মেশিন লার্নিং শ্রেণিবিন্যাসের জন্য সিদ্ধান্ত বন

আটকানো নমুনাগুলির সাথে একটি দক্ষ বিতরণ প্রোটিন ডিসঅর্ডার পূর্বাভাস


2

উত্তরের জন্য আপনাকে অনেক ধন্যবাদ! আমার এখনও যেমন প্রশ্ন ছিল, এই দুটি পদ্ধতির আচরণ সম্পর্কে আরও অন্তর্দৃষ্টি পেতে আমি কয়েকটি সংখ্যামূলক সিমুলেশন সম্পাদন করেছি।

  • অতিরিক্ত গাছগুলি শোরগোলের বৈশিষ্ট্যগুলির উপস্থিতিতে একটি উচ্চতর কার্য সম্পাদন করে বলে মনে হয়।

লক্ষ্যটির সাথে অপ্রাসঙ্গিকভাবে এলোমেলো কলামগুলি ডেটাসেটে যুক্ত হওয়ায় নীচের চিত্রটি কার্য সম্পাদন (ক্রস বৈধকরণের সাথে মূল্যায়ন) দেখায়। লক্ষ্যটি প্রথম তিনটি কলামের একটি লিনিয়ার সংমিশ্রণ। অপ্রাসঙ্গিক ভেরিয়েবলের উপস্থিতিতে এলোমেলো বন বনাম অতিরিক্ত গাছ

  • যখন সমস্ত ভেরিয়েবল প্রাসঙ্গিক হয়, উভয় পদ্ধতিই একই কার্যকারিতা অর্জন করে বলে মনে হয়,

  • অতিরিক্ত গাছগুলি এলোমেলো বন থেকে তিনগুণ দ্রুত বলে মনে হয় (কমপক্ষে, বিজ্ঞান শিখতে বাস্তবায়ন হবে)

সোর্স

পূর্ণ নিবন্ধের লিঙ্ক: এলোমেলো বন বনাম অতিরিক্ত গাছ

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.