র‌্যান্ডম ফরেস্টে, গাছের স্তরের চেয়ে নোড স্তরে বৈশিষ্ট্যগুলির একটি এলোমেলো উপসেট কেন বেছে নেওয়া হয়?


13

আমার প্রশ্ন: এলোমেলো বন কেন গাছের স্তরের পরিবর্তে প্রতিটি গাছের মধ্যে নোড স্তরে বিভক্ত হওয়ার জন্য বৈশিষ্ট্যগুলির এলোমেলো উপগুলি বিবেচনা করে ?

পটভূমি: এটি একটি ইতিহাসের প্রশ্ন। টিন কাম হো ১৯৯৮ সালে প্রতিটি গাছের বৃদ্ধি করার জন্য এলোমেলোভাবে ব্যবহারের জন্য বৈশিষ্ট্যগুলির একটি উপসেট নির্বাচন করে "সিদ্ধান্ত বন" নির্মাণের জন্য এই গবেষণাপত্রটি প্রকাশ করেছিলেন। বেশ কয়েক বছর পরে, 2001 সালে, লিও ব্রেইমান তার সেমিনাল র্যান্ডম ফরেস্ট পেপার প্রকাশ করেছিলেন , যেখানে বৈশিষ্ট্যটির উপসেটটি এলোমেলোভাবে রয়েছে প্রতিটি গাছের মধ্যে নয়, প্রতিটি গাছের মধ্যে প্রতিটি নোডে নির্বাচিত । ব্রেইমান হোয়ের উদ্ধৃতি দেওয়ার সময়, তিনি গাছের স্তর থেকে নোড-স্তরের এলোমেলো বৈশিষ্ট্য নির্বাচনের পদক্ষেপটি বিশেষভাবে ব্যাখ্যা করেননি।

আমি ভাবছি যে এই বিকাশটি বিশেষভাবে কীভাবে অনুপ্রাণিত করেছে। দেখে মনে হচ্ছে গাছের স্তরে বৈশিষ্ট্য উপসেটটি নির্বাচন করা এখনও গাছগুলির কাঙ্ক্ষিত সজ্জা অর্জন করবে।

আমার তত্ত্ব: আমি এটিকে অন্য কোথাও দেখিনি, তবে মনে হয় বৈশিষ্ট্যটির গুরুত্বের অনুমান পাওয়ার ক্ষেত্রে এলোমেলো উপ-স্থানটি কম দক্ষ হবে। পরিবর্তনশীল গুরুত্বের অনুমানের জন্য প্রতিটি গাছের জন্য বৈশিষ্ট্যগুলি এলোমেলোভাবে একের পর এক অনুমোদিত হয় এবং ব্যাগের বাইরে থাকা পর্যবেক্ষণগুলির জন্য ভুল শৃঙ্খলা বৃদ্ধি বা ত্রুটিতে বৃদ্ধি রেকর্ড করা হয়। এই র্যান্ডম ক্রমানুসারে ফলশ্রুতি বা ত্রুটি বৃদ্ধির ফলে যে ভেরিয়েবলগুলি বেশি তা হ'ল তারাই সবচেয়ে বেশি গুরুত্ব দেয়।

আমরা যদি র্যান্ডম subspace পদ্ধতি ব্যবহার, প্রতিটি গাছ জন্য, আমরা কেবল বিবেচনা করা হয় এর বৈশিষ্ট্য। এমনকি একবারে সমস্ত ভবিষ্যদ্বাণীকে বিবেচনা করতে বেশ কয়েকটি গাছ লাগতে পারে । অন্যদিকে, যদি আমরা একটি ভিন্ন উপসেট বিবেচনা এর অতিরিক্ত বৈশিষ্ট্যগুলিও উপস্থিত রয়েছে প্রতিটি নোডের এ , আমরা প্রতিটি বৈশিষ্ট্য আরো কয়েকবার কম গাছ পর বিবেচনা, আমাদের বৈশিষ্ট্য গুরুত্ব একটি শক্তসমর্থ অনুমান দান করবে।mppmip

আমি এতদূর যা দেখেছি: এখনও অবধি আমি ব্রেইম্যানের কাগজ এবং হো'র কাগজটি পড়েছি এবং একটি নির্দিষ্ট উত্তর না পেয়ে পদ্ধতিগুলির তুলনা করার জন্য একটি বিস্তৃত অনলাইন অনুসন্ধান করেছি। নোট করুন যে আগে অনুরূপ প্রশ্ন জিজ্ঞাসা করা হয়েছিল। একটি সম্ভাব্য সমাধানের দিকে আমার অনুমান / কাজকে অন্তর্ভুক্ত করে এই প্রশ্নটি আরও খানিকটা এগিয়ে যায়। আমি দুটি পদ্ধতির তুলনায় যে কোনও উত্তর, প্রাসঙ্গিক উদ্ধৃতি বা সিমুলেশন অধ্যয়নে আগ্রহী। যদি কেউ আসন্ন না থাকে তবে আমি দুটি পদ্ধতির তুলনা করে আমার নিজস্ব সিমুলেশন চালানোর পরিকল্পনা করছি।


2
আমি কোনও রেফারেন্স উদ্ধৃত করব না, সুতরাং আসুন কেবল এটিকে একটি মন্তব্য বলি। আপনি যদি ভেরিয়েবলগুলি দরকারী তা বোঝার চেষ্টা করছেন, তবে এটি একটি নির্দিষ্ট ভেরিয়েবলটি সমালোচনামূলক, তবে কেবলমাত্র ডেটার একটি ছোট অংশে হতে পারে। নোড স্তরে ভেরিয়েবলগুলি ব্যাগিংয়ের মাধ্যমে আপনি এটি সন্ধান করতে পারেন। আপনি কখনই গাছের স্তরে ব্যাগিংয়ের মাধ্যমে এটি আবিষ্কার করতে পারবেন না।
মেহ

2
আমি নিশ্চিত যে ব্রেইমানের তাঁর (ইমো) আঞ্চলিক গবেষণাপত্রে, 'স্ট্যাটিস্টিক্স-দ্য কালচার্স' এ সম্পর্কিত একটি মন্তব্য রয়েছে। তাঁর বক্তব্যটি হ'ল কখনও কখনও ভেরিয়েবলের গুরুত্ব অন্য পরিবর্তনশীল দ্বারা mas নোড স্তরে ব্যাগিংয়ের মাধ্যমে ভেরিয়েবলের জন্য কী এবং কখন তা দেখা যায়।
meh

1
মন্তব্যের জন্য ধন্যবাদ। দক্ষতা সম্পর্কে আমার ধারণাটি ফিরে পাওয়া: ধরুন এক জোড়া ভেরিয়েবল সম্পর্কিত ছিল এবং যেমনটি আপনি বলেছেন, একজনের মুখোমুখি হয়ে অন্যটির গুরুত্ব। যদি আমরা পর্যাপ্ত গাছ সহ একটি আরএফ ভবিষ্যদ্বাণী তৈরি করি এবং গাছের স্তরের বৈশিষ্ট্যটি উপসেটিং ব্যবহার করি তবে অবশেষে আমাদের "মুখোশযুক্ত" বৈশিষ্ট্যযুক্ত এবং "মাস্কিং" বৈশিষ্ট্য ছাড়াই পূর্বের গুরুত্ব ছাড়াই পর্যাপ্ত গাছগুলি না থাকত যার প্রভাব ছাড়াই? পরেরটি? আমি মনে করি আমরা কমপক্ষে একই ধারণা সম্পর্কে কথা বলছি। ধন্যবাদ!
ডিজিলেড

4
আপনি হয়ত, তবে আপনাকে আরও কতগুলি গাছ বানাতে হবে তা বিবেচনা করুন! এটিও পরিষ্কার নয়। ভেরিয়েবল এ এর ​​ফলে এমন বিভাজন ঘটতে পারে যেগুলির কোনওটিতেই ভেরিয়েবল বি জ্বলতে পারে না। নোড স্তরে সুনির্দিষ্টভাবে এটি স্পষ্টভাবে স্বতন্ত্রভাবে আরও দৃust়। আমার কাছে এটি বুটস্ট্র্যাপিং কী হতে হবে তা মৌলিকভাবে সম্পর্কিত।
meh

উত্তর:


1

ধরা যাক, আমাদের 10 টি বৈশিষ্ট্য রয়েছে F1, f2, ..., f9, f10, তারপর যখন আমরা গাছের স্তরে নিজেই F1, f3, f4, f8 এর বৈশিষ্ট্যগুলি অনুমান করার জন্য একটি উপসেট গ্রহণ করি, তবে আমরা এই 4 টি বৈশিষ্ট্য গ্রহণ করে পুরো গাছটি তৈরি করব বিবেচনা.

আমরা এনট্রপি গণনা করি, প্রতিটি নোডে কেবল এই 4 টি বৈশিষ্ট্য তুলনা করি এবং সেই বৈশিষ্ট্যটি গ্রহণ করি যা সর্বোচ্চ এনট্রপি দেয় y এটি কেবলমাত্র 4 টি বৈশিষ্ট্যে আমাদের বৃক্ষশিক্ষার উপর সীমাবদ্ধ রাখার কারণে এটি খুব বেশি ব্যবহার হয় না। এর বিপরীতে, যখন আমরা প্রথম নোডে কিছু ফিচারের সাবসেট নিই, আসুন আমরা এফ 1, এফ 8, এফ 9 প্রথম নোডে বলি, আমরা এনট্রপি গণনা করি এবং এই 3 টি বৈশিষ্ট্যের মধ্যে তাদের তুলনা করি এবং সর্বাধিক মান দেয় এমন একটিটিকে বেছে নিয়েছি। একই বৈশিষ্ট্যগুলির সাথে গাছটিকে আরও বাড়ানোর পরিবর্তে আমরা বৈশিষ্ট্যগুলির আরেকটি উপসেট বেছে নিয়েছি আসুন f4, f7, f2 বলি এবং এই বৈশিষ্ট্যগুলির উপর ভিত্তি করে বিভাজন তৈরি করি। ধরুন প্রথম নোডে f8 নির্বাচিত হয়েছিল এবং দ্বিতীয় নোডে f2 নির্বাচিত হয়েছিল। মডেল এই উভয়ের মধ্যে সম্পর্কটি শিখতে সক্ষম যা '

এই পদ্ধতিতে, মডেল আরও বৈশিষ্ট্যযুক্ত বিভিন্ন বৈশিষ্ট্যের মধ্যে সম্পর্ক শিখতে পারে learn এই পদ্ধতির একক গাছে অনেকগুলি বৈশিষ্ট্য রয়েছে এবং এইভাবে তাদের মধ্যে সম্পর্ক সংরক্ষণ করা হবে। আশা করি আপনি এটি এখন পেয়েছেন :)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.