এলোমেলো বনাঞ্চলে পরিবর্তনশীল গুরুত্বের পরিমাপ


40

আমি প্রতিরোধের জন্য এলোমেলো বন নিয়ে ঘুরে বেড়াচ্ছি এবং দুটি পদক্ষেপের গুরুত্বের অর্থ কী এবং কীভাবে তাদের ব্যাখ্যা করা উচিত তা নিয়ে কাজ করতে আমার সমস্যা হচ্ছে।

importance()ফাংশন প্রতিটি পরিবর্তনশীল জন্য দুটি মান দেয়: %IncMSEএবং IncNodePurity। এই 2 টি মানের জন্য কি সাধারণ ব্যাখ্যা আছে?

জন্য IncNodePurityবিশেষ করে, এই কেবল পরিমাণ যে পরিবর্তনশীল অপসারণের নিম্নলিখিত আরএসএস বৃদ্ধি?


1
আপনি কি তাকিয়েছেন ?importance? উভয় পদক্ষেপের অর্থ কী তা নিয়ে সেখানে একটি ব্যাখ্যা রয়েছে ...
নিক সাবে

2
@ নিক সাব্বে, আমার আছে এবং আমি তাদের চারপাশে আমার মাথা গুটিয়ে দেওয়ার চেষ্টা করছি। আমি ভাবছিলাম যে তাদের জন্য কোনও ভাল স্বজ্ঞাত ব্যাখ্যা আছে কিনা।
dcl

উত্তর:


42

প্রথমটিকে নিম্নরূপে 'ব্যাখ্যা' করা যায়: যদি আপনার বর্তমান মডেলটিতে কোনও ভবিষ্যদ্বাণী গুরুত্বপূর্ণ হয়, তবে সেই ভবিষ্যদ্বাণীকের জন্য এলোমেলোভাবে তবে 'বাস্তববাদী' (যেমন: আপনার ডেটাসেটের উপরে এই ভবিষ্যদ্বাণীকের মানকে অনুমতি দেওয়া) এর জন্য অন্যান্য মান নির্ধারণ করা উচিত, তার নেতিবাচক প্রভাব থাকতে হবে পূর্বাভাসের উপর, যেমন: একই ভেরিয়েবল ব্যতীত একই ডেটা থেকে ভবিষ্যদ্বাণী করতে একই মডেলটি ব্যবহার করা হলে আরও খারাপ ভবিষ্যদ্বাণী করা উচিত।

সুতরাং, আপনি মূল ডেটাসেট এবং তারপরে 'অনুমোদিত' ডেটাসেটের সাথে একটি ভবিষ্যদ্বাণীমূলক পরিমাপ (এমএসই) নেন এবং আপনি কোনওভাবে তাদের তুলনা করেন। একটি উপায়, বিশেষত যেহেতু আমরা আশা করি আসল এমএসই সর্বদা ছোট থাকে তাই পার্থক্যটি নেওয়া যায়। পরিশেষে, ভেরিয়েবলের তুলনায় মানগুলি তুলনামূলক করার জন্য, এগুলি ছোট করে দেওয়া হয়।

দ্বিতীয়টির জন্য: প্রতিটি বিভাজনে, আপনি গণনা করতে পারেন যে এই বিভাজনটি নোডের অপরিষ্কারটিকে কমিয়ে দেয় (রিগ্রেশন ট্রিগুলির জন্য, বিভাজনের আগে এবং পরে আরএসএসের মধ্যে পার্থক্য)। এটি এই গাছের জন্য সমস্ত গাছে জুড়ে সমস্ত গাছে জুড়ে দেওয়া হয়।

দ্রষ্টব্য: একটি ভাল পঠন হস্টি, তিবশিরানী এবং ফ্রেডম্যানের স্ট্যাটাসটিকাল লার্নিংয়ের উপাদানসমূহ ...


3
চিয়ার্স, আমার আসলে বইটি এখনই খোলা আছে :)
ডিসিএল

আরএসএস বলতে কী বোঝায়?
ডেভিডেচিকো.ইট


10

আর এলোমেলোভাবে প্যাকেজটিতে প্রয়োগ করা র্যান্ডম ফরেস্টের গুরুত্ব মেট্রিকগুলির সাথে প্রশ্ন আছে যে পারস্পরিক সম্পর্কযুক্ত পূর্বাভাসকারীরা কম গুরুত্বের মান পেয়ে থাকে get

http://bioinformatics.oxfordjournals.org/content/early/2010/04/12/bioinformatics.btq134.full.pdf

আমার কাছে সিআরএএন এ এলোমেলো বনাঞ্চলের একটি সংশোধিত বাস্তবায়ন রয়েছে যা অনুমিত পি মানগুলি এবং ভুয়া আবিষ্কারের হারের অনুমানের তাদের পদ্ধতির প্রয়োগ করে, এখানে

http://cran.r-project.org/web/packages/pRF/index.html


1
আপনি যদি ক্যারেট প্যাকেজের মতো এলোমেলোভাবে ব্যবহার করেন তবে এই পরিবর্তনশীল গুরুত্বের বিভিন্ন আউটপুট ব্যাখ্যা করে caret::train(method="rf", importance = TRUE, ...)??
চটপটি বিন বিন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.