নির্বাচিত বৈশিষ্ট্যগুলির সংখ্যা হ্রাস পেলে এলোমেলো অরণ্য ওওবি অনুমানের ত্রুটি কেন উন্নত হয়?

14

আমি একটি মাইক্রোয়ারে ডেটাসেটে শ্রেণিবদ্ধ হিসাবে একটি এলোমেলো বন অ্যালগরিদম প্রয়োগ করছি যা বৈশিষ্ট্যগুলির সংখ্যা সহ দুটি পরিচিত গ্রুপে বিভক্ত। প্রাথমিক রান করার পরে আমি বৈশিষ্ট্যগুলির গুরুত্বের দিকে তাকান এবং 5, 10 এবং 20 সর্বাধিক গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি দিয়ে আবার গাছের অ্যালগোরিদমটি চালিত করি। আমি খুঁজে পেয়েছি যে সমস্ত বৈশিষ্ট্যগুলির জন্য, শীর্ষ 10 এবং 20 টির মধ্যে ত্রুটির হারের OOB অনুমান 1.19% যেখানে শীর্ষ 5 বৈশিষ্ট্যগুলি এটি 0% is এটি আমার কাছে মতবিরোধী বলে মনে হচ্ছে, তাই আমি ভাবছিলাম যে আমি কিছু মিস করছি বা আমি ভুল মেট্রিক ব্যবহার করছি কিনা তা আপনি ব্যাখ্যা করতে পারেন কিনা।

আমি এনটিআর = 1000, নডসাইজ = 1 এবং মিট্রি = স্কয়ার্ট (এন) দিয়ে আর এ র্যান্ডমফোরস্ট প্যাকেজটি ব্যবহার করছি

r machine-learning classification random-forest

— danielsbrewer
সূত্র

2

কেবল স্পষ্ট করে বলুন: আপনি কি পুনরাবৃত্ত পদ্ধতিতে আরএফ প্রয়োগ করছেন, এটি পুরো ইনপুট স্থান থেকে শীর্ষস্থানীয় বৈশিষ্ট্যগুলি (গিনি সূচক অনুসারে বা এমএসইতে হ্রাস) নির্বাচন করে? আমি জানি যে আরএফগুলি অবিচ্ছিন্নভাবে গাছের সংখ্যার সাথে উন্নতি করতে পারে না, তবে আপনি যা চিত্রিত করছেন তা বোধগম্য হতে পারে (সেরা বৈশিষ্ট্যগুলি ওওবি নমুনাগুলির সাথে 100% নির্ভুলতার সাথে ভবিষ্যদ্বাণী করতে দেয়) যদিও এইভাবে এগিয়ে যাওয়ার সময় স্পষ্টতই অত্যধিক ঝুঁকির ঝুঁকি রয়েছে ।

— chl

হ্যাঁ আমি যা করছি তা হচ্ছে

— ড্যানিয়েলসব্রুয়ার

2

@ সিএইচএল, আপনি কী ব্যাখ্যা করতে পারবেন যে কেন কেবল 5 টি বৈশিষ্ট্য ব্যবহার করে অতিরিক্ত চাপ দেওয়ার ঝুঁকি রয়েছে?

— tashuhka

15

এটি বৈশিষ্ট্য নির্বাচন ওভারফিট এবং এটি বেশ পরিচিত - অ্যামব্রয়েজ এবং ম্যাকলাচলান 2002 দেখুন । সমস্যাটি এই সত্যের উপর ভিত্তি করে তৈরি করা হয় যে আরএফ খুব স্মার্ট এবং বস্তুর সংখ্যা খুব কম। পরবর্তী ক্ষেত্রে, এলোমেলোভাবে এট্রিবিউট তৈরি করা সাধারণভাবে বেশ সহজ যা সিদ্ধান্তের সাথে ভাল সম্পর্ক থাকতে পারে। এবং যখন গুণাবলীর সংখ্যা বড় হয়, আপনি নিশ্চিত হতে পারেন যে সম্পূর্ণরূপে অপ্রাসঙ্গিক কিছুগুলি খুব ভাল ভবিষ্যদ্বাণীকারী হবে, এমনকি একটি ক্লাস্টার গঠনের পক্ষে যথেষ্ট যা সিদ্ধান্তকে ১০০% এ পুনরায় তৈরি করতে সক্ষম হবে, বিশেষত যখন বিপুল নমনীয়তা আরএফ বিবেচনা করা হয়। এবং সুতরাং, এটি সুস্পষ্ট হয়ে যায় যে গুণাবলীর সেরা সম্ভাব্য উপসেট সন্ধানের জন্য নির্দেশ দেওয়া হলে, এফএস পদ্ধতিটি এই ক্লাস্টারটি আবিষ্কার করে।
এ ও ম্যাকএল-তে একটি সমাধান (সিভি) দেওয়া হয়েছে, আপনি বিষয়টিতে আমাদের পদ্ধতিরও পরীক্ষা করতে পারেনবুরুতা অ্যালগরিদম , যা মূলত নকশার ভিত্তিতে এলোমেলোভাবে তৈরি "ছায়া বৈশিষ্ট্যগুলি" সহ সেটটি প্রসারিত করে এবং তাদের আরএফ গুরুত্বের সাথে তুলনা করে সত্যিকারের গুণাবলীর জন্য বিচারক যেগুলির মধ্যে সত্যই এলোমেলো এবং সরানো যেতে পারে; এটি উল্লেখযোগ্য হওয়ার জন্য বহুবার প্রতিলিপি করা হয়েছে। বরুতা বরং কিছুটা আলাদা কাজের উদ্দেশ্যে তৈরি, তবে যতক্ষণ পর্যন্ত আমার পরীক্ষাগুলি দেখিয়েছে, ফলস্বরূপ সেটটি এফএস ওভারফিট সমস্যা থেকে মুক্ত।

2

আমি ভেবেছিলাম আমি এই প্যাটার্নটির জন্য একটি স্বজ্ঞাত ব্যাখ্যা যুক্ত করব।

এলোমেলো বন নিয়ে গঠিত প্রতিটি সিদ্ধান্ত গাছের মধ্যে ডেটা পুনরাবৃত্তভাবে একক মাত্রায় বিভক্ত হয়। গুরুতরভাবে, এই পদ্ধতিতে জড়িত

1) সমস্ত ব্যাখ্যামূলক ভেরিয়েবলগুলির কেবলমাত্র একটি ছোট, এলোমেলোভাবে নির্বাচিত উপসেট বিবেচনা করুন এবং

২) ডেটা বরাবর বিভক্ত করতে এলোমেলোভাবে নির্বাচিত ভেরিয়েবল সাবসেটের মধ্যে সর্বাধিক দৃ associated়ভাবে সম্পর্কিত ব্যাখ্যাযুক্ত ভেরিয়েবল নির্বাচন করা ।

সুতরাং, কোনও নির্দিষ্ট নোডে এন-এর সবচেয়ে গুরুত্বপূর্ণ ভেরিয়েবলগুলি নির্বাচিত হওয়ার সম্ভাবনা হ্রাস পাওয়ার সাথে সাথে ব্যাখ্যামূলক ভেরিয়েবলের সংখ্যা হ্রাস পায়। অতএব, যদি কেউ প্রচুর পরিমাণে ভেরিয়েবল যুক্ত করে যা সামান্য-কোনও-কোনও ব্যাখ্যামূলক শক্তিকে অবদান রাখে, তবে এটি স্বয়ংক্রিয়ভাবে বনের ত্রুটির হার বাড়িয়ে তোলে। এবং বিপরীতভাবে, অন্তর্ভুক্তির জন্য শুধুমাত্র সবচেয়ে গুরুত্বপূর্ণ ভেরিয়েবলগুলি চয়ন করা খুব সম্ভবত ত্রুটির হার হ্রাস করতে পারে।

এলোমেলো বন এটির জন্য যথেষ্ট শক্তিশালী এবং অর্থাত্ পারফরম্যান্স হ্রাস করার জন্য এটি সাধারণত এই 'শব্দ' পরামিতিগুলির একটি খুব বড় সংযোজন প্রয়োজন।

— এমকেটি - মনিকা পুনরায় স্থাপন করুন
সূত্র