নির্বাচিত বৈশিষ্ট্যগুলির সংখ্যা হ্রাস পেলে এলোমেলো অরণ্য ওওবি অনুমানের ত্রুটি কেন উন্নত হয়?


14

আমি একটি মাইক্রোয়ারে ডেটাসেটে শ্রেণিবদ্ধ হিসাবে একটি এলোমেলো বন অ্যালগরিদম প্রয়োগ করছি যা বৈশিষ্ট্যগুলির সংখ্যা সহ দুটি পরিচিত গ্রুপে বিভক্ত। প্রাথমিক রান করার পরে আমি বৈশিষ্ট্যগুলির গুরুত্বের দিকে তাকান এবং 5, 10 এবং 20 সর্বাধিক গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি দিয়ে আবার গাছের অ্যালগোরিদমটি চালিত করি। আমি খুঁজে পেয়েছি যে সমস্ত বৈশিষ্ট্যগুলির জন্য, শীর্ষ 10 এবং 20 টির মধ্যে ত্রুটির হারের OOB অনুমান 1.19% যেখানে শীর্ষ 5 বৈশিষ্ট্যগুলি এটি 0% is এটি আমার কাছে মতবিরোধী বলে মনে হচ্ছে, তাই আমি ভাবছিলাম যে আমি কিছু মিস করছি বা আমি ভুল মেট্রিক ব্যবহার করছি কিনা তা আপনি ব্যাখ্যা করতে পারেন কিনা।

আমি এনটিআর = 1000, নডসাইজ = 1 এবং মিট্রি = স্কয়ার্ট (এন) দিয়ে আর এ র্যান্ডমফোরস্ট প্যাকেজটি ব্যবহার করছি


2
কেবল স্পষ্ট করে বলুন: আপনি কি পুনরাবৃত্ত পদ্ধতিতে আরএফ প্রয়োগ করছেন, এটি পুরো ইনপুট স্থান থেকে শীর্ষস্থানীয় বৈশিষ্ট্যগুলি (গিনি সূচক অনুসারে বা এমএসইতে হ্রাস) নির্বাচন করে? আমি জানি যে আরএফগুলি অবিচ্ছিন্নভাবে গাছের সংখ্যার সাথে উন্নতি করতে পারে না, তবে আপনি যা চিত্রিত করছেন তা বোধগম্য হতে পারে (সেরা বৈশিষ্ট্যগুলি ওওবি নমুনাগুলির সাথে 100% নির্ভুলতার সাথে ভবিষ্যদ্বাণী করতে দেয়) যদিও এইভাবে এগিয়ে যাওয়ার সময় স্পষ্টতই অত্যধিক ঝুঁকির ঝুঁকি রয়েছে ।
chl

হ্যাঁ আমি যা করছি তা হচ্ছে
ড্যানিয়েলসব্রুয়ার

2
@ সিএইচএল, আপনি কী ব্যাখ্যা করতে পারবেন যে কেন কেবল 5 টি বৈশিষ্ট্য ব্যবহার করে অতিরিক্ত চাপ দেওয়ার ঝুঁকি রয়েছে?
tashuhka

উত্তর:


15

এটি বৈশিষ্ট্য নির্বাচন ওভারফিট এবং এটি বেশ পরিচিত - অ্যামব্রয়েজ এবং ম্যাকলাচলান 2002 দেখুন । সমস্যাটি এই সত্যের উপর ভিত্তি করে তৈরি করা হয় যে আরএফ খুব স্মার্ট এবং বস্তুর সংখ্যা খুব কম। পরবর্তী ক্ষেত্রে, এলোমেলোভাবে এট্রিবিউট তৈরি করা সাধারণভাবে বেশ সহজ যা সিদ্ধান্তের সাথে ভাল সম্পর্ক থাকতে পারে। এবং যখন গুণাবলীর সংখ্যা বড় হয়, আপনি নিশ্চিত হতে পারেন যে সম্পূর্ণরূপে অপ্রাসঙ্গিক কিছুগুলি খুব ভাল ভবিষ্যদ্বাণীকারী হবে, এমনকি একটি ক্লাস্টার গঠনের পক্ষে যথেষ্ট যা সিদ্ধান্তকে ১০০% এ পুনরায় তৈরি করতে সক্ষম হবে, বিশেষত যখন বিপুল নমনীয়তা আরএফ বিবেচনা করা হয়। এবং সুতরাং, এটি সুস্পষ্ট হয়ে যায় যে গুণাবলীর সেরা সম্ভাব্য উপসেট সন্ধানের জন্য নির্দেশ দেওয়া হলে, এফএস পদ্ধতিটি এই ক্লাস্টারটি আবিষ্কার করে।
এ ও ম্যাকএল-তে একটি সমাধান (সিভি) দেওয়া হয়েছে, আপনি বিষয়টিতে আমাদের পদ্ধতিরও পরীক্ষা করতে পারেনবুরুতা অ্যালগরিদম , যা মূলত নকশার ভিত্তিতে এলোমেলোভাবে তৈরি "ছায়া বৈশিষ্ট্যগুলি" সহ সেটটি প্রসারিত করে এবং তাদের আরএফ গুরুত্বের সাথে তুলনা করে সত্যিকারের গুণাবলীর জন্য বিচারক যেগুলির মধ্যে সত্যই এলোমেলো এবং সরানো যেতে পারে; এটি উল্লেখযোগ্য হওয়ার জন্য বহুবার প্রতিলিপি করা হয়েছে। বরুতা বরং কিছুটা আলাদা কাজের উদ্দেশ্যে তৈরি, তবে যতক্ষণ পর্যন্ত আমার পরীক্ষাগুলি দেখিয়েছে, ফলস্বরূপ সেটটি এফএস ওভারফিট সমস্যা থেকে মুক্ত।


2

আমি ভেবেছিলাম আমি এই প্যাটার্নটির জন্য একটি স্বজ্ঞাত ব্যাখ্যা যুক্ত করব।

এলোমেলো বন নিয়ে গঠিত প্রতিটি সিদ্ধান্ত গাছের মধ্যে ডেটা পুনরাবৃত্তভাবে একক মাত্রায় বিভক্ত হয়। গুরুতরভাবে, এই পদ্ধতিতে জড়িত

1) সমস্ত ব্যাখ্যামূলক ভেরিয়েবলগুলির কেবলমাত্র একটি ছোট, এলোমেলোভাবে নির্বাচিত উপসেট বিবেচনা করুন এবং

২) ডেটা বরাবর বিভক্ত করতে এলোমেলোভাবে নির্বাচিত ভেরিয়েবল সাবসেটের মধ্যে সর্বাধিক দৃ associated়ভাবে সম্পর্কিত ব্যাখ্যাযুক্ত ভেরিয়েবল নির্বাচন করা

সুতরাং, কোনও নির্দিষ্ট নোডে এন-এর সবচেয়ে গুরুত্বপূর্ণ ভেরিয়েবলগুলি নির্বাচিত হওয়ার সম্ভাবনা হ্রাস পাওয়ার সাথে সাথে ব্যাখ্যামূলক ভেরিয়েবলের সংখ্যা হ্রাস পায়। অতএব, যদি কেউ প্রচুর পরিমাণে ভেরিয়েবল যুক্ত করে যা সামান্য-কোনও-কোনও ব্যাখ্যামূলক শক্তিকে অবদান রাখে, তবে এটি স্বয়ংক্রিয়ভাবে বনের ত্রুটির হার বাড়িয়ে তোলে। এবং বিপরীতভাবে, অন্তর্ভুক্তির জন্য শুধুমাত্র সবচেয়ে গুরুত্বপূর্ণ ভেরিয়েবলগুলি চয়ন করা খুব সম্ভবত ত্রুটির হার হ্রাস করতে পারে।

এলোমেলো বন এটির জন্য যথেষ্ট শক্তিশালী এবং অর্থাত্ পারফরম্যান্স হ্রাস করার জন্য এটি সাধারণত এই 'শব্দ' পরামিতিগুলির একটি খুব বড় সংযোজন প্রয়োজন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.