র্যান্ডম ফরেস্টের আগে বৈশিষ্ট্য নির্বাচন ব্যবহার করা কি বোধগম্য?

সবকিছু শিরোনামে রয়েছে, এলোমেলো বন ব্যবহার করার আগে বৈশিষ্ট্য নির্বাচন ব্যবহার করা কি বোধগম্য?

machine-learning feature-selection random-forest

হ্যাঁ এটি করে এবং এটি বেশ সাধারণ। আপনি যদি আশা করেন যে আপনার বৈশিষ্ট্যগুলির ~ 50% এরও বেশি অপ্রয়োজনীয় নয় তবে একেবারেই অকেজো। উদাহরণস্বরূপ, র্যান্ডমফোরস্ট প্যাকেজটিতে র‌্যাপার ফাংশন আরএফসিভি () রয়েছে যা একটি র্যান্ডমফোরস্ট প্রিট্রাইন করবে এবং কমপক্ষে গুরুত্বপূর্ণ ভেরিয়েবলগুলি বাদ দেবে। rfcv ফাংশন এই অধ্যায়টি পড়ুন । আশাবাদী ফলাফলগুলি এড়াতে কোনও বহিরাগত ক্রস-বৈধকরণ লুপে বৈশিষ্ট্য নির্বাচন + মডেলিং এম্বেড করতে ভুলবেন না।

[নীচে সম্পাদনা করুন]

আমি "সম্পূর্ণরূপে বেহুদা" মাঝারি করতে পারি। একটি একক এলোমেলো অরণ্য প্রায়শই যেমন লাসো নিয়মিতকরণের সাথে সম্পূর্ণরূপে বৈশিষ্ট্যগুলিকে উপেক্ষা করে না তবে এগুলি (সিমুলেটেড হ্যান্ডসাইটে) এলোমেলো বৈশিষ্ট্যগুলিও ছিল না। বৈশিষ্ট্য অনুসারে সিদ্ধান্তের বিভাজনগুলি হাজার হাজার বা মিলিয়ন নোডের যে কোনও একটিতে স্থানীয় মানদণ্ড দ্বারা চয়ন করা হয় এবং পরে তা পূর্বাবস্থায় ফেরা যায় না। আমি কাটানো বৈশিষ্ট্যগুলিকে একটি উচ্চতর নির্বাচনের পক্ষে সমর্থন করি না, তবে এই পরিবর্তনশীল নির্বাচনটি ব্যবহার করে ভবিষ্যদ্বাণী কর্মক্ষমতা (একটি বারবার বাইরের ক্রস-বৈধকরণ দ্বারা অনুমান করা ) যথেষ্ট পরিমাণে অর্জন সম্ভব কিছু ডেটা সেটগুলির পক্ষে । একটি সাধারণ অনুসন্ধানটি হ'ল 100% বৈশিষ্ট্য রাখার বা শুধুমাত্র কয়েকটি শতাংশ কম ভাল কাজ করে এবং তারপরে অনুরূপ পূর্বাভাসের পারফরম্যান্স সহ বিস্তৃত মাঝারি পরিসর হতে পারে।

সম্ভবত একটি যুক্তিসঙ্গত নিয়ম: যখন কেউ প্রত্যাশা করে যে কোনও প্রদত্ত সমস্যার জন্য লসোর মতো নিয়মিতকরণ একটি রিজ-জাতীয় নিয়মিতকরণের চেয়ে আরও ভাল পরিবেশন করবে, তখন কেউ একটি এলোমেলো বনকে প্রাক-প্রশিক্ষণের চেষ্টা করতে পারে এবং ব্যাগের ভিতরের বৈশিষ্ট্যগুলি স্থান করে দিতে পারে ক্রস-বৈধ যাচাইকযোগ্য গুরুত্ব এবং কিছু স্বল্প গুরুত্বপূর্ণ বৈশিষ্ট্য বাদ দেওয়ার চেষ্টা করুন । পরিবর্তনশীল গুরুত্ব পূর্বাভাসের আগে প্রশিক্ষণের পরে প্রদত্ত বৈশিষ্ট্যটিকে (মানগুলি বদলে দেওয়া) অনুমোদিত হলে ক্রস-বৈধতাযুক্ত মডেল পূর্বাভাস কতটা হ্রাস পায় তা প্রমাণ করে। একটি নির্দিষ্ট বৈশিষ্ট্য অন্তর্ভুক্ত করা উচিত বা না হওয়া উচিত তা কখনই নিশ্চিত হতে পারে না, তবে নীচের 5% এর চেয়ে শীর্ষ 5% বৈশিষ্ট্যগুলির দ্বারা অনুমান করা খুব সহজ easier

ব্যবহারিক দৃষ্টিকোণ থেকে, গণনামূলক রান সময় হ্রাস করা যেতে পারে, এবং বৈশিষ্ট্য অনুযায়ী একটি নির্দিষ্ট অধিগ্রহণের ব্যয় থাকলে কিছু সংস্থান সংরক্ষণ করা যেতে পারে।

— সোরেন হ্যাভেলন্ড ওয়েলিং
সূত্র

কোনও বৈশিষ্ট্য অকেজো বলে মনে করার জন্য ডেটা সক্ষমতা মারাত্মকভাবে সীমাবদ্ধ এবং আমি আশা করি যে বিকল্পটি আপনি উল্লেখ করেছেন তা এলোমেলো বন অ্যালগরিদমের সাথে সংহত হয়েছে। এলোমেলো বন অ্যালগরিদমে প্রার্থী বৈশিষ্ট্যগুলি প্রেরণের আগে বৈশিষ্ট্যগুলি আপ-ফ্রন্ট মুছে ফেলা উপযুক্ত হবে না।

— ফ্র্যাঙ্ক হ্যারেল

@ ফ্র্যাঙ্কহারেল, আমি আমার উত্তরটি বিস্তারিতভাবে জানাতে চেষ্টা করেছি

— সোরেন হ্যাভেলুন্ড ওয়েলিং

আমি ভিন্নমত না যে আপনি বিভিন্ন উদ্দেশ্যে বিভিন্ন স্কোরিং নিয়ম চয়ন করেন। একটি যথাযথ যথাযথ স্কোরিং নিয়ম ভুল বৈশিষ্ট্যগুলি নির্বাচন করে এবং তাদেরকে ভুল ওজন দেয়। নির্দিষ্ট স্কোরিংয়ের নিয়মগুলির মধ্যে স্বেচ্ছাচারিতাটি আরও স্পষ্ট। সর্বোত্তম ভবিষ্যদ্বাণীপূর্ণ মডেল চয়ন করা এবং তারপরে সেই মডেলটি ব্যবহার করে সর্বোত্তম সিদ্ধান্ত নেওয়ার জন্য দৃ solid় সিদ্ধান্ত তত্ত্ব ব্যবহার করা আরও অনেক ভাল। ধারাবাহিক পূর্বাভাসের জন্য একটি ইউটিলিটি ফাংশন প্রয়োগ করে এটি করা হয়।

— ফ্র্যাঙ্ক হ্যারেল

@ ফ্র্যাঙ্কহারেল - আপনি কি এই প্রশ্নের বিস্তারিত উত্তর দিতে পারবেন? স্পষ্টতই আপনার বৈশিষ্ট্য নির্বাচন করার বিরুদ্ধে কিছু শক্ত যুক্তি রয়েছে ...

— ইহাদান্নি

এটি সম্পর্কে জানার সর্বোত্তম উপায় হ'ল কোনও প্রক্রিয়াটির কঠোর বুটস্ট্র্যাপ অভ্যন্তরীণ যাচাইকরণ যা বৈশিষ্ট্য নির্বাচন বনাম যা না করে তার চেষ্টা করে। প্রায়শই ভবিষ্যদ্বাণীমূলক বৈষম্য (যখন সঠিক নির্ভুলতার স্কোরিং নিয়ম ব্যবহার করে বা এমনকি সাথে মাপা হয়

c

$c$ বৈশিষ্ট্য নির্বাচন করার চেষ্টা করা না হলে -আইডেক্স (আরওসি অঞ্চল) ভাল হয়। বৈশিষ্ট্য নির্বাচন প্রায় সবসময় ইচ্ছামত হয়।

— ফ্র্যাঙ্ক হ্যারেল