সবকিছু শিরোনামে রয়েছে, এলোমেলো বন ব্যবহার করার আগে বৈশিষ্ট্য নির্বাচন ব্যবহার করা কি বোধগম্য?
সবকিছু শিরোনামে রয়েছে, এলোমেলো বন ব্যবহার করার আগে বৈশিষ্ট্য নির্বাচন ব্যবহার করা কি বোধগম্য?
উত্তর:
হ্যাঁ এটি করে এবং এটি বেশ সাধারণ। আপনি যদি আশা করেন যে আপনার বৈশিষ্ট্যগুলির ~ 50% এরও বেশি অপ্রয়োজনীয় নয় তবে একেবারেই অকেজো। উদাহরণস্বরূপ, র্যান্ডমফোরস্ট প্যাকেজটিতে র্যাপার ফাংশন আরএফসিভি () রয়েছে যা একটি র্যান্ডমফোরস্ট প্রিট্রাইন করবে এবং কমপক্ষে গুরুত্বপূর্ণ ভেরিয়েবলগুলি বাদ দেবে। rfcv ফাংশন এই অধ্যায়টি পড়ুন । আশাবাদী ফলাফলগুলি এড়াতে কোনও বহিরাগত ক্রস-বৈধকরণ লুপে বৈশিষ্ট্য নির্বাচন + মডেলিং এম্বেড করতে ভুলবেন না।
[নীচে সম্পাদনা করুন]
আমি "সম্পূর্ণরূপে বেহুদা" মাঝারি করতে পারি। একটি একক এলোমেলো অরণ্য প্রায়শই যেমন লাসো নিয়মিতকরণের সাথে সম্পূর্ণরূপে বৈশিষ্ট্যগুলিকে উপেক্ষা করে না তবে এগুলি (সিমুলেটেড হ্যান্ডসাইটে) এলোমেলো বৈশিষ্ট্যগুলিও ছিল না। বৈশিষ্ট্য অনুসারে সিদ্ধান্তের বিভাজনগুলি হাজার হাজার বা মিলিয়ন নোডের যে কোনও একটিতে স্থানীয় মানদণ্ড দ্বারা চয়ন করা হয় এবং পরে তা পূর্বাবস্থায় ফেরা যায় না। আমি কাটানো বৈশিষ্ট্যগুলিকে একটি উচ্চতর নির্বাচনের পক্ষে সমর্থন করি না, তবে এই পরিবর্তনশীল নির্বাচনটি ব্যবহার করে ভবিষ্যদ্বাণী কর্মক্ষমতা (একটি বারবার বাইরের ক্রস-বৈধকরণ দ্বারা অনুমান করা ) যথেষ্ট পরিমাণে অর্জন সম্ভব কিছু ডেটা সেটগুলির পক্ষে । একটি সাধারণ অনুসন্ধানটি হ'ল 100% বৈশিষ্ট্য রাখার বা শুধুমাত্র কয়েকটি শতাংশ কম ভাল কাজ করে এবং তারপরে অনুরূপ পূর্বাভাসের পারফরম্যান্স সহ বিস্তৃত মাঝারি পরিসর হতে পারে।
সম্ভবত একটি যুক্তিসঙ্গত নিয়ম: যখন কেউ প্রত্যাশা করে যে কোনও প্রদত্ত সমস্যার জন্য লসোর মতো নিয়মিতকরণ একটি রিজ-জাতীয় নিয়মিতকরণের চেয়ে আরও ভাল পরিবেশন করবে, তখন কেউ একটি এলোমেলো বনকে প্রাক-প্রশিক্ষণের চেষ্টা করতে পারে এবং ব্যাগের ভিতরের বৈশিষ্ট্যগুলি স্থান করে দিতে পারে ক্রস-বৈধ যাচাইকযোগ্য গুরুত্ব এবং কিছু স্বল্প গুরুত্বপূর্ণ বৈশিষ্ট্য বাদ দেওয়ার চেষ্টা করুন । পরিবর্তনশীল গুরুত্ব পূর্বাভাসের আগে প্রশিক্ষণের পরে প্রদত্ত বৈশিষ্ট্যটিকে (মানগুলি বদলে দেওয়া) অনুমোদিত হলে ক্রস-বৈধতাযুক্ত মডেল পূর্বাভাস কতটা হ্রাস পায় তা প্রমাণ করে। একটি নির্দিষ্ট বৈশিষ্ট্য অন্তর্ভুক্ত করা উচিত বা না হওয়া উচিত তা কখনই নিশ্চিত হতে পারে না, তবে নীচের 5% এর চেয়ে শীর্ষ 5% বৈশিষ্ট্যগুলির দ্বারা অনুমান করা খুব সহজ easier
ব্যবহারিক দৃষ্টিকোণ থেকে, গণনামূলক রান সময় হ্রাস করা যেতে পারে, এবং বৈশিষ্ট্য অনুযায়ী একটি নির্দিষ্ট অধিগ্রহণের ব্যয় থাকলে কিছু সংস্থান সংরক্ষণ করা যেতে পারে।