গ্রেডিয়েন্ট বুস্টিং ট্রি: "আরও ভেরিয়েবল আরও ভাল"?


11

এক্সজিবিস্টের টিউটোরিয়াল থেকে , আমি মনে করি প্রতিটি গাছ যখন বেড়ে যায় তখন সমস্ত ভেরিয়েবলগুলি নোটকে বিভক্ত করার জন্য নির্বাচিত হতে স্ক্যান করা হয় এবং সর্বাধিক লাভের বিভাজনযুক্ত একটি বেছে নেওয়া হবে। সুতরাং আমার প্রশ্নটি হ'ল আমি যদি ডেটা সেটে কিছু শোর ভেরিয়েবল যুক্ত করি তবে এই শব্দটি পরিবর্তনশীলগুলি (প্রতিটি গাছের বৃদ্ধির জন্য) ভেরিয়েবলগুলির নির্বাচনকে প্রভাবিত করবে? আমার যুক্তিটি হ'ল যেহেতু এই শব্দের পরিবর্তনশীলগুলি মোটামুটি সর্বোচ্চ লাভের বিভাজন দেয় না, তবে এগুলি কখনই নির্বাচিত হবে না কারণ তারা গাছের বৃদ্ধিকে প্রভাবিত করে না।

উত্তরটি যদি হ্যাঁ হয়, তবে এটি কি সত্য যে "এক্সজিবিস্টের জন্য আরও ভেরিয়েবলগুলি আরও ভাল"? আসুন প্রশিক্ষণের সময়টি বিবেচনা করা উচিত নয়।

এছাড়াও, যদি উত্তর হ্যাঁ হয়, তবে এটি কি সত্য যে "আমাদের মডেল থেকে অ-গুরুত্বপূর্ণ ভেরিয়েবলগুলি ফিল্টার করার দরকার নেই"।

ধন্যবাদ!

উত্তর:


12

আমার যুক্তিটি হ'ল যেহেতু এই শব্দের পরিবর্তনশীলগুলি মোটামুটি সর্বোচ্চ লাভের বিভাজন দেয় না, তবে এগুলি কখনই নির্বাচিত হবে না কারণ তারা গাছের বৃদ্ধিকে প্রভাবিত করে না।

এটি কেবলমাত্র খুব বড়, অসীম ডেটা সেটগুলির কাছে পুরোপুরি সঠিক, যেখানে আপনার প্রশিক্ষণ সেটে নমুনাগুলির সংখ্যা সমস্ত পরিবর্তনের ভাল কভারেজ দেয়। অনুশীলনে, পর্যাপ্ত মাত্রাগুলি সহ আপনি প্রচুর স্যাম্পলিং শব্দের সাথে শেষ করেন, কারণ সম্ভাব্য উদাহরণগুলির কভারেজটি আপনার ডেটাতে আরও মাত্রাকে দুর্বল করে দেয়।

টার্গেট ভেরিয়েবলের সাথে সুযোগের সাথে সংযোগ স্থাপনকারী দুর্বল ভেরিয়েবলগুলির সাথে শোরগোল অ্যালগরিদমগুলি বৃদ্ধির কার্যকারিতা সীমাবদ্ধ করতে পারে এবং সিদ্ধান্ত গাছের গভীর বিভাজনে এটি আরও সহজেই ঘটতে পারে, যেখানে ডেটা মূল্যায়ন করা হচ্ছে ইতিমধ্যে একটি ছোট উপসেটে বিভক্ত করা হয়েছে।

আপনি যত বেশি ভেরিয়েবল যুক্ত করবেন ততই সম্ভবত আপনি দুর্বলভাবে সংযুক্ত ভেরিয়েবলগুলি পেয়ে যাবেন যা কিছু নির্দিষ্ট সংমিশ্রণের জন্য বিভাজন নির্বাচন অ্যালগরিদমকে ভাল দেখাবে যা এরপরে গাছগুলি তৈরি করে যা উদ্দিষ্ট সংকেতের পরিবর্তে এই শব্দটি শিখেছে এবং শেষ পর্যন্ত খারাপভাবে সাধারণীকরণ।

অনুশীলনে, আমি এক্সজিবিস্টকে স্বল্প মাত্রায় শব্দ করার জন্য বেশ শক্তিশালী পেয়েছি। যাইহোক, আমি এটিও পেয়েছি যে এটি কখনও কখনও একই কারণে আরও ভাল-সম্পর্কিত সম্পর্কিত ডেটার অগ্রাধিকার হিসাবে নিম্ন মানের ইঞ্জিনিয়ারড ভেরিয়েবলগুলি নির্বাচন করবে। সুতরাং এটি কোনও অ্যালগরিদম নয় যেখানে "এক্সজিবিস্টের জন্য আরও ভেরিয়েবলগুলি আরও ভাল" এবং আপনার সম্ভাব্য নিম্ন-মানের বৈশিষ্ট্যগুলি যত্ন নেওয়া দরকার।


খুব সুন্দর. ধন্যবাদ! সুতরাং আপনি কি মনে করেন XGBoost ফিটিং করার আগে ফিচার নির্বাচন আপনার অভিজ্ঞতার ভিত্তিতে প্রয়োজনীয়?
ডাব্লুসিএমসি

@ ফ্র্যাঙ্ক: হতে পারে। আপনি সমানভাবে বৈশিষ্ট্যগুলির সম্পূর্ণ সেট দিয়ে শুরু করতে পারেন এবং আপনাকে সহায়তা করার জন্য এক্সজিবিস্ট ভেরিয়েবলের গুরুত্ব প্রতিবেদনটি ব্যবহার করতে পারেন। যদিও সাধারণভাবে, এক্সজিবিস্ট আপনাকে বৈশিষ্ট্য নির্বাচন এবং প্রকৌশল সম্পর্কিত স্বাভাবিক উদ্বেগগুলির থেকে সম্পূর্ণরূপে বাঁচায় না।
নিল স্লেটার

হাই @Neil, দয়া করে কটাক্ষপাত করা datascience.stackexchange.com/questions/17288/... যখনই আপনি কোনো সুযোগ পেয়েছিলাম। ধন্যবাদ.
ডাব্লুসিএমসি

@ ফ্র্যাঙ্ক: আমি ইতিমধ্যে গতকাল করেছি এবং স্পষ্টতার জন্য একটি প্রশ্ন রেখেছি কারণ সংখ্যাগুলি কিছুটা বন্ধ বলে মনে হচ্ছে।
নীল স্লেটার

হাই হাই @ নীল, যেহেতু আগের পোস্টার আপনার প্রশ্নের উত্তর দেয় নি, তাই আমি এখানে আমার নিজস্ব প্রকল্পের সাথে এটি পুনরায় পোস্ট করি । আমি সেখানে ডেটা সেট এবং আর স্ক্রিপ্টও সরবরাহ করেছি, যা আমি আশা করি অন্যদের পক্ষে সমস্যাটি বোঝার জন্য আরও সুবিধাজনক হবে। আপনি যদি কিছু সহায়তা দিতে পছন্দ করেন তবে আমি প্রশংসা করি।
ডাব্লুসিএমসি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.