এলোমেলো অরণ্যে লাসো ব্যবহার করা


14

আমি নিম্নলিখিত প্রক্রিয়াটি ব্যবহার করে একটি এলোমেলো বন তৈরি করতে চাই:

  • বিভাজন নির্ধারণ করতে তথ্য লাভ এবং ব্যবহার করে ডেটা এবং বৈশিষ্ট্যগুলির এলোমেলো নমুনার উপর একটি গাছ তৈরি করুন
  • কোনও লিফ নোডের সমাপ্তি যদি এটি পূর্ব নির্ধারিত গভীরতা অতিক্রম করে বা কোনও বিভাজনের ফলে পাতার গণনা পূর্ব নির্ধারিত ন্যূনতমের চেয়ে কম হয়
  • প্রতিটি গাছের জন্য একটি শ্রেণির লেবেল বরাদ্দ করার পরিবর্তে, পাতার নোডে শ্রেণির অনুপাত নির্ধারণ করুন
  • প্রাক-সংজ্ঞায়িত নম্বর তৈরির পরে গাছ তৈরি বন্ধ করুন

এটি দুটি উপায়ে traditionalতিহ্যবাহী এলোমেলো বন প্রক্রিয়া উপার্জন করে। এক, এটি ছাঁটাই করা গাছগুলি ব্যবহার করে যা শ্রেণীর লেবেলের পরিবর্তে অনুপাত সরবরাহ করে। এবং দুটি, স্টপ মাপদণ্ডটি ব্যাগের বাইরে থাকা ত্রুটি অনুমানের চেয়ে গাছগুলির একটি প্রাক-নির্ধারিত সংখ্যা।

আমার প্রশ্নটি হ'ল:

উপরের প্রক্রিয়া যা এন গাছগুলিকে আউটপুট দেয়, আমি কি তখন ল্যাসো নির্বাচনের সাথে লজিস্টিক রিগ্রেশন ব্যবহার করে কোনও মডেল ফিট করতে পারি ? ল্যাজিস্টিক ল্যাসো সহ কারও কাছে র্যান্ডম ফরেস্ট ক্লাসিফায়ার এবং পোস্ট-প্রসেসিংয়ের উপযুক্ততা আছে?

আইএসএল কাঠামোটি রেগ্রেশন সমস্যার জন্য নয় তবে শ্রেণিবিন্যাসের সমস্যাগুলির জন্য ল্যাসোকে পোস্ট-প্রসেসিং পদক্ষেপ হিসাবে ব্যবহার করার উল্লেখ করেছে। তদতিরিক্ত, "এলোমেলো বন লাসো" গুগল করার সময় আমি কোনও সহায়ক ফলাফল পাই না।


লাসো যখন বিভিন্ন মানের বিভিন্ন হয় তখন দরকারী বৈশিষ্ট্যগুলি সন্ধান / ওজনে ভাল। আপনার বনের ব্যক্তিগত গাছগুলি সম্ভবত অন্যান্য গাছের চেয়ে খুব ভাল বা খারাপ হতে পারে না, তাই লাসো আপনাকে খুব বেশি সাহায্য করবে বলে আমি মনে করি না।
রেনাড

প্রতিস্থাপন ছাড়াই এবং গাছের গভীরতা সীমাবদ্ধ না করে একটি ছোট ভগ্নাংশকে নমুনা দেওয়ার মাধ্যমে বৃহত্তর বৈচিত্র্য প্রবর্তন করা হয়েছে যাতে আমি মনে করি যে নিয়মিতকরণের কিছু ফর্মটি সুনিশ্চিত করা হয়েছে।
জেলাজনি 7

আপনি কীভাবে লজিস্টিক মডেলটি ফিট করার পরিকল্পনা করছেন সে সম্পর্কে আপনি আরও সুনির্দিষ্ট হতে পারেন? ভবিষ্যদ্বাণীকারী ভেরিয়েবলগুলি ঠিক কী? এছাড়াও - পোস্ট-প্রসেসিংয়ের জন্য আপনার প্রেরণা কী? আপনি যদি ভেরিয়েবল সিলেকশন করার চেষ্টা করছেন, তবে অন্যান্য বিবেচনা করার পদ্ধতি রয়েছে।
অ্যালেক্স উইলিয়ামস

প্রতিটি গাছের ভবিষ্যদ্বাণীগুলি আউটপুট করে, ভবিষ্যদ্বাণীকারীদের একটি নতুন ডেটাসেট তৈরি করা হয়। গাছের পূর্বাভাসের একটি বিরল সংমিশ্রণে পৌঁছানোর জন্য এই ডেটাসেটটি লাসো রিগ্রেশনে ব্যবহার করা যেতে পারে। অনুপ্রেরণা এমন মডেলগুলি তৈরি করছে যা আরও সংক্ষিপ্ত এবং উত্পাদনে আরও দ্রুত চালিত হয়।
জেলাজনি 7

আমি সম্প্রতি একই ধরণের সমস্যার মুখোমুখি হয়েছি এবং আমি এটি খুঁজে পেয়েছি ফ্রিডম্যানের মূল কাগজে যে তিনি বাইনারি শ্রেণিবদ্ধকরণ সমস্যার জন্য বিশেষত একটি ক্ষতির ফাংশনটি ডিজাইন করেছিলেন। আশা করি এটি সহায়ক হবে। এছাড়াও, এটি কীভাবে বহুমাত্রিক শ্রেণিবদ্ধকরণ সমস্যাগুলিতে প্রসারিত করা যায় সে সম্পর্কে আপনার কোনও ধারণা আছে? বা বহু শ্রেণীর শ্রেণিবিন্যাস সমস্যার বিষয়ে আপনার দৃষ্টিভঙ্গি কী?
কোয়ান

উত্তর:


5

এটিকে কিছুটা গ্রেডিয়েন্ট ট্রি বৃদ্ধির মত শোনাচ্ছে। উত্সাহ দেওয়ার ধারণাটি হল একশ্রেণীর মডেলের সেরা লিনিয়ার সংমিশ্রণ। যদি আমরা ডেটাতে একটি গাছ ফিট করি তবে আমরা সেই ফলাফলটি অনুসন্ধানের চেষ্টা করছি যা ফলাফলের পরিবর্তনশীলটিকে সর্বোত্তমভাবে ব্যাখ্যা করে। আমরা যদি এর পরিবর্তে বুস্টিং ব্যবহার করি তবে আমরা গাছের সেরা লিনিয়ার সংমিশ্রণটি চেষ্টা করার চেষ্টা করছি।

যাইহোক, বুস্টিং ব্যবহার করে আমরা কিছুটা দক্ষ, কারণ আমাদের কাছে এলোমেলো গাছের সংগ্রহ নেই, তবে আমরা এমন নতুন গাছ তৈরির চেষ্টা করব যা উদাহরণগুলি এখনও কার্যকরভাবে অনুমান করতে পারি না এমনভাবে কাজ করে।

এ সম্পর্কে আরও তথ্যের জন্য, আমি পরিসংখ্যানগত শিক্ষার উপাদানগুলির 10 অধ্যায়টি পড়ার পরামর্শ দেব: http://statweb.stanford.edu/~tibs/ElemStatLearn/

যদিও এটি আপনার প্রশ্নের সম্পূর্ণ উত্তর নয়, আমি আশা করি এটি সাহায্য করবে।


3
ধন্যবাদ। যেহেতু আমি প্রাথমিকভাবে এই প্রশ্নটি পোস্ট করেছি আমি আর জিবিএম প্যাকেজটির সাথে খুব পরিচিত হয়েছি। আমার প্রক্রিয়াতে এখন 10,000 টি বলে গাছের একটি জিবিএম মডেল তৈরি করা এবং তারপরে গাছগুলিতে লাসো রিগ্রেশন করতে জিএলএমনেটের মাধ্যমে সমস্ত 10,000 গাছ চালানো জড়িত। পারফরম্যান্সে কোনও ক্ষয়ক্ষতি হ্রাস না করে (এবং কখনও কখনও উত্সাহ দেওয়া) একটি সংকুচিত GBM মডেলের ফলাফল এটি।
জেলাজনি 7

@ জেলাজনি 7 হার্ডআউট / টেস্ট ডেটা শক্ত সম্পর্কে কী এটি পূর্বাভাস দেয়?
জোশ

হ্যাঁ, আমার সমস্ত পরীক্ষার হোল্ড আউটে সম্পন্ন হয়েছে যা কোনওভাবেই উন্নয়নকে অবহিত করে না। পারফরম্যান্স বেশিরভাগ ক্ষেত্রে হ্রাস পায় না। কখনও কখনও এটি একটু খারাপ হয়, কখনও কখনও এটি এমনকি উন্নতি করে।
Zelazny7

1
@ জেলাজনি I আমি একই পদ্ধতিতেও একই অভিজ্ঞতা অর্জন করেছি (আমার শেষ কাজটিতে)।
ম্যাথু ড্রুরি

আপনার অবশ্যই কিছু করা উচিত ... হাস্টি নিজেই এলোমেলো বন থেকে পোস্ট-প্রসেসিং গাছ বা ল্যাসো ব্যবহার করে উত্সাহ দেওয়ার পরামর্শ দেয়। তিনি উল্লেখ করেছেন 30:10 টায় এই ভিডিওতে
জোনাথন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.