অবিচ্ছিন্ন ভেরিয়েবলের পূর্বাভাস দেওয়ার সময় কীভাবে সিদ্ধান্ত নেওয়া হবে গাছের বিভাজনগুলি কার্যকর করা উচিত?


15

আমি আসলে র্যান্ডম অরণ্যের একটি বাস্তবায়ন লিখছি তবে আমি বিশ্বাস করি যে প্রশ্নটি সিদ্ধান্তের গাছের সাথে সুনির্দিষ্ট (আরএফ থেকে স্বতন্ত্র)।

সুতরাং প্রসঙ্গটি হ'ল আমি একটি সিদ্ধান্তের গাছে একটি নোড তৈরি করছি এবং পূর্বাভাস এবং লক্ষ্য ভেরিয়েবল উভয়ই অবিচ্ছিন্ন। নোডের দুটি সেটে বিভাজন ডেটার জন্য একটি বিভক্ত প্রান্তিকা রয়েছে এবং আমি প্রতিটি সেটের গড় টার্গেট মানের ভিত্তিতে প্রতিটি উপসেটের জন্য একটি নতুন পূর্বাভাস তৈরি করি। এটা কি সঠিক পন্থা?

আমার জিজ্ঞাসার কারণটি হ'ল বাইনারি ভেরিয়েবলগুলির পূর্বাভাস দেওয়ার সময় আমি বিশ্বাস করি যে আদর্শ (সঠিক?) পদ্ধতির প্রতিটি উপসেটের ডেটা সারিগুলির উপরে গড় না নিয়ে ডেটা 0 এবং 1 উপসরে বিভক্ত করা হয়। পরবর্তী বিভাজনগুলি সূক্ষ্ম শস্যযুক্ত উপগ্রহে বিভক্ত হবে এবং প্রতিটি বিভক্ত ফলাফলের গড় ফলস্বরূপ পরবর্তী বিভাজনগুলি (সিদ্ধান্ত গাছের নীচে নীচে) এখন বাইনারি ভেরিয়েবলের পরিবর্তে অবিচ্ছিন্ন ভেরিয়েবলগুলি কীভাবে পরিচালনা করছে (কারণ আমরা মূলের পরিবর্তে অবশিষ্টাংশের ত্রুটির মানগুলিতে কাজ করছি) লক্ষ্যমাত্রা)।

পার্শ্ব প্রশ্ন: দুটি পদ্ধতির (বাইনারি বনাম ধারাবাহিক) মধ্যে পার্থক্য কি তাৎপর্যপূর্ণ - বা তারা আসলে কোনও সম্পূর্ণ সিদ্ধান্ত গাছের জন্য অভিন্ন ফলাফল দেবে?


1
একটি অবিচ্ছিন্ন পরিবর্তনশীল উপর বিভক্ত ফলাফল "মডেল" সঠিকভাবে তথ্য ফিট না করা নিশ্চিত করতে হবে। আপনার যদি একটানা এক্স এবং একটানা একটানা ওয় থাকে তবে লোস ননপ্যারমেট্রিক স্মুথ ব্যবহার করার বিষয়টি বিবেচনা করুন।
ফ্র্যাঙ্ক হ্যারেল

আমি এখন যে সমস্যাটি নিয়ে কাজ করছি তার অনেক প্রডিক্টর ভেরিয়েবল (অবিচ্ছিন্ন এবং বাইনারি মিশ্রণ) এবং একটি একক লক্ষ্য ভেরিয়েবল রয়েছে। তাই আমি বিশ্বাস করি আরএফ গ্রহণ করা একটি যুক্তিসঙ্গত পন্থা।
redcalx

2
খুব সম্ভবত তাই। তবে একটি এলোমেলো বন হ'ল গাছের মিশ্রণ (এটি কোনও সিদ্ধান্তের গাছ নয়), তাই এটি একাধিক বিভাজন তৈরি করে এবং ফলস্বরূপ সংকোচনের সাহায্যে অবিচ্ছিন্ন সম্পর্কগুলিকে ঘনিষ্ঠ করে তোলে। সুতরাং আমি মনে করি না যে আপনার আসল প্রশ্নটি প্রযোজ্য, যদি আমি তা বুঝতে পারি।
ফ্র্যাঙ্ক হ্যারেল 5

আমি বলতে চাই যে একটানা মামলার আপনার বর্ণনার সঠিক (অর্থাত জিনিসগুলি আদর্শ উপায়) হল প্রলুব্ধ করছি, কিন্তু তারপর বাইনারি পরিবর্তনশীল মামলার আপনার বর্ণনার তাল না মিললে কি আদৌ কিভাবে র্যান্ডম বন আমার বোঝার (অথবা সিদ্ধান্তের সাথে গাছ) কাজ করে, তাই আমি উদ্বিগ্ন যে আমাদের একজন বিভ্রান্ত।
joran

@joran। ইয়াহ, পূর্বাভাসকে 0 বা 1 বলে জোর করে আপনি ভবিষ্যদ্বাণীগুলিতে সূক্ষ্ম সামঞ্জস্য করার ক্ষমতা হারিয়ে ফেলেন (0 এবং 1 এর মধ্যে) যা ত্রুটি কমিয়ে আনতে পারে (উদাহরণস্বরূপ স্কোয়ারড পূর্বাভাস ত্রুটির অর্থ)। যেমন আমি সন্দেহ করি যে পদ্ধতির নিকৃষ্ট হতে হবে। আমি চেষ্টা করেছিলাম এবং সিদ্ধান্ত গাছ তৈরির বেশিরভাগ প্রচেষ্টা ত্রুটি উন্নত করে এমন একটি একক বিভাজনও খুঁজে পেতে ব্যর্থ হয়।
redcalx

উত্তর:


10

গাছগুলির সাথে একটি সম্ভাব্য সমস্যা হ'ল তারা লেজগুলিতে খারাপভাবে ফিট করে। এমন একটি টার্মিনাল নোডের কথা চিন্তা করুন যা প্রশিক্ষণের সেটটির স্বল্প পরিসীমা দখল করে। এটি সেই প্রশিক্ষণের সেট পয়েন্টগুলির গড় ব্যবহার করে ভবিষ্যদ্বাণী করবে, যা সর্বদা ফলাফলের পূর্বাভাস দেয় (যেহেতু এটি গড়)।

আপনি মডেল গাছ চেষ্টা করতে পারেন [1]। এগুলি টার্মিনাল নোডগুলিতে রৈখিক মডেলগুলি ফিট করবে এবং (আমার মনে হয়) রিগ্রেশন গাছের চেয়ে আরও ভাল কাজ করবে। আরও ভাল, কিউবিস্ট নামে একটি আরও বিকশিত সংস্করণ ব্যবহার করুন যা বিভিন্ন পদ্ধতির ([1] এবং [2] নীচে) একত্রিত করে।

এই মডেলগুলি অবিচ্ছিন্ন এবং বিচ্ছিন্ন ভবিষ্যদ্বাণীকেও আলাদাভাবে পরিচালনা করে। শ্রেণীবদ্ধ ভেরিয়েবলগুলির জন্য তারা একাধিক উপায় বিভক্ত করতে পারে। বিভাজনের মানদণ্ডটি কার্ট গাছের সাথে খুব মিল।

RWeka প্যাকেজে ('M5P' নামে পরিচিত) মডেল গাছগুলি আরে পাওয়া যায় এবং কিউবিস্ট প্যাকেজে থাকে। অবশ্যই, আপনি ওয়েকাও ব্যবহার করতে পারেন এবং কিউবিস্টের রুলকুয়েস্ট ওয়েবসাইটে একটি সি সংস্করণ উপলব্ধ।

[1] কুইনলান, জে। (1992)। অবিচ্ছিন্ন ক্লাস নিয়ে শিখছি। কৃত্রিম বুদ্ধিমত্তার উপর 5 তম অস্ট্রেলিয়ান যৌথ সম্মেলনের কার্যক্রম, 343–348।

[২] কুইনলান, জে। (1993)। উদাহরণ-ভিত্তিক এবং মডেল-ভিত্তিক শিক্ষার সংমিশ্রণ। মেশিন লার্নিংয়ের দশম আন্তর্জাতিক সম্মেলনের কার্যক্রম, ২––-২৪৩।


1
লেজগুলি দরিদ্র ফিট কমাতে আপনি কি আরও গভীর গাছ রাখতে পারবেন না?
জেসে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.