র্যান্ডম ফরেস্ট কি সজ্জিত?


24

আমি প্রায় এলোমেলো বন সম্পর্কে পড়ছি তবে আমি ওভারফিটিংয়ের সমস্যা সম্পর্কে সত্যই কোনও উত্তর খুঁজে পাচ্ছি না। ব্রেইমানের মূল কাগজ অনুসারে, বনে গাছের সংখ্যা বাড়ানোর সময় তাদের উচিত হবে না, তবে মনে হয় এ নিয়ে conক্যমত নেই। এটি আমাকে বিষয়টি নিয়ে বেশ কিছু বিভ্রান্তি তৈরি করছে।

হয়তো আমার চেয়ে আরও অভিজ্ঞ কেউ আমাকে আরও বেশি সুনির্দিষ্ট উত্তর দিতে পারেন বা সমস্যাটি আরও ভালভাবে বোঝার জন্য আমাকে সঠিক দিকে নির্দেশ করতে পারেন।


3
সমস্ত অ্যালগোরিদম কিছুটা ডিগ্রি ছাড়িয়ে যাবে। এটি এমন কিছু বাছাইয়ের বিষয়ে নয় যা অত্যধিক মানানসই নয়, এটি অতিরিক্ত পরিমাণের পরিমাণ এবং আরও প্রাসঙ্গিক মেট্রিক্সকে সর্বাধিকতর করার জন্য আপনি যে সমস্যার সমাধান করছেন তা বিবেচনা করার বিষয়ে।
ইন্দো

1
আইআরটিআর যে ব্রেইম্যানের একটি বড় সংখ্যা আইনের ভিত্তিতে একটি প্রমাণ ছিল। কেউ কি প্রমাণের মধ্যে একটি ত্রুটি আবিষ্কার করেছেন?
জেনএসসিডিসি

@ অ্যান্ডি ব্ল্যাঙ্কার্টজ আইএসআরটি = ইন্টারনেটসলং . com/আইআরটিআমিং-ডেফিনিশন.এএসপি ?
হ্যাক-আর

উত্তর:


22

উচ্চ জটিলতার সাথে প্রতিটি এমএল অ্যালগরিদম অতিরিক্ত মানিয়ে নিতে পারে। তবে ওপি জিজ্ঞাসা করছে যে বনের গাছের সংখ্যা বাড়ানোর সময় কোনও আরএফ অতিরিক্ত মানায় না।

সাধারণভাবে, জাঁকজমকপূর্ণ পদ্ধতিগুলি পরিবেষ্টনের যথার্থতাকে উন্নত করে প্রায় কোনও কিছুর পূর্বাভাসের বৈকল্পিকতা হ্রাস করে। যদি আমরা কোনও স্বতন্ত্র এলোমেলো মডেলের প্রত্যাশিত সাধারণীকরণ ত্রুটির বৈকল্পিকটিকে সংজ্ঞায়িত করি:

থেকে এখানে , এর একটি পাঁচমিশেলি অনুরূপ প্রত্যাশিত সাধারণীকরণ ত্রুটি ভ্যারিয়েন্স:

p(x)দুটি স্বতন্ত্র বীজ থেকে একই ডেটাতে প্রশিক্ষিত দুটি এলোমেলো মডেলের ভবিষ্যদ্বাণীগুলির মধ্যে কোথায় পিয়ারসনের পারস্পরিক সম্পর্ক সহগ রয়েছে? আমরা যদি আরএফ-তে ডিটি-র সংখ্যা বৃদ্ধি করি তবে বৃহত্তর M, যখন theর্ধ্বমুখী রূপটি হ্রাস পায় তখন ρ(x)<1। অতএব, একটি নকশাকৃত আকারের পৃথক পৃথক মডেলের বৈকল্পিকতার চেয়ে কঠোরভাবে ছোট।

সংক্ষেপে, একটি জড়োতে স্বতন্ত্র এলোমেলো মডেলের সংখ্যা বাড়ানো কখনই সাধারণীকরণের ত্রুটি বাড়িয়ে তুলবে না।


1
এটি অবশ্যই লিও ব্রেইম্যান এবং তত্ত্বটি যা বলেছিল, তবে অনুভূতভাবে দেখে মনে হয় তারা অবশ্যই খুব বেশি সাজসজ্জা করে। উদাহরণস্বরূপ আমার কাছে বর্তমানে 0.02 এর 10-গুণ সিভি এমএসই সহ একটি মডেল রয়েছে তবে যখন গ্রাউন্ড সত্যের বিরুদ্ধে পরিমাপ করা হয় তখন সিভি এমএসই .4 হয়। OTOH যদি আমি গাছের গভীরতা এবং গাছের সংখ্যা হ্রাস করি তবে মডেলটির কার্যকারিতা উল্লেখযোগ্যভাবে উন্নত হবে।
হ্যাক-আর

4
আপনি যদি গাছের গভীরতা হ্রাস করেন তবে এটি একটি আলাদা কেস কারণ আপনি নিয়মিতকরণ যুক্ত করছেন, যা অত্যধিক মান হ্রাস করবে। বাকি পরামিতিগুলি অপরিবর্তিত রেখে যখন আপনি গাছের সংখ্যা বাড়িয়েছেন তখন এমএসই প্লট করার চেষ্টা করুন। সুতরাং, আপনার y- অক্ষে এমএসই এবং এক্স-অক্ষে num_tress রয়েছে। আপনি দেখতে পাবেন যে আরও গাছ যুক্ত করার সময় ত্রুটি দ্রুত হ্রাস পায় এবং তারপরে এটি একটি মালভূমি থাকে; তবে তা কখনই বাড়বে না।
tashuhka

9

আপনি ক্রস-বৈধ যাচাই করতে চাইতে পারেন - মেশিন লার্নিং সহ অনেক কিছুর জন্য একটি স্টেচেক্সচেঞ্জ ওয়েবসাইট।

বিশেষত, এই প্রশ্নের (ঠিক একই শিরোনাম সহ) ইতিমধ্যে একাধিকবার উত্তর দেওয়া হয়েছে। এই লিঙ্কগুলি দেখুন: /stats//search?q=random+forest+overfit

তবে আমি আপনাকে এর সংক্ষিপ্ত উত্তর দিতে পারি: হ্যাঁ, এটি উপকারী হয় এবং কখনও কখনও আপনার বনের গাছের জটিলতা নিয়ন্ত্রণ করতে হবে, বা খুব বেশি বেড়ে গেলে ছাঁটাইও করা হয় - তবে এটি আপনার ব্যবহৃত লাইব্রেরির উপর নির্ভর করে বন নির্মাণ। randomForestআর ইন ইন আর আপনি কেবল জটিলতা নিয়ন্ত্রণ করতে পারেন


3
  1. র্যান্ডম ফরেস্ট ওভারফিট করে।
  2. মডেলটিতে আরও গাছ যুক্ত করা হলে র্যান্ডম ফরেস্ট সাধারণকরণের ত্রুটি বাড়ায় না। আরও গাছ ব্যবহারের সাথে সাধারণকরণের বৈকল্পিকতা শূন্যে চলেছে।

আমি খুব সাধারণ পরীক্ষা করেছি। আমি সিন্থেটিক ডেটা তৈরি করেছি:

y = 10 * x + noise

আমি দুটি র্যান্ডম ফরেস্ট মডেলকে প্রশিক্ষণ দিয়েছি:

  • একটি পূর্ণ গাছ সহ
  • একটি ছাঁটাই গাছ সঙ্গে

পূর্ণ গাছ সহ মডেলটিতে ট্রেনের ত্রুটি কম তবে ছাঁটা গাছগুলির সাথে মডেলের চেয়ে বেশি পরীক্ষার ত্রুটি রয়েছে। উভয় মডেলের প্রতিক্রিয়া:

প্রতিক্রিয়া

এটি ওভারফিটিংয়ের সুস্পষ্ট প্রমাণ। তারপরে আমি ওভারফিটেড মডেলের হাইপার-প্যারামিটার নিয়েছি এবং প্রতিটি পদক্ষেপ 1 টি গাছে যুক্ত করার সময় ত্রুটিটি পরীক্ষা করেছি। আমি নিম্নলিখিত প্লট পেয়েছি:

বর্ধমান গাছ

আপনি দেখতে পাচ্ছেন যে আরও গাছ যুক্ত করার সময় ওভারফিট ত্রুটি পরিবর্তন হচ্ছে না তবে মডেলটি বেশি সাজানো। আমি যে পরীক্ষাগুলি করেছি তার লিঙ্কটি এখানে ।


1

স্ট্রাকচার্ড ডেটাসেট -> ভুল ত্রুটি বিভ্রান্ত করা

আমি আমার কাজের অনুশীলনে আরএফের ওভারফিটের আকর্ষণীয় ঘটনা খুঁজে পেয়েছি। যখন ডেটা ওওবি পর্যবেক্ষণগুলিতে আরএফের ওভারফিটগুলিকে কাঠামোগত করা হয়।

বিস্তারিত:

আমি প্রতি একক ঘন্টা বিদ্যুতের স্পট বাজারে বিদ্যুতের দামের পূর্বাভাস দেওয়ার চেষ্টা করি (প্রতিটি সারি ডেটাসেটের সেই এক ঘন্টার জন্য মূল্য এবং সিস্টেমের প্যারামিটারগুলি (লোড, সক্ষমতা ইত্যাদি) থাকে)।
ব্যাচগুলিতে বিদ্যুতের দাম তৈরি হয় (এক মুহুর্তের মধ্যে এক ফিক্সিংয়ের মধ্যে বিদ্যুতের বাজারে 24 টি দাম তৈরি হয়)।
সুতরাং প্রতিটি গাছের জন্য ওওবি ওবসগুলি কয়েক ঘন্টা নির্ধারণের এলোমেলো উপসাগর হয় তবে আপনি যদি পরবর্তী 24 ঘন্টা পূর্বাভাস করেন তবে আপনি এটি একবারে করে ফেলেন (প্রথম মুহুর্তে আপনি সমস্ত সিস্টেমের পরামিতিগুলি অর্জন করেন, তারপরে আপনি 24 টি দামের পূর্বাভাস দেন, তারপরে একটি ফিক্সিং রয়েছে যা উত্পাদন করে সেই দামগুলি), তাই ওওবি পূর্বাভাস দেওয়া সহজ, তারপরের পুরো দিনের জন্য। ওওবি ওবসগুলি 24 ঘন্টা ব্লকগুলিতে থাকে না, তবে সমানভাবে ছড়িয়ে যায়, কারণ ভবিষ্যদ্বাণী ত্রুটির একটি স্বতঃসংশোধনের কারণে এক ঘন্টার জন্য মূল্য অনুমান করা সহজ হয় যা অনুপস্থিত কয়েক ঘন্টা পুরো ব্লকের জন্য অনুপস্থিত।

ত্রুটি স্ব-সংশোধন সম্পর্কিত ক্ষেত্রে ভবিষ্যদ্বাণী করা সহজ:
জ্ঞাত, জ্ঞাত, পূর্বাভাস, জ্ঞাত, পূর্বাভাস - ওবিবি কেস
আরও কঠিন:
পরিচিত, জ্ঞাত, জ্ঞাত, ভবিষ্যদ্বাণী, ভবিষ্যদ্বাণী - বাস্তব বিশ্বের ভবিষ্যদ্বাণী কেস

আমি এটি আকর্ষণীয় আশা করি

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.