গাছ বাড়ানোর ক্ষেত্রে টিউনিং পরামিতিগুলির অনুকূল মানগুলি কীভাবে সন্ধান করবেন?


9

আমি বুঝতে পারি বুস্টিং ট্রি মডেলের 3 টি সুর করার প্যারামিটার রয়েছে, অর্থাত্‍

  1. গাছের সংখ্যা (পুনরাবৃত্তির সংখ্যা)
  2. সঙ্কুচিত পরামিতি
  3. বিভাজনের সংখ্যা (প্রতিটি উপাদান গাছের আকার)

আমার প্রশ্ন: টিউনিংয়ের প্রতিটি পরামিতিগুলির জন্য, আমি এর সর্বোত্তম মানটি কীভাবে খুঁজে পাব? আর কী পদ্ধতি?

দ্রষ্টব্য: সঙ্কুচিত প্যারামিটার এবং গাছের প্যারামিটারের সংখ্যা এক সাথে কাজ করে, অর্থাত সংকোচন প্যারামিটারের জন্য একটি ছোট মান গাছের সংখ্যার জন্য উচ্চতর মানের দিকে নিয়ে যায়। এবং আমাদের এটিও বিবেচনায় নেওয়া উচিত।

বিভাজনের সংখ্যার জন্য অনুকূল মানটি খুঁজে পেতে আমি বিশেষত পদ্ধতিটিতে আগ্রহী। এটি কি পিছনের মডেল সম্পর্কে ক্রস-বৈধতা বা ডোমেন জ্ঞানের উপর ভিত্তি করে করা উচিত?

আর এই gbmপ্যাকেজে কীভাবে এই জিনিসগুলি চালানো হয় ?

উত্তর:


6

আর এর ক্যারেট প্যাকেজটি এটির জন্য তৈরি or

এর ট্রেন ফাংশনটি প্যারামিটার মানগুলির একটি গ্রিড নেয় এবং ক্রস-বৈধকরণ বা বুটস্ট্র্যাপের বিভিন্ন স্বাদ ব্যবহার করে পারফরম্যান্সটি মূল্যায়ন করে। প্যাকেজ লেখক একটি বই লিখেছেন, ফলিত ভবিষ্যদ্বাণীমূলক মডেলিং , যা অত্যন্ত প্রস্তাবিত। পুরো বই জুড়ে 10-ভাড়ার ক্রস-বৈধকরণের 5 পুনরাবৃত্তি ব্যবহৃত হয়।

গাছের গভীরতা বেছে নেওয়ার জন্য, আমি প্রথমে সমস্যা সম্পর্কিত বিষয় জ্ঞানের জন্য যাব, অর্থাত্ যদি আপনি কোনও মিথস্ক্রিয়া প্রত্যাশা করেন না - গভীরতাটি 1 এ সীমাবদ্ধ রাখুন বা একটি নমনীয় প্যারামেট্রিক মডেলের জন্য যান (যা বোঝা এবং ব্যাখ্যা করা আরও সহজ)। বলা হচ্ছে, আমি প্রায়শই নিজেকে গাছের গভীরতার সাথে সামঞ্জস্য করতে দেখি কারণ বিষয় জ্ঞান প্রায়শই খুব সীমাবদ্ধ থাকে।

আমি মনে করি জিবিএম প্যাকেজ গাছের গভীরতা এবং সঙ্কুচিত হওয়ার নির্দিষ্ট মানগুলির জন্য গাছের সংখ্যাকে সুর করেছে।


বইটিতে আর কোডও অন্তর্ভুক্ত রয়েছে?
ব্যবহারকারী 1769197

আমার বোঝানো কাজের উদাহরণ যা আর কোড সহ অন্তর্ভুক্ত তাই আমরা বুঝতে পারি কীভাবে মডেলগুলি গণনামূলকভাবে প্রয়োগ করা হয় এবং একটি ডেটাসেটে প্রয়োগ করা হয়
ব্যবহারকারী 1769197

1
হ্যাঁ এটা করে. আরও তথ্যের জন্য বইয়ের ওয়েবপৃষ্ঠা প্রয়োগিত ভবিষ্যদ্বাণীমূলক মডেলিং ডট কম দেখুন।
এরিকএল

1

উত্সাহিত রিগ্রেশন ট্রি এবং জিবিএম প্যাকেজের জন্য দুটি ভাল উত্স রয়েছে। বিআরটি ব্যাখ্যা ও গাছপালা (সংখ্যা অপ্টিমাইজেশান জন্য nt(), শেখার হার lr) এবং গাছ জটিলতা ( tc) দেখুন চালচিত্রকে রিগ্রেশন গাছ একটি পরিশ্রমী নির্দেশিকা যদিও বাস্তুসংস্থান উপর মনোযোগ নিবদ্ধ করা হয় আমার মনে হয় আপনি বিআরটি করতে একটি ভাল ভূমিকা খুঁজে পাবে না ।

জিবিএম প্যাকেজে বিআরটি বাস্তবায়নের জন্য বাস্তুসংস্থানীয় মডেলিংয়ের জন্য বুস্টেড রিগ্রেশন ট্রিগুলি দেখুন

সংক্ষেপে, একটি থাম্বের নিয়ম হল এমন একটি শিক্ষার হার নির্বাচন করা যা বিআরটি মডেলকে কমপক্ষে 1000 টি গাছে ফিট করতে পারে, সুতরাং সম্ভবত এটির জন্য আপনার কম শিক্ষার হারের প্রয়োজন হবে, সম্ভবত 0.001। তবে এটি আপনার ডেটার আকারের উপর নির্ভর করে, ডুমুরটি দেখুন। বিআরটি-র কার্যনির্বাহী গাইডের 2 এবং 3। আমি মনে করি একটি সম্ভাব্য উপায় হ'ল বিআরটিতে আপনার ডাটা আকার অনুসারে বিভিন্ন মডেল স্থাপন করা হবে উদাহরণস্বরূপ বিভিন্ন ব্যাগের সাথে বিভিন্ন এলআর (0.1, 0.01, 0.001), টিসি (1, 3, 5, 7, 9, 20) একত্রিত করুন । ফ্র্যাশনস (0.5, 0.7, 0.9) এবং সর্বনিম্ন বিচ্যুতি বা সর্বোচ্চ আরওসি স্কোর অনুযায়ী সেরাটি চয়ন করুন। হতে পারে এটি সাহায্য করেছে।


1
রেফারেন্সের জন্য, BRT_MODEL$self.statistics$correlation[[1]]ট্রেনিং ডেটার সাথে পরীক্ষার সম্পর্ক রয়েছে যা একটি ভাল পরীক্ষা মেট্রিক।
dez93_2000

আমার কাছে পরীক্ষার একটি পরিসংখ্যানগত নকশার মতো শোনাচ্ছে। : পি
EngrStudent
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.