জেনারেলাইজড বুস্টেড রিগ্রেশন মডেলে গাছের সংখ্যা কীভাবে চয়ন করবেন?


11

কোনও জিবিএমে গাছের সংখ্যা বাছাই করার কৌশল আছে কি? বিশেষত: এর কার্যকারিতাতে ntreesযুক্তি ।Rgbm

কেন আপনি ntreesসর্বোচ্চ যুক্তিসঙ্গত মান সেট করা উচিত নয় তা আমি দেখতে পাচ্ছি না । আমি লক্ষ করেছি যে বিপুল সংখ্যক গাছ স্পষ্টতই একাধিক জিবিএম থেকে ফলাফলের পরিবর্তনশীলতা হ্রাস করে। আমি মনে করি না যে প্রচুর পরিমাণে গাছগুলি অতিমাত্রায় উত্সাহিত করবে।

কোন চিন্তা?

উত্তর:


3

এটি জিবিএম:

" আমি মনে করি না ... " অনেকগুলি বাক্যটির বিপজ্জনক প্রথম অংশ ছিল।

যথেষ্ট পরিমাণে সদর্থকতা কোনও ধার্মিকতা, একটি রুব্রিক ছাড়াই অর্থহীন।

অন্য কোন পদ্ধতির জন্য ধার্মিকতার ব্যবস্থা কী কী?

  • মডেল এবং ডেটার মধ্যে পার্থক্য (sse, ...)
  • একটি হোল্ডআউট সেটে ত্রুটির বিচ্যুতি (প্রশিক্ষণের ত্রুটি বনাম পরীক্ষার ত্রুটি)
  • নমুনা গণনা অনুপাতের জন্য প্যারামিটার গণনা (পরামিতি প্রতি 5 টি নমুনা বা প্রতিটি প্যারামিটারে 30 টি নমুনা)
  • ক্রস বৈধতা (ত্রুটি পরীক্ষাগুলির বিবর্তনের উপর জড়িত পদ্ধতিগুলি)

নিউরাল নেটওয়ার্ক বা স্প্লাইনের মতো, আপনি ডেটাতে টুকরোজ লিনিয়ার ইন্টারপোলেশন সম্পাদন করতে পারেন এবং এমন একটি মডেল পেতে পারেন যা সাধারণীকরণ করতে পারে না। সাধারণ প্রয়োগের - সাধারণীকরণের বিনিময়ে আপনাকে কিছু "নিম্ন ত্রুটি" ত্যাগ করতে হবে।

আরও লিঙ্ক:


2

আমি সমস্যার কিছুটা অন্তর্দৃষ্টি পেয়েছি: http://cran.r-project.org/web/packages/dismo/vignettes/brt.pdf

gbm.stepফাংশন গাছ অনুকূল সংখ্যা নির্ধারণ করতে ব্যবহার করা যাবে। নির্দিষ্ট গাছের পরে মডেল বিচ্যুতি বাড়ার কারণেই আমি এখনও নিশ্চিত নই, তাই আমি এখনও এই প্রতিক্রিয়া গ্রহণ করতে আগ্রহী যা প্রশ্নের এই অংশটির উত্তর দেয়!


2
ওভারফিটিং বৃদ্ধির কারণ হয়। বেশিরভাগ ভাল পদ্ধতি হোল্ডআউট সেট তৈরি করে এবং এটি মডেলটি পরীক্ষা করতে ব্যবহার করে তবে মডেলটি আপডেট করার জন্য নয়। এটি ওভারফিটের সূত্রপাত সনাক্তকরণের অনুমতি দেয়।
এনগ্রারস্টুডেন্ট

0

এটি এলিথ এট আল -এর কাছ থেকে রিগ্রেশন ট্রিগুলিকে বৃদ্ধির কার্যনির্বাহী গাইড: http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full খুব সহায়ক!

আপনার কমপক্ষে 1000 টি গাছ ব্যবহার করা উচিত। যতদূর আমি বুঝতে পেরেছি, আপনার শেখার হার, গাছের জটিলতা এবং ন্যূনতম ভবিষ্যদ্বাণীমূলক ত্রুটি অর্জনকারী গাছের সংমিশ্রণটি ব্যবহার করা উচিত। শেখার হারের ছোট মানগুলি একই সংখ্যার পুনরাবৃত্তির জন্য বৃহত্তর প্রশিক্ষণের ঝুঁকি নিয়ে যায়, যখন প্রতিটি পুনরাবৃত্তি প্রশিক্ষণের ঝুঁকি হ্রাস করে। গাছের সংখ্যা যদি যথেষ্ট পরিমাণে বড় হয় তবে ঝুঁকিটি নির্বিচারে ছোট করা যায় (দেখুন: হাসটি এট আল।, 2001, "পরিসংখ্যান শিক্ষার উপাদানসমূহ, ডেটা মাইনিং, অনুমান এবং ভবিষ্যদ্বাণী" )।


এটা সত্য যে এলিথ এট আল। থাম্বের নিয়ম হিসাবে 1000 গাছ ব্যবহার করার পরামর্শ দিন। তবে এটি কাগজে ব্যবহৃত নির্দিষ্ট ডেটাসেটের জন্য ভবিষ্যদ্বাণীমূলক স্থায়িত্বের বিশদ বিশ্লেষণের ভিত্তিতে তৈরি। এটি একই সংখ্যা কোনও সম্ভাব্য ডেটাসেটের জন্য কাজ করবে বলে অসম্ভব বলে মনে হচ্ছে। তারা যে বিশ্লেষণ করেছে, বিশেষত পরিশিষ্ট এস 1-তে কিছু বিশদ জানিয়ে আপনার উত্তরটি কিছুটা বাড়িয়ে দিতে পারে।
ডেল্টাভ

0

কিছু মেশিন লার্নিং অ্যালগরিদমে সাধারণ হিসাবে, বুস্টিং গাছের সংখ্যা সম্পর্কিত বায়াস-ভেরিয়েন্স ট্রেড-অফ সাপেক্ষে। আলগাভাবে বলতে গেলে, এই বাণিজ্য বন্ধ আপনাকে বলেছে যে: (i) দুর্বল মডেলগুলির উচ্চ পক্ষপাত এবং কম বৈকল্পিকতা থাকে: তারা প্রশিক্ষণ ডেটাসেটে পরিবর্তনশীলতা ক্যাপচার করতে খুব কঠোর হয়, সুতরাং পরীক্ষার সেটেও ভাল পারফরম্যান্স করবে না (উচ্চ পরীক্ষা) ত্রুটি) (ii) খুব শক্তিশালী মডেলগুলির মধ্যে কম পক্ষপাত এবং উচ্চতর বৈকল্পিকতা থাকে: এগুলি খুব নমনীয় এবং তারা প্রশিক্ষণ সেটকে বেশি মানায়, তাই পরীক্ষার সেটে (যেমন ডেটাপয়েন্টগুলি প্রশিক্ষণের সেট থেকে আলাদা) তারাও ভাল পারফর্ম করবে না (উচ্চ পরীক্ষার ত্রুটি)

গাছ বুস্ট করার ধারণাটি অগভীর গাছ (দুর্বল মডেল) দিয়ে শুরু করা এবং আরও অগভীর গাছ যুক্ত করা যা পূর্ববর্তী গাছ দুর্বলতাগুলি সংশোধন করার চেষ্টা করে। আপনি যখন এই প্রক্রিয়াটি করেন, পরীক্ষার ত্রুটিটি নীচে যেতে থাকে (কারণ সামগ্রিক মডেল আরও নমনীয় / শক্তিশালী হয়)। তবে, আপনি যদি এই গাছগুলির মধ্যে অনেকগুলি যোগ করেন তবে আপনি প্রশিক্ষণের ডেটাকে উপভোগ করতে শুরু করেন এবং তাই পরীক্ষার ত্রুটি বৃদ্ধি পায়। ক্রস-বৈধকরণ মিষ্টি স্পট সন্ধানে সহায়তা করে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.