যখন আমার প্রশিক্ষণ সেটে কোনও নেতিবাচক ওয়াই-মান নেই তখন গ্রেডিয়েন্ট বুস্টিং রিগ্রেশন নেতিবাচক মানগুলির পূর্বাভাস দেয় কেন?


8

আমি গাছের সংখ্যা বৃদ্ধি হিসাবে scikit শিখতে এর GradientBoostingRegressor, আমি আরো নেতিবাচক পূর্বাভাস পেতে, যদিও আমার প্রশিক্ষণ বা সেট টেস্টিংয়ের জন্য কোনো নেতিবাচক মান। আমার প্রায় 10 টি বৈশিষ্ট্য রয়েছে, যার বেশিরভাগ বাইনারি।

আমি যে প্যারামিটারগুলি টিউন করছিলাম সেগুলির মধ্যে কয়েকটি ছিল:

  • গাছ / পুনরাবৃত্তি সংখ্যা;
  • শেখার গভীরতা;
  • এবং শেখার হার।

নেতিবাচক মানগুলির শতাংশটি সর্বোচ্চ 2% ডলার বলে মনে হয়েছিল। 1 (স্টাম্প) এর শেখার গভীরতায় সর্বাধিক% নেতিবাচক মান রয়েছে বলে মনে হয়েছে। এই শতাংশটি আরও বেশি গাছ এবং একটি ছোট শিক্ষার হারের সাথে বেড়েছে বলে মনে হয়েছিল। ডেটাসেটটি ক্যাগল খেলার মাঠের প্রতিযোগিতার একটি।

আমার কোডটি এমন কিছু:

from sklearn.ensemble import GradientBoostingRegressor

X_train, X_test, y_train, y_test = train_test_split(X, y)

reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01)

reg.fit(X_train, y_train)

ypred = reg.predict(X_test)

1
কোড এবং ডেটা সহ প্রজননযোগ্য উদাহরণের কোনও সুযোগ?
স্পেসডম্যান

2
এটি কোন খেলার মাঠের প্রতিযোগিতা?
TheXxR

উত্তর:


8

সাধারণ প্রতিরোধের মডেলগুলিতে (যে কোনও) প্রশিক্ষণের নমুনাগুলির দ্বারা ছড়িয়ে থাকা ডোমেনের বাইরে একটি স্বেচ্ছাসেবী আচরণ করতে পারে। বিশেষত, তারা মডেলিং ফাংশনের লিনিয়ারিটি ধরে নিতে নিখরচায়, সুতরাং যদি আপনি উদাহরণস্বরূপ পয়েন্টগুলি সহ কোনও রিগ্রেশন মডেলকে প্রশিক্ষণ দেন:

X     Y
10    0
20    1
30    2

এটি একটি মডেল তৈরি করা যুক্তিসঙ্গত f(x) = x/10-1, যা x<10নেতিবাচক মানগুলির জন্য দেয়।

আপনার ডেটা পয়েন্টগুলির মধ্যে "একই" প্রয়োগ হয়, এটি সর্বদা সম্ভব যে ফাংশনগুলির অনুমিত দুর্ভিক্ষের কারণে (যা নির্দিষ্ট পদ্ধতিতে মডেল করা যায়) আপনি "আপনার প্রশিক্ষণের নমুনার বাইরে" মান পাবেন।

আপনি এই সম্পর্কে অন্যভাবে ভাবতে পারেন - "নেতিবাচক মূল্যবোধগুলির মধ্যে বিশেষ কী?", আপনি কেন বলার বাহ্যিকতা দ্বারা বিস্মিত না হওয়ার পরে নেতিবাচক মানগুলির অস্তিত্বকে (প্রশিক্ষণ সংস্থায় সরবরাহ না করা) কেন খুঁজে পান? .. মান 2131.23? এ জাতীয়ভাবে বিকশিত না হলে কোনও মডেলই নেতিবাচক মানকে ধনাত্মক মানগুলির চেয়ে "আলাদা" বিবেচনা করবে না। এটি হ'ল আসল মানগুলির একটি প্রাকৃতিক উপাদান যা অন্য কোনও মান হিসাবে অর্জন করা যায়।


আপনার প্রশ্নের সেটগুলির সাথে, আমি মনে করি নিখুঁতভাবে নেতিবাচক মানগুলি অসঙ্গতি হিসাবে চিহ্নিত করা সহজ কারণ তাদের সামনে "-" রয়েছে বা গ্রাফের স্পষ্টত শূন্যের নীচে চলে গেছে। প্রশ্নটি সহজেই হতে পারে "গ্রেডিয়েন্ট বুস্টিং রিগ্রেশন কেন পূর্বে অদেখা মানগুলির পূর্বাভাস দেয়?" আপনি কি এটিকে প্রসারিত করার চেষ্টা করতে পারেন? এটি অবশ্যই আমার কাছ থেকে আপনাকে একটি ভোট পেতে হবে।
জোশ

@ লেজলট - সাধারণভাবে বলতে গেলে, এটি সত্য নয়। লজিস্টিক, বা তান অ্যাক্টিভেশন সহ রিগ্রেশন মডেলগুলি প্রায়শই কিছু সীমার মধ্যে আউটপুট থাকার গ্যারান্টিযুক্ত।
ব্যবহারকারী 48956

@ ব্যবহারকারী 48956 উত্তরে বলা হয়েছে "নির্বিচারে আচরণ করতে পারে", আমি দাবি করছি না যে আপনি কিছু প্রতিবন্ধকতা জোর করতে পারবেন না, অবশ্যই আপনি পারবেন - উত্তর কেবলমাত্র বলেছে যে "ডেটা নির্ভর" বাধা নেই (যদি না আপনার কাছে খুব নির্দিষ্ট মডেল থাকে তবে নির্মাণে নির্মিত) - যদি আপনি এটি ম্যানুয়ালি একটি বিশেষজ্ঞ হিসাবে যুক্ত করেন - এটি আপনার উপর নির্ভর করে।
লেজলট

5

মনে রাখবেন যে GradientBoostingRegressor(একটি স্কোয়ার ত্রুটি ক্ষতির ফাংশন ধরে) ধারাবাহিকভাবে পূর্ববর্তী পর্যায়ে অবশিষ্টাংশগুলিতে রিগ্রেশন ট্রিগুলিতে ফিট করে। এখন যদি আমি পর্যায়ে থাকা গাছটি একটি নির্দিষ্ট প্রশিক্ষণের উদাহরণের জন্য টার্গেট ভেরিয়েবলের চেয়ে বড় মানের পূর্বাভাস দেয় তবে সেই উদাহরণের প্রথম ধাপের অবশিষ্টাংশটি নেতিবাচক হতে চলেছে, এবং সুতরাং আই +1 পর্যায়ে রিগ্রেশন ট্রি নেতিবাচক টার্গেট মানগুলির মুখোমুখি হবে (যা প্রথম পর্যায়ের অবশিষ্টাংশ)। চূড়ান্ত পূর্বাভাস দেওয়ার জন্য এই গাছগুলিকে বুস্টিং অ্যালগরিদম যোগ করার সাথে সাথে আমি বিশ্বাস করি যে এটি কেন আপনি নেতিবাচক ভবিষ্যদ্বাণী নিয়ে শেষ হতে পারেন, যদিও প্রশিক্ষণের সেটে সমস্ত টার্গেটের মানগুলি ইতিবাচক ছিল, বিশেষত যেমন আপনি উল্লেখ করেছিলেন যে এটি আরও ঘটে প্রায়শই যখন আপনি গাছের সংখ্যা বৃদ্ধি করেন।


এটা সঠিক উত্তর.
হাড্ডাগ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.