আমি বিজ্ঞানী-শিখতে র্যান্ডম ফরেস্ট রিগ্রেশন ব্যবহার করার চেষ্টা করছি। সমস্যাটি হ'ল আমি সত্যিই একটি উচ্চ পরীক্ষার ত্রুটি পাচ্ছি:
train MSE, 4.64, test MSE: 252.25.
এটি আমার ডেটা দেখতে কেমন: (নীল: বাস্তব তথ্য, সবুজ: পূর্বাভাস):
আমি প্রশিক্ষণের জন্য 90% এবং পরীক্ষার জন্য 10% ব্যবহার করছি। বেশ কয়েকটি প্যারামিটার সংমিশ্রণের চেষ্টা করার পরে আমি এই কোডটি ব্যবহার করছি:
rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, max_depth=1000, min_samples_leaf=1, min_samples_split=2, n_jobs=-1)
test_mse = mean_squared_error(y_test, rf.predict(X_test))
train_mse = mean_squared_error(y_train, rf.predict(X_train))
print("train MSE, %.4f, test MSE: %.4f" % (train_mse, test_mse))
plot(rf.predict(X))
plot(y)
আমার ফিটনেস উন্নত করার সম্ভাব্য কৌশলগুলি কী কী? অন্তর্নিহিত মডেলটি বের করার জন্য আমি আরও কিছু করতে পারি? আমার কাছে এটি অবিশ্বাস্য মনে হয় যে একই প্যাটার্নটির অনেকগুলি পুনরাবৃত্তির পরে মডেল নতুন ডেটা নিয়ে এত খারাপ আচরণ করে। এই ডেটা ফিট করার জন্য কি আমার কোনও আশা আছে?