@ ডেনিসসোমারের একটি দুর্দান্ত সমাধান রয়েছে। আমি দুটি অনুরূপ সমাধান যুক্ত করব যা কিছুটা আরও স্পষ্ট এবং ফিচার ইঞ্জিনিয়ারিং এবং নির্বাচনের উপর ভিত্তি করে : ম্যাক্স কুহন এবং কেজেল জনসনের ভবিষ্যদ্বাণীপূর্ণ মডেলগুলির জন্য একটি ব্যবহারিক পদ্ধতির ।
কুহন একটি ডেটাসেটের resample
বর্ণনা দেওয়ার জন্য শব্দটি ব্যবহার করে fold
তবে স্ট্যাকএক্সচেঞ্জের প্রভাবশালী শব্দটি মনে হয় fold
, তাই আমি fold
নীচের শব্দটি ব্যবহার করব ।
বিকল্প 1 - নেস্টেড অনুসন্ধান
যদি গণনা শক্তি কোনও সীমাবদ্ধ ফ্যাক্টর না হয় তবে নেস্টেড বৈধতা পদ্ধতির সুপারিশ করা হয়, যেখানে বাসা বাঁধার তিনটি স্তর রয়েছে:
1) বাহ্যিক ভাঁজ, প্রতিটি ভাঁজ আলাদা বৈশিষ্ট্য উপসেট সহ with
2) একটি হাইপারপ্যারামিটার অনুসন্ধানের সাথে অভ্যন্তরীণ ভাঁজগুলি প্রতিটি ফোল্ড
3) প্রতিটি হাইপারপ্যারমিটার অনুসন্ধানের অভ্যন্তরীণ ভাঁজ, প্রতিটি ভাঁজ আলাদা হাইপারপ্যারামিটার সেট সহ।
এখানে আলগোরিদিম:
-> Split data into train and test sets.
-> For each external fold of train set:
-> Select feature subset.
-> Split into external train and test sets.
-> For each internal fold of external train set:
-> Split into internal train and test sets.
-> Perform hyperparameter tuning on the internal train set. Note that this
step is another level of nesting in which the internal train set is split
into multiple folds and different hyperparameter sets are trained and tested on
different folds.
-> Examine the performance of the best hyperparameter tuned model
from each of the inner test folds. If performance is consistent, redo
the internal hyperparameter tuning step on the entire external train set.
-> Test the model with the best hyperparameter set on the external test set.
-> Choose the feature set with the best external test score.
-> Retrain the model on all of the training data using the best feature set
and best hyperparameters for that feature set.
১১.২ অধ্যায় থেকে চিত্র: সাধারণ ফিল্টার
-> Select feature subset
ধাপ র্যান্ডম হতে উহ্য হয়, কিন্তু অন্যান্য কৌশল, যা বই রূপরেখা হয় অধ্যায় 11 ।
স্পষ্ট করার জন্য -> Perform hyperparameter tuning step
, আপনি নেস্টেড ক্রস বৈধতার প্রস্তাবিত পদ্ধতির সম্পর্কে পড়তে পারেন । ধারণাটি হ'ল বারবার ডেটাগুলির বিভিন্ন ভাঁজগুলিতে প্রশিক্ষণ এবং পরীক্ষার প্রক্রিয়া সম্পাদন করে এবং পরীক্ষার ফলাফলের গড়ের দিকে লক্ষ্য রেখে একটি প্রশিক্ষণ প্রক্রিয়াটির দৃust়তা পরীক্ষা করা।
বিকল্প 2 - পৃথক হাইপারপ্যারামিটার এবং বৈশিষ্ট্য নির্বাচন অনুসন্ধান
-> Split data into hyperameter_train, feature_selection_train, and test sets.
-> Select a reasonable subset of features using expert knowledge.
-> Perform nested cross validation with the initial features and the
hyperparameter_train set to find the best hyperparameters as outlined in option 1.
-> Use the best hyperparameters and the feature_selection_train set to find
the best set of features. Again, this process could be nested cross
validation or not, depending on the computational cost that it would take
and the cost that is tolerable.
এখানে কীভাবে কুহান এবং জনসন বাক্যটি প্রক্রিয়াটি লিখেছেন:
সুরক্ষা পরামিতিগুলির একটি মডেলটির সাথে বিশ্বব্যাপী অনুসন্ধান পদ্ধতির সংমিশ্রণের সময়, আমরা পরামর্শ দিই যে, সম্ভব হলে, সমস্যাটি সম্পর্কে বিশেষজ্ঞ জ্ঞান ব্যবহার করে প্রথমে বৈশিষ্ট্যটি সেটটি উইনউইন করে দেওয়া হবে। এরপরে, সুরক্ষা পরামিতি মানগুলির একটি যুক্তিসঙ্গত পরিসর চিহ্নিত করা গুরুত্বপূর্ণ। যদি পর্যাপ্ত সংখ্যক নমুনা পাওয়া যায় তবে এগুলির একটি অনুপাত বিভক্ত হয়ে যায় এবং সমস্ত বৈশিষ্ট্য ব্যবহার করে সম্ভাব্য ভাল পরামিতি মানগুলির একটি ব্যাপ্তি খুঁজে পাওয়া যায়। টিউনিং প্যারামিটার মানগুলি বৈশিষ্ট্য উপসেটগুলির জন্য নিখুঁত পছন্দ নাও হতে পারে তবে সর্বোত্তম উপসেট সন্ধানের জন্য এগুলি যথাযথভাবে কার্যকর হওয়া উচিত।
অধ্যায় 12.5: গ্লোবাল অনুসন্ধানের পদ্ধতি