আমি সম্প্রতি একটি অনুরূপ সমস্যার মধ্যে দৌড়েছি: কীভাবে একটি বড় ডেটাসেট থেকে বিভিন্ন বৈশিষ্ট্য নিষ্কাশন পরিচালনা করতে হবে, সেগুলির সমস্ত কী হবে তা সামনে না জেনে। (এমনকি বারবার গড় মানগুলি গণনা করা গণনাগতভাবে ব্যয়বহুল হবে,) আরও, কীভাবে আমি বিভিন্ন বৈশিষ্ট্য সেটের উপর ভিত্তি করে পূর্বাভাসগুলি পরিচালনা করব? অর্থ, যদি আমি একটি নতুন বৈশিষ্ট্য যুক্ত করি তবে কীভাবে জানব যে কোন মডেলগুলি নতুন বৈশিষ্ট্যগুলিতে প্রশিক্ষণ দেবেন? এটি দ্রুত একটি বিশাল জগাখিচুড়ি মধ্যে তুষারবল পারে।
আমার বর্তমান সমাধানটি কোনও স্থানীয় নোএসকিউএল ডাটাবেসে (মঙ্গোডিবি) এগুলি ট্র্যাক করা। উদাহরণস্বরূপ, আমার কাছে একটি সংগ্রহ থাকতে পারে features
, যার প্রতিটি প্রবেশের একটি নাম, বৈশিষ্ট্যটি কীভাবে গণনা করা হয়েছিল তার বিবরণ, নিষ্কাশন চালানো অজগর ফাইল ইত্যাদি etc.
তেমনি, কোনও সংকলনে models
ডেটা চালিত মডেলগুলি অন্তর্ভুক্ত থাকে। প্রতিটি প্রবেশের একটি নাম থাকতে পারে, এমন বৈশিষ্ট্যগুলির একটি তালিকা যা মডেলটি প্রশিক্ষণের জন্য ব্যবহৃত হয়েছিল, এর চূড়ান্ত পরামিতিগুলি, একটি আউট-আউট টেস্ট সেটটিতে পূর্বাভাসকৃত মানগুলি, মডেলটি কীভাবে সম্পাদন করেছিল তার জন্য মেট্রিকস ইত্যাদি have
আমার কার্যকর অবস্থান থেকে, এর অনেকগুলি সুবিধা রয়েছে:
- পূর্বাভাসগুলি সংরক্ষণ করে, আমি সেগুলি পরে ভবিষ্যদ্বাণীগুলিতে ব্যবহার করতে পারি।
- কোন বৈশিষ্ট্যগুলি ব্যবহৃত হয়েছিল সে সম্পর্কে আমি নজর রাখি, কারণ আমি আরও বৈশিষ্ট্যগুলি নিষ্কাশন করার সাথে সাথে কোনটি পুনরায় প্রশিক্ষণের প্রয়োজন তা আমি জানি।
- মডেল বর্ণনাগুলি সংরক্ষণ করে, আমি নিশ্চিত হয়েছি যে আমি কী চেষ্টা করেছি তা সর্বদা জানি। আমাকে কখনই ভাবতে হবে না, "গ্রিড-সার্চ সিভি দ্বারা নির্ধারিত নিয়মিতকরণ পরামিতিগুলি দিয়ে আমি কি লাসো চেষ্টা করেছি?" আমি সর্বদা এটি সন্ধান করতে পারি এবং এটি কতটা সফল হয়েছিল তা দেখতে পাচ্ছি।
আপনার প্রশ্ন থেকে, মনে হচ্ছে আপনি এই পদ্ধতির আপনার সমস্যার কর্মপ্রবাহের সাথে মানিয়ে নিতে পারেন। মোঙ্গো বা পছন্দের অন্য একটি ডাটাবেস ইনস্টল করুন এবং তারপরে প্রতিটি পরীক্ষামূলক রান, তার ইনপুট, ফলাফল এবং আরও কিছু আপনি এই প্রকল্পের কোর্সে ট্র্যাক করতে ইচ্ছুক হতে পারে সেভ করুন। কমপক্ষে কমপক্ষে স্প্রেডশিটের চেয়ে ক্যোয়ারী করা আরও সহজ হওয়া উচিত।