ইন্ট্রো:
আমার কাছে ক্লাসিকাল "বড় পি, ছোট এন সমস্যা" সহ একটি ডেটাসেট রয়েছে। সম্ভাব্য পূর্বাভাসের সংখ্যা পি = 400 পাওয়া যায় এমন নমুনা এন = 150 পাওয়া যায় । ফলাফলটি একটি অবিচ্ছিন্ন পরিবর্তনশীল।
আমি সর্বাধিক "গুরুত্বপূর্ণ" বর্ণনাকারী, যাঁরা ফলাফল ব্যাখ্যা করার জন্য এবং তত্ত্ব তৈরিতে সহায়তা করার জন্য সেরা প্রার্থী, তাদের সন্ধান করতে চাই।
এই বিষয়ে গবেষণার পরে আমি দেখতে পেলাম লাসো এবং ইলাস্টিক নেট সাধারণত বড় পি, ছোট এন এর ক্ষেত্রে ব্যবহৃত হয়। আমার কিছু ভবিষ্যদ্বাণী অত্যন্ত সংযুক্ত এবং আমি গুরুত্বপূণ মূল্যায়নে তাদের গোষ্ঠীগুলি সংরক্ষণ করতে চাই, তাই আমি ইলাস্টিক নেটকে বেছে নিয়েছি । আমি মনে করি যে আমি গুরুত্বের পরিমাপ হিসাবে রিগ্রেশন সহগের নিখুঁত মানগুলি ব্যবহার করতে পারি (দয়া করে আমি ভুল হলে আমাকে সংশোধন করুন; আমার ডেটাসেটটি মানক করা হয়েছে)।
সমস্যা:
আমার নমুনার সংখ্যা যেহেতু ছোট, আমি কীভাবে একটি স্থিতিশীল মডেল অর্জন করতে পারি?
আমার বর্তমান পদ্ধতিটি এমএসই স্কোরের গড় 10-ভাঁজ ক্রস-বৈধকরণ সহ 90% ডেটাসেটের গ্রিড অনুসন্ধানে সেরা টিউনিং প্যারামিটারগুলি (ল্যাম্বদা এবং আলফা) সন্ধান করা। তারপরে আমি পুরো 90% ডেটাসেটের সেরা টিউনিং পরামিতিগুলির সাথে মডেলটিকে প্রশিক্ষণ দিই। আমি ডেটাসেটের 10% হোল্ডআউট (যা কেবল 15 টি নমুনায় অ্যাকাউন্ট রয়েছে) এর উপর আর স্কোয়ার ব্যবহার করে আমার মডেলটি মূল্যায়ন করতে সক্ষম হয়েছি।
এই পদ্ধতিটি বারবার চালানো, আমি আর স্কোয়ার মূল্যায়নে একটি বড় বৈচিত্র পেয়েছি। পাশাপাশি, অ-শূন্যস্থান পূর্বাভাসকারীদের সংখ্যাও তাদের সহগের সাথে পরিবর্তিত হয়।
আমি কীভাবে ভবিষ্যদ্বাণীকারীদের গুরুত্বের আরও স্থিতিশীল মূল্যায়ন এবং চূড়ান্ত মডেল কর্মক্ষমতা সম্পর্কে আরও স্থিতিক মূল্যায়ন পেতে পারি?
আমি বার বার কয়েকটি মডেল তৈরি করতে এবং তারপরে গড় রিগ্রেশন সহগগুলি তৈরি করতে আমার প্রক্রিয়াটি চালাতে পারি? বা মডেলগুলিতে এর গুরুত্বের স্কোর হিসাবে আমার কোনও ভবিষ্যদ্বাণীকের সংঘটনগুলির সংখ্যাটি ব্যবহার করা উচিত?
বর্তমানে, আমি প্রায় 40-50 অ-শূন্যস্থান পূর্বাভাসকারী পাই get আরও ভাল স্থিতিশীলতার জন্য আমার আরও কত ভবিষ্যদ্বাণীকে শাস্তি দেওয়া উচিত?