মডেল নির্বাচন এবং লজিস্টিক রিগ্রেশনে মডেল কর্মক্ষমতা সম্পর্কে আমার একটি প্রশ্ন আছে। আমার কাছে তিনটি মডেল রয়েছে যা তিনটি পৃথক অনুমানের ভিত্তিতে তৈরি। প্রথম দুটি মডেলের (তাদের নাম জেড এবং এক্স রাখুন) প্রতিটি মডেলে কেবল একটি বর্ণনামূলক পরিবর্তনশীল থাকে এবং তৃতীয়টি (এর নাম ডাব্লু) আরও জটিল। আমি ডব্লিউ মডেলের জন্য পরিবর্তনশীল নির্বাচনের জন্য এআইসি এবং তারপরে এআইসি ব্যবহার করছি তিনটি মডেলের মধ্যে কোনটি নির্ভরশীল ভেরিয়েবলকে সেরা ব্যাখ্যা করে তা তুলনা করার জন্য। আমি খুঁজে পেয়েছি যে ডাব্লু মডেলটির সর্বনিম্ন এআইসি রয়েছে এবং এখন মডেলের ভবিষ্যদ্বাণীপূর্ণ শক্তি সম্পর্কে কিছু ধারণা পেতে সেই মডেলটিতে কিছু পারফরম্যান্সের পরিসংখ্যান করতে চাই। যেহেতু আমি জানি কেবলমাত্র এই মডেলটি অন্য দুটি তুলনায় ভাল তবে এটি কতটা ভাল তা নয়।
যেহেতু আমি মডেলটি শিখতে সমস্ত ডেটা ব্যবহার করেছি (সমস্ত তিনটি মডেলের তুলনা করতে সক্ষম হতে) আমি কীভাবে মডেল পারফরম্যান্সের সাথে যেতে পারি? আমি যা জড়ো করেছি তা থেকে আমি এআইসি ব্যবহার করে মডেল নির্বাচন থেকে যে চূড়ান্ত মডেলটি পেয়েছি তার উপরের কে-ফোল্ড ক্রস যাচাই করতে পারি না তবে শুরু থেকেই শুরু করা দরকার সমস্ত ব্যাখ্যামূলক ভেরিয়েবলগুলি অন্তর্ভুক্ত করে, এটি কি সঠিক? আমি ভাবব যে এটি এআইসির সাথে আমি চূড়ান্ত মডেলটি বেছে নিয়েছি যা আমি এটির কতটা ভাল অভিনয় করে তা জানতে চাই, তবে বুঝতে পারি যে আমি সমস্ত ডেটা সম্পর্কে প্রশিক্ষণ নিয়েছি যাতে মডেল পক্ষপাতদুষ্ট হতে পারে। সুতরাং যদি আমার শুরু থেকে সমস্ত ভাগে সমস্ত বর্ণনামূলক ভেরিয়েবলগুলি দিয়ে শুরু করা উচিত তবে আমি কিছু ভাঁজগুলির জন্য বিভিন্ন চূড়ান্ত মডেল পাব, আমি কি কেবল ভাঁজ থেকে মডেলটি বেছে নিতে পারি যা সেরা ভবিষ্যদ্বাণীমূলক শক্তি দিয়েছে এবং এটি তুলনার জন্য সম্পূর্ণ ডেটা সেটটিতে প্রয়োগ করতে পারি? এআইসি আরও দুটি মডেল (জেড এবং এক্স) নিয়েছেন? বা কিভাবে এটি কাজ করে?
আমার প্রশ্নের দ্বিতীয় অংশটি ওভার-প্যারামিটারাইজেশন সম্পর্কে একটি প্রাথমিক প্রশ্ন। আমার 156 ডেটা পয়েন্ট রয়েছে, 52 টি 1 এর বাকী 0 টি। ডাব্লু মডেলের জন্য বেছে নেওয়ার জন্য আমার কাছে 14 টি ব্যাখ্যামূলক ভেরিয়েবল রয়েছে, আমি বুঝতে পেরেছি যে ওভার-প্যারামিটারাইজেশনের কারণে আমি সবগুলিকে অন্তর্ভুক্ত করতে পারি না, আমি পড়েছি যে আপনি কেবলমাত্র কয়েকটি পর্যবেক্ষণের সাথে নির্ভরশীল ভেরিয়েবলের গ্রুপের 10% ব্যবহার করতে পারেন যা শুধুমাত্র আমার জন্য 5 হবে। আমি বাস্তুশাস্ত্রে একটি প্রশ্নের উত্তর দেওয়ার চেষ্টা করছি, আমি কি পরিবেশবিজ্ঞানের ভিত্তিতে নির্ভরশীলকে সর্বোত্তমভাবে ব্যাখ্যা করে বলে মনে করি সেই সূচনা পরিবর্তনগুলি নির্বাচন করা ভাল? বা আমি কীভাবে প্রারম্ভিক বর্ণনামূলক ভেরিয়েবলগুলি বেছে নেব? কিছু ভেরিয়েবল সম্পূর্ণরূপে বাদ দেওয়ার অধিকার বোধ করে না।
সুতরাং আমার সত্যিই তিনটি প্রশ্ন আছে:
- ক্রস-বৈধতা সহ পুরো ডেটা সেটটিতে প্রশিক্ষিত কোনও মডেলটির পারফরম্যান্স পরীক্ষা করা কি ঠিক হবে?
- যদি তা না হয় তবে আমি ক্রস-বৈধকরণের সময় কীভাবে চূড়ান্ত মডেলটি বেছে নেব?
- আমি ওভার-প্যারামিটারাইজ করতে চাইলে কীভাবে আমি প্রারম্ভিক পরিবর্তনগুলি চয়ন করব?
আমার অগোছালো প্রশ্ন এবং আমার অজ্ঞতার জন্য দুঃখিত। আমি জানি যে অনুরূপ প্রশ্ন জিজ্ঞাসা করা হয়েছে তবে তবুও কিছুটা বিভ্রান্তি বোধ হচ্ছে। কোন চিন্তা এবং পরামর্শ প্রশংসা করুন।