এই [বাহ্যিক ক্রস বৈধতা] আউটপুট থেকে আমি কীভাবে একটি মডেল চয়ন করব?
সংক্ষিপ্ত উত্তর: আপনি না।
মডেল ফিটিং পদ্ধতির অংশ হিসাবে অভ্যন্তরীণ ক্রস বৈধকরণের চিকিত্সা করুন । এর অর্থ হিপার-প্যারামিটারের ফিটিং সহ ফিটিং (এটি এখানে অভ্যন্তরীণ ক্রস বৈধকরণকে আড়াল করে) অন্য মডেলের এসিটেশন রুটিনের মতোই।
বাইরের ক্রস বৈধতা এই মডেল ফিটিং পদ্ধতির কর্মক্ষমতা অনুমান করে। তার জন্য আপনি সাধারণ অনুমানগুলি ব্যবহার করেন
- বাইরের ভাড়াটে মডেলের দ্বারা নির্মিত "বাস্তব" মডেল হয় সমতুল্য সমস্ত ডেটা সঙ্গে।ট
model.fitting.procedure
- বা, ক্ষেত্রে ১. ব্রেক হয়ে যায় (পুনরায় মডেলিং বৈধকরণের হতাশাবাদী পক্ষপাত), কমপক্ষে বাইরের সারোগেট মডেলগুলি একে অপরের সমতুল্য।
এটি আপনাকে পরীক্ষার ফলাফলগুলিকে পুল করতে (গড়) অনুমতি দেয়। এর অর্থ হ'ল যে আপনি তাদের মধ্যে বেছে নেওয়ার দরকার নেই কারণ আপনি ধরে নিচ্ছেন যে তারা মূলত একই রকম are এই দ্বিতীয়টির ভাঙ্গন, দুর্বল অনুমানটি হ'ল মডেল অস্থিতিশীলতা।k
surrogate মডেলগুলির আপাতদৃষ্টিতে সেরা বাছাই করবেন না - এটি সাধারণত "কাটা" পরীক্ষার অনিশ্চয়তা হয়ে যায় এবং একটি আশাবাদী পক্ষপাতিত্বের দিকে পরিচালিত করে।k
তাহলে আমি কীভাবে মডেল নির্বাচনের জন্য নেস্টেড সিভি ব্যবহার করতে পারি?
ভেতরের সিভি নির্বাচন করে।
আমার কাছে মনে হচ্ছে যে কে-বিজয়ী মডেলগুলির মধ্যে সেরা মডেলটি নির্বাচন করা মোটামুটি তুলনা হবে না, যেহেতু প্রতিটি মডেলকে ডেটাসেটের বিভিন্ন অংশে প্রশিক্ষণ দেওয়া হয়েছিল এবং পরীক্ষা করা হয়েছিল।
আপনি ঠিক বলেছেন যে surrogate মডেলগুলির মধ্যে একটি বেছে নেওয়া ভাল ধারণা নয় । তবে আপনি কারণ সম্পর্কে ভুল। আসল কারণ: উপরে দেখুন। তারা একই ডেটাতে প্রশিক্ষিত এবং পরীক্ষিত নয় এই বিষয়টি এখানে "আঘাত" করে না।k
- একই পরীক্ষার ডেটা না থাকা: আপনি পরে দাবি করতে চান যে পরীক্ষার ফলাফলগুলি কখনই ডেটা না দেখায় সাধারণীকরণ করে, এটি কোনও পার্থক্য করতে পারে না।
- একই প্রশিক্ষণের ডেটা না থাকা:
- যদি মডেলগুলি স্থিতিশীল থাকে তবে এটি কোনও পার্থক্য রাখে না: স্থিতিশীলতার অর্থ এখানে প্রশিক্ষণের ডেটা অন্য ক্ষেত্রে কয়েকটি কেস প্রতিস্থাপন করে যদি "ব্যথিত" হয় তবে মডেলটি (বেশি) পরিবর্তন হয় না)
- যদি মডেলগুলি স্থিতিশীল না হয় তবে তিনটি বিবেচনা গুরুত্বপূর্ণ:
- পুনরাবৃত্তি / পুনরাবৃত্তি ফোল্ড ক্রস বৈধতা ব্যবহার করে আপনি প্রকৃতপক্ষে কি পরিমাণ এবং এটি কতটা ক্ষেত্রে তা পরিমাপ করতে পারবেন । এটি আপনাকে একই মামলার জন্য ক্রস বৈধকরণের ফলাফলগুলির তুলনা করতে দেয় যা সামান্য ভিন্নতর প্রশিক্ষণ ডেটার উপর নির্মিত বিভিন্ন মডেল দ্বারা পূর্বাভাস ছিল।k
- যদি মডেলগুলি স্থিতিশীল না হয়, তবে ফোল্ড ক্রস বৈধকরণের পরীক্ষার ফলাফলের উপর পর্যবেক্ষণ করা বৈকল্পিকতা বৃদ্ধি পায়: কেবলমাত্র একটি সীমাবদ্ধ সংখ্যক ক্ষেত্রেই মোট পরীক্ষা করা হয় তার কারণে আপনার কেবলমাত্র বৈকল্পিকতা নেই, তবে অতিরিক্ত বৈকল্পিকও রয়েছে মডেলগুলির অস্থিরতার কারণে (ভবিষ্যদ্বাণীমূলক দক্ষতার মধ্যে বৈকল্পিক)।k
- অস্থিরতা যদি আসল সমস্যা হয় তবে আপনি "বাস্তব" মডেলটির জন্য পারফরম্যান্সকে ভালভাবে বহন করতে পারবেন না।
যা আমাকে আপনার শেষ প্রশ্নে নিয়ে আসে:
আমি বাইরের কে ভাঁজগুলি থেকে প্রাপ্ত স্কোরগুলি নিয়ে কী ধরণের বিশ্লেষণ / চেকগুলি করতে পারি?
- পূর্বাভাসগুলির স্থায়িত্ব পরীক্ষা করুন (পুনরাবৃত্ত / পুনরাবৃত্তি ক্রস-বৈধতা ব্যবহার করুন)
অপ্টিমাইজড হাইপার-প্যারামিটারগুলির স্থায়িত্ব / তারতম্যের জন্য পরীক্ষা করুন।
একটি জিনিসের জন্য, বন্যভাবে ছড়িয়ে পড়া হাইপার-প্যারামিটারগুলি ইঙ্গিত করতে পারে যে অভ্যন্তরীণ অপ্টিমাইজেশন কাজ করে না। অন্য একটি জিনিসের জন্য, এটি আপনাকে ভবিষ্যতে অনুরূপ পরিস্থিতিতে ব্যয়বহুল অপ্টিমাইজেশন পদক্ষেপ ছাড়াই হাইপারপ্রেমিটারগুলির বিষয়ে সিদ্ধান্ত নেওয়ার অনুমতি দিতে পারে। ব্যয়বহুল সহ আমি গণ্য সংস্থানসমূহকে উল্লেখ করি না তবে এই "ব্যয়" তথ্য যা "স্বাভাবিক" মডেল পরামিতিগুলির অনুমানের জন্য আরও ভালভাবে ব্যবহার করা যেতে পারে to
নির্বাচিত মডেলের অভ্যন্তরীণ এবং বাহ্যিক অনুমানের মধ্যে পার্থক্য পরীক্ষা করুন। যদি কোনও বড় পার্থক্য থাকে (অভ্যন্তরীণটি খুব অত্যধিক প্রতিরোধী হয়) তবে ঝুঁকি রয়েছে যে অতিরিক্ত ফিটের কারণে অভ্যন্তরীণ অনুকূলতা ভালভাবে কাজ করে না।
আপডেট @ ব্যবহারকারী 99889 এর প্রশ্ন: যদি বাইরের সিভি অস্থিতিশীলতা খুঁজে পায় তবে কী করবেন?
প্রথমত, বাইরের সিভি লুপটি সনাক্ত করে যে মডেলগুলি সেই বিষয়ে স্থিতিশীল পূর্বাভাস দেয় না এটি প্রয়োগের জন্য ভবিষ্যদ্বাণী ত্রুটিটি খুব বেশি রয়েছে তা সনাক্ত করার চেয়ে সত্যই পৃথক নয়। এটি মডেল যাচাইকরণের (বা যাচাইকরণ) সম্ভাব্য ফলাফলগুলির মধ্যে একটি যা বোঝায় যে আমাদের কাছে থাকা মডেলটি তার উদ্দেশ্যে উপযুক্ত নয়।
@ ডেভিপদের জবাবে দেওয়া মন্তব্যে, আমি অভ্যন্তরীণ সিভি-তে মডেল অপ্টিমাইজেশান প্রক্রিয়ার অংশ হিসাবে অস্থিতিশীলতা সামলানোর কথা ভাবছিলাম ।
তবে আপনি অবশ্যই সত্য বলেছেন: আমরা যদি বাইরের সিভি অনুসন্ধানের ভিত্তিতে আমাদের মডেলটি পরিবর্তন করি তবে পরিবর্তিত মডেলটির স্বতন্ত্র পরীক্ষার জন্য আরও একটি দফা প্রয়োজনীয়।
তবে, বাইরের সিভিতে অস্থিরতাও একটি চিহ্ন হতে পারে যে অপটিমাইজেশনটি ভালভাবে সেট আপ করা হয়নি - সুতরাং বাইরের সিভিতে অস্থিরতা খুঁজে পাওয়া বোঝায় যে অভ্যন্তরীণ সিভি প্রয়োজনীয় ফ্যাশনে অস্থিতিশীলতার দণ্ড দেয়নি - এটি আমার মূল বিষয় হবে এমন পরিস্থিতিতে সমালোচনা। অন্য কথায়, কেন অপ্টিমাইজেশন ভারী ওভারফিট মডেলগুলিকে নেতৃত্ব দেয় / নেতৃত্ব দেয়?
তবে, এখানে একটি বিশেষত্ব রয়েছে যে আইএমএইচও সঠিক পরিস্থিতিতে সাবধানতার সাথে বিবেচনা করার পরে "চূড়ান্ত" মডেলটির আরও পরিবর্তনটি বঞ্চিত করতে পারে : যেমন আমরা অতিরিক্ত সাফল্য সনাক্ত করেছি, মডেলটিতে কোনও প্রস্তাবিত পরিবর্তন (কম ডিএফ / আরও সীমাবদ্ধ বা সমষ্টি) হবে কম ওভারফিটিংয়ের দিক হতে হবে (বা কমপক্ষে হাইপারপ্রেমেটারগুলি যা অতিরিক্ত মানানসই প্রবণতা কম)। স্বতঃপরীক্ষণের বিষয়টি হ'ল ওভারফিটিং সনাক্ত করা - প্রশিক্ষণ প্রক্রিয়াতে ইতিমধ্যে ব্যবহৃত ডেটা দ্বারা আন্ডারফিটিং সনাক্ত করা যায়।
সুতরাং আমরা যদি কথা বলি, বলুন, পিএলএস মডেলটিতে সুপ্ত পরিবর্তনশীলগুলির সংখ্যা আরও কমিয়ে আনার বিষয়ে তুলনামূলকভাবে সৌম্য হবে (প্রস্তাবিত পরিবর্তনটি সম্পূর্ণ ভিন্ন ধরণের মডেল হতে পারে, এসভিএমের পরিবর্তে পিএলএস বলুন, সমস্ত বেট বন্ধ থাকবে) ), এবং আমি এটি সম্পর্কে আরও স্বাচ্ছন্দ্য বোধ করতাম যদি আমি জানতে পারি যে আমরা যেভাবেই মডেলিংয়ের একটি মধ্যবর্তী পর্যায়ে রয়েছি - সর্বোপরি, যদি অনুকূলিত মডেলগুলি এখনও অস্থির থাকে তবে আরও মামলার প্রয়োজন আছে এমন প্রশ্ন নেই। এছাড়াও, অনেক পরিস্থিতিতে আপনার শেষ পর্যন্ত পড়াশোনা করা প্রয়োজন যা কার্য সম্পাদনের বিভিন্ন দিকগুলি যথাযথভাবে পরীক্ষা করার জন্য ডিজাইন করা হয়েছে (যেমন ভবিষ্যতে অর্জিত ডেটাতে সাধারণীকরণ)। তবুও, আমি জোর দিয়ে বলছি যে পুরো মডেলিংয়ের প্রক্রিয়াটি রিপোর্ট করা দরকার, এবং এই দেরী পরিবর্তনগুলির প্রভাবগুলি যত্ন সহকারে আলোচনা করা দরকার।
এছাড়াও, পারফরম্যান্সের বাইরে থাকা এবং অ্যানালগ সিভি অনুমান সহ সমষ্টি এবং ইতিমধ্যে উপলব্ধ ফলাফলগুলি থেকে এটি সম্ভব হবে - যা আমি এখানে সৌম্য বিবেচনা করতে ইচ্ছুক মডেলটির অন্য ধরণের "পোস্ট প্রসেসিং" is তবুও, এটি আরও ভাল হত যদি সমীক্ষা পৃথক পূর্বাভাসের (যে পৃথক মডেলগুলি স্থিতিশীল বলে বলার আর একটি উপায়) যাচাইয়ের জন্য এটি শুরু করার জন্য ডিজাইন করা হয়েছিল।
আপডেট (2019): আমি এই পরিস্থিতিতে আমার মনে হয়, আরো আমি পক্ষপাতী আসা অভিগমন "দৃশ্যত পাখির ছাড়া নেস্টেড ক্রস বৈধতা" ।