আমি উদ্বিগ্ন যে প্রতিটি ভাঁজগুলির মধ্যে গণনা করা পূর্বাভাসের নির্ভুলতা নির্ভরশীল কারণ প্রশিক্ষণের সেটগুলির মধ্যে যথেষ্ট পরিমাণে ওভারল্যাপের (যদিও পূর্বাভাসের সেটগুলি স্বতন্ত্র)।
আইএমএইচও প্রশিক্ষণ সেটগুলির মধ্যে ওভারল্যাপটি এখানে বড় উদ্বেগ হওয়ার দরকার নেই। যে, মডেলগুলি স্থিতিশীল কিনা তা যাচাই করা অবশ্যই জরুরী। স্থিতিশীলভাবে বোঝানো হয় যে ক্রস বৈধতা সারোগেট মডেলগুলির পূর্বাভাস সমান (যেমন একটি স্বতন্ত্র কেস সেই সমস্ত মডেলের দ্বারা একই পূর্বাভাস পাবে), এবং প্রকৃতপক্ষে ক্রস ভ্যালিডন সাধারণত সারোগেট মডেলগুলির মধ্যেই নয় বরং সকলের উপর প্রশিক্ষিত মডেলের সমতুল্যতা দাবি করে claims মামলা। সুতরাং এই নির্ভরতা বরং আমরা যা করতে চাই তার ফলাফল।
এটি সাধারণ প্রশ্নের জন্য প্রযোজ্য: আমি যদি এই ডেটাগুলিতে কোনও মডেলকে প্রশিক্ষণ দিই তবে ভবিষ্যদ্বাণী অন্তরগুলি কী কী? যদি এর পরিবর্তে প্রশ্নটি হয়, আমরা যদি এই জনসংখ্যার ক্ষেত্রে একটি মডেলকে প্রশিক্ষণ দিই তবে ভবিষ্যদ্বাণী অন্তরগুলি কী? আমরা প্রশিক্ষণের সেটগুলিতে ওভারল্যাপের অর্থ আমরা কোনও অজানা পরিমাণে তারতম্যকে অবমূল্যায়ন করব।n
একটি স্বাধীন পরীক্ষা সেট সঙ্গে পরীক্ষার তুলনায় ফলাফল কি?
- একই আকারের একটি স্বতন্ত্র পরীক্ষার সেট সহ চূড়ান্ত মডেলটি পরীক্ষা করার চেয়ে ক্রস বৈধতা অনুমানের উচ্চতর বৈকল্পিকতা থাকতে পারে, কারণ পরীক্ষার মামলার কারণে বৈকল্পিকতা ছাড়াও সারোগেট মডেলগুলির অস্থিরতার কারণে আমরা বৈকল্পিকতার মুখোমুখি হই।
তবে, মডেলগুলি স্থিতিশীল থাকলে, এই বৈকল্পিকটি ছোট / নগন্য। তবুও এই ধরণের স্থায়িত্ব পরিমাপ করা যায়।
যা পরিমাপ করা যায় না তা হল পুরো ডেটা সেট সেটটি যে জনসংখ্যার থেকে আঁকা হয়েছিল তার সাথে কীভাবে তুলনা করা হয়। এটি চূড়ান্ত মডেলের পক্ষপাতের একটি অংশ অন্তর্ভুক্ত করে (তবে, একটি ছোট স্বতন্ত্র পরীক্ষার সেটটিতেও পক্ষপাত থাকতে পারে) এবং এর অর্থ হ'ল ক্রোস বৈধতা দ্বারা সংশ্লিষ্ট বৈকল্পিকটি অনুমান করা যায় না।
প্রয়োগ অনুশীলনে ( এই ডেটাগুলিতে প্রশিক্ষিত মডেলের পারফরম্যান্স ), ভবিষ্যদ্বাণী ব্যবধানের গণনা এমন সমস্যার মুখোমুখি হবে যে আইএমএইচও ভেরিয়েন্স ক্রস বৈধতার কোন অংশটি সনাক্ত করতে পারে না তার চেয়ে গুরুত্বপূর্ণ:
- সময়ে স্বতন্ত্র ক্ষেত্রে যে ক্রসের বৈধতা যাচাই করতে পারে না (ভবিষ্যতে ভবিষ্যদ্বাণীকে পরিমাপ করা হয় তার ক্ষেত্রে পূর্বাভাস সাধারণত প্রয়োজন হয়)
- ডেটাতে অজানা ক্লাস্টার থাকতে পারে এবং ক্লাস্টারের বাইরে কাজকর্মটি গুরুত্বপূর্ণ হতে পারে। ক্লাস্টারযুক্ত ডেটা এমন কিছু রয়েছে যা আপনি ক্রস বৈধকরণের জন্য অ্যাকাউন্ট করতে পারেন এমন প্রাক্কলিত মধ্যে রয়েছে, তবে আপনাকে ক্লাস্টারিং সম্পর্কে জানতে হবে।
এগুলি কেবল একটি ক্রস বৈধকরণের তুলনায় বনাম স্বতন্ত্র পরীক্ষা সেট জিনিস: মূলত আপনাকে বসে একটি বৈধতা অধ্যয়ন ডিজাইনের প্রয়োজন হবে, অন্যথায় একটি উচ্চ ঝুঁকি রয়েছে যে "স্বতন্ত্র" পরীক্ষার সেটটি সমস্ত স্বতন্ত্র নয়। এটি হয়ে গেলে, কোনটি ব্যবহারিক গুরুত্বের কারণ হতে পারে এবং কোনটি উপেক্ষিত হতে পারে সে সম্পর্কে কেউ ভাবতে পারেন। আপনি এই সিদ্ধান্তে পৌঁছে যেতে পারেন যে পুঙ্খানুপুঙ্খভাবে বিবেচনা করার পরে, ক্রস ভ্যালিয়েশন যথেষ্ট ভাল এবং বুদ্ধিমানের কাজ কারণ সম্ভাব্য তথ্য অর্জনের তুলনায় স্বাধীন বৈধতা অনেক বেশি ব্যয়বহুল হবে।
সমস্ত জিনিস একসাথে রেখেছি, আমি স্ট্যান্ডার্ড বিচ্যুতির জন্য সাধারণ সূত্রটি ব্যবহার করতাম, এটিকে উপমাতে এবং কীভাবে হয়েছিল তা বিশদভাবে ।sCVRMSECV