সংক্ষিপ্ত উত্তর: উভয় বৈধতা কৌশল বিভিন্ন মডেল প্রশিক্ষণ এবং পরীক্ষা জড়িত।
কীভাবে এটি করা যায় সে সম্পর্কে দীর্ঘ উত্তর: এটি অবশ্যই নির্ভর করে। তবে এখানে কিছু ধারণা যা আমি বৈধতা পুনর্নির্মাণের বিষয়ে আমার সিদ্ধান্তগুলিকে গাইড করতে ব্যবহার করি। আমি কেমোমেট্রিশিয়ান, সুতরাং এই কৌশলগুলি এবং পদগুলি বিশ্লেষণী-রাসায়নিক সমস্যার সাথে কমবেশি নিবিড়ভাবে সম্পর্কিত।
আমার চিন্তাভাবনাগুলি কিছুটা ব্যাখ্যা করার জন্য, আমি মডেল গুণমান পরিমাপ হিসাবে বৈধতা এবং মডেল পরামিতিগুলি পরিমাপ হিসাবে প্রশিক্ষণের বিষয়ে ভাবি - এটি প্রতিটি অন্যান্য ধরণের পরিমাপের পক্ষে যথেষ্ট শক্তিশালী উপমা নিয়ে যায়।
বৈধতার বিষয়ে এই পদ্ধতির দুটি ভিন্ন দৃষ্টিভঙ্গি রয়েছে:
পুনরায় মডেলিং বৈধতার জন্য aতিহ্যগত দৃষ্টিকোণটি হ'ল: পুনরায় মডেল করা ডেটা সেট (কখনও কখনও সারোগেট ডেটা সেট বা সাবসেট নামে পরিচিত) ব্যবহারিকভাবে মূল (বাস্তব) ডেটা সেটের সমান।
অতএব, সারোগেট ডেটা সেটের সাথে মানানসই একটি "সারোগেট মডেল" পুরো বাস্তব ডেটা সেটের সাথে মডেলের ফিট হিসাবে কার্যত একই। তবে কিছু নমুনা সার্গেট ডেটা সেট থেকে বাদ পড়েছে, মডেলগুলি এগুলির থেকে স্বতন্ত্র। সুতরাং, আমি সেইগুলি বাম বা আউট-অফ-বুটস্ট্র্যাপ নমুনাগুলি সারোগেট মডেলের জন্য স্বতন্ত্র বৈধতা সেট হিসাবে গ্রহণ করি এবং ফলাফলটি পুরো-ডেটা-মডেলের সান্নিধ্য হিসাবে ব্যবহার করি।
তবে সরোগেট মডেল প্রায়শই পুরো ডেটা-মডেলের সাথে সমান হয় না: প্রশিক্ষণের জন্য কম নমুনা ব্যবহৃত হত (এমনকি বুটস্ট্র্যাপের জন্যও, বিভিন্ন নমুনার সংখ্যা কম) is যতক্ষণ শেখার বক্ররেখা বাড়ছে ততক্ষণ সারোগেট মডেল পুরো ডেটা-মডেলের চেয়ে গড়পড়তা কিছুটা খারাপ। এটি পুনর্নির্মাণ বৈধতার সুপরিচিত হতাশাবাদী পক্ষপাতিত্ব (যদি আপনি আশাবাদী পক্ষপাতিত্ব শেষ করেন, তবে এটি সাধারণত একটি সূচক যে বাম-আউট / oob পরীক্ষার সেটটি মডেলের চেয়ে স্বতন্ত্র ছিল না)।
দ্বিতীয় দৃষ্টিকোণটি হ'ল যে পুনরায় মডেল করা ডেটা সেটটি পুরো ডেটা সেটের একটি বিশৃঙ্খল সংস্করণ। কীভাবে সরোগেট মডেলগুলি (বা বাম-আউট / oob নমুনাগুলির জন্য তাদের পূর্বাভাস) পুরো ডেটা-মডেল থেকে আলাদা হয় তা প্রশিক্ষণের তথ্যের সাথে মডেলটির স্থায়িত্ব সম্পর্কে কিছু বলে।
এই দৃষ্টিকোণ থেকে, সারোগেট মডেলগুলি পুনরাবৃত্ত পরিমাপের মতো কিছু। বলুন আপনার কাজটি আকরিকের পুরো ট্রেনের কিছু খনিজ সামগ্রী পরিমাপ করা। আকরিক একজাতীয় নয়। সুতরাং আপনি বিভিন্ন অবস্থান থেকে শারীরিক নমুনা নেন এবং তারপরে ট্রেন জুড়ে সামগ্রিক সামগ্রী এবং এর প্রকরণটি দেখুন। একইভাবে, আপনি যদি মনে করেন যে আপনার মডেলটি স্থিতিশীল নাও হতে পারে, আপনি সারোগেট মডেলগুলির সামগ্রিক কর্মক্ষমতা এবং তারতম্যের দিকে নজর দিতে পারেন।
এন
আমি সাধারণত কেসগুলি পুনরায় নমুনা করি, যেমন একটি কেস = একজন রোগীর সমস্ত পরিমাপ। তারপরে ব্যাগটি হ'ল সমস্ত রোগী যার প্রশিক্ষণের ডেটাতে কোনও পরিমাপ হয় না। এটি কার্যকর যদি আপনি জানেন যে একটি মামলার পরিমাপ অন্যান্য মামলার পরিমাপের চেয়ে একে অপরের সাথে সমান (তবে কমপক্ষে আপনি এই সম্ভাবনাটি বাদ দিতে পারবেন না)।
পুনর্নির্মাণ বৈধতা আপনাকে অজানা নমুনাগুলির জন্য কর্মক্ষমতা পরিমাপ করতে দেয় Not এছাড়াও আপনি যদি অজানা ভবিষ্যতের নমুনাগুলির (পার্সোনাল ড্রিফট!) পারফরম্যান্সটি পরিমাপ করতে চান , তবে আপনার একটি পরীক্ষার সেট প্রয়োজন যা "ভবিষ্যতে" পরিমাপ করা হয় অর্থাৎ সমস্ত প্রশিক্ষণের নমুনাগুলি পরিমাপ করার পরে একটি নির্দিষ্ট সময় প্রয়োজন। বিশ্লেষণাত্মক রসায়নে এটি প্রয়োজন যেমন উদাহরণস্বরূপ আপনি যদি আপনার সরঞ্জামটির ক্রমাঙ্কন পুনরায় করতে চান তা জানতে চান (প্রতিটি সংকল্পের জন্য, প্রতিদিন, সাপ্তাহিক, মাসিক, ...)
বুটস্ট্র্যাপ বনাম ক্রস বৈধকরণ পরিভাষা :
- প্রতিস্থাপনের সাথে পুনরায় মডেলিংকে প্রায়শই বুটস্ট্র্যাপ বলা হয়,
- প্রতিস্থাপন ক্রস-বৈধতা ছাড়াই পুনরায় মডেলিং।
উভয়েরই একরকম স্তরবদ্ধতা থাকতে পারে। Icallyতিহাসিকভাবে, ক্রস বৈধকরণের জন্য বিভাজন (কমপক্ষে কেমোমেট্রিক্সে) প্রায়শই একটি নন-এলোমেলো ফ্যাশনে সম্পন্ন করা হয়েছে, উদাহরণস্বরূপ ক্রমাঙ্ককরণের জন্য abcabc..abc (ডেটা সেট অনুসারে বাছাই করা ফলাফল) এর 3-গুণ ক্রস বৈধতা / যদি আপনার খুব কম কেস (শারীরিক নমুনা) থাকে তবে রিগ্রেশন এবং আপনি নিশ্চিত করতে চান যে আপনার পুরো ডেটা পরিসীমা আচ্ছাদিত।
উভয় কৌশলই সাধারণত বেশ কয়েকবার পুনরাবৃত্তি / পুনরাবৃত্তি হয়। আবার historicalতিহাসিক কারণে এবং কমপক্ষে কেমোমেট্রিক্সে, কে-ফোল্ড ক্রস বৈধকরণের অর্থ প্রায়শই কে মডেলগুলি প্রশিক্ষণ এবং পরীক্ষা করা (প্রতিটি পরীক্ষার সাথে জড়িত ছিল না এমন ডেটাগুলির 1 / kth পরীক্ষা করে)। যদি এ জাতীয় এলোমেলো বিভাজন পুনরাবৃত্তি হয়, লোকেরা এটিকে পুনরাবৃত্তি বা পুনরাবৃত্ত ক্রস বৈধতা বলে।
টটএনএনএন
- নোট করুন যে বুটস্ট্র্যাপ এমন কিছু মডেল ফিটিং কৌশলগুলির জন্য উপযুক্ত নয় যা প্রথমে সদৃশ মাপগুলি সরিয়ে দেয়।
- বুটস্ট্র্যাপের কিছু বৈকল্পিক উপস্থিত রয়েছে, যেমন .632-বুটস্ট্র্যাপ এবং .632 +-বুটস্ট্র্যাপ
টট