অভিযোজিত ডেটা বিশ্লেষণের ধারণাটি হ'ল ডেটা বিশ্লেষণের জন্য আপনার পরিকল্পনাটি পরিবর্তন করার সাথে সাথে আপনি আরও শিখবেন। অনুসন্ধানের তথ্য বিশ্লেষণের ক্ষেত্রে (ইডিএ), এটি সাধারণত একটি ভাল ধারণা (আপনি প্রায়শই ডেটাতে অপ্রত্যাশিত নিদর্শনগুলির সন্ধান করছেন), তবে একটি নিশ্চিত গবেষণার জন্য, বিশ্লেষণের খুব ত্রুটিযুক্ত পদ্ধতি হিসাবে এটি ব্যাপকভাবে গৃহীত হয় (যতক্ষণ না সমস্ত পদক্ষেপগুলি সুস্পষ্টভাবে সংজ্ঞায়িত করা হয়েছে এবং উন্নতভাবে সঠিকভাবে পরিকল্পনা করা হয়েছে)।
বলা হচ্ছে, অভিযোজিত ডেটা বিশ্লেষণ সাধারণত হ'ল কত গবেষক প্রকৃতপক্ষে তাদের বিশ্লেষণ পরিচালনা করেন, পরিসংখ্যানবিদদের হতাশার পক্ষে অনেকটাই। যেমন, যদি কেউ এটি একটি পরিসংখ্যান বৈধ পদ্ধতিতে করতে পারে তবে এটি পরিসংখ্যান চর্চায় বিপ্লব ঘটবে।
নিম্নলিখিত বিজ্ঞান নিবন্ধটি এমনটি করার জন্য একটি পদ্ধতি খুঁজে পেয়েছে বলে দাবি করেছে (পে-ওলের জন্য আমি ক্ষমাপ্রার্থী, তবে আপনি যদি কোনও বিশ্ববিদ্যালয়ে থাকেন তবে আপনার সম্ভবত অ্যাক্সেস রয়েছে): ডক্কর এট আল, ২০১৫, পুনরায় ব্যবহারযোগ্য হোল্ডআউট: অভিযোজিত ডেটা বিশ্লেষণে বৈধতা সংরক্ষণ ।
ব্যক্তিগতভাবে, আমি সর্বদা বিজ্ঞানে প্রকাশিত পরিসংখ্যান নিবন্ধগুলি সম্পর্কে সংশয়ী ছিলাম এবং এটি কোনও আলাদা নয়। প্রকৃতপক্ষে, পরিপূরক উপাদান সহ নিবন্ধটি দু'বার পড়ার পরে, আমি বুঝতে (বুঝতে পারি না) কেন লেখকরা দাবি করেন যে তাদের পদ্ধতিটি অত্যধিক ফিটনেস প্রতিরোধ করে।
আমার উপলব্ধি হ'ল তাদের কাছে একটি হোল্ডআউট ডেটাসেট রয়েছে, যা তারা পুনরায় ব্যবহার করবে। তারা হোল্ডআউট ডেটাসেটে নিশ্চিতকরণ বিশ্লেষণের আউটপুট "ফাজিং" করে দাবি করে বলে মনে হচ্ছে, অতিরিক্ত-ফিটিং প্রতিরোধ করা হবে (এটি লক্ষ্য করার মতো বিষয় যে ট্রেনিংয়ের ডেটাতে গণনা করা পরিসংখ্যান যথেষ্ট পরিমাণে দূরে থাকলে ফাজিং শব্দটি কেবল শব্দ যোগ করছে বলে মনে হচ্ছে) হোল্ডআউট ডেটাতে গণিত পরিসংখ্যান থেকে )। আমি যতদূর বলতে পারি, এটি অতিরিক্ত-ফিটনেস প্রতিরোধ করার কোনও আসল কারণ নেই।
লেখকরা যা প্রস্তাব করছেন তাতে কি আমি ভুল করছি? আমি কিছু উপেক্ষা করছি যে সূক্ষ্ম প্রভাব আছে? নাকি বিজ্ঞান এখনও অবধি সবচেয়ে খারাপ পরিসংখ্যান চর্চাকে সমর্থন করেছে?