আমি একটি উদাহরণের মাধ্যমে এই প্রশ্নটি প্রস্তাব করব।
ধরুন আমার কাছে ডেটা সেট রয়েছে যেমন বোস্টন হাউজিং প্রাইস ডেটা সেট, এতে আমার ক্রমাগত এবং শ্রেণিবদ্ধ ভেরিয়েবল রয়েছে। এখানে, আমাদের কাছে 1 থেকে 10 এবং "বিক্রয়মূল্য" মানের একটি পরিবর্তনশীল রয়েছে। আমি (নিম্নমানের) "উচ্চ" মানের মানের ঘরগুলিতে (নির্বিচারে) মানের জন্য কাট অফ তৈরি করে ডেটা আলাদা করতে পারি। তারপরে, এই গোষ্ঠীগুলি ব্যবহার করে, আমি একে অপরের বিরুদ্ধে বিক্রয়মূল্যের হিস্টোগ্রামগুলি প্লট করতে পারি। তাই ভালো:
এখানে, "নিম্ন "টি এবং " মানের "স্কোরটিতে " উচ্চ " । আমাদের কাছে এখন তিনটি দলের প্রত্যেকের জন্য বিক্রয়মূল্যের বিতরণ রয়েছে। এটি স্পষ্ট যে মাঝারি এবং উচ্চ মানের ঘরগুলির জন্য অবস্থানের কেন্দ্রস্থানে একটি পার্থক্য রয়েছে। এখন, এই সমস্ত কাজটি করার পরে, আমি মনে করি "এইচএম। অবস্থানের কেন্দ্রে কোনও পার্থক্য রয়েছে বলে মনে হচ্ছে! কেন আমি উপায়গুলির উপর টি-টেস্ট করব না?"। তারপরে, আমি একটি পি-মান পাই যা নাল অনুমানটিকে সঠিকভাবে প্রত্যাখ্যান করে বলে মনে হয় যে কোনও উপায় নেই।
এখন, ধরুন আমি ডেটা প্লট না করা পর্যন্ত এই অনুমানটি পরীক্ষার জন্য আমার মনে কিছু ছিল না mind
এই তথ্য ড্রেজিং হয়?
এটি কি এখনও ডেটার ড্রেজিং করছে যদি আমি ভেবেছিলাম: "এইচএম, আমি উচ্চ মানের মানের বাড়িগুলির জন্য বেশি ব্যয় করে থাকি, যেহেতু আমি একজন মানুষ যে আগে একটি বাড়িতে বাস করতাম। আমি ডেটা চক্রান্ত করতে যাচ্ছি। আহ হা! অন্যরকম দেখাচ্ছে! সময় টি-টেস্ট করতে! "
স্বভাবতই, এই অনুমানটি পরীক্ষা-নিরীক্ষার মাধ্যমে পরীক্ষা করার উদ্দেশ্যে যদি ডেটা সেটটি সংগ্রহ করা হয় তবে এটি ডেটা-ড্রেজিং নয়। তবে প্রায়শই একটি আমাদের দেওয়া ডেটা সেটগুলির সাথে কাজ করতে হয় এবং তাদের "নিদর্শনগুলির সন্ধান" করতে বলা হয়। এই অস্পষ্ট কাজটি মাথায় রেখে কেউ কীভাবে ডেটা ড্রেজিং এড়াতে পারে? ডেটা পরীক্ষার জন্য হোল্ড আউট সেট তৈরি করবেন? উপাত্ত দ্বারা প্রস্তাবিত হাইপোথিসিস পরীক্ষা করার সুযোগের জন্য ভিজ্যুয়ালাইজেশন কি "গণনা" করে?