ঠিক আছে, ন্যায্য সতর্কতা - এটি একটি দার্শনিক প্রশ্ন যাতে কোনও সংখ্যা জড়িত না। সময়ের সাথে সাথে কীভাবে ডেটা সেটগুলিতে ত্রুটিগুলি কমছে এবং কীভাবে বিশ্লেষকদের দ্বারা এটি আচরণ করা উচিত - বা এটি যদি আদৌ গুরুত্বপূর্ণ হয় তবে সে সম্পর্কে আমি অনেক কিছু ভাবছিলাম?
পটভূমির জন্য, আমি একটি দীর্ঘমেয়াদী অধ্যয়নের উপর বিশ্লেষণ করছি যা 7-8 বছরেরও বেশি সময় ধরে 25 জনের দ্বারা সংগৃহীত অনেক ডেটা সেট জড়িত - কেউ কখনও কখনও সমস্ত তথ্য একটি সুসংগত কাঠামোতে আনেনি (এটি আমার কাজ)। আমি প্রচুর ডেটা-এন্ট্রি করে চলেছি (পুরানো ল্যাব নোটবুকের ফটোকপিগুলি থেকে অনুলিপি করা) এবং আমি অন্যান্য লোকেরা যে ছোট ট্রান্সক্রিপশন ত্রুটিগুলি পেয়েছি তা সন্ধান করতে থাকি এবং পড়া বা পড়া অসম্ভব এমন ডেটা এন্ট্রিগুলিও খুঁজে পাই - বেশিরভাগ কারণ কালি সময়ের সাথে সাথে বিবর্ণ হয়ে গেছে। ডেটা কী বলে সে সম্পর্কে 'সেরা অনুমান' করার জন্য আমি প্রসঙ্গটি ব্যবহার করছি এবং আমি যদি নিশ্চিত না থাকি তবে ডেটা একেবারে উল্লেখ করে। তবে আমি এই বিষয়টি নিয়ে ভাবতে থাকি যে প্রতিবারের ডেটা অনুলিপি করা হয়, মূল ডেটা সম্পূর্ণরূপে হারিয়ে না যাওয়া পর্যন্ত ত্রুটিগুলির ফ্রিকোয়েন্সি অবশ্যম্ভাবীভাবে বাড়বে।
সুতরাং, এটি আমাকে একটি চিন্তার দিকে নিয়ে যায়: উপকরণ / পরিমাপের ত্রুটিগুলি এবং রেকর্ডিং ত্রুটিগুলি ছাড়াও, একটি মৌলিক 'ডেটা হ্যান্ডলিং ত্রুটি' উপাদান রয়েছে যা সময়ের সাথে সাথে আরও বেশি ডেটা হ্যান্ডলিং সহ বৃদ্ধি পাবে (পার্শ্ব নোট: সম্ভবত এটি সম্ভবত থার্মোডিনামিক্সের ২ য় আইন বলার ঠিক অন্য একটি উপায়, ঠিক আছে? ডেটা এনট্রপি সর্বদা বৃদ্ধি পাবে)। ফলস্বরূপ, আমি অবাক হয়েছি যে ডেটা সেটের জীবন-ইতিহাসের জন্য কোনও এক ধরনের 'সংশোধন' চালু করা উচিত (বনফেরনি সংশোধনের অনুরূপ কিছু)? অন্য কথায়, আমাদের কি ধরে নেওয়া উচিত যে পুরানো, বা আরও অনুলিপি করা ডেটা সেটগুলি কম নির্ভুল, এবং যদি তাই হয় তবে আমাদের সেই অনুসারে ফলাফলগুলি সমন্বয় করা উচিত?
তবে আমার অন্য চিন্তাটি হ'ল ত্রুটিগুলি ডেটা সংগ্রহ এবং ডেটা হ্যান্ডলিংয়ের অন্তর্নিহিত অংশ এবং যেহেতু সমস্ত পরিসংখ্যানগত পরীক্ষাগুলি বাস্তব-বিশ্বের ডেটা দিয়ে তৈরি করা হয়েছে, সম্ভবত ত্রুটির এই উত্সগুলি ইতিমধ্যে বিশ্লেষণের জন্য 'মূল্যবান'?
এছাড়াও, অন্য একটি উল্লেখযোগ্য বিষয় হ'ল যেহেতু ডেটা ত্রুটিগুলি এলোমেলো, তাই এটির উন্নতি করার চেয়ে তারা আবিষ্কারের শক্তি হ্রাস করার সম্ভাবনা অনেক বেশি - অন্য কথায়, ডেটা হ্যান্ডলিংয়ের ত্রুটি টাইপ 1 ত্রুটি নয়, টাইপ 1 ত্রুটি হতে পারে । সুতরাং, অনেকগুলি প্রসঙ্গে আপনি যদি পুরানো / প্রশ্নযুক্ত ডেটা ব্যবহার করেন এবং এখনও কোনও প্রভাব খুঁজে পান, তবে আপনার আত্মবিশ্বাস বাড়বে যে প্রভাবটি আসল (কারণ এটি ডেটা সেটটিতে এলোমেলো ত্রুটি সংযোজন থেকে বেঁচে থাকার পক্ষে যথেষ্ট দৃ was় ছিল)। সুতরাং সেই কারণেই, সম্ভবত 'সংশোধন' অন্যভাবে চলে যাওয়া উচিত (একটি 'অনুসন্ধানের' জন্য প্রয়োজনীয় আলফা-স্তর বৃদ্ধি করা), বা কেবল আমাদের ঝামেলা করবেন না?
যাইহোক, খুব ভার্জোজ এবং অবজ্ঞাপূর্ণ হওয়ার জন্য দুঃখিত, আমি কীভাবে এই প্রশ্নটি আরও সংক্ষিপ্তভাবে জিজ্ঞাসা করব তা সত্যই নিশ্চিত নই। আমাকে সহ্য করার জন্য আপনাকে ধন্যবাদ।