এটি কীভাবে ডেটা রেকর্ড করা হয়েছিল তা বুঝতে সহায়তা করে।
আমাকে একটি গল্প ভাগ করে দিন । একবার, অনেক আগে, অনেক ডেটাসেট কেবল বিবর্ণ হার্ডকপিতে সংরক্ষণ করা হয়েছিল। সেই অন্ধকার দিনগুলিতে আমি একটি সংস্থার সাথে চুক্তি করেছিলাম (দুর্দান্ত বংশ ও আকারের; আপনার অনেকেরই সম্ভবত এটির স্টক রয়েছে) এর উত্পাদনকেন্দ্রের একটিতে পরিবেশগত পর্যবেক্ষণের ডেটা প্রায় 10 ^ 5 রেকর্ডকে কম্পিউটারাইজ করার জন্য। এটি করার জন্য, আমি ব্যক্তিগতভাবে পরীক্ষাগারের প্রতিবেদনের একটি তাককে চিহ্নিত করেছি (ডেটা কোথায় ছিল তা দেখানোর জন্য), ডেটা এন্ট্রি ফর্মগুলি তৈরি করেছিলাম এবং সাক্ষরতার জন্য কোনও অস্থায়ী সংস্থার সাথে চুক্তিবদ্ধ হয়েছিকর্মীরা ফর্মগুলিতে ডেটা টাইপ করতে। (হ্যাঁ, আপনাকে পড়তে পারে এমন লোকদের জন্য আপনাকে অতিরিক্ত মূল্য দিতে হয়েছিল।) তথ্যের মূল্য এবং সংবেদনশীলতার কারণে আমি এই প্রক্রিয়াটি একবারে দু'জন কর্মীর সাথে সমান্তরালভাবে পরিচালনা করেছিলাম (যারা সাধারণত দিন থেকে দিন বদলে যায়)। কয়েক সপ্তাহ সময় লেগেছিল। আমি এন্ট্রি দুটি সেট তুলনা করতে সফ্টওয়্যার লিখেছি, নিয়মিতভাবে প্রদর্শিত সমস্ত ত্রুটি চিহ্নিত এবং সংশোধন।
ছেলে ত্রুটি ছিল! কী ভুল হতে পারে? ত্রুটিগুলি বর্ণনা করার এবং পরিমাপ করার একটি ভাল উপায় হ'ল মৌলিক রেকর্ডের স্তরে , যা এই পরিস্থিতিতে একটি নির্দিষ্ট পর্যবেক্ষণের স্থানে প্রাপ্ত নির্দিষ্ট নমুনার জন্য একটি বিশ্লেষণাত্মক ফলাফলের (কিছু রাসায়নিকের ঘনত্ব, প্রায়শই) বর্ণনা ছিল a প্রদত্ত তারিখ দুটি ডেটাসেটের তুলনায়, আমি পেয়েছি:
বাদ দেওয়ার ত্রুটি : একটি ডেটাসেট একটি রেকর্ড অন্তর্ভুক্ত করবে, অন্য না। এটি সাধারণত ঘটেছিল কারণ (ক) একটি পৃষ্ঠার নীচে একটি লাইন বা দুটি উপেক্ষা করা হবে বা (খ) একটি সম্পূর্ণ পৃষ্ঠা বাদ দেওয়া হবে।
বাদ দেওয়ার দৃশ্যত ত্রুটি যা সত্যই ডেটা-প্রবেশের ভুল ছিল। একটি রেকর্ডটি একটি মনিটরিং পয়েন্টের নাম, একটি তারিখ এবং "বিশ্লেষক" (সাধারণত কোনও রাসায়নিক নাম) দ্বারা সনাক্ত করা হয়। এর মধ্যে যদি কোনও টাইপোগ্রাফিক ত্রুটি থাকে তবে এটি সম্পর্কিত অন্যান্য রেকর্ডগুলির সাথে এটি মিলবে না। কার্যত, সঠিক রেকর্ড অদৃশ্য হয়ে যায় এবং একটি ভুল রেকর্ড উপস্থিত হয়।
জাল নকল । একই ফলাফল একাধিক উত্সে উপস্থিত হতে পারে, একাধিকবার প্রতিলিপি হতে পারে এবং যখন তা না হয় তবে সত্যিকারের পুনরাবৃত্তি ব্যবস্থা বলে মনে হয়। সদৃশগুলি সনাক্তকরণের জন্য সোজা, তবে ডুপ্লিকেটগুলি এমনকি ডেটাসেটে উপস্থিত হওয়া উচিত কিনা তা নির্ভর করে er কখনও কখনও আপনি শুধু জানতে পারবেন না।
ফ্র্যাঙ্ক ডেটা-এন্ট্রি ত্রুটি । "ভাল "গুলি সহজেই ধরা সহজ কারণ তারা ডেটামের ধরণ পরিবর্তন করে : উদাহরণস্বরূপ" 0 "অঙ্কের জন্য" O "অক্ষরটি ব্যবহার করে একটি সংখ্যাটিকে অ-সংখ্যাতে পরিণত করে। অন্যান্য ভাল ত্রুটিগুলি মানটিকে এত বেশি পরিবর্তন করে যে এটি সহজেই পরিসংখ্যান পরীক্ষার মাধ্যমে সনাক্ত করা যায়। (একটি ক্ষেত্রে, "১০,০০০ জন মিলিগ্রাম / কেজি" -এর শীর্ষস্থানীয় সংখ্যাটি 10 কে একটি মান রেখে কেটে গেছে That's এটি একটি বিশাল পরিবর্তন, যখন আপনি কীটনাশকের ঘনত্বের কথা বলছেন!) খারাপ ত্রুটিগুলি ধরা শক্ত কারণ তারা পরিবর্তন করে "50" এর জন্য "80" টাইপ করার মতো বাকী ডেটার সাথে (ধরণের) ফিট করে এমন একটি মান one (ওসিআর সফ্টওয়্যার দিয়ে সর্বদা এই জাতীয় ভুল হয় happens)
স্থানান্তর । সঠিক মানগুলি প্রবেশ করা যেতে পারে তবে ভুল রেকর্ড কীগুলির সাথে যুক্ত হতে পারে। এটি কুখ্যাত, কারণ ডেটাসেটের বৈশ্বিক পরিসংখ্যানগত বৈশিষ্ট্যগুলি অবিচ্ছিন্ন থাকতে পারে তবে গোষ্ঠীগুলির মধ্যে উত্সাহজনক পার্থক্য তৈরি হতে পারে। সম্ভবত কেবল ডাবল-প্রবেশের মতো একটি ব্যবস্থাও এই ত্রুটিগুলি সনাক্ত করতে সক্ষম।
একবার আপনি এই ত্রুটিগুলি সম্পর্কে অবগত হয়ে ওঠেন এবং কীভাবে এটি ঘটে যায় সে সম্পর্কে কোনও তত্ত্ব জানার পরে, আপনি এই জাতীয় ত্রুটিগুলির সম্ভাব্য উপস্থিতির জন্য আপনার ডেটাসেটগুলি ট্রল করতে স্ক্রিপ্টগুলি লিখতে পারেন এবং আরও মনোযোগের জন্য এটিকে পতাকাঙ্কিত করতে পারেন। আপনি সর্বদা এগুলি সমাধান করতে পারবেন না, তবে তাদের পরবর্তী বিশ্লেষণ জুড়ে ডেটা সহ আপনি অন্তত একটি "মন্তব্য" বা "মানের পতাকা" ক্ষেত্র অন্তর্ভুক্ত করতে পারেন।
সেই সময় থেকে আমি ডেটা মানের বিষয়গুলিতে মনোযোগ দিয়েছি এবং বৃহত পরিসংখ্যানীয় ডেটাসেটের বিস্তৃত চেক করার আরও অনেক সুযোগ পেয়েছি। কেউই নিখুঁত নয়; এগুলি সব মানের চেক থেকে উপকৃত হয়। এটি করার জন্য আমি কয়েক বছর ধরে যে নীতিগুলি বিকাশ করেছি তার মধ্যে অন্তর্ভুক্ত রয়েছে
যখনই সম্ভব, ডেটা এন্ট্রি এবং ডেটা ট্রান্সক্রিপশন পদ্ধতিতে রিডানডেন্সি তৈরি করুন : চেকসাম, মোট, বারবার এন্ট্রি: ধারাবাহিকতার স্বয়ংক্রিয় অভ্যন্তরীণ চেকগুলিকে সমর্থন করার জন্য কিছু anything
যদি সম্ভব হয় তবে অন্য একটি ডাটাবেস তৈরি এবং ব্যবহার করুন যা ডেটা দেখতে কেমন হবে তা বর্ণনা করে: এটি কম্পিউটার-পঠনযোগ্য মেটাডেটা। উদাহরণস্বরূপ, ওষুধের পরীক্ষায় আপনি আগে থেকেই জানতে পারবেন যে প্রতিটি রোগীকে তিনবার দেখা হবে। এটি আপনাকে সমস্ত সঠিক রেকর্ড এবং তাদের শনাক্তকারীদের কেবলমাত্র পূরণ করার অপেক্ষায় থাকা মানগুলির সাথে একটি ডেটাবেস তৈরি করতে সক্ষম করে given আপনাকে প্রদত্ত ডেটা পূরণ করুন এবং তারপরে নকল, বাদ দেওয়া এবং অপ্রত্যাশিত ডেটা পরীক্ষা করুন।
বিশ্লেষণের জন্য আপনি কীভাবে ডেটাসেট ফর্ম্যাট করার পরিকল্পনা করছেন তা বিবেচনা না করে সর্বদা আপনার ডেটা স্বাভাবিক করুন (বিশেষত এগুলি কমপক্ষে চতুর্থ সাধারণ ফর্মে আনুন )। এটি আপনাকে মডেলিংয়ের প্রতিটি স্বতন্ত্র স্বতন্ত্র সারণীর সারণী তৈরি করতে বাধ্য করে। (পরিবেশগত ক্ষেত্রে, এর মধ্যে নিরীক্ষণের অবস্থানের সারণী, নমুনা, রাসায়নিক (বৈশিষ্ট্য, সাধারণ রেঞ্জ ইত্যাদি), এই নমুনাগুলির পরীক্ষা (একটি পরীক্ষা সাধারণত রাসায়নিকের একটি স্যুটকে অন্তর্ভুক্ত করে) এবং সেই পরীক্ষাগুলির স্বতন্ত্র ফলাফল অন্তর্ভুক্ত থাকে। এর ফলে আপনি ডেটা গুণমান এবং ধারাবাহিকতার অনেক কার্যকর চেক তৈরি করেন এবং অনেকগুলি সম্ভাব্য অনুপস্থিত বা সদৃশ বা অসামঞ্জস্যপূর্ণ মানগুলি সনাক্ত করেন identify
এই প্রচেষ্টা (যার জন্য ভাল ডেটা প্রসেসিং দক্ষতার প্রয়োজন তবে সোজা হয়) আশ্চর্যজনকভাবে কার্যকর। আপনি যদি বৃহত বা জটিল ডেটাসেটগুলি বিশ্লেষণ করতে আগ্রহী হন এবং রিলেশনাল ডাটাবেসগুলি এবং তাদের তত্ত্ব সম্পর্কে ভাল কাজের জ্ঞান না পেয়ে থাকেন তবে যত তাড়াতাড়ি সম্ভব আপনার জিনিসগুলির তালিকায় যুক্ত করুন। এটি আপনার পুরো ক্যারিয়ার জুড়ে লভ্যাংশ প্রদান করবে।
আপনি যতটা সম্ভব সম্ভব সর্বদা যতগুলি "বোকা" চেক সঞ্চালন করুন । এগুলি সুস্পষ্ট বিষয়গুলির স্বয়ংক্রিয় যাচাইকরণ যেমন তারিখগুলি তাদের প্রত্যাশিত সময়কালের মধ্যে পড়ে, রোগীদের সংখ্যা (বা রাসায়নিক বা যে কোনও কিছু) সর্বদা সঠিকভাবে যুক্ত হয়, মানগুলি সর্বদা যুক্তিসঙ্গত হয় (যেমন, একটি পিএইচ অবশ্যই ০ থেকে ১৪ এর মধ্যে হতে পারে এবং হতে পারে ব্লাড পিএইচ রিডিং), ইত্যাদির জন্য অনেক সংকীর্ণ পরিসীমা এই যেখানে ডোমেন দক্ষতা সর্বাধিক সাহায্য হতে পারে: পরিসংখ্যানবিদ নির্ভীকভাবে বিশেষজ্ঞদের বোকা প্রশ্ন জিজ্ঞাসা করতে পারেন এবং ডেটা পরীক্ষা করার জন্য উত্তরগুলি কাজে লাগাতে পারেন।
আরও অনেক কিছু বলা যেতে পারে - বিষয়টি একটি বইয়ের পক্ষে মূল্যবান - তবে এটি ধারণাগুলি উদ্দীপনার জন্য পর্যাপ্ত পরিমাণে হওয়া উচিত।