কোয়ালিটি আশ্বাস এবং কোয়ালিটি কন্ট্রোল (কিউএ / কিউসি) একটি ডাটাবেসের জন্য নির্দেশিকা


18

পটভূমি

আমি প্রাথমিক সাহিত্য থেকে ডেটাবেসে ডেটা ইনপুট পর্যবেক্ষণ করছি । ডেটা এন্ট্রি প্রক্রিয়া ত্রুটিযুক্ত প্রবণ, বিশেষত কারণ ব্যবহারকারীদের পরীক্ষামূলক নকশাটি ব্যাখ্যা করতে হবে, গ্রাফিক্স এবং টেবিলগুলি থেকে ডেটা বের করতে হবে এবং ফলাফলকে মানকীকৃত ইউনিটে রূপান্তর করতে হবে।

ওয়েব ইন্টারফেসের মাধ্যমে ডেটা মাইএসকিউএল ডাটাবেসে ইনপুট হয়। এখনও পর্যন্ত 20 টি ভেরিয়েবল,> 100 প্রজাতি এবং> 500 টি উদ্ধৃতি থেকে 10 কেও বেশি ডেটা পয়েন্ট অন্তর্ভুক্ত করা হয়েছে। আমার কেবলমাত্র পরিবর্তনশীল ডেটা নয়, পাশাপাশি অনুসন্ধানের টেবিলগুলিতে থাকা ডেটা, যেমন প্রতিটি ডেটা পয়েন্টের সাথে সম্পর্কিত প্রজাতি, গবেষণার অবস্থান ইত্যাদির মানের চেক চালানো দরকার etc.

ডেটা এন্ট্রি চলছে, তাই কিউএ / কিউসি মাঝেমধ্যে চালানো দরকার। ডেটা এখনও প্রকাশ্যে প্রকাশ করা হয়নি, তবে আমরা আগামী কয়েক মাসের মধ্যে এগুলি প্রকাশের পরিকল্পনা করছি।

বর্তমানে, আমার কিউএ / কিউসি তিনটি পদক্ষেপ জড়িত:

  1. দ্বিতীয় ব্যবহারকারী প্রতিটি ডাটা পয়েন্ট পরীক্ষা করে।
  2. আউটলিয়ারদের জন্য প্রতিটি পরিবর্তনশীল হিস্টোগ্রামটি দৃশ্যত পরিদর্শন করুন।
  3. উত্সাহজনক ফলাফল পাওয়ার পরে ব্যবহারকারীরা সন্দেহজনক ডেটা রিপোর্ট করে।

প্রশ্নাবলি

  1. এই ডাটাবেসের জন্য একটি শক্তিশালী কিউএ / কিউসি পদ্ধতি বিকাশের জন্য আমি কী নির্দেশিকা ব্যবহার করতে পারি?
  2. প্রথম পদক্ষেপটি সবচেয়ে বেশি সময় ব্যয়কারী; এটিকে আরও দক্ষ করার জন্য আমি কি কিছু করতে পারি?

1
এখানে পাঠকরাও নিম্নলিখিত থ্রেডটিতে আগ্রহী হবেন: প্রয়োজনীয় ডেটা চেকিং পরীক্ষা
গুং - মনিকা পুনরায়

উত্তর:


25

এই প্রতিক্রিয়াটি দ্বিতীয় প্রশ্নের উপরে কেন্দ্রীভূত হয়, তবে প্রক্রিয়াটিতে প্রথম প্রশ্নের একটি আংশিক উত্তর (একটি QA / QC পদ্ধতির দিকনির্দেশ) প্রকাশিত হবে।

এখন পর্যন্ত আপনি যে সর্বোত্তম কাজটি করতে পারেন তা হ'ল প্রবেশের চেষ্টা করার সময় ডেটার গুণমানটি পরীক্ষা করা। ব্যবহারকারীর চেক এবং রিপোর্টগুলি শ্রম-নিবিড় এবং তাই প্রক্রিয়াতে পরবর্তী সময়ের জন্য সংরক্ষণ করা উচিত, যতটা সম্ভব অনুশীলনযোগ্য।

বিস্তৃত অভিজ্ঞতা থেকে প্রাপ্ত কিছু নীতি, নির্দেশিকা এবং পরামর্শগুলি এখানে রয়েছে (আপনার সাথে তুলনীয় এবং অনেক বড় ডেটাবেস ডিজাইন এবং তৈরি সহ)। এগুলি বিধি নয়; সফল এবং দক্ষ হতে আপনাকে তাদের অনুসরণ করতে হবে না; তবে তারা সর্বোত্তম কারণেই এখানে আছেন এবং এগুলি থেকে বিচ্যুত হওয়ার বিষয়ে আপনার কঠোর চিন্তা করা উচিত।

  1. সমস্ত বৌদ্ধিকভাবে দাবি করা ক্রিয়াকলাপ থেকে ডেটা এন্ট্রি পৃথক করুন । ডেটা এন্ট্রি অপারেটরগুলিকে একসাথে কিছু পরীক্ষা করতে, কোনও কিছু গণনা করতে বলুন না their তাদের কাজকে ডেটা কম্পিউটারে পঠনযোগ্য ফ্যাসিমিলি তৈরি করতে সীমাবদ্ধ রাখুন, আরও কিছু নয়। বিশেষত, এই নীতিটি বোঝায় যে ডেটা-এন্ট্রি ফর্মগুলির এমন ফর্ম্যাটটি প্রতিবিম্বিত করা উচিত যেখানে আপনি মূলত ডেটা সংগ্রহ করেন, আপনি যে ফর্ম্যাটটিতে ডেটা সংরক্ষণের পরিকল্পনা করছেন তা নয় not এটি পরে এক ফর্ম্যাটকে অন্যটিতে রূপান্তর করা তুলনামূলকভাবে সহজ তবে ডেটা প্রবেশের সময় ফ্লাইতে রূপান্তর চেষ্টা করার জন্য এটি একটি ত্রুটি-প্রবণ প্রক্রিয়া।

  2. ডেটা অডিটের ট্রেইল তৈরি করুন : যখনই ডেটা এন্ট্রি পর্যায়ে শুরু করে যখনই ডেটাতে কিছু করা হয়, তখন এটি নথিভুক্ত করুন এবং পদ্ধতিটি এমনভাবে রেকর্ড করুন যাতে ফিরে যাওয়া এবং কী ভুল হয়েছে তা যাচাই করা সহজ হয় (কারণ জিনিসগুলি ভুল হবে)। টাইম স্ট্যাম্প, ডেটা এন্ট্রি অপারেটরগুলির শনাক্তকারী, মূল ডেটার জন্য উত্সগুলির সনাক্তকারী (যেমন প্রতিবেদন এবং তাদের পৃষ্ঠা নম্বর) ইত্যাদির জন্য ক্ষেত্রগুলি পূরণ করার কথা বিবেচনা করুন Storage সঞ্চয়স্থান সস্তা, তবে কোনও ত্রুটি সনাক্ত করার সময় ব্যয়বহুল।

  3. সবকিছু স্বয়ংক্রিয় করুন ধরুন যে কোনও পদক্ষেপের পুনরায় কাজ করতে হবে (মারফির আইন অনুসারে সবচেয়ে খারাপ সময়ে) এবং সে অনুযায়ী পরিকল্পনা করুন। হাতে কয়েকটি "সাধারণ পদক্ষেপ" করে এখনই সময় বাঁচানোর চেষ্টা করবেন না।

  4. বিশেষত, ডেটা এন্ট্রির জন্য সমর্থন তৈরি করুন : প্রতিটি টেবিলের জন্য একটি ফ্রন্ট এন্ড তৈরি করুন (এমনকি কোনও স্প্রেডশিটও ভালভাবে করতে পারে) যা তথ্য পাওয়ার জন্য একটি পরিষ্কার, সাধারণ, অভিন্ন পদ্ধতি সরবরাহ করে the একই সাথে সামনের প্রান্তটি আপনার "ব্যবসায়ের প্রয়োগ করতে হবে" নিয়ম: "এটি, এটি যতটা সহজ বৈধতা যাচাই করতে পারে তার চেক করা উচিত। (উদাহরণস্বরূপ, পিএইচ অবশ্যই 0 এবং 14 এর মধ্যে হওয়া উচিত; গণনাগুলি অবশ্যই ইতিবাচক হওয়া উচিত)) আদর্শভাবে, আপেক্ষিক অখণ্ডতা পরীক্ষাগুলি প্রয়োগ করার জন্য একটি ডিবিএমএস ব্যবহার করুন (উদাহরণস্বরূপ, একটি পরিমাপের সাথে যুক্ত প্রতিটি প্রজাতি সত্যই ডাটাবেসে উপস্থিত থাকে)।

  5. প্রতিনিয়ত কিছু গণনা এবং চেক করুন যে গন্য ঠিক একমত। উদাহরণস্বরূপ, যদি কোনও গবেষণায় 10 প্রজাতির বৈশিষ্ট্যগুলি পরিমাপ করার কথা মনে করা হয়, তবে নিশ্চিত করুন (ডেটা এন্ট্রি সম্পূর্ণ হওয়ার সাথে সাথে) যে 10 প্রজাতির সত্যই রিপোর্ট করা হয়েছে। যদিও গণনাগুলি পরীক্ষা করা সহজ এবং তথ্যহীন, তবে এটি সদৃশ এবং বাদ দেওয়া ডেটা সনাক্তকরণে দুর্দান্ত।

  6. যদি ডেটা মূল্যবান এবং গুরুত্বপূর্ণ হয় তবে সম্পূর্ণ ডেটাসেটকে স্বতন্ত্রভাবে ডাবল-প্রবেশ করান বিবেচনা করুন । এর অর্থ হ'ল প্রতিটি আইটেম পৃথক সময়ে দু'জন পৃথক-অ-কথোপকথনের দ্বারা প্রবেশ করা হবে। এটি টাইপস, নিখোঁজ ডেটা এবং আরও অনেক কিছু ধরার দুর্দান্ত উপায়। ক্রস চেকিং সম্পূর্ণ স্বয়ংক্রিয়ভাবে করা যেতে পারে। এটি দ্রুত, ত্রুটিগুলি ধরা আরও ভাল, এবং 100% ম্যানুয়াল ডাবল চেকিংয়ের চেয়ে আরও কার্যকর। (ডেটা এন্ট্রি "লোক" ওসিআর সহ স্ক্যানারগুলির মতো ডিভাইসগুলিকে অন্তর্ভুক্ত করতে পারে))

  7. ডেটা সঞ্চয় এবং পরিচালনা করতে একটি ডিবিএমএস ব্যবহার করুন । ডেটা এন্ট্রি সমর্থন করার জন্য স্প্রেডশিট দুর্দান্ত, তবে স্প্রেডশিট বা টেক্সট ফাইল থেকে আপনার ডেটা এবং যত তাড়াতাড়ি সম্ভব একটি বাস্তব ডাটাবেসে প্রবেশ করুন। স্বয়ংক্রিয় ডেটা অখণ্ডতা পরীক্ষার জন্য প্রচুর সমর্থন যোগ করার সময় এটি সমস্ত ধরণের কুখ্যাত ত্রুটিগুলি প্রতিরোধ করে। আপনার অবশ্যই যদি ডেটা সঞ্চয় এবং পরিচালনা করার জন্য আপনার পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার ব্যবহার করেন তবে একটি ডেডিকেটেড ডিবিএমএস ব্যবহার করার জন্য গুরুত্ব সহকারে বিবেচনা করুন: এটি আরও ভাল কাজ করবে।

  8. সমস্ত ডেটা প্রবেশ ও স্বয়ংক্রিয়ভাবে চেক করার পরে ছবিগুলি আঁকুন : সাজানো টেবিল, হিস্টোগ্রাম, স্ক্যাটারপ্লট ইত্যাদি তৈরি করুন এবং সেগুলি দেখুন look এগুলি যে কোনও পরিপূর্ণ পরিসংখ্যানের প্যাকেজ সহ সহজেই স্বয়ংক্রিয় হয়।

  9. কম্পিউটারেরা যে পুনরাবৃত্ত কাজগুলি করতে পারে তা করতে লোকদের বলবেন না । কম্পিউটারগুলি এগুলিতে অনেক দ্রুত এবং আরও নির্ভরযোগ্য। তাত্ক্ষণিকভাবে সম্পন্ন করা যায় না এমন কোনও কাজ করার জন্য ছোট স্ক্রিপ্ট এবং ছোট প্রোগ্রাম লেখার (এবং ডকুমেন্টিং) অভ্যাসে প্রবেশ করুন। এগুলি আপনার নিরীক্ষণের ট্রেইলের অংশে পরিণত হবে এবং এগুলি সহজেই কাজ আবার করাতে সক্ষম করবে। আপনি যে প্ল্যাটফর্মের সাথে স্বাচ্ছন্দ্য বোধ করবেন তা ব্যবহার করুন এবং এটি কার্যক্রমে উপযুক্ত। (কয়েক বছর ধরে, যা উপলভ্য ছিল তার উপর নির্ভর করে, আমি এ জাতীয় প্ল্যাটফর্মগুলির বিস্তৃত ব্যবহার করেছি এবং সবগুলি তাদের পথে কার্যকর হয়েছে, এডাব্লুকে এবং এসইডি স্ক্রিপ্টস, এক্সেল এবং ওয়ার্ডের জন্য ভিবিএ স্ক্রিপ্ট এবং কাস্টম এর মাধ্যমে সি এবং ফোর্টরান প্রোগ্রামগুলি থেকে শুরু করে রিলেশনাল ডাটাবেস সিস্টেম, জিআইএস এবং আর এবং স্টাটার মতো পরিসংখ্যান বিশ্লেষণ প্ল্যাটফর্মের জন্য রচিত প্রোগ্রামগুলি))

আপনি যদি এই নির্দেশিকাগুলির বেশিরভাগটি অনুসরণ করেন তবে ডেটাবেজে ডেটা আনার ক্ষেত্রে প্রায় 50% -80% কাজ হ'ল ডাটাবেস ডিজাইন এবং সহায়ক স্ক্রিপ্টগুলি লেখা। এই জাতীয় প্রকল্পের মাধ্যমে 90% পাওয়া এবং 50% এর চেয়ে কম সম্পূর্ণ হওয়া অস্বাভাবিক কিছু নয়, তবুও সময়মতো শেষ করুন: একবার সবকিছু সেট আপ হয়ে গেলে এবং এটি পরীক্ষা করা হয়ে গেলে ডেটা এন্ট্রি এবং চেকিং আশ্চর্যরকম কার্যকর হতে পারে।


4
ঠিক আছে, আমি এই উত্তরটির প্রেমে পড়েছি। আমি জোর দিয়ে বলতে চাই যে, নিম্নলিখিত পয়েন্টে, আপনার চেকগুলি সহজ রাখা উচিত - আপনার ডেটা-লোকেরা প্রবেশ করতে সক্ষম হওয়া উচিত তবে আপনি যা বলতে পারবেন না এমন সত্যিকারের ডেটাতে প্রায়শই সামান্য অসঙ্গতি রয়েছে। উদাহরণস্বরূপ, আমি নিশ্চিত করি যে তারিখগুলি তারিখ হিসাবে প্রবেশ করা হয়েছে; তবে আমি তারিখের সীমা সম্পর্কে কঠোর নিয়ম থাকা বন্ধ করে দিয়েছি এবং তার পরিবর্তে প্রতিবেদন সহ এটি পরীক্ষা করে দেখেছি এবং ডেটা এন্ট্রি করেছে এমন কারও সাথে সীমাবদ্ধ মানগুলি অনুসরণ করে।
ম্যাট পার্কার

5
কাউকে এমন কোনও মান enteringোকানো থেকে বিরত করা যা তারা সঠিক বলে বিশ্বাস করে এটি সনাক্তকরণ এবং তদন্ত করার চেয়ে আরও ত্রুটি প্রবর্তন করতে পারে।
ম্যাট পার্কার

+1, দুর্দান্ত উত্তর। আমি ম্যাট এর সাথে একমত, আমিও এই উত্তরটি ভালবাসি :)
এমপিটকাস

1
@ ম্যাট ভাল পয়েন্ট, উভয়। আমি পুরোপুরি একমত. প্রথমটির বিষয়ে, একটি ভাল পদ্ধতির মধ্যে ডেটাটির একটি ছোট প্রতিনিধি সাবসেটে ডেটা প্রবেশের পদ্ধতিগুলি পরীক্ষা করা এবং উত্থাপিত সমস্ত সমস্যা সম্পর্কে পুঙ্খানুপুঙ্খভাবে নজর দেওয়া। এটি সম্ভবত আসতে পারে এমন সমস্ত বিষয়কে সম্বোধন করবে না, তবে এটি বেশিরভাগ প্রধান সমস্যাগুলি শুরুর দিকে শনাক্ত করে এবং আপনাকে সেগুলি কার্যকরভাবে মোকাবেলা করতে দেয়।
whuber

2
এই তথ্য হিসাবে যুক্ত করা এক জায়গায় দরকারী। 1. মেটা ডেটা রয়েছে এমন একটি বিজনেস রুলস ডকুমেন্ট তৈরি করুন। বয়সের মত উদ্ভাসিত ভেরিয়েবল উত্পাদন করতে ব্যবহৃত বিধি সহ। ২. এটি যদি বিশেষত কোনও প্রশাসনিক ডাটাবেস হয় তবে ধরে নিন যে সময়ের সাথে সাথে ভেরিয়েবলগুলি পরিবর্তিত হবে, যেমন নতুন কোড যুক্ত করা হয়েছে। মেটাডেটাতে, পরিবর্তনটি কখন ঘটেছিল তা ব্যাখ্যা করুন এবং এটি যে কোনও সময়ের সিরিজের কাজকে কীভাবে প্রভাবিত করতে পারে। ৩. সময়ের সাথে সাথে ডেটাবেস যুক্ত করা হবে, ডাটাবেসে তারিখ এবং সময় স্ট্যাম্প পরিবর্তন।
মিশেল

3

ডেটাঅন ডেটা ম্যানেজমেন্টের সর্বোত্তম অনুশীলনের একটি সহায়ক সেট সরবরাহ করে যা ট্যাগ দ্বারা ফিল্টার করা যায়। "গুণমান" দিয়ে ট্যাগ করা সেরা অনুশীলনগুলি, http://www.dataone.org/best-practices/quality এ পাওয়া গেছে , @Whuber দ্বারা তৈরি অনেকগুলি পয়েন্ট পুনরাবৃত্তি এবং প্রসারিত। এখানে বর্ণিত বিষয়গুলির একটি তালিকা এখানে রয়েছে (বর্ণানুক্রমিক ক্রমে):

  • তথ্য মানের যোগাযোগ
  • ডেটা এবং মেটাডেটাতে তাদের বর্ণনার মধ্যে একটি ম্যাচ নিশ্চিত করুন
  • আপনি সংহত করছেন এমন ডেটাগুলির সামঞ্জস্যতা বিবেচনা করুন
  • একটি মানের নিশ্চয়তা এবং মান নিয়ন্ত্রণের পরিকল্পনা তৈরি করুন
  • আপনার প্রবেশ করা ডেটাটি ডাবল-চেক করুন
  • বেসিক মান নিয়ন্ত্রণ নিশ্চিত করুন ure
  • ডেটা ব্যাকআপ নেওয়ার সময় অখণ্ডতা এবং অ্যাক্সেসযোগ্যতা নিশ্চিত করুন
  • আউটলিয়ারদের সনাক্ত করুন
  • অনুমান করা মানগুলি সনাক্ত করুন
  • ব্যবহার এবং আবিষ্কারের জন্য সংস্করণ তথ্য সরবরাহ করুন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.