ধারাবাহিকতা পরীক্ষা কি?


11

আমাকে এমন প্রশ্ন জিজ্ঞাসা করা হয়েছিল "" আপনি কি আপনার প্রতিদিনের কাজটিতে কোনও ধারাবাহিকতা পরীক্ষা করেছিলেন? " একটি বায়োস্টাটিস্টিয়ান পজিশনের জন্য একটি ফোন সাক্ষাত্কারের সময়। আমি কি উত্তর দিতে জানি না। কোন তথ্য প্রশংসা করা হয়।

উত্তর:


17

সিএলএল তালিকায়, যা স্পষ্ট ডাটা প্রসেসিং ত্রুটির উপরে আলোকপাত করে, আমি নিম্নলিখিত প্রশ্ন এবং সমস্যাগুলির সমাধানের জন্য সূক্ষ্ম ত্রুটির জন্য চেক যুক্ত করব (কোনও নির্দিষ্ট ক্রমে দেওয়া হয়নি এবং অবশ্যই অসম্পূর্ণ):

  1. ডাটাবেস অখণ্ডতা ধরে নেওয়া, তথ্য যুক্তিযুক্ত? তারা কি প্রত্যাশা বা প্রচলিত মডেলগুলির সাথে মোটামুটি মেনে চলে, বা তারা কি একইরকম ডেটার সাথে পরিচিত কাউকে অবাক করে দেবে?

  2. তথ্য কি অভ্যন্তরীণভাবে সামঞ্জস্যপূর্ণ? উদাহরণস্বরূপ, যদি একটি ক্ষেত্রের সাথে অন্য দু'জনের যোগফল হয় বলে মনে করা হয়, তাই না?

  3. ডেটা কতটা সম্পূর্ণ? তারা কি ডেটা সংগ্রহের পরিকল্পনার পর্যায়ে নির্দিষ্ট করা হয়েছিল? এমন কোনও অতিরিক্ত ডেটা রয়েছে যার জন্য পরিকল্পনা করা হয়নি? যদি তাই হয় তবে তারা সেখানে কেন?

  4. বেশিরভাগ বিশ্লেষণগুলি স্পষ্টভাবে বা স্পষ্টভাবে ডেটাটিকে একটি পার্সিমোনিয়াস উপায়ে মডেল করে এবং সাধারণ বিবরণ থেকে পরিবর্তনের সম্ভাবনা অন্তর্ভুক্ত করে। এই জাতীয় প্রতিটি মডেল বহিরাগতদের সনাক্ত করার জন্য নিজস্ব নিজস্ব উপায়ের পরামর্শ দেয় - এমন তথ্য যা সাধারণ বিবরণ থেকে উল্লেখযোগ্যভাবে বিচ্যুত হয়। অনুসন্ধান এবং বিশ্লেষণের প্রতিটি পর্যায়ে আউটলিয়ারদের সনাক্ত এবং বোঝার চেষ্টা করা হয়েছিল?

  5. অনেক ক্ষেত্রেই বিশ্লেষকের পক্ষে মান পরীক্ষা করা এবং অন্তর্দৃষ্টি জন্য বিশ্লেষণে অতিরিক্ত ডেটা প্রবর্তন করা সম্ভব। উদাহরণস্বরূপ, প্রাকৃতিক ও সামাজিক বিজ্ঞানের পাশাপাশি ব্যবসায় অনেকগুলি ডেটা সেটগুলিতে (অন্তত অন্তর্নিহিত) অবস্থানের তথ্য অন্তর্ভুক্ত থাকে: আদমশুমারি অঞ্চলগুলির সনাক্তকারী; দেশ, রাজ্য, কাউন্টির নাম; গ্রাহক জিপ কোড; ইত্যাদি। এমনকি যদি - সম্ভবত বিশেষত - স্থানিক পারস্পরিক সম্পর্কটি ইডিএ বা মডেলিংয়ের উপাদান না হয় তবে বিশ্লেষক লোকেশনগুলির ভৌগলিক উপস্থাপনায় ডেটাতে যোগ দিতে পারেন এবং নিদর্শন এবং বহিরাগতদের সন্ধানের জন্য তাদের ম্যাপ করতে পারেন।

  6. বিশ্লেষণের মধ্যে সবচেয়ে কুত্সিত ত্রুটিগুলির একটি যা ডেটা হারাতে পারে। ক্ষেত্রগুলি বের করার সময়, সংক্ষিপ্তসার ডেটা, পুনরায় ফর্ম্যাট করা ডেটাসেটস ইত্যাদি, তবে মাঝেমধ্যে গুরুত্বপূর্ণ কিছু হারিয়ে যায়, যদি তা কখনও আবিষ্কার হয় তবে তার চরম বিব্রত হয়। সাধারণ পরীক্ষাগুলি - যেমন গণনা করার আগে ও পরে তুলনা করা এবং মোট ডেটা - এই জাতীয় জিনিসগুলির বিরুদ্ধে রক্ষা করার জন্য নিয়মিত ঘটতে হবে।

  7. আরেকটি প্রতারণামূলক ত্রুটি ডিজিটাল কম্পিউটিংয়ে টাইপ রূপান্তরটির সাথে জড়িত। উদাহরণস্বরূপ, সম্প্রতি আমাকে একটি ভাসমান পয়েন্ট ক্ষেত্রের বাইরে একটি কী (দুটি ডেটা ফাইলের মিলের জন্য) তৈরি করতে হয়েছিল। সফ্টওয়্যার (স্টাটা) এক ফাইলটিতে একক নির্ভুলতা হিসাবে ফিল্ডটি আমদানি করে, যে কোনও কারণেই, অন্য কোনও ফাইলে ডাবল নির্ভুলতা হিসাবে ভাসমান। বেশিরভাগ সময় মানগুলি মিলে যায় তবে কয়েকটি ক্ষেত্রে বিভিন্ন রাউন্ডিংয়ের কারণে তারা তা পায় নি। ফলস্বরূপ কিছু ডেটা হারিয়ে গেছে। আমি কেবল এটি (6) এর প্রয়োগের কারণে ধরেছিলাম। সাধারণভাবে, এটি ক্ষেত্রের ডেটা ধরণের ধারাবাহিকতা পরীক্ষা করার জন্য অর্থ প্রদান করে: ইনট বনাম ভাসমান, দৈর্ঘ্যের স্ট্রিং ইত্যাদি ts

  8. বিশ্লেষণের যে কোনও পর্যায়ে যদি কোনও স্প্রেডশিটটি সর্বদা ব্যবহৃত হয় তবে সবচেয়ে খারাপ আশা করুন। সমস্যাটি হ'ল এমনকি কোনও বিপথগামী কীস্ট্রোকও অদৃশ্যভাবে ডেটাটিকে দূষিত করতে পারে। ফলাফলগুলি সমালোচনামূলক হলে, এটি পিছনে পিছনে যেতে অর্থ প্রদান করে - স্প্রেডশীটে রফতানি করা, বিশ্লেষণ করুন, ফিরে আমদানি করুন এবং পদ্ধতিগতভাবে তুলনা করুন - যাতে কোনও অনাকাঙ্ক্ষিত ঘটনা ঘটে না তা নিশ্চিত করে।

  9. যখনই কোনও ডেটাবেস আপডেট করা হয়, প্রসেসে কোনও কিছুই ক্ষতিগ্রস্ত, পরিবর্তিত বা দুর্নীতিগ্রস্থ হয়নি তা নিশ্চিত করার জন্য পুরানোটির সাথে পদ্ধতিবদ্ধ, সম্পূর্ণ তুলনা করা সার্থক worth

  10. উচ্চতর স্তরে, যখনই কোনও অনুমান করা হয় (যেমন একটি রিগ্রেশন, পিসিএ, যাই হোক না কেন) সংবেদনশীলতা বা কোডে এমনকি সম্ভাব্য ত্রুটিগুলি যাচাই করার জন্য এটি একটি ভিন্ন কৌশল ব্যবহার করে এটি সম্পাদন করা সার্থক হতে পারে। উদাহরণস্বরূপ, শক্তিশালী রিগ্রেশন কিছু ফর্ম দ্বারা একটি ওএলএস রিগ্রেশন অনুসরণ করুন এবং সহগের সাথে তুলনা করুন। গুরুত্বপূর্ণ ফলাফলের জন্য, দুটি (বা আরও) বিভিন্ন সফ্টওয়্যার প্ল্যাটফর্ম ব্যবহার করে উত্তরগুলি পাওয়া সান্ত্বনাজনক হতে পারে।

সম্ভবত যে কোনও "সাধারণ ধারাবাহিকতা পরীক্ষা" যে কেউ করতে পারে তা হ'ল প্রথম এবং প্রায়শই সমস্ত কিছু গ্রাফ করা।


8

আমি মনে করি এটি ডেটা অখণ্ডতা সম্পর্কে কোয়ালিটি কন্ট্রোলের কিছু ফর্মের সাথে সম্পর্কিত এবং আরও বিশেষভাবে আপনি নিয়মিত যাচাই করে দেখেন যে আপনার কার্যকরী ডাটাবেসটি দুর্নীতিগ্রস্থ নয় (স্থানান্তর, অনুলিপি করার সময় ত্রুটির কারণে বা কোনও আপডেট বা স্যানিটি চেকের পরে)। এর অর্থ এটিও হতে পারে যে আপনার মধ্যবর্তী গণনাটি ডাবল-চেক হয়েছে (ম্যানুয়ালি বা আপনার পরিসংখ্যান সংক্রান্ত সফ্টওয়্যারটিতে অতিরিক্ত কোড বা ম্যাক্রোর মাধ্যমে)।

অন্যান্য তথ্য এখানে পাওয়া যেতে পারে: ইএমইএ থেকে ভাল ক্লিনিকাল অনুশীলন সম্পর্কিত গাইডলাইন, ভাল ক্লিনিকাল ল্যাবরেটরি অনুশীলনের গাইডলাইনস , বা ক্লিনিকাল গবেষণা অধ্যয়ন তদন্তকারী এর টুলবক্স সম্পর্কিত আইসিএইচ E6 (আর 1) রেফারেন্স গাইড ।


1

অন্যান্য ভাল পয়েন্ট যোগ করতে

এক্সেল ব্যবহার করার সময়, আমি সর্বদা প্রতিটি লাইনের প্রথম কলাম হিসাবে একটি কেস নম্বর উত্পন্ন করি, এটি পরে শেষ কলামে অনুলিপি করা হয়। আপনি যদি এগুলি সমস্ত নির্বাচন করতে যত্নবান না হন তবে বিশৃঙ্খলা সৃষ্টি করে অ্যাক্সেল একসাথে মাত্র কয়েকটি কলামগুলি বাছাই করতে বেশ খুশি মনে হচ্ছে। আপনার এমনকি সচেতন হতে পারে না যে এটি ঘটেছে। কোনও লাইনের প্রথম এবং শেষ কলামগুলিতে কেস নম্বরগুলি সম্মত তা পরীক্ষা করতে সক্ষম হওয়াই একটি দরকারী সতর্কতা।

আমি সর্বদা প্রবাসীদের পর্যালোচনা করি।

সমালোচনামূলক কাজের জন্য পৃথক ব্যক্তিদের দ্বারা ডেটা ডাবল প্রবেশের প্রস্তাব দেওয়া হয়।

কাগজ নথি থেকে ডেটা প্রবেশ করার সময়, কোনও রেফারেন্স আইডেন্টিফায়ার ব্যবহার করে সঠিক নথি এবং লাইনটি প্রবেশ করানো হয়েছে যা থেকে প্রবেশ করে, ডাটা এন্ট্রি ফর্মগুলির সংখ্যায়ন এটির সাথে সহায়তা করে বলে মনে করা ভাল idea

সম্পাদনা করুন - অন্য আইটেম - আমি জানি যে স্প্রেডশিট সম্পাদনা করা সমস্যায় ভরা, তবে তাদের সাথে ডেটা এন্ট্রি পরিষ্কার করা আরও সহজ। তবে, আমি আসল সংস্করণহীন সংস্করণটিও রাখি, যাতে কোনও পরিবর্তন যাচাই করা যায় বা সবচেয়ে খারাপ ক্ষেত্রে পুনরুদ্ধার করা যায়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.