যে কোনও ডেটা সেট করে আপনি করতে পারেন এমন বেসিক জিনিস রয়েছে:
- মানগুলি বৈধ করুন (স্ট্রিং দৈর্ঘ্যের সহনশীলতা, ডাটা টাইপ, ফর্ম্যাটিং মাস্কস, প্রয়োজনীয় ক্ষেত্রের উপস্থিতি ইত্যাদি))
- ব্যাপ্তি শুদ্ধতা (মানগুলির প্রত্যাশিত ব্যাপ্তির মধ্যে এটি কি আপাতদৃষ্টিতে সঠিক তথ্য দেয়)
- প্রাথমিক প্রক্রিয়াজাতকরণ (যদি আমি এই ডেটাটি বিশ্লেষণ করার চেষ্টা করি তবে আমি কি ত্রুটিগুলি না নিয়েই বেসিকগুলি সম্পাদন করতে পারি)
- প্রাথমিক প্রতিবেদন (একটি ডেটা সেটের বিরুদ্ধে একটি প্রতিবেদন চালান এবং নিশ্চিত করুন যে এটি একটি বিড়ম্বনা পরীক্ষায় পাস করেছে)
- নাল বনাম খালি বনাম শূন্য বনাম কোনও ডেটা দেওয়া কলামের জন্য মিথ্যা সংজ্ঞা দেওয়া হচ্ছে
- স্থানের বাইরে থাকা ডেটা সনাক্তকরণ (একটি ডেটা সেটের অন্যান্য মানগুলির তুলনায় সাংখ্যিক মানগুলি নাটকীয়ভাবে পৃথক, স্ট্রিং মানগুলি দেখতে মনে হচ্ছে যে তারা ভুল বানানযুক্ত হতে পারে ইত্যাদি))
- স্পষ্টত ভ্রান্ত তথ্য মুছে ফেলা বা সংশোধন করা
ত্রুটিগুলি সনাক্ত করতে ডেটা বোঝা সম্পূর্ণ ভিন্ন বলের খেলা এবং এটি খুব গুরুত্বপূর্ণ।
উদাহরণস্বরূপ, আপনার একটি নিয়ম থাকতে পারে যা বলে যে একটি ক্রমিক নম্বর অবশ্যই একটি প্রদত্ত ডেটা সেটে উপস্থিত থাকতে হবে এবং সেই ক্রমিক সংখ্যাটি অবশ্যই 255 দৈর্ঘ্যের এবং সর্বনিম্ন স্ট্রিং দৈর্ঘ্যের 5 দ্বারা দৈর্ঘ্যযুক্ত হতে হবে।
ডেটা দেখে আপনি একটি নির্দিষ্ট ক্রমিক সংখ্যার মান পড়তে পারেন "PLEASE ENTER SERIAL"
এটি পুরোপুরি বৈধ, তবে ভুল।
এটি প্রকৃতির এক প্রকারের, তবে বলুন যে আপনি স্টক ডেটা প্রক্রিয়াকরণ করছেন এবং আপনার এক হাজার ডলারের অধীনে থাকা 1000 স্টকের দামের সীমা ছিল। অনেক লোক জানেন না যে এত কম শেয়ারের মূল্য নির্দিষ্ট এক্সচেঞ্জগুলিতে অবৈধ এবং অন্যের জন্য পুরোপুরি বৈধ। আপনি যা দেখছেন তা সমস্যাযুক্ত কিনা তা বোঝার জন্য আপনার ডেটা সম্পর্কে আপনার জ্ঞান প্রয়োজন।
বাস্তব বিশ্বে আপনার কাছে সবসময় আপনার ডেটা অন্তরঙ্গভাবে বোঝার বিলাসিতা থাকে না।
আমি যেভাবে সমস্যাগুলি এড়াচ্ছি তা হল আমার চারপাশের লোকদের উপকার করা। ছোট ডেটা সেটগুলির জন্য, আমি কাউকে সম্পূর্ণরূপে ডেটা পর্যালোচনা করতে বলতে পারি। বড়দের জন্য, এলোমেলো নমুনার একটি সেট টানতে এবং ডেটাতে স্যানিটি পরীক্ষা করার জন্য কাউকে জিজ্ঞাসা করা আরও উপযুক্ত।
তদ্ব্যতীত, তথ্যের উত্সটি এবং সেই ডেটা উত্সটি কতটা বিশ্বাসযোগ্য হতে পারে তা প্রশ্ন করা জরুরি। আমার কাছে প্রায়শই ডেটার একাধিক বিরোধী উত্স থাকে এবং আমরা "সত্যের উত্স" নির্ধারণের জন্য বিধি তৈরি করি। কখনও কখনও একটি ডেটা সেটে প্রদত্ত দিকটিতে দুর্দান্ত ডেটা থাকে তবে অন্যান্য ডেটা সেট অন্যান্য ক্ষেত্রে আরও শক্তিশালী।
ম্যানুয়ালি প্রবেশ করা ডেটা হ'ল সাধারণত আমি যা সম্পর্কে সন্দিহান, তবে কিছু ক্ষেত্রে এটি অটোমেশনের মাধ্যমে অর্জন করা যায় এমন কোনও কিছুর চেয়ে শক্তিশালী।