সাধারণ সমস্যা হ'ল ডেটা ক্লিনজিং নামক প্রোগ্রামিংয়ের পুরো সুবারিয়া যা ডেটা ইন্টিগ্রেশন নামে পরিচিত বৃহত্তর সাবারিয়ার একটি অংশ । এক্সেল শিটগুলি থেকে স্থানান্তরিত হওয়ার কারণ এবং সিনিয়র দেব কোনও ক্ষেত্রকে কেন অযোগ্য হওয়ার অনুমতি দিতে চান না, এর কারণগুলির একটি বড় অংশ সম্ভবত এ জাতীয় সমস্যা এড়ানো উচিত। ডেটা মাইগ্রেশনে জটিলতার বৃহত উত্সগুলির মধ্যে এটি অন্যতম বলে আমি অযৌক্তিক বলে মনে করি না।
আপনি যখনই সম্ভবত খুব বেশি ভুল কাজটি করতে পারেন তখন কেবল NUL ব্যবহার করার জন্য বেছে নেওয়া, আরও বেশি ক্ষেত্রকে অবিচল করতে ডেটা মডেলটি পরিবর্তন করতে দেওয়া যাক। এক্সেলের দুর্বল বা কোনও সততা যাচাই নেই যা সম্ভবত এই সমস্যার কারণ হতে পারে। ভুল কাজটি হ'ল নতুন ডাটাবেসে সততা যাচাই সরিয়ে এবং এতে আবর্জনা ফেলে দেওয়া। এটি কেবল সমস্যাটিকে স্থায়ী করে এবং ভবিষ্যতের সংহতগুলিতে উল্লেখযোগ্য জটিলতা যুক্ত করে যা কোনওরকমে অযৌক্তিক ডেটা নিয়ে কাজ করতে হয়।
কিছুটা পার্থক্য সম্ভবত ডেটা মডেলের মিল নয় to এটির সাথে লেনদেন করা মূলত উভয় ডেটা মডেলের সাথেই (ঘনিষ্ঠভাবে) পরিচিত হওয়া এবং কীভাবে পুরানোটিকে নতুনটিতে মানচিত্র করা যায় তা জেনে রাখা বিষয় is যতক্ষণ না নতুন এটি পুরানোটিকে ক্যাপচার করতে সক্ষম। (যদি তা না হয় তবে আপনার দলে সম্ভবত খুব বড় সমস্যা রয়েছে)) এটি সহজেই কলাম অনুলিপি করার চেয়ে আরও বেশি কাজ করার প্রয়োজন হতে পারে। ডার্কউইং এর একটি দুর্দান্ত উদাহরণ দেয় (পাশাপাশি কেন অন্ধভাবে NUL গুলি serোকানো ভুল জিনিস)) এটি উপর elaborating, যদি পুরাতন মডেল একটি ছিল ReceivedDate
এবং InProgress
বিট এবং নতুন মডেল একটি হয়েছে StartDate
এবং ProcessingEndTime
, আপনি যদি এবং সেট কিভাবে সিদ্ধান্ত নিতে হবে ProcessingEndTime
। এটি কীভাবে ব্যবহৃত হবে তার উপর নির্ভর করে একটি যুক্তিসঙ্গত (তবে স্বেচ্ছাচারী) পছন্দ হতে পারে এটির মতো হতে পারে setStartDate
(বা খুব শীঘ্রই যদি এটি সমস্যার কারণ হয়ে থাকে)।
যাইহোক, কিছু পার্থক্য সম্ভবত ডেটাগুলির কারণে রয়েছে যা "অনুপস্থিত" থাকা উচিত যা অনুপস্থিত বা দূষিত রয়েছে। (সম্ভবত ডেটা এন্ট্রি ত্রুটিগুলি বা ডাটা প্রসেসিং সিস্টেমে অতীতের স্থানান্তর বা ত্রুটিযুক্তভাবে পরিচালনা করা সমস্যা থেকে সম্ভবত সমস্যা সমাধান করা যায়)) আপনার দলের কেউ যদি এটির আগেও প্রত্যাশিত না হন তবে আপনি (সম্মিলিতভাবে) প্রকল্পের 20% সময় ব্যয় করার জন্য নিজেকে প্রস্তুত করেছেন " প্রায় শেষ. (এটি একটি তৈরি আপ সংখ্যা ছিল, তবে এটি অনেক দূরে হতে পারে)এর চেয়ে খারাপ বা আরও ভাল। এটি নির্ভর করে যে কতটা ডেটা ভুল, এটি কতটা গুরুত্বপূর্ণ, কতটা জটিল, তথ্যের জন্য দায়বদ্ধ ব্যক্তিদের থেকে জড়িত হওয়া কতটা সহজ on সেখানে "তবে অনুপস্থিত। সাধারণত আপনি পুরানো ডেটা উত্সগুলি জিজ্ঞাসা করে সমস্যার মাত্রা নির্ধারণ করার চেষ্টা করবেন। যদি এটি কয়েক ডজন বা শত শত এন্ট্রি হয় তবে সম্ভবত এটি ডাটা এন্ট্রি ত্রুটি এবং তথ্যের জন্য দায়ী গ্রাহকদের ম্যানুয়ালি এটি সমাধান করা উচিত (উদাহরণস্বরূপ মানগুলি কী হওয়া উচিত তা আপনাকে জানান)) যদি এটি কয়েক মিলিয়ন এন্ট্রি (বা ডেটার একটি উল্লেখযোগ্য ভগ্নাংশ) থাকে , তারপরে আপনার সঠিকভাবে চিহ্নিত করা হয়েছে যে এটি সেখানে "থাকা উচিত" কিনা তা নিয়ে আপনাকে পুনর্বিবেচনা করার প্রয়োজন হতে পারে। এটি নতুন সিস্টেমে মডেলিংয়ের ত্রুটিটি নির্দেশ করতে পারে।
উদাহরণস্বরূপ, এমন একটি চালানটি কল্পনা করুন যার পরিমাণ এবং প্রতি আইটেমের মোট পরিমাণ ছিল (তবে ইউনিটের দাম নয়) ব্যতীত কিছু পরিমাণের অভাবনীয়ভাবে অনুপস্থিত। যে ব্যক্তি এই ধরনের চালানগুলি প্রক্রিয়াজাত করে তার সাথে কথা বলতে নীচের পরিস্থিতিতে একটির (বা আরও বেশি) উত্পাদন করতে পারে: 1) "ওহ, ফাঁকা পরিমাণ অর্থ 1", 2 এর পরিমাণ) "ওহ, আমি জানি যে এই জিনিসগুলি প্রায় $ 1000 এর জন্য যায়, স্পষ্টত এটি 2 ", 3) এর জন্য একটি আদেশ" যখন এটি ঘটে তখন আমি এই অন্যান্য সিস্টেমে দামটি দেখি এবং বিভাজন এবং বৃত্তাকার ", 4)" আমি এটি অন্য সিস্টেমে দেখি ", 5)" এটি বাস্তব তথ্য নয় ", 6)" এর আগে কখনও দেখিনি "।
প্রস্তাবিত হিসাবে, এটি পরিস্থিতিটি স্বয়ংক্রিয়ভাবে সমাধানের কিছু উপায় নির্দেশ করতে পারে তবে সমাধানটি সমস্ত ক্ষেত্রেই প্রযোজ্য সে বিষয়ে আপনাকে সতর্ক থাকতে হবে। অন্যান্য সিস্টেমে জড়িত হওয়া সাধারণ যেগুলি ডেটা ক্রস-চেক করতে পারে এবং এটি একটি ভাল জিনিস। তবে, প্রায়শই এটি একটি খারাপ বিষয় যা অনির্ধারিতভাবে ক্রস-চেকিং সম্পাদনের জন্য এই সিস্টেমগুলির অ্যাক্সেস পেতে এবং সংহত করা কঠিন হতে পারে, এবং এটি প্রায়শই প্রকাশ্যে আসে যে সিস্টেমগুলি একে অপরের সাথে দ্বন্দ্ব করে কেবল কিছু তথ্য হারিয়ে না। কিছু ম্যানুয়াল হস্তক্ষেপ প্রায়শই প্রয়োজন হয় এবং স্কেলের উপর নির্ভর করে বিশেষত ডেটা ক্লিনিজিংয়ের জন্য টুলিং এবং ইন্টারফেসগুলি তৈরি করা প্রয়োজন। প্রায়শই যা করা হয় তা ডেটা আংশিকভাবে আমদানি করা হয় তবে অনুপস্থিত ডেটা সহ সারিগুলি আলাদা টেবিলে প্রেরণ করা হয় যেখানে সেগুলি পর্যালোচনা করা যেতে পারে।