আমার একটি ডেটাসেট আছে প্রচুর মূল্যবোধ নেই। কিছু কলামের জন্য, অনুপস্থিত মান -৯৯৯ দ্বারা প্রতিস্থাপিত হয়েছিল, তবে অন্যান্য কলামগুলিতে, অনুপস্থিত মানটিকে 'এনএ' হিসাবে চিহ্নিত করা হয়েছিল।
কেন আমরা অনুপস্থিত মানটি প্রতিস্থাপন করতে -999 ব্যবহার করব?
আমার একটি ডেটাসেট আছে প্রচুর মূল্যবোধ নেই। কিছু কলামের জন্য, অনুপস্থিত মান -৯৯৯ দ্বারা প্রতিস্থাপিত হয়েছিল, তবে অন্যান্য কলামগুলিতে, অনুপস্থিত মানটিকে 'এনএ' হিসাবে চিহ্নিত করা হয়েছিল।
কেন আমরা অনুপস্থিত মানটি প্রতিস্থাপন করতে -999 ব্যবহার করব?
উত্তর:
এটি পূর্ববর্তী সময়ের একটি হোল্ডআউট, যখন কম্পিউটার সফ্টওয়্যার সংখ্যামূলক ভেক্টরগুলিকে সংখ্যার ভেক্টর হিসাবে সংরক্ষণ করে। কোনও আসল সংখ্যার শব্দার্থবিজ্ঞান "আমি অনুপস্থিত" নেই। সুতরাং যখন প্রাথমিক পরিসংখ্যান সফ্টওয়্যারকে "সত্য" সংখ্যা এবং অনুপস্থিত মানগুলির মধ্যে পার্থক্য করতে হয়, তারা এমন কিছু রেখেছিল যা "স্পষ্টতই" একটি বৈধ সংখ্যা নয়, যেমন -999 বা -9999।
অবশ্যই, যে -৯৯৯ বা -৯৯৯ stood অনুপস্থিত মানের জন্য দাঁড়িয়েছিল তা মোটেই "সুস্পষ্ট" নয়। বেশিরভাগ ক্ষেত্রে, এটি অবশ্যই একটি বৈধ মান হতে পারে। আপনি যদি এ জাতীয় মানগুলি স্পষ্টভাবে পরীক্ষা না করেন তবে আপনার বিশ্লেষণগুলিতে আপনার সমস্ত ধরণের "আকর্ষণীয়" ত্রুটি থাকতে পারে।
আজকাল, গাণিত মানগুলিকে ধারণ করতে পারে এমন সংখ্যক ভেক্টরগুলিকে অভ্যন্তরীণভাবে "সমৃদ্ধ" সংখ্যক ভেক্টর হিসাবে চিহ্নিত করা হয়, অর্থাত, কোন মানগুলি অনুপস্থিত রয়েছে সে সম্পর্কিত অতিরিক্ত তথ্যের সংখ্যামূলক ভেক্টর হিসাবে প্রদর্শিত হয়। এটি অবশ্যই আরও ভাল, কারণ অনুপস্থিত মানগুলি যেমন বিবেচিত হবে এবং ভুলভাবে বৈধ হিসাবে বিবেচিত হবে না।
দুর্ভাগ্যক্রমে, কিছু সফ্টওয়্যার সম্ভবত এখনও সামঞ্জস্যের জন্য এই জাতীয় কনভেনশন ব্যবহার করে। এবং কিছু ব্যবহারকারীর এই কনভেনশনটি অনানুষ্ঠানিক অসমোসিসের মাধ্যমে ভিজিয়েছে এবং এনএ এর পরিবর্তে -৯৯৯ লিখুন এমনকি যদি তাদের সফ্টওয়্যারটি পরিষ্কারভাবে হারিয়ে যাওয়া মানগুলিকে প্রবেশ করতে সমর্থন করে।
নৈতিক: -৯৯৯ হিসাবে অনুপস্থিত মানগুলি এনকোড করবেন না ।
এই জাতীয় মান ডাটাবেসগুলির জন্য। বেশিরভাগ ডাটাবেস, এবং আজ অনেকগুলিই পূর্ণসংখ্যার-মূল্যবান ডেটার জন্য একটি নির্দিষ্ট সংখ্যক অঙ্ক বরাদ্দ করে। -৯৯৯ এর মতো একটি সংখ্যা হ'ল সবচেয়ে ক্ষুদ্রতম যা চারটি অক্ষরে সংরক্ষণ করা যেতে পারে, -৯৯৯৯ টি পাঁচ অক্ষরে সংরক্ষণ করা যেতে পারে ইত্যাদি।
(এটি বলা ছাড়াই উচিত - সংজ্ঞা অনুসারে - একটি সংখ্যার ক্ষেত্রটি "এনএ" এর মতো বর্ণমালার অক্ষর সংরক্ষণ করতে পারে না missing কিছু সংখ্যার কোড অনুপস্থিত বা অবৈধ তথ্য উপস্থাপনের জন্য ব্যবহার করতে হবে))
অনুপস্থিত মানটি বোঝাতে সর্বাধিক নেতিবাচক নম্বর কেন ব্যবহার করা যায়? কারণ আপনি যদি ভুলভাবে এটি একটি বৈধ সংখ্যা হিসাবে গণ্য করেন, আপনি ফলাফলটি নাটকীয়ভাবে ভুল হতে চান। অনুপস্থিত মানগুলির জন্য আপনার কোডগুলি যত বেশি বাস্তবসম্মত হতে পারে ততই আপনি নিরাপদ হন কারণ প্রচুর পরিমাণে ভুল ইনপুট সাধারণত আউটপুটটিকে স্ক্রু করে দেয়। (শক্ত পরিসংখ্যান পদ্ধতিগুলি উল্লেখযোগ্য ব্যতিক্রম!)
কীভাবে এমন ভুল হতে পারে? সিস্টেমগুলির মধ্যে ডেটা আদান প্রদানের সময় এটি ঘটে থাকে। এমন একটি সিস্টেম যা অনুমান করে যে -৯৯৯৯ একটি অনুপস্থিত মান উপস্থাপন করে যখন আপনি CSV এর মতো বেশিরভাগ ফর্ম্যাটে ডেটা লেখেন তখন অনুলিপি করে সেই মানটি আউটপুট দেয়। যে সিস্টেমটি পাঠ করে যে সিএসভি ফাইল সম্ভবত "জানে না" (বা "বলা হবে না") এই জাতীয় মানগুলি অনুপস্থিত হিসাবে গণ্য করতে পারে না।
আর একটি কারণ হ'ল ভাল পরিসংখ্যান সংক্রান্ত ডেটা এবং কম্পিউটিং প্ল্যাটফর্মগুলি বিভিন্ন ধরণের অনুপস্থিত মানগুলি স্বীকৃতি দেয়: এনএএন, সত্যিকারের অনুপস্থিত মান, ওভারফ্লো, আন্ডারফ্লো, অ-প্রতিক্রিয়া, ইত্যাদি negative অত্যন্ত নেতিবাচক সম্ভাব্য মানগুলি (যেমন -৯৯৯৯, - এগুলির মধ্যে 9998, -9997, ইত্যাদি), আপনি কোনও টেবিল বা অ্যারে থেকে সমস্ত অনুপস্থিত মানগুলি জিজ্ঞাসা করা সহজ করে তুলেছেন।
তবুও অন্যটি হ'ল এই জাতীয় মানগুলি সাধারণত গ্রাফিকাল ডিসপ্লেগুলিতে চরম আউটলিয়ার হিসাবে প্রদর্শিত হয়। গ্রাফিকের মধ্যে যে মানগুলি বেছে নিতে আপনি বেছে নিতে পারেন তার মধ্যে সবচেয়ে নেতিবাচক সম্ভাব্য আপনার ডেটা থেকে দূরে থাকার সবচেয়ে বড় সম্ভাবনা stands
দরকারী কার্যকরতা এবং সাধারণীকরণ রয়েছে:
নতুন পরিস্থিতিতে নোডাটা কোডগুলি আবিষ্কার করা সহজ করার জন্য এই ধরণের একটি মানক নিয়ম গ্রহণ করুন (যখন আপনি নিজের ডাটাবেস সফ্টওয়্যার ডিজাইন করছেন)।
আপনার সফ্টওয়্যার এবং সিস্টেমগুলি একেবারে ব্যর্থ হলে নাটকীয়ভাবে ব্যর্থ হওয়ার জন্য ডিজাইন করুন। সবচেয়ে খারাপ বাগগুলি হ'ল আন্তঃবিরাম, এলোমেলো বা ক্ষুদ্র, কারণ এগুলি সনাক্ত করা যায় না এবং খুঁজে বের করতে অসুবিধা হয়।
অনুপস্থিত মানগুলি এনকোড করতে আপনি যে কোনও কিছু ব্যবহার করতে পারেন । কিছু সফ্টওয়্যার, আর এর মতো, অনুপস্থিত ডেটা এনকোড করার জন্য বিশেষ মান ব্যবহার করে, তবে এমন কিছু সফ্টওয়্যার প্যাকেজও রয়েছে, যেমন এসপিএসএস, যা তথ্য হারিয়ে যাওয়ার জন্য কোনও বিশেষ কোড নেই। দ্বিতীয় ক্ষেত্রে আপনাকে এই জাতীয় মানগুলির জন্য স্বেচ্ছাসেবী পছন্দ করতে হবে । আপনি যে কোনও কিছু চয়ন করতে পারেন , তবে সাধারণত আপনার ডেটা থেকে দৃশ্যমান পৃথকভাবে এমন কিছু মান বাছাই করা ভাল ধারণা (উদাহরণস্বরূপ আপনার ডেটা 0-100 রেঞ্জের শতকরা, তাই আপনি অনুপস্থিত ডেটা এনকোডিংয়ের জন্য 999 বেছে নেন বা আপনার ডেটা মানব বয়স এবং অনুপস্থিত পর্যবেক্ষণগুলির জন্য আপনি নেতিবাচক মানগুলি ব্যবহার করেন)। এর পিছনে ধারণাটি হ'ল এটি করার মাধ্যমে আপনার লক্ষ্য করা উচিত যে কিছু ভুল হয়ে গিয়েছে এবং সংখ্যাগুলি যুক্ত না হয়।
এই জাতীয় এনকোডিংয়ের সমস্যাটি হ'ল আপনি আসলে বিশেষ এনকোডিংটি লক্ষ্য করতে পারবেন না এবং আবর্জনার ফলাফলগুলি শেষ করতে পারেন।
ডেটাসেটে গণিত ভেরিয়েবল আছে? অথবা এটি কি বিশ্লেষণী ডেটাসেট যা ফর্মটি মার্জ / সাজানো ডেটা আসে? কিছু সফ্টওয়্যার অনুপস্থিত ডেটা বোঝাতে খুব বড় নেতিবাচক মানগুলি ব্যবহার করে। তবে অন্যান্য সফ্টওয়্যার এনএ বা এর সাহায্যে অনুপস্থিত মান তৈরি করে .
। যখন তারা অসন্তুষ্ট হয়, সাধারণত কিছু পোস্ট প্রসেসিং দ্বিমত পোষণ করে।