কিছু লোক কেন অনুপস্থিত মানগুলি প্রতিস্থাপন করতে -999 বা -9999 ব্যবহার করেন?


32

আমার একটি ডেটাসেট আছে প্রচুর মূল্যবোধ নেই। কিছু কলামের জন্য, অনুপস্থিত মান -৯৯৯ দ্বারা প্রতিস্থাপিত হয়েছিল, তবে অন্যান্য কলামগুলিতে, অনুপস্থিত মানটিকে 'এনএ' হিসাবে চিহ্নিত করা হয়েছিল।

কেন আমরা অনুপস্থিত মানটি প্রতিস্থাপন করতে -999 ব্যবহার করব?


1
আমি নিজে -999 কখনও দেখিনি। এখন পর্যন্ত আমি খালি স্ট্রিং এবং এনএ দেখেছি।
ইয়ে তিয়ান

12
কারণ তারা অতিমাত্রায় বিশ্লেষণ করে এবং ডকুমেন্টেশন মনোযোগ সহকারে পড়েন না এমন লোকদের জন্য ফলাফল ভয়াবহভাবে জড়ান want (যদিও সিরিয়াস হচ্ছেন, @ স্টেফান কোলাসার আসল উত্তর রয়েছে))
ম্যাথু গুন

1
যিনি ডেটাসেট সরবরাহ করেছেন তাকে জিজ্ঞাসা করুন ...?
ব্লুরাজা - ড্যানি পিফ্লুঘুফুট

পরিমাপ প্রযোজ্য নয় তা নির্দেশ করার জন্য পরিমাপ কলামগুলিতে 999 টি মান আরও ভাল ... কমপক্ষে একটি -৯৯৯ বা একটি 0 এর অর্থপূর্ণ অর্থ এটি বৈধ / গুরুত্বপূর্ণ মান নয়। 999 সবচেয়ে খারাপ।
অ্যাডাম মার্টিন

আমার মনে হচ্ছে আমি একবার পড়েছি যে পাঞ্চ কার্ডগুলিতে ডেটা রেকর্ড করার দিনগুলি থেকেই এটি একটি সম্মেলন ছিল। 9 এর দশকের সম্পূর্ণ সারিটি ছুঁড়ে ফেলাটি কার্ডের দিকে তাকানোর সময় অনুপস্থিত তথ্যটি স্পষ্টভাবে দৃশ্যমান করে দেয় কারণ এটি আক্ষরিক অর্থে একটি "নিখোঁজ সারি" ছিল। আমি এটির ব্যাক আপ করার কোনও রেফারেন্স খুঁজে পাই না, সুতরাং আমি এটি একটি মন্তব্য হিসাবে রেখে দেব।
লুকাস

উত্তর:


65

এটি পূর্ববর্তী সময়ের একটি হোল্ডআউট, যখন কম্পিউটার সফ্টওয়্যার সংখ্যামূলক ভেক্টরগুলিকে সংখ্যার ভেক্টর হিসাবে সংরক্ষণ করে। কোনও আসল সংখ্যার শব্দার্থবিজ্ঞান "আমি অনুপস্থিত" নেই। সুতরাং যখন প্রাথমিক পরিসংখ্যান সফ্টওয়্যারকে "সত্য" সংখ্যা এবং অনুপস্থিত মানগুলির মধ্যে পার্থক্য করতে হয়, তারা এমন কিছু রেখেছিল যা "স্পষ্টতই" একটি বৈধ সংখ্যা নয়, যেমন -999 বা -9999।

অবশ্যই, যে -৯৯৯ বা -৯৯৯ stood অনুপস্থিত মানের জন্য দাঁড়িয়েছিল তা মোটেই "সুস্পষ্ট" নয়। বেশিরভাগ ক্ষেত্রে, এটি অবশ্যই একটি বৈধ মান হতে পারে। আপনি যদি এ জাতীয় মানগুলি স্পষ্টভাবে পরীক্ষা না করেন তবে আপনার বিশ্লেষণগুলিতে আপনার সমস্ত ধরণের "আকর্ষণীয়" ত্রুটি থাকতে পারে।

আজকাল, গাণিত মানগুলিকে ধারণ করতে পারে এমন সংখ্যক ভেক্টরগুলিকে অভ্যন্তরীণভাবে "সমৃদ্ধ" সংখ্যক ভেক্টর হিসাবে চিহ্নিত করা হয়, অর্থাত, কোন মানগুলি অনুপস্থিত রয়েছে সে সম্পর্কিত অতিরিক্ত তথ্যের সংখ্যামূলক ভেক্টর হিসাবে প্রদর্শিত হয়। এটি অবশ্যই আরও ভাল, কারণ অনুপস্থিত মানগুলি যেমন বিবেচিত হবে এবং ভুলভাবে বৈধ হিসাবে বিবেচিত হবে না।

দুর্ভাগ্যক্রমে, কিছু সফ্টওয়্যার সম্ভবত এখনও সামঞ্জস্যের জন্য এই জাতীয় কনভেনশন ব্যবহার করে। এবং কিছু ব্যবহারকারীর এই কনভেনশনটি অনানুষ্ঠানিক অসমোসিসের মাধ্যমে ভিজিয়েছে এবং এনএ এর পরিবর্তে -৯৯৯ লিখুন এমনকি যদি তাদের সফ্টওয়্যারটি পরিষ্কারভাবে হারিয়ে যাওয়া মানগুলিকে প্রবেশ করতে সমর্থন করে।

নৈতিক: -৯৯৯ হিসাবে অনুপস্থিত মানগুলি এনকোড করবেন না


1
এটি পূর্ববর্তী সময়ের ধরে রাখার পাশাপাশি, সম্ভবত এমন লোকেরাও কখনও শিখেনি যে অনুপস্থিত মানগুলির স্পষ্ট উপস্থাপনা উপস্থিত রয়েছে এবং তাই, যখন তাদের কোনও অনুপস্থিত মান সন্নিবেশ করা দরকার, তখন চিত্রটি ব্যবহার করুন যে এটি এক ধরণের জাল সংখ্যা।
কোডিওলজিস্ট

9
এটি কেবল একটি হোল্ডআউট জিনিস নয়। যদি আমি ডেটা নিয়ে কিছুটা হেরফের করার জন্য কোনও সরঞ্জাম লিখছি, তবে কেবলমাত্র কোনও প্রোগ্রামিং ভাষার বাইরে নম্বরের কলামে পড়া সহজ। মানগুলি পড়া, অ-সংখ্যাসূচক মানগুলি সনাক্ত করা এবং সে অনুযায়ী পার্সিং করতে অনেক বেশি সময় লাগে। এবং আপনি যদি মনে করেন -৯৯৯৯ পরিসংখ্যানের সাথে ব্যঙ্গ করে, আমার সাথে কাজ করা আমার গোষ্ঠীটি অবৈধ মানগুলির জন্য 1e32 ব্যবহার করার ভালবাসা তৈরি করেছে। আপনি যখন এটি করেন তখন আপনার প্রকরণের কী ঘটে তা আমাকে বলি!
কর্ট অ্যামোন -

1
দুর্দান্ত, সাফল্যের উত্তর। তবে কিছু historicalতিহাসিক বিবরণ যুক্ত করা এটি আরও উত্তরের উত্তর হিসাবে তৈরি করতে পারে। স্বীকার করা, এটি কিছু গবেষণা নিতে হবে। :)
tchakravarty

1
এই জাতীয় এনকোডিং অন্য কোনও ধরণের পরিমাপ ত্রুটি বোঝাতে ব্যবহৃত হতে পারে; অর্থাত "মেশিনটি" বনাম "কাজ করছিল না" পরিমাপ করার জন্য কেউ ছিল না "।
হাও ইয়ে

1
@qqqwww: নিখোঁজ হওয়ার জন্য চিহ্নিত মানটি সনাক্ত করা এবং এ জাতীয় প্রবেশগুলিকে সত্য নিখোঁজ বা এনএ তে রূপান্তর করা ভাল হবে। সংখ্যাগত ডেটা বিবেচনার জন্য সাধারণত ভাল ধারণা হয় না।
এস কোলাসা - মনিকা

24

এই জাতীয় মান ডাটাবেসগুলির জন্য। বেশিরভাগ ডাটাবেস, এবং আজ অনেকগুলিই পূর্ণসংখ্যার-মূল্যবান ডেটার জন্য একটি নির্দিষ্ট সংখ্যক অঙ্ক বরাদ্দ করে। -৯৯৯ এর মতো একটি সংখ্যা হ'ল সবচেয়ে ক্ষুদ্রতম যা চারটি অক্ষরে সংরক্ষণ করা যেতে পারে, -৯৯৯৯ টি পাঁচ অক্ষরে সংরক্ষণ করা যেতে পারে ইত্যাদি।

(এটি বলা ছাড়াই উচিত - সংজ্ঞা অনুসারে - একটি সংখ্যার ক্ষেত্রটি "এনএ" এর মতো বর্ণমালার অক্ষর সংরক্ষণ করতে পারে না missing কিছু সংখ্যার কোড অনুপস্থিত বা অবৈধ তথ্য উপস্থাপনের জন্য ব্যবহার করতে হবে))

অনুপস্থিত মানটি বোঝাতে সর্বাধিক নেতিবাচক নম্বর কেন ব্যবহার করা যায়? কারণ আপনি যদি ভুলভাবে এটি একটি বৈধ সংখ্যা হিসাবে গণ্য করেন, আপনি ফলাফলটি নাটকীয়ভাবে ভুল হতে চান। অনুপস্থিত মানগুলির জন্য আপনার কোডগুলি যত বেশি বাস্তবসম্মত হতে পারে ততই আপনি নিরাপদ হন কারণ প্রচুর পরিমাণে ভুল ইনপুট সাধারণত আউটপুটটিকে স্ক্রু করে দেয়। (শক্ত পরিসংখ্যান পদ্ধতিগুলি উল্লেখযোগ্য ব্যতিক্রম!)

কীভাবে এমন ভুল হতে পারে? সিস্টেমগুলির মধ্যে ডেটা আদান প্রদানের সময় এটি ঘটে থাকে। এমন একটি সিস্টেম যা অনুমান করে যে -৯৯৯৯ একটি অনুপস্থিত মান উপস্থাপন করে যখন আপনি CSV এর মতো বেশিরভাগ ফর্ম্যাটে ডেটা লেখেন তখন অনুলিপি করে সেই মানটি আউটপুট দেয়। যে সিস্টেমটি পাঠ করে যে সিএসভি ফাইল সম্ভবত "জানে না" (বা "বলা হবে না") এই জাতীয় মানগুলি অনুপস্থিত হিসাবে গণ্য করতে পারে না।

আর একটি কারণ হ'ল ভাল পরিসংখ্যান সংক্রান্ত ডেটা এবং কম্পিউটিং প্ল্যাটফর্মগুলি বিভিন্ন ধরণের অনুপস্থিত মানগুলি স্বীকৃতি দেয়: এনএএন, সত্যিকারের অনুপস্থিত মান, ওভারফ্লো, আন্ডারফ্লো, অ-প্রতিক্রিয়া, ইত্যাদি negative অত্যন্ত নেতিবাচক সম্ভাব্য মানগুলি (যেমন -৯৯৯৯, - এগুলির মধ্যে 9998, -9997, ইত্যাদি), আপনি কোনও টেবিল বা অ্যারে থেকে সমস্ত অনুপস্থিত মানগুলি জিজ্ঞাসা করা সহজ করে তুলেছেন।

তবুও অন্যটি হ'ল এই জাতীয় মানগুলি সাধারণত গ্রাফিকাল ডিসপ্লেগুলিতে চরম আউটলিয়ার হিসাবে প্রদর্শিত হয়। গ্রাফিকের মধ্যে যে মানগুলি বেছে নিতে আপনি বেছে নিতে পারেন তার মধ্যে সবচেয়ে নেতিবাচক সম্ভাব্য আপনার ডেটা থেকে দূরে থাকার সবচেয়ে বড় সম্ভাবনা stands


দরকারী কার্যকরতা এবং সাধারণীকরণ রয়েছে:

  • 10303

  • নতুন পরিস্থিতিতে নোডাটা কোডগুলি আবিষ্কার করা সহজ করার জন্য এই ধরণের একটি মানক নিয়ম গ্রহণ করুন (যখন আপনি নিজের ডাটাবেস সফ্টওয়্যার ডিজাইন করছেন)।

  • আপনার সফ্টওয়্যার এবং সিস্টেমগুলি একেবারে ব্যর্থ হলে নাটকীয়ভাবে ব্যর্থ হওয়ার জন্য ডিজাইন করুন। সবচেয়ে খারাপ বাগগুলি হ'ল আন্তঃবিরাম, এলোমেলো বা ক্ষুদ্র, কারণ এগুলি সনাক্ত করা যায় না এবং খুঁজে বের করতে অসুবিধা হয়।


2
NaN10303

NaN একটি সংখ্যা নয়, এনএ
লিভারে

1
তত্ত্বে আইইইই ফ্লোটগুলি বিভিন্ন ধরণের NaN সমর্থন করে যা বিভিন্ন ধরণের অনুপস্থিত / অবৈধ ডেটার জন্য ট্যাগ হিসাবে ভাল কাজ করবে। অনুশীলনে বেশিরভাগ প্রোগ্রামিং ভাষার এ জাতীয় NaN পার্থক্য করার জন্য যথাযথ সহায়তার অভাব থাকে এবং অতিরিক্ত তথ্য হারাতে প্রবণ হয়।
কোডসইনচাউস

সাইন বিট ব্যতীত খুব ভাল প্রকৃতপক্ষে ডেটাবেস দ্বারা ব্যবহৃত স্কিমের কোনও স্থান নেয় নি। তারা 00-99 সংখ্যার জোড়ায় বিভক্ত হয়ে তাদের সংখ্যা হিসাবে বিবেচনা করবে; তবে সংখ্যাটি নেতিবাচক থাকলে তারা সংখ্যার পরিবর্তে 255 - # সঞ্চয় করে রাখত। এছাড়াও 127 এবং 128 + /- ইনফের জন্য ব্যবহার করা হয়েছিল।
জোশুয়া

@ জোশুয়া কিছু ডাটাবেসের জন্য এটি সঠিক হতে পারে তবে অন্য অনেকের ক্ষেত্রে অবশ্যই এটি হয়নি, বিশেষত বিকাশের প্রথম দিকে। দশমিক এনকোডযুক্ত মানগুলি ব্যবহার করে যে কোনও ডাটাবেস আপনার প্রস্তাবিত পদ্ধতিটি যেভাবেই ব্যবহার করতে পারে না। প্রারম্ভিক এবং বহুল ব্যবহৃত পিসি ডাটাবেসের একটি উদাহরণ যা আমি বর্ণনা করেছি সেভাবে কাজ করে যা হ'ল ডিবেস, অবশেষে ডিবেস তৃতীয়, ক্লিপার এবং ফক্সপ্রো পণ্য হিসাবে উপস্থাপিত হয় (মাইক্রোসফ্ট দ্বারা অর্জিত এবং পরে অ্যাক্সেসের পক্ষে ছেড়ে দেওয়া হয়েছিল)। স্থির ক্ষেত্রের প্রস্থ ডেটা ইন্টারচেঞ্জ ফর্ম্যাটগুলির জন্য, বিয়োগ চিহ্ন সর্বদা একটি অক্ষর দখল করে।
হোবার

13

অনুপস্থিত মানগুলি এনকোড করতে আপনি যে কোনও কিছু ব্যবহার করতে পারেন । কিছু সফ্টওয়্যার, আর এর মতো, অনুপস্থিত ডেটা এনকোড করার জন্য বিশেষ মান ব্যবহার করে, তবে এমন কিছু সফ্টওয়্যার প্যাকেজও রয়েছে, যেমন এসপিএসএস, যা তথ্য হারিয়ে যাওয়ার জন্য কোনও বিশেষ কোড নেই। দ্বিতীয় ক্ষেত্রে আপনাকে এই জাতীয় মানগুলির জন্য স্বেচ্ছাসেবী পছন্দ করতে হবে । আপনি যে কোনও কিছু চয়ন করতে পারেন , তবে সাধারণত আপনার ডেটা থেকে দৃশ্যমান পৃথকভাবে এমন কিছু মান বাছাই করা ভাল ধারণা (উদাহরণস্বরূপ আপনার ডেটা 0-100 রেঞ্জের শতকরা, তাই আপনি অনুপস্থিত ডেটা এনকোডিংয়ের জন্য 999 বেছে নেন বা আপনার ডেটা মানব বয়স এবং অনুপস্থিত পর্যবেক্ষণগুলির জন্য আপনি নেতিবাচক মানগুলি ব্যবহার করেন)। এর পিছনে ধারণাটি হ'ল এটি করার মাধ্যমে আপনার লক্ষ্য করা উচিত যে কিছু ভুল হয়ে গিয়েছে এবং সংখ্যাগুলি যুক্ত না হয়।

এই জাতীয় এনকোডিংয়ের সমস্যাটি হ'ল আপনি আসলে বিশেষ এনকোডিংটি লক্ষ্য করতে পারবেন না এবং আবর্জনার ফলাফলগুলি শেষ করতে পারেন।


2

ডেটাসেটে গণিত ভেরিয়েবল আছে? অথবা এটি কি বিশ্লেষণী ডেটাসেট যা ফর্মটি মার্জ / সাজানো ডেটা আসে? কিছু সফ্টওয়্যার অনুপস্থিত ডেটা বোঝাতে খুব বড় নেতিবাচক মানগুলি ব্যবহার করে। তবে অন্যান্য সফ্টওয়্যার এনএ বা এর সাহায্যে অনুপস্থিত মান তৈরি করে .। যখন তারা অসন্তুষ্ট হয়, সাধারণত কিছু পোস্ট প্রসেসিং দ্বিমত পোষণ করে।


2

অবশ্যই, এসপিএসে, অনুপস্থিত মান (গুলি) 999 বা যা কিছু আইএস একটি বিশেষ অনুপস্থিত কোড হিসাবে ট্যাগ করেছে এবং অন্যান্য মান থেকে পৃথকভাবে পরিচালিত হয়েছে। এটি আলাদাভাবে ট্যাবলেট করা যেতে পারে বা পুরোপুরি বাদ দেওয়া যায়। শূন্য বিভাগ বা লগ (0) এর মতো জিনিসের ফলাফল থেকে একটি পার্থক্য তৈরি হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.