ডেটা হ্যান্ডলিং ত্রুটিগুলি ইতিমধ্যে পরিসংখ্যানগত বিশ্লেষণের জন্য 'মূল্যবান' রয়েছে?


10

ঠিক আছে, ন্যায্য সতর্কতা - এটি একটি দার্শনিক প্রশ্ন যাতে কোনও সংখ্যা জড়িত না। সময়ের সাথে সাথে কীভাবে ডেটা সেটগুলিতে ত্রুটিগুলি কমছে এবং কীভাবে বিশ্লেষকদের দ্বারা এটি আচরণ করা উচিত - বা এটি যদি আদৌ গুরুত্বপূর্ণ হয় তবে সে সম্পর্কে আমি অনেক কিছু ভাবছিলাম?

পটভূমির জন্য, আমি একটি দীর্ঘমেয়াদী অধ্যয়নের উপর বিশ্লেষণ করছি যা 7-8 বছরেরও বেশি সময় ধরে 25 জনের দ্বারা সংগৃহীত অনেক ডেটা সেট জড়িত - কেউ কখনও কখনও সমস্ত তথ্য একটি সুসংগত কাঠামোতে আনেনি (এটি আমার কাজ)। আমি প্রচুর ডেটা-এন্ট্রি করে চলেছি (পুরানো ল্যাব নোটবুকের ফটোকপিগুলি থেকে অনুলিপি করা) এবং আমি অন্যান্য লোকেরা যে ছোট ট্রান্সক্রিপশন ত্রুটিগুলি পেয়েছি তা সন্ধান করতে থাকি এবং পড়া বা পড়া অসম্ভব এমন ডেটা এন্ট্রিগুলিও খুঁজে পাই - বেশিরভাগ কারণ কালি সময়ের সাথে সাথে বিবর্ণ হয়ে গেছে। ডেটা কী বলে সে সম্পর্কে 'সেরা অনুমান' করার জন্য আমি প্রসঙ্গটি ব্যবহার করছি এবং আমি যদি নিশ্চিত না থাকি তবে ডেটা একেবারে উল্লেখ করে। তবে আমি এই বিষয়টি নিয়ে ভাবতে থাকি যে প্রতিবারের ডেটা অনুলিপি করা হয়, মূল ডেটা সম্পূর্ণরূপে হারিয়ে না যাওয়া পর্যন্ত ত্রুটিগুলির ফ্রিকোয়েন্সি অবশ্যম্ভাবীভাবে বাড়বে।

সুতরাং, এটি আমাকে একটি চিন্তার দিকে নিয়ে যায়: উপকরণ / পরিমাপের ত্রুটিগুলি এবং রেকর্ডিং ত্রুটিগুলি ছাড়াও, একটি মৌলিক 'ডেটা হ্যান্ডলিং ত্রুটি' উপাদান রয়েছে যা সময়ের সাথে সাথে আরও বেশি ডেটা হ্যান্ডলিং সহ বৃদ্ধি পাবে (পার্শ্ব নোট: সম্ভবত এটি সম্ভবত থার্মোডিনামিক্সের ২ য় আইন বলার ঠিক অন্য একটি উপায়, ঠিক আছে? ডেটা এনট্রপি সর্বদা বৃদ্ধি পাবে)। ফলস্বরূপ, আমি অবাক হয়েছি যে ডেটা সেটের জীবন-ইতিহাসের জন্য কোনও এক ধরনের 'সংশোধন' চালু করা উচিত (বনফেরনি সংশোধনের অনুরূপ কিছু)? অন্য কথায়, আমাদের কি ধরে নেওয়া উচিত যে পুরানো, বা আরও অনুলিপি করা ডেটা সেটগুলি কম নির্ভুল, এবং যদি তাই হয় তবে আমাদের সেই অনুসারে ফলাফলগুলি সমন্বয় করা উচিত?

তবে আমার অন্য চিন্তাটি হ'ল ত্রুটিগুলি ডেটা সংগ্রহ এবং ডেটা হ্যান্ডলিংয়ের অন্তর্নিহিত অংশ এবং যেহেতু সমস্ত পরিসংখ্যানগত পরীক্ষাগুলি বাস্তব-বিশ্বের ডেটা দিয়ে তৈরি করা হয়েছে, সম্ভবত ত্রুটির এই উত্সগুলি ইতিমধ্যে বিশ্লেষণের জন্য 'মূল্যবান'?

এছাড়াও, অন্য একটি উল্লেখযোগ্য বিষয় হ'ল যেহেতু ডেটা ত্রুটিগুলি এলোমেলো, তাই এটির উন্নতি করার চেয়ে তারা আবিষ্কারের শক্তি হ্রাস করার সম্ভাবনা অনেক বেশি - অন্য কথায়, ডেটা হ্যান্ডলিংয়ের ত্রুটি টাইপ 1 ত্রুটি নয়, টাইপ 1 ত্রুটি হতে পারে । সুতরাং, অনেকগুলি প্রসঙ্গে আপনি যদি পুরানো / প্রশ্নযুক্ত ডেটা ব্যবহার করেন এবং এখনও কোনও প্রভাব খুঁজে পান, তবে আপনার আত্মবিশ্বাস বাড়বে যে প্রভাবটি আসল (কারণ এটি ডেটা সেটটিতে এলোমেলো ত্রুটি সংযোজন থেকে বেঁচে থাকার পক্ষে যথেষ্ট দৃ was় ছিল)। সুতরাং সেই কারণেই, সম্ভবত 'সংশোধন' অন্যভাবে চলে যাওয়া উচিত (একটি 'অনুসন্ধানের' জন্য প্রয়োজনীয় আলফা-স্তর বৃদ্ধি করা), বা কেবল আমাদের ঝামেলা করবেন না?

যাইহোক, খুব ভার্জোজ এবং অবজ্ঞাপূর্ণ হওয়ার জন্য দুঃখিত, আমি কীভাবে এই প্রশ্নটি আরও সংক্ষিপ্তভাবে জিজ্ঞাসা করব তা সত্যই নিশ্চিত নই। আমাকে সহ্য করার জন্য আপনাকে ধন্যবাদ।


7
এটি একটি দুর্দান্ত প্রশ্ন (+1)। যদিও একটি পয়েন্ট: আপনি উল্লেখ করেছেন এমন বেশিরভাগ ডেটা ত্রুটিটিকে "এলোমেলো" হিসাবে চিকিত্সা করা যথেষ্ট পরিমাণে ত্রুটি হতে পারে। উদাহরণস্বরূপ, অন্যান্য অঙ্কগুলির তুলনায় ট্রান্সক্রিপশন চলাকালীন "0", "5", "6" এবং "8" এর সংখ্যার আরও আন্তঃসংযোগ রয়েছে (এবং এর মধ্যে কিছু "" হিসাবে ভুল অনুবাদ হতে পারে এবং এর বিপরীতে রয়েছে) )। এছাড়াও, বিশিষ্ট ডেটা মানগুলিতে করা পরিবর্তনগুলি (যেমন চরমগুলি) প্রায়শই দ্রুত চিহ্নিত এবং সংশোধন করা হয়। যদিও এই ডেটা-দুর্নীতি প্রক্রিয়াগুলির অবশ্যই সুযোগের কিছু উপাদান রয়েছে, তাদের সঠিকভাবে চিহ্নিত করা একটি গুরুত্বপূর্ণ সমস্যা হতে পারে।
শুক্র

1
আপনি কেন ডেটা হ্যান্ডলিং ত্রুটিগুলি পরিমাপের ত্রুটির অংশ বলে চিকিত্সা করেন না এবং সেই অনুযায়ী তাদের সাথে ডিল করেন? যদি বিনোদন পার্কের চালকদের সংখ্যা পরিমাপ করার জন্য, আমাকে গেটগুলি দেখার জন্য 20 জনকে মোতায়েন করা দরকার, তবে আমি এই 20 ব্যক্তির দলটিকে বিভিন্ন ধরণের পরিমাপের যন্ত্র হিসাবে বিবেচনা করতে পারি
আকসাকাল

@ হুবুহু, এটি এখনও 8 এবং 5 মেশানো এলোমেলো, যদিও এটি 5 এবং 7 এর মিশ্রণের সমান সম্ভাবনা নাও থাকতে পারে
আকসাকাল

1
@ হুবুহু, এটি একটি আকর্ষণীয় বিন্দু (নির্দিষ্ট ধরণের ট্রান্সক্রিপশন ত্রুটির সমতুল্য ফ্রিকোয়েন্সি) যা আমি ভেবে দেখিনি। সে সম্পর্কে আরও জানতে আপনি কোনও উত্সের দিকে আমাকে নির্দেশ করতে পারেন? এটি আমাকে অবাক করে তোলে যে ডিজিটের ফ্রিকোয়েন্সি অবলম্বনে যদি কোনও ডেটা-মানের পরীক্ষা করা যায়? আমি ডিজিটের ফ্রিকোয়েন্সি ভিত্তিতে ভুয়া / নকল ডেটার জন্য অনুরূপ পরীক্ষাগুলির কথা শুনেছি, তাই আমি কল্পনা করেছিলাম যে আপনার বর্ণিত ধারাগুলি সামঞ্জস্যপূর্ণ হলে অনুরূপ কিছু সম্ভব হবে।
জেস ম্যাক্স

@ শুভ, আরও একটি চিন্তা। আপনি উল্লেখ করেছেন যে 0, 5, 6, 8 প্রায়শই বিভ্রান্ত হয় - কারণ এগুলি একরকম দেখাচ্ছে? এটি আমাকে উপলব্ধি করে তোলে যে ত্রুটির বিভিন্ন উত্সগুলিতে বৈশিষ্ট্যযুক্ত প্রতিস্থাপনের ত্রুটি থাকতে পারে - উদাহরণস্বরূপ, আপনি যদি ডেটা শুনছিলেন (কেউ কী বলেছিল তা রেকর্ডিং করছে) তবে আমি মনে করি 5 এবং 9 সম্ভবত আরও ঘন ঘন বিভ্রান্ত হবে। যদি ত্রুটির উত্সটি এনট্রপি হত (কালি ফেইডিং বা ইলেকট্রনগুলি চলছিল) তবে আমি মনে করি বিকল্পটি আরও এলোমেলো হবে তবে সম্ভবত এটিও অনন্য। যদি এই নিদর্শনগুলি রাখা হয় তবে সম্ভবত আপনি সংখ্যার ফ্রিকোয়েন্সি ভিত্তিতে বৃহত ডেটা সেটগুলিতে ত্রুটির উত্সগুলি তদন্ত করতে পারেন।
জেস ম্যাক্স

উত্তর:


3

@ আকসাকালের পরামর্শটিকে আমি দ্বিতীয় স্থানে রেখেছি: বিশ্লেষক যদি পরিমাপের ত্রুটিটিকে সম্ভাব্য হিসাবে গুরুত্বপূর্ণ হিসাবে দেখেন তবে ডেটা উত্পন্নকরণের প্রক্রিয়ার অংশ হিসাবে এটি স্পষ্টভাবে মডেলিং করা উচিত এবং হওয়া উচিত।

আমি বেশ কয়েকটি বিবেচ্য বিষয়গুলি দেখছি যা জেনেরিক সংশোধন ফ্যাক্টর, যেমন ডেটা সেটের বয়সের ভিত্তিতে প্রবর্তনের বিরুদ্ধে তর্ক করে।

প্রথমত, ডেটা অবনতির ডিগ্রির জন্য বয়স একটি খুব দুর্বল প্রক্সি হতে পারে। সদৃশ, সংক্ষেপণ এবং সংরক্ষণের প্রযুক্তি এবং প্রচেষ্টা এবং যত্নের মাত্রা যা সঠিক প্রতিলিপি যাচাইয়ে গেছে, স্পষ্টতই এটি গুরুত্বপূর্ণ কারণ। কিছু প্রাচীন গ্রন্থ (উদাহরণস্বরূপ, বাইবেল) বহু শতাব্দী ধরে আপাতত শূন্যের অবক্ষয়ের সাথে সংরক্ষণ করা হয়েছে। আপনার ভিএইচএস উদাহরণটি বৈধ হলেও বাস্তবে অস্বাভাবিক, যাতে প্রতিটি অনুলিপি ইভেন্ট সর্বদা ত্রুটির পরিচয় দেয় এবং প্রতিলিপি ত্রুটিগুলির জন্য সঠিকভাবে পরীক্ষা করার এবং সঠিক করার কোনও সহজ উপায় নেই - যদি কোনও সদৃশ এবং সঞ্চয় করার জন্য সস্তা, ব্যাপকভাবে উপলব্ধ প্রযুক্তি ব্যবহার করে। আমি আশা করি যে আরও ব্যয়বহুল সিস্টেমে বিনিয়োগের মাধ্যমে প্রচলিত ত্রুটিগুলির একটি ডিগ্রি হ্রাস পাবে।

এই শেষ পয়েন্টটি আরও সাধারণ: তথ্য সংরক্ষণ এবং প্রচার হ'ল অর্থনৈতিক ক্রিয়াকলাপ। সংক্রমণের গুণমান মোতায়েন করা সংস্থাগুলির উপর নির্ভর করে। এই পছন্দগুলি ঘুরে দাঁড়ায় যে কেউ নকল এবং প্রেরণ করছে তার কাছে ডেটাটির বোধিত গুরুত্বের উপর নির্ভর করবে।

অর্থনৈতিক বিবেচনাগুলি বিশ্লেষকের ক্ষেত্রেও প্রযোজ্য। আপনার বিশ্লেষণ করার সময় আপনি আরও বেশি কারণ বিবেচনা করতে পারেন। কোন অবস্থার অধীনে ডেটা ট্রান্সক্রিপশন ত্রুটিগুলি যথেষ্ট পরিমাণে যথেষ্ট হবে এবং যথেষ্ট গুরুত্বপূর্ণ, সেগুলি বিবেচনায় নেওয়ার মতো? আমার কুণ্ডলীটি: এ জাতীয় পরিস্থিতি সাধারণ নয়। তদ্ব্যতীত, যদি আপনার বিশ্লেষণে সম্ভাব্য ডেটা অবক্ষয়টিকে অ্যাকাউন্ট করার পক্ষে যথেষ্ট হিসাবে দেখা হয় তবে জেনেরিক "সংশোধন" পদক্ষেপ সন্নিবেশ না করে সম্ভবত প্রক্রিয়াটি স্পষ্টভাবে মডেল করার প্রচেষ্টা করা যথেষ্ট গুরুত্বপূর্ণ।

শেষ অবধি, এ জাতীয় জেনেরিক সংশোধন ফ্যাক্টর ডি নভো বিকাশের দরকার নেই । ইতিমধ্যে পরিসংখ্যানগত তত্ত্ব এবং ডেটা সেট বিশ্লেষণের জন্য অনুশীলনের একটি যথেষ্ট পরিমাণ রয়েছে যার জন্য পরিমাপের ত্রুটিটিকে গুরুত্বপূর্ণ হিসাবে দেখা হচ্ছে।

সংক্ষেপে: এটি একটি আকর্ষণীয় চিন্তা। তবে আমি মনে করি না এটি বিশ্লেষণী অনুশীলনের কোনও পরিবর্তন উত্সাহিত করা উচিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.