ডেটা সাফাই পরিসংখ্যান বিশ্লেষণের ফলাফলকে আরও খারাপ করতে পারে?


17

ভাইরাস সংবহন (2002 সালে মার্কিন যুক্তরাষ্ট্রে ওয়েস্ট নীল ভাইরাস এর মত) বা লোকের প্রতিরোধের হ্রাস বা খাদ্য বা জলের দূষণ বা সংক্রমণের কারণে বা মৃত্যুর সংখ্যায় বৃদ্ধি এবং সংক্রমণের ঘটনা ঘটে মশা। এই মহামারীটি প্রতি 1 থেকে 5 বছর অন্তর হতে পারে এমন বিদেশী হিসাবে উপস্থিত হবে। এই আউটলিয়ারগুলি সরিয়ে আমরা মহামারী সম্পর্কিত প্রমাণগুলি সরিয়ে দিচ্ছি যা পূর্বাভাস এবং রোগ বোঝার একটি গুরুত্বপূর্ণ অংশ গঠন করে।

মহামারী দ্বারা সৃষ্ট আউটলিয়ারদের সাথে ডিল করার সময় কি ডেটা পরিষ্কার করা প্রয়োজনীয়?

এটি কী ফলাফলগুলি উন্নতি করতে চলেছে বা পরিসংখ্যানগত বিশ্লেষণের ফলাফলকে আরও খারাপ করতে চলেছে?

উত্তর:


12

এটি আসলে আপনার গবেষণার উদ্দেশ্য নির্ভর করে on আমার মতে, এখানে বেশ কয়েকটি থাকতে পারে:

  1. আপনি বুঝতে চান যে সাধারণ কারণগুলি কী কারণে মামলা এবং মৃত্যুর কারণ হয়ে থাকে এবং যা মহামারী এবং কালগুলি দ্বারা মহামারী সংঘটিত হয় না (যাতে আপনি সাধারণত বড় সম্ভাবনা জোর করে না আগ্রহী) - এই ক্ষেত্রে আপনাকে অবশ্যই মহামারীটি অপসারণ করতে হবে ডেটা থেকে পিরিয়ডগুলি, কারণ এগুলি বহিরাগতদের আপনি কী উপসংহারে পৌঁছাতে চান তা গবেষণা করার উদ্দেশ্যে
  2. আপনি আপনার মডেলগুলিতে মহামারী পরিবর্তনগুলি অন্তর্ভুক্ত করতে চাইতে পারেন (উদাহরণস্বরূপ, সম্প্রদায়ের কাছ থেকে কোনও ভাল লিঙ্ক এবং মডেল পরামর্শ এখানে স্বাগত জানানো হয়েছে), কারণ আপনি মহামারীটির কাল হওয়ার সম্ভাবনাটি জানতে চান (এবং কতক্ষণ পর্যন্ত স্থায়ীত্ব পরীক্ষা ও পূর্বাভাসের জন্য এটি স্থায়ী হবে) - এক্ষেত্রে আপনি মহামারী কালকে বাদ দেবেন না, তবে হাতুড়ি-একনোমেট্রিক-টুল বা এর অনুরূপ কিছু অনুসন্ধান করার চেয়ে আরও জটিল মডেলগুলি অনুসন্ধান করুনOLS
  3. আপনার মূলত মহামারী কালগুলি সনাক্তকরণ এবং রিয়েল-টাইমে তাদের জন্য নিরীক্ষণের জন্য আইএস - এটি আমার অর্থনীতিবিদ্যার একটি বিশেষ ক্ষেত্র যা ভিলনিয়াস বিশ্ববিদ্যালয়ে বেশ কয়েকজন সহকর্মীর সাথে কাজ করছেন (অবশ্যই, আপনি মোকাবেলায় প্রচুর মহামারী পর্যবেক্ষণ করতে চান )

সুতরাং আপনার প্রাথমিক লক্ষ্যটি যদি 2 এর মতো কিছু হয় তবে ডেটা সাফ করা ভবিষ্যতের পূর্বাভাস সম্পর্কে ভুল সিদ্ধান্তে নেমে আসবে, অর্থাৎ ভুল পূর্বাভাসের কর্মক্ষমতা। এটিও সত্য যে ২ য় ক্ষেত্রে অগত্যা আরও ভাল পূর্বাভাস সরবরাহ করা হয় না তবে আপনি মহামারী ও পিরিয়ডের সম্ভাব্যতা এবং তার দৈর্ঘ্য সম্পর্কে কমপক্ষে সিদ্ধান্ত নিতে পারেন। এটি অ্যাকিউরিয়াল গণিতবিদদের পক্ষে অত্যন্ত গুরুত্বপূর্ণ, তাই আপনি কি একজন হতে পারেন?


দুর্দান্ত এবং সহজ উত্তর। অল্প বয়সেই আপনার কাছে প্রশংসনীয় জ্ঞান রয়েছে।
ডাঃ যিনি

15

আমি ব্যক্তিগতভাবে এই "ডেটা ক্লিনিং" বলব না। আমি ডেটা এডিটিংয়ের অর্থে ডেটা পরিষ্কার করার কথা ভাবি - ডেটা সেটে অসঙ্গতিগুলি পরিষ্কার করে (উদাহরণস্বরূপ একটি রেকর্ডটি বয়স 1000 এর, অথবা 4 বছরের একজন ব্যক্তি একক পিতা বা মাতা ইত্যাদি)।

আপনার ডেটাতে সত্যিকারের প্রভাবের উপস্থিতি এটিকে "অগোছালো" করে না (বিপরীতে, প্রকৃত প্রভাবগুলির উপস্থিতি এটি সমৃদ্ধ করে তুলবে) - যদিও এটি আপনার গাণিতিক কার্যকে আরও জড়িত করে তুলতে পারে। আমি পরামর্শ দেব যে যদি কোনও পূর্বাভাস পাওয়ার একমাত্র সম্ভাব্য উপায় হয় তবে ডেটা এইভাবে "পরিষ্কার" করা উচিত। যদি এমন কোনও সম্ভাব্য উপায় থাকে যা তথ্য ফেলে দেয় না, তবে এটি ব্যবহার করুন।

মনে হচ্ছে আপনি কোনও ধরণের চক্রীয় বিশ্লেষণ থেকে উপকৃত হতে পারেন, আপনি যদি বলেন যে এই প্রভাবটি পর্যায়ক্রমে প্রায়শই আসে ("ধরণের" ব্যবসায় চক্রের মতো))।

আমার দৃষ্টিকোণ থেকে, আপনি যদি কিছু পূর্বাভাসের দিকে তাকিয়ে থাকেন তবে সেই উত্স থেকে একটি আসল প্রভাব সরিয়ে নেওয়া আপনার ভবিষ্যদ্বাণীগুলিকে আরও খারাপ করতে পারে। আপনি ভবিষ্যদ্বাণী করতে চান এমন তথ্য কার্যকরভাবে "ফেলে" দিয়েছেন বলেই এটি ঘটে!

অন্য বিষয়টি হ'ল মহামারীটির কারণে কত সংখ্যক মৃত্যুর ঘটনা ঘটেছিল এবং সাধারণ ওঠানামার ফলে কতটা ঘটেছিল তা নির্ধারণ করা কঠিন হতে পারে।

পরিসংখ্যানগত পরিভাষায়, মহামারীটি এর মতো শোনাচ্ছে, আপনার দৃষ্টিকোণ থেকে, আপনি আসলে কী বিশ্লেষণ করতে চান এটি একটি "উপদ্রব"। সুতরাং আপনি এটিতে বিশেষভাবে আগ্রহী নন, তবে আপনার বিশ্লেষণে আপনার কোনওরকম অ্যাকাউন্ট নেওয়া দরকার। রিগ্রেশন সেটিংয়ে এটি করার একটি "দ্রুত এবং নোংরা" উপায় হ'ল মহামারী বছর / পিরিয়ডের জন্য একটি সূচককে রেজিস্ট্রার ভেরিয়েবল হিসাবে অন্তর্ভুক্ত করা। এটি আপনাকে মহামারীগুলির প্রভাবের গড় প্রাক্কলন দেবে (এবং স্পষ্টতই ধারণা করে যে প্রভাবটি প্রতিটি মহামারীর জন্য একই রকম)। তবে, এই পদ্ধতির প্রভাবটি বর্ণনা করার জন্যই কাজ করে, কারণ পূর্বাভাস দেওয়ার সময়, আপনার রিগ্রেশন ভেরিয়েবল অজানা (আপনি জানেন না ভবিষ্যতে কোন সময়কাল মহামারী হবে)।

মহামারীটির জন্য অ্যাকাউন্ট করার আরেকটি উপায় হ'ল দুটি উপাদান সহ একটি মিশ্রণ মডেল ব্যবহার করা: মহামারী অংশের জন্য একটি মডেল এবং "সাধারণ" অংশের জন্য একটি মডেল। মডেলটি তারপরে দুটি ধাপে এগিয়ে যায়: 1) মহামারী বা স্বাভাবিক হিসাবে একটি কালকে শ্রেণিবদ্ধ করুন, তারপরে 2) এটি শ্রেণিবদ্ধ করা হয়েছিল এমন মডেলটি প্রয়োগ করুন।


(+1) দুর্দান্ত পরামর্শ, যদিও আরও বেশি নন-নোংরা কৌশলগুলি সম্ভবত সম্ভব।
দিমিত্রিজ সেলভ

+1 টি; উত্তরোত্তর জন্য, আমি নিম্নলিখিত মন্তব্য করতে চাই: আপনি "একটি সত্যিকারের প্রভাব অপসারণ ... কেবলমাত্র আপনার ভবিষ্যদ্বাণীকে আরও খারাপ করতে পারে" বলে মন্তব্য করেছেন। প্রসঙ্গে, আপনি স্পষ্টতই সঠিক, তবে সাধারণ ক্ষেত্রে এটি অগত্যা সত্য নয়। (আমি 'বায়াস-ভেরিয়েন্স ট্রেড অফ'-এর কথা ভাবছি, যা ভবিষ্যদ্বাণীপূর্ণ মডেলিংয়ের ক্ষেত্রে একটি বড় বিষয়)) আবারও, আমি মনে করি আপনি ঠিক এখানে আছেন, এবং আমি জানি আপনি পক্ষপাত-বৈকল্পিক ট্রেড অফ সম্পর্কে জানেন; ভবিষ্যতে যে কেউ এই উত্তরটি জুড়ে আসে এবং তার বক্তব্যটির ভুল ব্যাখ্যা করতে পারে তার জন্য আমি এটি উল্লেখ করতে চাই।
গুং - মনিকা পুনরায়

5

আপনার প্রশ্নের সাধারণ জবাব দেওয়ার জন্য, আমাকে আমার পুরানো সাধারণ পরিচালকদের মধ্যে একজনকে তুলে ধরতে দাও: আপনি যে মডেলটির জন্য উপযুক্ত তা খুঁজে বের করার গবেষণার সুযোগগুলি খুঁজে পাওয়া যায়।

পরিস্থিতিটি বৈদ্যুতিনের চার্জ নির্ধারণে আমার রবার্ট মিলিকান পরিচালিত পরীক্ষার মতো। তার পরীক্ষার জন্য নোবেল পুরষ্কার জয়ের কয়েক দশক পরে, তার নোটগুলি পরীক্ষা করা হয়েছিল এবং দেখা গেছে যে তিনি প্রচুর ডেটা পয়েন্ট ছুঁড়ে ফেলেছেন কারণ তারা যে ফলাফলগুলির সন্ধান করছেন তাতে তারা দ্বিমত পোষণ করেছেন। এটা কি খারাপ বিজ্ঞান?

যদি আপনি কয়েকজন বিদেশি খুঁজে পান, তবে সম্ভবত এটি "পরিসংখ্যানের অনুষঙ্গ" এর কারণে। তবে, আপনি যদি কয়েকজন বহিরাগতের চেয়ে বেশি খুঁজে পান তবে আপনার ডেটা আরও ঘনিষ্ঠভাবে অন্বেষণ করতে হবে। যদি আপনি এই সংঘর্ষের জন্য কোনও কারণকে দায়ী করতে না পারেন, তবে আপনি প্রক্রিয়াটি বুঝতে পারবেন না এবং একটি পরিসংখ্যানের মডেল আপনার সমস্যার সমাধান করবে না। কোনও মডেলের উদ্দেশ্য একটি প্রক্রিয়াটির সংক্ষিপ্তসার, মডেলটি পরীক্ষামূলকভাবে বুঝতে পারে না এমন কোনও প্রক্রিয়াটিকে যাদুতে সংক্ষিপ্ত আকারে দেবে না।


এটি মানুষের প্রবণতা। রবার্ট মিলিকানও তার ব্যতিক্রম ছিলেন না। আমি খুব খুশী যে এতগুলি নতুন বিষয় আলোকিত হয়েছে এবং একটি পরিসংখ্যানের মডেলের পিছনে দর্শনের উপর জোর দেওয়া হয়েছে।
ডাঃ যিনি 22'11

5

"যখন আমাদের আইন (মডেল) কাজ করে না" তখন "ডেটা ক্লিনিজিং" এর ভূমিকাটি চিহ্নিত করা। আউটলিয়ার বা অস্বাভাবিক ডেটা পয়েন্টগুলির জন্য সামঞ্জস্য করা আমাদের যে মডেলটিকে বিনোদন দিচ্ছে তার বর্তমান পরামিতিগুলির "মজবুত অনুমান" পেতে দেয়। এই "আউটলিয়ার্স" যদি চিকিত্সা না করে মডেল প্যারামিটারগুলিতে একটি অযাচিত বিকৃতির অনুমতি দেয় কারণ অনুমান "এই ডেটা পয়েন্টগুলি ব্যাখ্যা করতে পরিচালিত হয়" যা "আমাদের অনুমানযুক্ত মডেল অনুসারে আচরণ করে না"। অন্য কথায় "ব্যাডিজ" এর উপর ফোকাস করে স্কয়ার স্কয়ারের সমষ্টি অনুসারে প্রচুর পরিশোধ হবে। বর্তমানের মডেলটিতে নেই এমন কারণগুলির সম্ভাব্য বিকাশ / পরামর্শ দেওয়ার জন্য নিখুঁতভাবে চিহ্নিত পয়েন্টগুলি যেগুলি পরিষ্কার করার প্রয়োজন রয়েছে সেগুলি সাবধানতার সাথে তদন্ত করতে হবে।

বার্ষিক ক্ষেত্রে মৃত্যুর হার ব্যবহার করে একটি রাজ্যে বনাম অন্য রাজ্যে হস্তক্ষেপের প্রভাব কীভাবে মূল্যায়ন করবেন?

বিজ্ঞান করতে হয় পুনরাবৃত্তি নিদর্শন অনুসন্ধান করা।

অসঙ্গতিগুলি সনাক্ত করা হল এমন মানগুলি সনাক্ত করা যা বারবারের নিদর্শনগুলি অনুসরণ করে না। আপনি কীভাবে জানবেন যে কোনও বিন্দু সেই মডেলটিকে লঙ্ঘন করেছে? প্রকৃতপক্ষে, বহিরাগতদের বর্ধন, বোঝার, সন্ধান এবং পরীক্ষা করার প্রক্রিয়া অবশ্যই পুনরাবৃত্ত হওয়া উচিত। এটি কোনও নতুন চিন্তা নয়।

স্যার ফ্রান্সেস বেকন, প্রায় 400 বছর আগে নভম অর্গানামে লিখেছিলেন: "প্রকৃতি, খেলাধুলা এবং দানবগুলির ত্রুটিগুলি সাধারণ বিষয়গুলির মধ্যে বোঝাপড়াটি সংশোধন করে এবং সাধারণ রূপগুলি প্রকাশ করে। যেহেতু প্রকৃতির উপায় জানে সে আরও সহজে তার বিচ্যুতি লক্ষ্য করবে; এবং অন্যদিকে, যে ব্যক্তি হার্ভেডিকেশন জানে সে আরও সঠিকভাবে তার উপায়গুলি বর্ণনা করবে। "

বর্তমানের বিধিগুলি ব্যর্থ হলে পর্যবেক্ষণ করে আমরা আমাদের বিধিগুলি পরিবর্তন করি।

যদি প্রকৃতপক্ষে চিহ্নিত আউটলিয়াররা সমস্ত ডাল এবং একই রকম প্রভাব (আকার) থাকে তবে আমরা নীচের পরামর্শ দিই (অন্য পোস্টার থেকে উদ্ধৃত)

একটি রিগ্রেশন সেটিংয়ে এটি করার একটি "দ্রুত এবং নোংরা" উপায় হ'ল মহামারী বছর / পিরিয়ডের জন্য একটি সূচককে রেজিস্ট্রার ভেরিয়েবল হিসাবে অন্তর্ভুক্ত করা This এটি আপনাকে মহামারীটির প্রভাবের গড় প্রাক্কলন দেবে (এবং স্পষ্টতই প্রভাবটি অনুমান করে যে প্রতিটি মহামারী হিসাবে একই) তবে, এই পদ্ধতির প্রভাবটি বর্ণনা করার জন্যই কাজ করে, কারণ পূর্বাভাসের ক্ষেত্রে, আপনার রিগ্রেশন পরিবর্তনশীল অজানা (আপনি জানেন না ভবিষ্যতে কোন সময়কাল মহামারী হবে)।

এটি যদি অবশ্যই প্রয়োজন তবে স্বতন্ত্র অসংলগ্নতা (নাড়ি বছর) এর একই রকম প্রভাব থাকতে পারে। যদি এগুলির মধ্যে পার্থক্য থাকে তবে উপরে বর্ণিত একটি পোর্টম্যানট্যু ভেরিয়েবলটি ভুল হবে।


@ আইরিশস্ট্যাট: দুর্দান্ত ব্যাখ্যা এবং একটি স্মরণীয় উদ্ধৃতি। আপনি আপনার জ্যেষ্ঠতা এবং দক্ষতা বজায় রেখেছেন। আপনি কল্যাণকামী আমার আগে করা প্রশ্নের রেফারেন্স সঙ্গে আপনার বিবৃতি "জ্ঞান ওয়েটিং আবিষ্কৃত করা" প্রসারিত করতে stats.stackexchange.com/questions/8358/...
DrWho

1
@ শ্রাব্যহো: খুব খারাপ দেখাচ্ছে এমন অবশেষের চক্রান্তটির প্রতিকার করে ২০১৪-তে লেভেল শিফটের সনাক্তকরণ "আবিষ্কার করা জ্ঞান" এর উদাহরণ যা এটি নীতি পরিবর্তনের তারিখের মধ্যে আপাত বিলম্ব প্রকাশ করেছিল এবং এটি সম্পূর্ণ বাস্তবায়ন / বাস্তবায়নের তারিখ। একটি স্থায়ী স্তর (পদক্ষেপ) স্থানান্তর পুরোপুরি উপলব্ধি হয়েছিল যে বিবৃতি 2004 (17 বছর 11) ডি ফ্যাক্ট তারিখ প্রতিফলিত যেখানে ডি জুর তারিখ হিসাবে কয়েক বছর আগে ছিল।
আইরিশস্ট্যাট

@ আইরিশস্ট্যাট: স্পষ্টির জন্য আপনাকে ধন্যবাদ। নীতি নির্ধারক, চিকিত্সক এবং জনসাধারণকে বোঝানো খুব কঠিন যে কোনও নির্দিষ্ট চিকিত্সার ফলে রোগের ফলাফলের ক্ষেত্রে কঠোর পরিবর্তন হতে পারে। কয়েক দশক সময় লাগে। এই স্তরটির স্থানান্তরটি 2004 সালে দেখা গিয়েছিল নতুন কিছু গ্রহণে বিলম্বকে প্রতিফলিত করে। স্ট্যাটাস.স্ট্যাকেক্সচেঞ্জ
ডাঃ কে

1
আমার মন্তব্য উপরে 2004 এ লেভেল শিফট হওয়া উচিত ছিল। বিভ্রান্তির জন্য দুঃখিত।
আইরিশস্ট্যাট

1
@ ডিআরডাব্লুএইচও: আপনার প্রশ্নের উত্তরে "প্রশ্নটি মোকাবেলা করার সময় লেভেল শিফট ছেড়ে যাওয়া বা রাষ্ট্রের কেস ফ্যাটালিটি রেট 1 এর গণনার জন্য আউটলেট হিসাবে বিবেচনা করা কি ভাল"। আপনি যদি এটির চিকিত্সা না করেন তবে সহজেই বলা যেতে পারে যে 2004 এ স্টেট 1-এর একটি স্তর শিফট পরিবর্তন ছিল যখন স্টেট 2 এগুলি পৃথক নয় তবে সেই বিবৃতিতে কোনও সম্ভাবনা রাখতে পারে না। লেভেল শিফ্টের জন্য স্টেট 1-এর চিকিত্সা করার পরে 2004 এ স্থিতি পরিবর্তনের জন্য ডেটাটিকে সাধারণকরণ করা হয়েছে normal সাধারণীকরণের ডেটা (ক্লিন্সড ডেটা) এর পরে সাধারণতা হারাতে না দিয়ে স্টেট 2 এর স্বাভাবিক তথ্যগুলির সাথে তুলনা করা যেতে পারে।
আইরিশস্ট্যাট

5

প্রত্নতাত্ত্বিক তথ্যগুলিতে মহামারী সনাক্ত করার জন্য একটি সর্বাধিক ব্যবহৃত পদ্ধতি হ'ল প্রকৃতপক্ষে বিদেশীদের অনুসন্ধান করা - অনেক ফ্লু গবেষক, উদাহরণস্বরূপ, প্রাথমিকভাবে তাদের উপযুক্ত মডেলগুলির অবশিষ্টাংশগুলিতে মনোযোগ নিবদ্ধ করুন, যেখানে মডেলগুলি নিজেরাই "দিন" ইন, ডে-আউট "মডেলের ভবিষ্যদ্বাণীগুলি ব্যর্থ - মডেলটি যেভাবে ব্যর্থ হতে পারে তার একটি হ'ল একটি মহামারী দেখা দেওয়ার সাথে।

এটি অবশ্যম্ভাবী যে আপনি নিজের ফলাফলগুলিতে আউটলাইজারদের শিকার করার মধ্যে পার্থক্য করেন - সম্ভবত এটি এখনও সবচেয়ে বড় ধারণা নয় - এবং বেশিরভাগ লোকেরা "ডেটা ক্লিনিং" হিসাবে উল্লেখ করেন। এখানে, আপনি নাগরিকদের অনুসন্ধান করছেন কারণ তারা কোনও পরিসংখ্যানগত সমস্যা উপস্থাপন করে না, কারণ তারা ডেটা মানের সমস্যা উত্থাপন করে।

উদাহরণস্বরূপ, আমার কাছে থাকা একটি ডেটা সেটে রোগের সূত্রপাতের জন্য একটি পরিবর্তনশীল রয়েছে। একটি বিষয়ের জন্য, এই তারিখটি 1929 সালের নভেম্বরে। আমি কি এটি সঠিক বলে মনে করি? না। এটি এমন একটি ডেটা মানের সমস্যা নির্দেশ করে যা স্থির করা দরকার - এক্ষেত্রে বিষয় সম্পর্কিত অন্যান্য তথ্যের ভিত্তিতে তারিখটি সংশোধন করা। এই ধরণের ডেটা সাফ করা আপনার পরিসংখ্যানগত ফলাফলের গুণমানকে সক্রিয়ভাবে উন্নত করবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.