আমি ব্যক্তিগতভাবে এই "ডেটা ক্লিনিং" বলব না। আমি ডেটা এডিটিংয়ের অর্থে ডেটা পরিষ্কার করার কথা ভাবি - ডেটা সেটে অসঙ্গতিগুলি পরিষ্কার করে (উদাহরণস্বরূপ একটি রেকর্ডটি বয়স 1000 এর, অথবা 4 বছরের একজন ব্যক্তি একক পিতা বা মাতা ইত্যাদি)।
আপনার ডেটাতে সত্যিকারের প্রভাবের উপস্থিতি এটিকে "অগোছালো" করে না (বিপরীতে, প্রকৃত প্রভাবগুলির উপস্থিতি এটি সমৃদ্ধ করে তুলবে) - যদিও এটি আপনার গাণিতিক কার্যকে আরও জড়িত করে তুলতে পারে। আমি পরামর্শ দেব যে যদি কোনও পূর্বাভাস পাওয়ার একমাত্র সম্ভাব্য উপায় হয় তবে ডেটা এইভাবে "পরিষ্কার" করা উচিত। যদি এমন কোনও সম্ভাব্য উপায় থাকে যা তথ্য ফেলে দেয় না, তবে এটি ব্যবহার করুন।
মনে হচ্ছে আপনি কোনও ধরণের চক্রীয় বিশ্লেষণ থেকে উপকৃত হতে পারেন, আপনি যদি বলেন যে এই প্রভাবটি পর্যায়ক্রমে প্রায়শই আসে ("ধরণের" ব্যবসায় চক্রের মতো))।
আমার দৃষ্টিকোণ থেকে, আপনি যদি কিছু পূর্বাভাসের দিকে তাকিয়ে থাকেন তবে সেই উত্স থেকে একটি আসল প্রভাব সরিয়ে নেওয়া আপনার ভবিষ্যদ্বাণীগুলিকে আরও খারাপ করতে পারে। আপনি ভবিষ্যদ্বাণী করতে চান এমন তথ্য কার্যকরভাবে "ফেলে" দিয়েছেন বলেই এটি ঘটে!
অন্য বিষয়টি হ'ল মহামারীটির কারণে কত সংখ্যক মৃত্যুর ঘটনা ঘটেছিল এবং সাধারণ ওঠানামার ফলে কতটা ঘটেছিল তা নির্ধারণ করা কঠিন হতে পারে।
পরিসংখ্যানগত পরিভাষায়, মহামারীটি এর মতো শোনাচ্ছে, আপনার দৃষ্টিকোণ থেকে, আপনি আসলে কী বিশ্লেষণ করতে চান এটি একটি "উপদ্রব"। সুতরাং আপনি এটিতে বিশেষভাবে আগ্রহী নন, তবে আপনার বিশ্লেষণে আপনার কোনওরকম অ্যাকাউন্ট নেওয়া দরকার। রিগ্রেশন সেটিংয়ে এটি করার একটি "দ্রুত এবং নোংরা" উপায় হ'ল মহামারী বছর / পিরিয়ডের জন্য একটি সূচককে রেজিস্ট্রার ভেরিয়েবল হিসাবে অন্তর্ভুক্ত করা। এটি আপনাকে মহামারীগুলির প্রভাবের গড় প্রাক্কলন দেবে (এবং স্পষ্টতই ধারণা করে যে প্রভাবটি প্রতিটি মহামারীর জন্য একই রকম)। তবে, এই পদ্ধতির প্রভাবটি বর্ণনা করার জন্যই কাজ করে, কারণ পূর্বাভাস দেওয়ার সময়, আপনার রিগ্রেশন ভেরিয়েবল অজানা (আপনি জানেন না ভবিষ্যতে কোন সময়কাল মহামারী হবে)।
মহামারীটির জন্য অ্যাকাউন্ট করার আরেকটি উপায় হ'ল দুটি উপাদান সহ একটি মিশ্রণ মডেল ব্যবহার করা: মহামারী অংশের জন্য একটি মডেল এবং "সাধারণ" অংশের জন্য একটি মডেল। মডেলটি তারপরে দুটি ধাপে এগিয়ে যায়: 1) মহামারী বা স্বাভাবিক হিসাবে একটি কালকে শ্রেণিবদ্ধ করুন, তারপরে 2) এটি শ্রেণিবদ্ধ করা হয়েছিল এমন মডেলটি প্রয়োগ করুন।