আমি একটি কাগজ মিলের পারফরম্যান্স সম্পর্কে ভবিষ্যদ্বাণী করতে আরএফ রিগ্রেশনকে কাজে লাগানোর চেষ্টা করছি।
আমার কাছে ইনপুটগুলির জন্য (কাঠের সজ্জার হার এবং পরিমাণ ইত্যাদি ...) পাশাপাশি মেশিনের কার্য সম্পাদনের জন্য (কাগজ উত্পাদিত, মেশিন দ্বারা উত্পাদিত শক্তি) মিনিট মিনিট ডেটা রয়েছে এবং আমি 10 মিনিট পূর্বাভাস দেওয়ার চেষ্টা করছি এগিয়ে কর্মক্ষমতা ভেরিয়েবল।
আমি 12 মাসের ডেটা পেয়েছি, তাই এটিকে প্রশিক্ষণের জন্য 11 মাস এবং পরীক্ষার জন্য চূড়ান্ত মাসে পৃথক করে রেখেছি।
এখন পর্যন্ত আমি 10 টি নতুন বৈশিষ্ট্য তৈরি করেছি যা প্রতিটি পারফরম্যান্স ভেরিয়েবলের জন্য 1-10 মিনিটের ব্যবধানে মানগুলিকে পিছনে ফেলেছে এবং পূর্বাভাস দেওয়ার জন্য এগুলি এবং ইনপুটগুলি ব্যবহার করে। পরীক্ষার সেটটিতে পারফরম্যান্স বেশ ভাল হয়েছে (সিস্টেমটি বেশ অনুমানযোগ্য) তবে আমি চিন্তিত যে আমি আমার পদ্ধতির মধ্যে কিছু মিস করছি।
উদাহরণস্বরূপ, এই গবেষণাপত্রে , লেখকরা তাদের এলোমেলো বন মডেলের ভবিষ্যদ্বাণীপূর্ণ দক্ষতার পরীক্ষায় তাদের পদ্ধতির কথা বলেছেন:
সিমুলেশনটি পুনরাবৃত্তভাবে উপাত্তের একটি নতুন সপ্তাহ যুক্ত করে, আপডেট করা তথ্যের উপর ভিত্তি করে একটি নতুন মডেলকে প্রশিক্ষণ দিয়ে এবং পরবর্তী সপ্তাহের জন্য প্রাদুর্ভাবের সংখ্যার পূর্বাভাস দিয়ে এগিয়ে যায়
পরীক্ষার সময় সময় সিরিজের 'পরে' ডেটা ব্যবহার করা থেকে এটি কীভাবে আলাদা? আমি কি এই পদ্ধতির পাশাপাশি পরীক্ষার ডেটা সেটটিতে আমার আরএফ রেগ্রেশন মডেলটি যাচাই করব? তদুপরি, র্যান্ডম অরণ্য রেগ্রেশন সম্পর্কিত এই ধরণের 'অটোরগ্রেসিভ' পদ্ধতিটি কি সময়ের সিরিজের জন্য বৈধ, এবং যদি আমি ভবিষ্যতে 10 মিনিটের পূর্বে কোন ভবিষ্যদ্বাণীতে আগ্রহী হয় তবে আমার কি এই অনেকগুলি পিছিয়ে চলক তৈরি করা দরকার?