সময় সিরিজের পূর্বাভাসের জন্য র্যান্ডম ফরেস্ট রিগ্রেশন


10

আমি একটি কাগজ মিলের পারফরম্যান্স সম্পর্কে ভবিষ্যদ্বাণী করতে আরএফ রিগ্রেশনকে কাজে লাগানোর চেষ্টা করছি।

আমার কাছে ইনপুটগুলির জন্য (কাঠের সজ্জার হার এবং পরিমাণ ইত্যাদি ...) পাশাপাশি মেশিনের কার্য সম্পাদনের জন্য (কাগজ উত্পাদিত, মেশিন দ্বারা উত্পাদিত শক্তি) মিনিট মিনিট ডেটা রয়েছে এবং আমি 10 মিনিট পূর্বাভাস দেওয়ার চেষ্টা করছি এগিয়ে কর্মক্ষমতা ভেরিয়েবল।

আমি 12 মাসের ডেটা পেয়েছি, তাই এটিকে প্রশিক্ষণের জন্য 11 মাস এবং পরীক্ষার জন্য চূড়ান্ত মাসে পৃথক করে রেখেছি।

এখন পর্যন্ত আমি 10 টি নতুন বৈশিষ্ট্য তৈরি করেছি যা প্রতিটি পারফরম্যান্স ভেরিয়েবলের জন্য 1-10 মিনিটের ব্যবধানে মানগুলিকে পিছনে ফেলেছে এবং পূর্বাভাস দেওয়ার জন্য এগুলি এবং ইনপুটগুলি ব্যবহার করে। পরীক্ষার সেটটিতে পারফরম্যান্স বেশ ভাল হয়েছে (সিস্টেমটি বেশ অনুমানযোগ্য) তবে আমি চিন্তিত যে আমি আমার পদ্ধতির মধ্যে কিছু মিস করছি।

উদাহরণস্বরূপ, এই গবেষণাপত্রে , লেখকরা তাদের এলোমেলো বন মডেলের ভবিষ্যদ্বাণীপূর্ণ দক্ষতার পরীক্ষায় তাদের পদ্ধতির কথা বলেছেন:

সিমুলেশনটি পুনরাবৃত্তভাবে উপাত্তের একটি নতুন সপ্তাহ যুক্ত করে, আপডেট করা তথ্যের উপর ভিত্তি করে একটি নতুন মডেলকে প্রশিক্ষণ দিয়ে এবং পরবর্তী সপ্তাহের জন্য প্রাদুর্ভাবের সংখ্যার পূর্বাভাস দিয়ে এগিয়ে যায়

পরীক্ষার সময় সময় সিরিজের 'পরে' ডেটা ব্যবহার করা থেকে এটি কীভাবে আলাদা? আমি কি এই পদ্ধতির পাশাপাশি পরীক্ষার ডেটা সেটটিতে আমার আরএফ রেগ্রেশন মডেলটি যাচাই করব? তদুপরি, র‌্যান্ডম অরণ্য রেগ্রেশন সম্পর্কিত এই ধরণের 'অটোরগ্রেসিভ' পদ্ধতিটি কি সময়ের সিরিজের জন্য বৈধ, এবং যদি আমি ভবিষ্যতে 10 মিনিটের পূর্বে কোন ভবিষ্যদ্বাণীতে আগ্রহী হয় তবে আমার কি এই অনেকগুলি পিছিয়ে চলক তৈরি করা দরকার?


2
আরএফগুলি টেম্পোরাল বিবেচনার জন্য স্পষ্টভাবে সংহত করে না এবং তৈরি করা হয় না। দেওয়া হয়েছে, কেন এই বিশ্লেষণের জন্য এগুলিকে মোটেই ব্যবহার করবেন? অনেক সময় সিরিজ পদ্ধতি আছে বাইরে। একটা তোল.
মাইক হান্টার

2
@ ডি জনসন আমি ভেবেছিলাম আমি কাগজে এই পদ্ধতির নকল করার চেষ্টা করব: আরএফ চেষ্টা করে এটি আরিমার সাথে তুলনা করব। আপনি কি পরামর্শ দিচ্ছেন যে এটি সময়ের জন্য উপযুক্ত নয় এবং কেবল আরিমা ব্যবহার করা উচিত?
কেআরএস-মজা

4
@ ডি জনসন, অটোরিগ্রেসিভ মডেলগুলির যান্ত্রিকতা অনেকটা ক্রস-বিভাগীয় রিগ্রেশন মডেলের মতো। একবার পিছিয়ে থাকা বৈশিষ্ট্যগুলি তৈরি হয়ে গেলে, কেন ক্রস-বিভাগীয় সেটিং হিসাবে আরএফ ব্যবহার করবেন না? আমি মনে করি এগুলি চেষ্টা করা মোটামুটি। তবে আপনি ঠিক বলেছেন যে অন্যান্য পদ্ধতিগুলি সময় সিরিজে আরও বেশি জনপ্রিয় এবং ওপি সেগুলি অন্বেষণ করেও উপকৃত হতে পারে।
রিচার্ড হার্ডি

1
আমার দৃষ্টিভঙ্গি হ'ল আরএফগুলি হাতুড়ির মতো যেখানে সমস্ত কিছুই পেরেক হয়ে যায়। ওপি দ্বারা বর্ণিত ডেটা সহ, আমার প্রথম পছন্দটি প্যানেল ডেটা বা পুলযুক্ত মডেল হবে, আরিমা নয়।
মাইক হান্টার

5
আমি এখনই এটি জুড়ে এসেছি, এবং কয়েক দিন আগে উল্লিখিত কাগজটি পড়েছি। আমি বহুবারের সময় সিরিজের পূর্বাভাসের জন্য এলোমেলো বন এবং একটি এলএসটিএম তুলনা করছি। মজার বিষয় হল, প্রশিক্ষণের তথ্যগুলিতে কম সময় অন্তর্ভুক্ত করার সাথে সাথে এলএসটিএম আরও ভাল করে, তবে আমি আরও বছরের বেশি ডেটা যুক্ত করার সাথে সাথে উভয় পদ্ধতির ফলাফলগুলি সত্যের ফলাফলগুলিতে রূপান্তরিত হচ্ছে। আমি মনে করি এটি বেশিরভাগ কারণেই বৈশিষ্ট্যগুলি অস্থায়ী উপাদানগুলি কাটিয়ে উঠতে পর্যাপ্ত তথ্য সরবরাহ করে। যাইহোক, এটি আকর্ষণীয় ছিল। এছাড়াও, আমি কখনো দেখিনি Arima কাজ ভাল খুব সুস্পষ্ট মৌসুমি ক্ষেত্রে ছাড়া এবং বহুচলকীয় Arima ... হয়
হবসের

উত্তর:


6

পরীক্ষার সময় সময় সিরিজের 'পরে' ডেটা ব্যবহার করা থেকে এটি কীভাবে আলাদা?

আপনি যে পদ্ধতির উদ্ধৃতি দিয়েছেন তাকে "রোলিং অরিজিন" পূর্বাভাস বলা হয়: যে উত্স থেকে আমরা পূর্বাভাস দিয়েছিলাম তা "রোলড ফরোয়ার্ড", এবং নতুন উপলব্ধ তথ্যের সাথে প্রশিক্ষণের ডেটা আপডেট করা হয়। সহজ পদ্ধতির নাম "একক উত্স পূর্বাভাস", যেখানে আমরা একক উত্স বেছে নিই।

রোলিং অরিজিনের পূর্বাভাসের সুবিধা হ'ল এটি সময়ের সাথে সাথে একটি পূর্বাভাস সিস্টেমের অনুকরণ করে । একক উত্স পূর্বাভাসে, আমরা সম্ভবত এমন একটি উত্স বেছে নিতে পারি যেখানে আমাদের সিস্টেম খুব ভাল (বা খুব খারাপভাবে) কাজ করে, যা আমাদের সিস্টেমের কার্যকারিতা সম্পর্কে একটি ভুল ধারণা দিতে পারে।

রোলিং উত্স পূর্বাভাসের একটি অসুবিধা হ'ল এর উচ্চতর ডেটা প্রয়োজনীয়তা requirement যদি আমরা কমপক্ষে 50 টি historicalতিহাসিক পর্যবেক্ষণ সহ 10 টি পদক্ষেপের পূর্বাভাস দিতে চাই তবে আমরা সামগ্রিকভাবে 60 ডেটা পয়েন্ট সহ এই একক-উত্সটি করতে পারি। তবে যদি আমরা 10 ওভারল্যাপিং রোলিং অরিজিনগুলি করতে চাই তবে আমাদের 70 টি ডাটা পয়েন্ট দরকার।

অন্যান্য অসুবিধা অবশ্যই এটির উচ্চতর জটিলতা।

বলাই বাহুল্য, আপনি উত্পন্ন পূর্বাভাসে "পরে" ডেটা ব্যবহার করবেন না, তবে প্রতিটি পুনরাবৃত্তিতে আপনি যে উত্সটি ব্যবহার করছেন তার পূর্বে কেবলমাত্র ডেটা ব্যবহার করা উচিত।

আমি কি এই পদ্ধতির পাশাপাশি পরীক্ষার ডেটা সেটটিতে আমার আরএফ রেগ্রেশন মডেলটি যাচাই করব?

আপনার যদি পর্যাপ্ত ডেটা থাকে, একটি ঘূর্ণায়মান উত্স মূল্যায়ন সর্বদা আমার মধ্যে একক উত্স মূল্যায়নের চেয়ে বেশি আত্মবিশ্বাসের অনুপ্রেরণা জোগায়, কারণ আশা করা যায় যে এটি উত্সটির প্রভাবের গড় নির্ধারণ করবে।

তদুপরি, র‌্যান্ডম অরণ্য রেগ্রেশন সম্পর্কিত এই ধরণের 'অটোরগ্রেসিভ' পদ্ধতিটি কি সময়ের সিরিজের জন্য বৈধ, এবং যদি আমি ভবিষ্যতে 10 মিনিটের পূর্বে কোন ভবিষ্যদ্বাণীতে আগ্রহী হয় তবে আমার কি এই অনেকগুলি পিছিয়ে চলক তৈরি করা দরকার?

হ্যাঁ, রোলিং বনাম একক উত্সের পূর্বাভাস যে কোনও ভবিষ্যদ্বাণীমূলক অনুশীলনের জন্য বৈধ । এটি আপনি এলোমেলো বন বা আরিমা বা অন্য কিছু ব্যবহার করেন কিনা তার উপর নির্ভর করে না।

আপনার ল্যাগেড ভেরিয়েবলগুলি আপনার প্রয়োজন কিনা তা আমরা আপনাকে পরামর্শ দিতে পারি না। কোনও বিষয় বিশেষজ্ঞের সাথে কথা বলাই ভাল হতে পারে, যিনি অন্যান্য ইনপুটগুলির পরামর্শও দিতে পারেন। বিনা পিছিয়ে থাকা ইনপুটগুলি দিয়ে আপনার আরএফ চেষ্টা করুন। এবং এআরআইএমএ বা ইটিএস বা এমনকি সহজ পদ্ধতিগুলির মতো মানক মানদণ্ডগুলির সাথেও তুলনা করুন, যা মারতে আশ্চর্যরকম কঠিন হতে পারে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.