এলএসটিএম ব্যবহার করে সময় সিরিজের পূর্বাভাস: সময় সিরিজকে স্থির করে তোলার গুরুত্ব

স্টেশনারিটি এবং ডিফারেনশনের এই লিঙ্কে এটি উল্লেখ করা হয়েছে যে আরিমার মতো মডেলগুলির পূর্বাভাস দেওয়ার জন্য একটি স্টেশারাইজড টাইম সিরিজ প্রয়োজন কারণ এটি পরিসংখ্যানগত বৈশিষ্ট্য যেমন গড়, বৈচিত্র্য, স্বতঃসংশোধন ইত্যাদি সময়ের সাথে ধ্রুবক। যেহেতু আরএনএনগুলির অ-রৈখিক সম্পর্কগুলি শেখার জন্য আরও ভাল ক্ষমতা রয়েছে ( এখানে দেওয়া হিসাবে: টাইম সিরিজের পূর্বাভাসের জন্য পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির প্রতিশ্রুতি ) এবং ডেটা বড় হওয়ার সময় traditionalতিহ্যবাহী টাইম সিরিজের মডেলের তুলনায় আরও ভাল পারফরম্যান্স করা যায়, তাই এটি কীভাবে স্টেশনারিযুক্ত তা বোঝা জরুরি তথ্য তার ফলাফল প্রভাবিত করবে। আমার যে প্রশ্নগুলির উত্তর জানতে হবে তা নীচে রয়েছে:

Traditionalতিহ্যবাহী সময় সিরিজের পূর্বাভাস মডেলগুলির ক্ষেত্রে, টাইম সিরিজের ডেটাতে স্থিতিস্থাপকতা ভবিষ্যদ্বাণী করা সহজ করে, কেন এবং কীভাবে?
এলএসটিএম ব্যবহার করে টাইম সিরিজের পূর্বাভাস মডেল তৈরি করার সময়, টাইম সিরিজের ডেটা স্থির করে রাখা কি গুরুত্বপূর্ণ? যদি তাই হয় তবে কেন?

— অভিজয় ঝিল্ডিয়াল
সূত্র

সাধারণ সময়ের সিরিজগুলি অন্য মেশিন লার্নিং সমস্যার থেকে সত্যই আলাদা নয় - আপনি নিজের প্রশিক্ষণ সেটটি 'প্রশিক্ষণের মতো' দেখতে চান, কারণ আপনি নিজের প্রশিক্ষণ সেটে যে মডেল শিখেছেন সেটি এখনও আপনার পরীক্ষার সেটের জন্য উপযুক্ত হতে চান। স্টেশনারিটির বিষয়ে এটিই অন্তর্নিহিত গুরুত্বপূর্ণ ধারণা। টাইম সিরিজের অতিরিক্ত জটিলতা রয়েছে যা আপনার ডেটাতে দীর্ঘমেয়াদী কাঠামো থাকতে পারে যা আপনার মডেলটি শেখার জন্য যথেষ্ট পরিশীলিত নাও হতে পারে। উদাহরণস্বরূপ, এন এর একটি অটোরিগ্রেসিভ লেগ ব্যবহার করার সময়, আমরা এন এর চেয়ে বেশি সময়ের ব্যবধানের উপর নির্ভরতা শিখতে পারি না Hence সুতরাং, আরিমার মতো সাধারণ মডেলগুলি ব্যবহার করার সময়, আমরা ডেটা স্থানীয়ভাবে স্থির থাকতে চাই to

যেমনটি আপনি বলেছেন, নিশ্চল অর্থ হ'ল মডেলের পরিসংখ্যান সময়ের সাথে পরিবর্তিত হয় না ('স্থানীয়ভাবে' স্থির)। আরিমা মডেলগুলি মূলত রিগ্রেশন মডেল যেখানে আপনি N + 1 মানটির পূর্বাভাস দেওয়ার জন্য লিনিয়ার রিগ্রেশনকে ইনপুট হিসাবে অতীতের এন মানগুলি ব্যবহার করেন। (কমপক্ষে, এটি এআর অংশটি করে)। আপনি যখন মডেলটি শিখেন আপনি রিগ্রেশন সহগগুলি শিখছেন। আপনার যদি এমন একটি সময় সিরিজ থাকে যেখানে আপনি পূর্ববর্তী এন পয়েন্ট এবং পরবর্তী পয়েন্টের মধ্যে সম্পর্কটি শিখেন এবং তারপরে আপনি পরবর্তী মানটির পূর্বাভাস দেওয়ার জন্য এন পয়েন্টগুলির একটি পৃথক সেটটিতে প্রয়োগ করেন, আপনি স্পষ্টতই ধরে নিচ্ছেন যে একই সম্পর্কটির মধ্যে রয়েছে এন পূর্বাভাসকারী পয়েন্ট এবং নিম্নলিখিত এন + 1 ম পয়েন্ট আপনি পূর্বাভাস দেওয়ার চেষ্টা করছেন। এটা স্টেশনারিটি। যদি আপনি নিজের প্রশিক্ষণ সেটকে দুটি বিরতিতে আলাদা করেন এবং তাদের উপর আলাদাভাবে প্রশিক্ষিত হন, এবং দুটি খুব আলাদা মডেল পেয়েছেন - আপনি এটি থেকে কী উপসংহার করবেন? আপনি কি মনে করেন যে পূর্বাভাস দেওয়ার জন্য আপনি সেই মডেলগুলি প্রয়োগ করে আত্মবিশ্বাসী বোধ করবেন?নতুন তথ্য? আপনি কোনটি ব্যবহার করবেন? ডেটা 'অবিচলিত' হলে এই সমস্যাগুলি দেখা দেয়।
আরএনএনগুলিতে আমার গ্রহণ এটি হ'ল - আপনি এখনও সময়ের সিরিজের একটি বিভাগ থেকে একটি প্যাটার্ন শিখছেন, এবং ভবিষ্যদ্বাণী পেতে আপনি এখনও সময় সিরিজের অন্য একটি অংশে এটি প্রয়োগ করতে চান। মডেল সময় সিরিজের একটি সরল উপস্থাপনা শেখে - এবং যদি সেই প্রতিনিধিত্ব প্রশিক্ষণ সেটটিতে প্রয়োগ হয় তবে পরীক্ষার সেটে নয়, এটি ভাল অভিনয় করবে না। তবে, এআরআইএমএর বিপরীতে, আরএনএনগুলি অরৈখিকতা শিখতে সক্ষম এবং এলএসটিএম নোডের মতো বিশেষায়িত নোডগুলি এ থেকে আরও ভাল। বিশেষত, দীর্ঘমেয়াদী নির্ভরতা শিখতে এলএসটিএম এবং জিআরইউ খুব ভাল। উদাহরণস্বরূপ দেখুন এই ব্লগ পোস্ট । কার্যকরভাবে এর অর্থ এই যে 'স্টেশনারিটি' বলতে যা বোঝায় তা আরএনএনগুলির সাথে কম ভঙ্গুর, তাই এটি উদ্বেগের কিছুটা কম। দীর্ঘমেয়াদী নির্ভরতা শিখতে সক্ষম হতে তবে প্রশিক্ষণের জন্য আপনার প্রচুর ডেটা প্রয়োজন।

শেষ পর্যন্ত প্রমাণটি পুডিংয়ে রয়েছে। এটি হল, মডেল যাচাইকরণ করুন যেমন আপনি অন্য কোনও মেশিন লার্নিং প্রকল্পের সাথে করেন। যদি আপনার মডেল হোল্ড-আউট ডেটার জন্য ভাল ভবিষ্যদ্বাণী করে তবে আপনি এটি ব্যবহারে কিছুটা আত্মবিশ্বাসী বোধ করতে পারেন। তবে অন্য কোনও এমএল প্রকল্পের মতো - যদি আপনার পরীক্ষার ডেটা আপনার প্রশিক্ষণ ডেটার চেয়ে উল্লেখযোগ্যভাবে আলাদা হয় তবে আপনার মডেলটি ভাল সম্পাদন করবে না।

— টম
সূত্র

এই উত্তরটি দুর্দান্ত। সুচিন্তিত এবং পুঙ্খানুপুঙ্খ

— স্ট্যাটাসস্রেস্রেস

কিছুক্ষণ হবে. কেউ কি এই অনুমান পরীক্ষা করেছে?

— compguy24