আরিমা বনাম এলএসটিএম ব্যবহার করে টাইম সিরিজের ভবিষ্যদ্বাণী


64

আমি যে সমস্যাটি নিয়ে কাজ করছি তা হ'ল সময় সিরিজের মানগুলির পূর্বাভাস। আমি এক সময় এক সময় সিরিজ দেখছি এবং উদাহরণস্বরূপ ইনপুট ডেটার 15% এর উপর ভিত্তি করে, আমি এর ভবিষ্যতের মানগুলি পূর্বাভাস দিতে চাই। এখন পর্যন্ত আমি দুটি মডেল জুড়ে এসেছি:

  • LSTM (দীর্ঘ স্বল্পমেয়াদী মেমরি; পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির একটি শ্রেণি)
  • Arima

আমি উভয় চেষ্টা করে দেখেছি এবং সেগুলি সম্পর্কে কিছু নিবন্ধ পড়েছি। এখন আমি কীভাবে দুটির তুলনা করব সে সম্পর্কে আরও ভাল ধারণা পাওয়ার চেষ্টা করছি। আমি এ পর্যন্ত যা খুঁজে পেয়েছি:

  1. এলএসটিএম আরও ভাল কাজ করে যদি আমরা বিপুল পরিমাণে ডেটা নিয়ে কাজ করি এবং পর্যাপ্ত প্রশিক্ষণের ডেটা পাওয়া যায়, যখন অ্যারিএমএ আরও ছোট ডেটাসেটের জন্য ভাল (এটি কি সঠিক?)
  2. এআরআইএমএর একটি প্যারামিটারগুলির একটি সিরিজ প্রয়োজন (p,q,d)যা ডেটার উপর ভিত্তি করে গণনা করতে হবে, যখন এলএসটিএম এর জন্য এই জাতীয় পরামিতিগুলি সেট করার প্রয়োজন হয় না। তবে, এলএসটিএম-এর জন্য আমাদের কয়েকটি হাইপারপ্যারামিটার টিউন করতে হবে।
  3. সম্পাদনা: এখানে একটি দুর্দান্ত নিবন্ধ পড়ার সময় আমি দুজনের মধ্যে একটি প্রধান পার্থক্য লক্ষ্য করেছি যে, আরিমা কেবল স্থায়ী সময় সিরিজে ভাল পারফরম্যান্স করতে পারে (যেখানে কোনও seasonতু, প্রবণতা ইত্যাদি নেই) এবং আপনার যদি সেই যত্ন নেওয়া দরকার তবে আরিমা ব্যবহার করতে চাই

উল্লিখিত বৈশিষ্ট্যগুলি বাদে আমি অন্য কোনও পয়েন্ট বা তথ্য খুঁজে পাইনি যা সেরা মডেলটি নির্বাচন করতে আমাকে সহায়তা করতে পারে। যদি কেউ আমাকে নিবন্ধ, কাগজপত্র বা অন্যান্য জিনিস সন্ধান করতে সহায়তা করতে পারে তবে (এখানে এখনও ভাগ্য ছিল না, কেবল এখানে এবং সেখানে কিছু সাধারণ মতামত রয়েছে এবং পরীক্ষার উপর ভিত্তি করে কিছুই নেই।)

আমার উল্লেখ করতে হবে যে মূলত আমি স্ট্রিমিং ডেটা নিয়ে কাজ করছি, তবে আপাতত আমি এনএবি ডেটাসেট ব্যবহার করছি যার মধ্যে 20k ডেটা পয়েন্টের সর্বাধিক আকারের 50 টি ডাটাসেট রয়েছে।



আপনার কি দয়া করে এলএসটিএম কোডটি ভাগ করে নেবেন? এবং ধন্যবাদ.
সাহায্য

উত্তর:


25

বিবৃতি 1 সঠিক, বিবৃতি 2 সঠিক, তবে সম্প্রসারণ প্রয়োজন, এবং বিবৃতি 3 মৌসুমী আরিমা জন্য ভুল:

নিম্নলিখিতগুলি আপনাকে সঠিক দিকে নির্দেশ করতে পারে তবে আশা করছি আপনি এলএসটিএমের অঙ্গনে আরও গভীরতার সাথে আরও কয়েকটি উত্তর পেয়ে যাবেন।

আপনি উল্লেখ করেছেন যে আপনি উভয় অ্যালগরিদম চেষ্টা করেছেন এবং আপনি কেবল কোনটি আরও ভাল তা নির্ধারণ করার চেষ্টা করছেন যা আমাকে ধারণা করতে পরিচালিত করে যে আপনি মডেলগুলির সুনির্দিষ্টতার চেয়ে ডেটা বিজ্ঞান প্রক্রিয়া এবং ক্রস বৈধকরণের ক্ষেত্রে আরও বেশি সমস্যায় পড়তে পারেন।

সাধারণভাবে সময় সিরিজ:

সময় সিরিজ, সাধারণভাবে, পূর্বাভাস দেওয়া কঠিন। যদি সেগুলি পূর্বাভাস দেওয়া সহজ হয় তবে সমস্ত ডেটা বিজ্ঞানীরা ধনী হবেন, সমস্ত স্টকের মূল্য সঠিকভাবে পূর্বাভাস দিয়েছিলেন। বাস্তবতা হেজ ফান্ডগুলি, গড়পড়তাভাবে, বাজারকে ছাপিয়ে যায় না এবং সেই সময়ের সিরিজের পূর্বাভাস সাধারণত খুব দুর্বল হয় এবং এটি খুব সংক্ষিপ্ত সময়ের মধ্যেই প্রযোজ্য। প্রধান সমস্যাগুলি হ'ল প্রচুর আওয়াজ রয়েছে, অনেকগুলি লুকানো প্রভাব রয়েছে, মডেলগুলি অত্যধিক সরলতাযুক্ত, প্রভাবকরা আমাদের যেমনটি মনে করেন তাদের আচরণ করেন না, লৈখিকতা এবং অরৈখিকতার মধ্যে আন্তঃসম্পর্ক সূক্ষ্ম এবং বিভ্রান্তিকর, ... বিজ্ঞাপনের অন্তর্ভুক্ত।

Arima

আপনি নিজের মূল্যায়নে ভুল করেছেন যে ARIMA এর পূর্বাভাস দেওয়ার জন্য স্টেশনারি সময় সিরিজ প্রয়োজন। অ-মৌসুমী এআরআইএমএ'র স্মুথিং, স্টাটারারিটি এবং পূর্বাভাসের জন্য আরিমা (পি, ডি, কিউ) নিয়ন্ত্রণের জন্য তিনটি ইনপুট মান রয়েছে যেখানে:

  • p হ'ল অটোরিগ্রেসিভ পদগুলির সংখ্যা,
  • d হ'ল স্থিরতার জন্য প্রয়োজনীয় নন-মৌসুমী পার্থক্যের সংখ্যা এবং
  • q হল পূর্বাভাস সমীকরণের পিছনে থাকা পূর্বাভাসের ত্রুটির সংখ্যা।

বিপরীতে মৌসুমী এআরআইএমএর ছয়টি ইনপুট মান রয়েছে আরিমা (পি, ডি, কিউ, পি, ডি, কিউ), যেখানে:

  • পি হ'ল মৌসুমী অটোরিগ্রেসিভ পদগুলির সংখ্যা,
  • ডি হ'ল মৌসুমী পার্থক্যের সংখ্যা এবং
  • প্রশ্নটি মৌসুমী চলমান-গড় পদগুলির সংখ্যা।

উপরোক্ত যোগ্যতার বিবৃতি সাপেক্ষে, আমি মসৃণকরণ, ডি-সিজনিং, ডি-ট্রেন্ডিং, ডি-শোরগোল, এবং পূর্বাভাসের সাথে জড়িত জটিলতাগুলির অনুভূতি পেতে মৌসুমী আরিমার সাথে খেলার পরামর্শ দিই।

LSTM

আমি এখানে বেশি যুক্ত করার জন্য এলএসটিএম সম্পর্কে যথেষ্ট জানি না। আমি যুক্ত করব যে যখন কেউ গভীর শিক্ষার সাথে ডেটা বিজ্ঞান অনুশীলন শুরু করে তখন লাল পতাকাগুলি উত্থিত হবে। আমি আপনাকে আরিমা ব্যবহার করে যতটা শিখতে এবং তারপরে আপনাকে এলএসটিএম শিখতে সহায়তা করার জন্য আপনার কিছু আরিমা দক্ষতা প্রয়োগ করার পরামর্শ দিচ্ছি। নিউরাল নেটওয়ার্কগুলি একটি খুব শক্তিশালী সরঞ্জাম হতে পারে তবে তারা:

  • দৌড়াতে দীর্ঘ সময় নিতে পারে,
  • অন্যান্য মডেলের তুলনায় প্রায়শই প্রশিক্ষণের জন্য আরও ডেটা প্রয়োজন হয় এবং
  • টিউন করতে প্রচুর ইনপুট প্যারামিটার রয়েছে।

ক্রস বৈধকরণ এবং তুলনা মডেল:

সময় সিরিজ মজাদার যে সমস্ত প্রশিক্ষণ ডেটা সাধারণত তদারকি করা শেখার প্রশিক্ষণ সেটগুলিতে রূপান্তরিত হতে পারে। একবার কেবল একটি সময় সিরিজ নিতে এবং সময় ব্যাক করতে পারেন। এটি ... সময়মতো একটি পয়েন্ট বাছাই করুন এবং ভান করুন যে আপনার কোনও অতিরিক্ত ডেটা নেই, তারপরে একটি পূর্বাভাস তৈরি করুন এবং দেখুন আপনি কতটা ভাল করেছেন। আপনি করতে পারেন সময় সিরিজের মাধ্যমে এই কাজ মিছিল আপনার মডেল কর্মক্ষমতা একটি মূল্যায়ন পেতে বারn এবং মডেল তুলনা করতে সময় নিচ্ছে প্রয়োজনীয় সাবধানতা অবলম্বন করতে overfitting প্রতিরোধ

আশা করি এটি সাহায্য করে এবং ভাগ্য!


আপনার প্রতিক্রিয়া জন্য আপনাকে ধন্যবাদ। আরিমা সম্পর্কিত আপনার নোটগুলি সহায়ক এবং আমি সেগুলি মাথায় রাখার চেষ্টা করি। ক্রস বৈধকরণ এবং দুটি মডেলের তুলনায়, বর্তমান ডাটাবেসগুলির জন্য, বিভিন্ন পরামিতি ব্যবহার করে আমি বলতে পারি কোনটি অ্যালগরিদম আরও ভাল সম্পাদন করছে এবং তাই। সমস্যাটি হ'ল এই ডেটাসেটগুলির মধ্যে কোনওটিই প্রকৃত ডেটা (স্ট্রিমিং ডেটা) উপস্থাপন করতে পারে এবং তাই আমি বুঝতে পেরেছিলাম যে ডেটা সায়েন্স এবং মেশিন লার্নিংয়ের ক্ষেত্রে অন্যদের তাদের চিন্তাভাবনা এবং অভিজ্ঞতা ভাগ করে নিতে বললে ভাল হবে better
আহজিব

তবে আপনার যদি স্ট্রিমিং ডেটা থাকে তবে আপনি স্ট্রিমটি সংরক্ষণ করে এটি পরীক্ষার ডেটাতে পরিণত করতে পারেন। টাইম সিরিজের দুর্দান্ত অংশটি হ'ল আপনি সর্বদা যে কোনও ডেটা সেট থেকে বেরিয়ে একটি টেস্টিং ডেটা তৈরি করতে পারেন। আপনার কেবলমাত্র কিছু ডেটা সংরক্ষণ করতে হবে এবং তারপরে সময় রোল করতে হবে।
AN6U5

আমি জানি এটি এক প্রকার বয়স্ক তবে আমার এখানে একমত হতে হবে না। ডি, ডি প্যারামিটারগুলি @ এএন 6 ইউ 5 এর মত মতভেদ করার জন্য রয়েছে, তবে প্রথম স্থানে এই পার্থক্যগুলি করার কারণটি হল সমস্যাটির উপর স্থিতিশীলতা প্রয়োগ করা। আসলে এআরআইএমএ মডেলের একটি ব্যাখ্যা হ'ল সময়-সিরিজে স্টেশনারিটি প্রয়োগ করার শর্তাবলী সহ কেবল লিনিয়ার রিগ্রেশন।
রায়ান

6

@ AN6U5 এর প্রতিক্রিয়াতে যুক্ত করা হচ্ছে।

খাঁটি তাত্ত্বিক দৃষ্টিকোণ থেকে, এই কাগজটি দেখিয়েছে যে আরএনএন সর্বজনীন আনুমানিক। আমি বিবরণে কাগজটি পড়িনি, সুতরাং প্রমাণটিও এলএসটিএম-তে প্রয়োগ করা যেতে পারে কিনা তা আমি জানি না, তবে আমার সন্দেহ আছে। আরএনএন সাধারণভাবে (এলএসটিএম সহ) সবচেয়ে বড় সমস্যা হ'ল গ্রেডিয়েন্ট অন্বেষণ এবং গ্রেডিয়েন্ট বিলুপ্তির সমস্যার কারণে তাদের প্রশিক্ষণ দেওয়া শক্ত। LSTM এর ব্যবহারিক সীমাটি প্রায় 200 200 স্ট্যান্ডার্ড গ্রেডিয়েন্ট বংশোদ্ভূত এবং এলোমেলো সূচনা সহ ধাপে বলে মনে হচ্ছে। এবং যেমনটি উল্লেখ করা হয়েছে, সাধারণভাবে যে কোনও গভীর শেখার মডেলটি ভালভাবে কাজ করার জন্য আপনাকে প্রচুর ডেটা এবং টিউনিংয়ের স্তূপ প্রয়োজন।

আরিমা মডেলটি আরও সীমাবদ্ধ। যদি আপনার অন্তর্নিহিত সিস্টেমটি খুব জটিল হয় তবে খুব ভাল ফিট করা অসম্ভব। তবে অন্যদিকে, আপনি যদি অন্তর্নিহিত মডেলটি যথেষ্ট সহজ হন তবে গভীর শেখার পদ্ধতির চেয়ে এটি অনেক বেশি দক্ষ।


2

আরিমা মডেলগুলি লিনিয়ার এবং এলএসটিএম মডেলগুলি ননলাইনার। পরিসংখ্যানবিদরা অধ্যয়ন করেছেন এমন আরও কিছু প্যারামিটারিক ননলাইনার টাইম সিরিজের মডেল হ'ল থ্রেসোল্ড অটোরেগ্রেসিভ মডেলস (টিএআর) এবং স্মুথ ট্রানজিশন অটোরেগ্রেসিভ মডেলস (স্টার)। আর প্যাকেজ টিএসডাইন এই মডেলগুলি প্রয়োগ করে।

আমি অবাক হয়েছি কীভাবে স্টার মডেলগুলি বনাম এলএসটিএম করে।


2

আমি নিজের এবং অন্যদের মতো একই উপসংহারে এসেছি, traditionalতিহ্যবাহী পূর্বাভাস সম্ভবত সংখ্যাসমূহের সময় সিরিজের জন্য সম্ভবত সবচেয়ে প্রযোজ্য এবং সম্ভবত নির্ভরযোগ্য। আলোচনায় গভীর শিক্ষায় কিছুটা হালকা রক্তপাত ঘটে যেখানে সংখ্যার মানগুলির জন্য টাইম সিরিজ গভীর শিক্ষার সাথে মিশে যায়, যেখানে গভীর শিক্ষণ (বর্তমানে) চিত্র, শব্দ, পরিষ্কার পাঠ্য বা অসাধারণ সনাক্তকরণের জন্য নিদর্শন স্বীকৃতিতে আধুনিক চ্যালেঞ্জগুলির ক্ষেত্রে প্রযোজ্য। প্রতিদিনের লেনদেনের তথ্যগুলির জন্য আমার প্রায়শই ভিএআর / ভিসিএমের সাথে ভাল ফলাফল হয় যা সম্ভবত আপনার সংকেত প্রক্রিয়াকরণ ব্যবহারের ক্ষেত্রে প্রয়োগ করা যেতে পারে।


1

চূড়ান্ত ক্ষেত্রে হিসাবে, আমি ফরেক্স (বৈদেশিক এক্সচেঞ্জ রেট) পূর্বাভাসের উপর অধ্যয়ন করার এবং এলএসটিএম, উইন্ডোড-এমএলপি এবং এআরআইএমএর নিবিড়তার সাথে তুলনা করার সুযোগ পেয়েছি। অনেক নিবন্ধ যেমন বলেছে, ফরেক্স সময় সিরিজটি এলোমেলো হাঁটার সিরিজের নিকটে (এটি সম্পূর্ণ অ-স্থির)। এই অ্যালগরিদমগুলির কোনওটিই পরের দিনের স্পট হারের পূর্বাভাস দিতে পারে না। উদাহরণস্বরূপ, যদি কোনও (বা সামান্য) পরিবর্তন হয় না, তবে এটি বর্তমান মান বজায় রাখবে এবং এটি ফিট দেখাচ্ছে। তবে, যদি কালকের স্পট রেটে হঠাৎ (যথেষ্ট) পরিবর্তন হয় তবে তা সর্বদা পূর্বাভাস দিতে ব্যর্থ হয়। সমস্যাটি হ'ল প্রশিক্ষণের ডেটা থেকে শিখার কিছুই নেই (বলুন, গত দশ বছরের স্পট রেট ইতিহাস) এটি যথেষ্ট বড় কিনা, কারণ এটি সম্পূর্ণ এলোমেলো (সম্ভবত, বিনিময় ব্যবসায়ীদের অনুভূতির কারণে ...) ।

আসলে, মাত্র '1' লেগের সাথে এলএসটিএম, বা (1,0,0) সহ এআরআইএমএ সেরা পারফরম্যান্স করবে যেহেতু 1 টিরও বেশি সময়ের ব্যবধানে ডেটা সংরক্ষণ করা কোনওভাবেই সহায়তা করে না। এই জাতীয় টাইম সিরিজের জন্য, আমি বলব, ট্র্যাকিং পারফরম্যান্সের ক্ষেত্রে, 1) আরিমা, 2) এলএসটিএম, 3) এমএলপি। শেষ মন্তব্য ... ম্যাক্রো / মাইক্রো ইকোনমিক প্যারামিটারগুলির সাথে এমএলপি (বলুন, জিডিপি পার্থক্য, বন্ডের হার, অপরিশোধিত তেলের দাম, ডলার সূচক ইত্যাদি) অতিরিক্ত বৈশিষ্ট্যগুলি মোটেই কার্যকর হয়নি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.