সময়-সিরিজের পূর্বাভাসের জন্য ডেটাसेटকে কীভাবে বিভক্ত করবেন?


22

আমার কাছে বেকারি থেকে historicতিহাসিক বিক্রয় ডেটা রয়েছে (প্রতিদিন, 3 বছরেরও বেশি) এখন আমি ভবিষ্যতের বিক্রয় (সপ্তাহের দিন, আবহাওয়ার পরিবর্তনশীল ইত্যাদির মতো বৈশিষ্ট্যগুলি ব্যবহার করে) পূর্বাভাস দেওয়ার জন্য একটি মডেল তৈরি করতে চাই want

মডেলগুলি ফিটিং এবং মূল্যায়নের জন্য আমি কীভাবে ডেটাসেট বিভক্ত করব?

  1. এটি কি কালানুক্রমিক ট্রেন / বৈধতা / পরীক্ষার বিভাজন হওয়া দরকার?
  2. আমি কি তখন ট্রেন এবং বৈধতা সেট দিয়ে হাইপারপ্যারমিটার টিউনিং করব?
  3. (নেস্টেড) ক্রস বৈধকরণ কোনও সময়-সিরিজের সমস্যার জন্য কী খারাপ কৌশল?


সম্পাদনা

করুন @ne100 এর প্রস্তাবিত ইউআরএল অনুসরণ করার পরে আমি কিছু লিঙ্কগুলি এখানে এসেছি:

  • তত্ত্ব এবং অনুশীলনে (আর কোড সহ) রব হ্যান্ডম্যান "রোলিং পূর্বাভাস উত্স" বর্ণনা করছেন
  • রোলিং পূর্বাভাস উত্সের অন্যান্য শর্তগুলি হ'ল "এগিয়ে চলুন অপ্টিমাইজেশন" ( এখানে বা এখানে ), "ঘূর্ণায়মান দিগন্ত" বা "চলন্ত উত্স"
  • দেখে মনে হচ্ছে এই প্রযুক্তিগুলি অদূর ভবিষ্যতে বিজ্ঞান-শিক্ষায় একীভূত হবে না, কারণ "এই কৌশলগুলির চাহিদা এবং চূড়ান্ততা অস্পষ্ট" ( এখানে বর্ণিত )।

এবং এটি সময়-সিরিজ ক্রস বৈধতার জন্য অন্য পরামর্শ।

উত্তর:


8

রব হ্যান্ডম্যানের ব্লগের এই লিঙ্কটিতে কিছু তথ্য রয়েছে যা কার্যকর হতে পারে: http://robjhyndman.com/hyndsight/crossuthoration/

আমার অভিজ্ঞতায় ডেটাকে কালানুক্রমিক সেটে বিভক্ত করা (বছর 1, বছর 2, ইত্যাদি) এবং সময়ের সাথে প্যারামিটারের স্থিতিশীলতার জন্য পরীক্ষা করা শক্তিশালী কিছু তৈরিতে খুব কার্যকর। তদুপরি, যদি আপনার ডেটা মৌসুমী হয় বা গ্রুপে বিভক্ত হওয়ার আরও একটি সুস্পষ্ট উপায় রয়েছে (উদাহরণস্বরূপ ভৌগলিক অঞ্চল) তবে সেই উপ-গ্রুপগুলিতে পরামিতি স্থিতিশীলতার জন্য পরীক্ষা করা মডেলটি কতটা দৃust় হবে তা নির্ধারণ করতে সহায়তা করতে পারে এবং যদি এটি মাপসই করতে ইচ্ছুক হয় তবে ডেটা পৃথক বিভাগের জন্য পৃথক মডেল।

আমি মনে করি যে পরিসংখ্যানগত পরীক্ষাগুলি দরকারী হতে পারে তবে শেষের ফলাফলটি "গন্ধ পরীক্ষা" পাস করা উচিত।


3

1) প্রযুক্তিগতভাবে বলতে গেলে, আপনি যদি এআইসি এবং অনুরূপ মানদণ্ড ব্যবহার করেন তবে আপনাকে নমুনার বাইরে পরীক্ষা করার দরকার নেই কারণ তারা ওভারফিটিং এড়াতে সহায়তা করে।

3) আমি দেখতে পাচ্ছি না আপনি কীভাবে স্ট্যান্ডার্ড সিভি করতে পারেন কারণ এটি বোঝায় কিছু মূল্যমানের সাথে টাইম সিরিজের মডেলটি প্রশিক্ষণ দেওয়া। পরিবর্তে, প্রশিক্ষণের জন্য রোলিং উইন্ডোটি ব্যবহার করে দেখুন এবং উইন্ডোটি অনুসরণ করে এমন এক বা একাধিক পয়েন্টে প্রতিক্রিয়াটির পূর্বাভাস দিন।


3
সময় সিরিজের এআইসি প্রায়শই এক সময়কালের পূর্বাভাস ত্রুটির ভিত্তিতে থাকে। এটি গতিশীল এন-পিরিয়ড সামনের পূর্বাভাসের পারফরম্যান্স সম্পর্কে বেশি কিছু বলে না। অতএব, এটি একেবারে যথেষ্ট নয়।
আকসকল

আপনি একটি রেফারেন্স দিতে পারেন?
জেমস

1

আমি প্রায়শই বায়সীয় দৃষ্টিকোণ থেকে সমস্যার দিকে এগিয়ে যাই। এই ক্ষেত্রে, আমি কৌশল হিসাবে ওভারিম্পিউশনকে বিবেচনা করব । এর অর্থ আপনার ডেটার জন্য সম্ভাবনা সেট আপ করা, তবে আপনার কিছু ফলাফল বাদ দিন। এই মানগুলি অনুপস্থিত হিসাবে গণ্য করুন এবং তাদের সংশ্লিষ্ট কোভারিয়েটগুলি ব্যবহার করে সেই অনুপস্থিত ফলাফলগুলির মডেল করুন। তারপরে ঘোরান যার মাধ্যমে ডেটা বাদ দেওয়া হয়। আপনি এটির ভিতরে এটি করতে পারেন, উদাহরণস্বরূপ, একটি 10-গুণ সিভি পদ্ধতি।

যখন একটি নমুনা প্রোগ্রামের অভ্যন্তরে প্রয়োগ করা হয়, এর অর্থ হ'ল প্রতিটি পদক্ষেপে আপনি আপনার বাদ দেওয়া ডেটা মান (আপনার পরামিতিগুলির পাশাপাশি) এর একটি প্রার্থীর মান আঁকেন এবং আপনার প্রস্তাবিত মডেলের বিপরীতে এর সম্ভাবনাটি মূল্যায়ন করুন। স্থিতিশীলতা অর্জনের পরে, আপনি আপনার মডেলকে পাল্টা ফ্যাক্টুয়াল স্যাম্পল্ড মানগুলি দিয়েছেন যা আপনি পূর্বাভাস ত্রুটি মূল্যায়ন করতে ব্যবহার করতে পারেন: এই নমুনাগুলি প্রশ্নের উত্তর দেয় "এই মডেলগুলির মূল্যবোধের অভাবে কী দেখাবে?" নোট করুন যে এই পূর্বাভাসগুলি সহগের প্রাক্কলনগুলিতে উপস্থিত অনিশ্চয়তা থেকেও অনিশ্চয়তার উত্তরাধিকারী হবে, সুতরাং যখন আপনি আপনার ভবিষ্যদ্বাণী করা মানগুলি, যেমন 1 মার্চ, 2010 একসাথে সংগ্রহ করেন, তখন আপনার সেই তারিখের জন্য পূর্বাভাসের বিতরণ থাকবে ।

এই মানগুলি নমুনাযুক্ত হওয়ার অর্থ এই যে আপনি এখনও ত্রুটি পদগুলি ব্যবহার করতে পারেন যা সম্পূর্ণ ডেটা সিরিজ উপলভ্য (যেমন চলমান গড়) উপর নির্ভর করে, যেহেতু আপনার প্রতিটি পদক্ষেপে একটি নমুনা ফলাফলের মান পাওয়া যায়।


1

আপনার ক্ষেত্রে আপনার কাছে প্রচুর বিকল্প নেই। আপনার কাছে কেবল একটি বেকারি রয়েছে বলে মনে হয়। সুতরাং, একটি নমুনা ছাড়াই পরীক্ষা চালানোর জন্য আপনার একমাত্র বিকল্প হ'ল সময় বিচ্ছেদ, অর্থাত প্রশিক্ষণের নমুনা শুরু থেকে কিছু সাম্প্রতিক বিন্দুতে এসেছিল, এবং সেই স্থানটি আজ থেকে আজ অবধি থাকবে।

Yটি=(টি)+ +εটি(টি)Yগুলি<টি


প্রতিশ্রুতিশীল শোনাচ্ছে. Y_s <= t এ "এস" সাবস্ক্রিপ্টটি কী?
tobip

টিYগুলিগুলি<টি

আমি আমার বেকারি বিক্রয় বরং বহির্মুখী কারণের উপর নির্ভর করে অনুমান। আমি মনে করি না এটি কঠোরভাবে গতিশীল সময় সিরিজের মডেল, যেমন, শেয়ারের দাম হিসাবে। আমার তথ্য অনুসারে, সাধারণ 5-ভাঁজ সিভি সহ গড় গড় ত্রুটি 5 গুনের টাইম-সিরিজ সিভির চেয়ে সামান্য বড় যা এখানে বর্ণিত ভাঁজগুলির কালানুক্রমিক ক্রম সংরক্ষণ করে (উদাহরণস্বরূপ, 30.7 বনাম 33.8 একটি এক্সট্রা ট্রিজারিজার্সারের জন্য) । নিশ্চিত না যে এটি গতিশীল মডেলের জন্য পরীক্ষামূলকভাবে বৈধ উপায় কিনা?
tobip

আরিমার মতো কিছু হ'ল একটি গতিশীল মডেল। বিক্রয় সাধারণত স্থির থাকে, অর্থাৎ আজকের বিক্রয়টি গতকালের মতো।
আকসকল

0

দাবি অস্বীকার: এখানে বর্ণিত পদ্ধতিটি সাহিত্যের পুরোপুরি পড়ার ভিত্তিতে নয় । তুলনামূলকভাবে সংক্ষিপ্ত ইনপুট উইন্ডো দৈর্ঘ্যের (দীর্ঘ সময়সীমার উপর কম / কম নির্ভরতা অনুমান করে) মাল্টিভারিয়েট টাইমরিজ বিশ্লেষণের জন্য কে-ফোল্ড সিভি পদ্ধতিটি উন্নত করার জন্য আমার সেরা প্রচেষ্টা, যেখানে ডেটা উত্সগুলির অ-একজাতীয় উপস্থিতিতে সমস্যা ছিল where ডেটা সংগ্রহের সময়কাল।

প্রথমে পর্যবেক্ষণের সিরিজটি দৈর্ঘ্যের উইন্ডো_লেন্থের পর্যবেক্ষণের ইতিহাসের উইন্ডোতে এবং উইন্ডোগুলির মধ্যে ধাপ 1 দিয়ে (কোনও স্ট্রাইড) রূপান্তরিত হয়। তারপরে নীতিটি হ'ল উইন্ডো দৈর্ঘ্যের তুলনায় উইন্ডো ডেটাসেটকে "শার্ডস "গুলিতে বহুগুণ বেশি বিভক্ত করা (তবে মডেল উদাহরণগুলির চেয়ে অনেক বেশি) এবং শারডগুলি (কার্ড খেলার মতো) আলাদা মডেলের উদাহরণগুলিতে বৈধতা ডেটা হিসাবে ডিল করা। মডেলগুলিকে আরও পরিষ্কারভাবে পৃথক রাখতে, প্রতিটি শার্ডের শুরুতে উইন্ডো_লম্বের একটি পৃথক উইন্ডোটি সমস্ত প্রশিক্ষণের বাইরে রাখা হয়।

মডেলগুলি তাদের নিজস্ব ব্যতীত সমস্ত শারদগুলিতে প্রশিক্ষিত হয় এবং বৈধতা তাদের নিজস্ব শারডগুলিতে করা হয়। মডেলগুলির সংগ্রহ / সংগ্রহের বৈধকরণ সমস্ত শারডের উপর বৈধতা ত্রুটির সংক্ষিপ্তকরণের মাধ্যমে সম্পন্ন করা হয়, যেখানে প্রতিটি শার্ড তার সংশ্লিষ্ট সাবমোডেল দ্বারা পরিচালিত হয়। অদৃশ্য তথ্যের উপর পরীক্ষা সমস্ত প্রশিক্ষিত মডেলের আউটপুটগুলির গড় (বা অন্যান্য উপযুক্ত সংমিশ্রণ) ব্যবহার করে করা যেতে পারে।

এই পদ্ধতিটি পুরো ডেটা সংগ্রহের সময়কালে একইরকম সিস্টেমে নির্ভরতা (এবং ডেটা উত্সগুলি) হ্রাস করার উদ্দেশ্যে। এটি প্রতিটি রুক্ষ অংশকে মডেলের উপর একই প্রভাব দেওয়ার জন্যও লক্ষ্যযুক্ত। নোট করুন যে কোয়ারান্টাইন উইন্ডোজগুলিকে প্রশিক্ষণের ক্ষতি করতে না দেওয়ার জন্য, এটি এমন একটি বিন্দু যে শার্ল দৈর্ঘ্য সময়ের সাথে (সাধারণত প্রত্যাশিত) দৈনিক, সাপ্তাহিক এবং বার্ষিক চক্র হিসাবে ডেটাতে উপস্থিত হওয়ার (প্রত্যাশিত) সাথে খুব ভালভাবে সারিবদ্ধ হয় না।

নকশা করা মডেল সম্ভবত সম্পূর্ণ নতুন ডেটা খারাপভাবে পরিচালনা করতে পারে। (আমি এখনও জানি না।)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.