সময় সিরিজের পূর্বাভাসের জন্য ডেটা বাড়া কৌশল


13

সময়-সিরিজের পূর্বাভাসের জন্য "ডেটা বৃদ্ধি" করার জন্য আমি দুটি কৌশল বিবেচনা করছি।

প্রথমত, কিছুটা পটভূমি। টাইম-সিরিজের পরবর্তী ধাপ পূর্বাভাস দেওয়ার জন্য একজন ভবিষ্যদ্বাণীকারী একটি ফাংশন যা সাধারণত দুটি বিষয়ের উপর নির্ভর করে, সময়-সিরিজের অতীতের রাজ্যগুলি, তবে ভবিষ্যদ্বাণীকের অতীতের রাষ্ট্রগুলি:পি{একজনআমি}

পি({একজনআমিটি-1},পিএসটি-1)

যদি আমরা একটি ভাল পেতে আমাদের সিস্টেমকে সামঞ্জস্য / প্রশিক্ষণ দিতে চাই তবে আমাদের পর্যাপ্ত ডেটা দরকার। কখনও কখনও উপলভ্য ডেটা যথেষ্ট হবে না, তাই আমরা ডেটা বৃদ্ধি করার বিষয়টি বিবেচনা করি।পি

প্রথম পন্থা

ধরুন আমাদের কাছে সহ টাইম-সিরিজ । এবং ধরুন যে আমাদের কাছে যা নিম্নলিখিত শর্তটি পূরণ করে: ।{একজনআমি}1আমিএনε0<ε<|একজনআমি+ +1-একজনআমি|আমি{1,...,এন}

আমরা একটি নতুন সময়ের সিরিজ , যেখানে হ'ল বিতরণ ।{বিআমি=একজনআমি+ +Rআমি}Rআমিএন(0,ε2)

তারপরে, ক্ষতির ক্রিয়াকলাপটি কেবল চেয়ে কম করার পরিবর্তে আমরা এটি do এরও বেশি করি । সুতরাং, যদি অপ্টিমাইজেশন প্রক্রিয়াটি পদক্ষেপ নেয় , আমাদের ভবিষ্যদ্বাণীটিকে বার বার "সূচনা" করতে হবে এবং আমরা প্রায় ভবিষ্যদ্বাণীকারী অভ্যন্তরীণ রাজ্যগুলি গণনা করব ।{একজনআমি}{বিআমি}মি2মি2m(n1)

দ্বিতীয় পন্থা

আমরা আগের মতো গণনা করি , তবে আমরা ব্যবহার করে পূর্বাভাসকারীটির অভ্যন্তরীণ অবস্থা আপডেট করি না , তবে । লোকসান ফাংশন গণনার সময় আমরা দুটি সিরিজই একসাথে ব্যবহার করি, সুতরাং আমরা প্রায় পূর্বাভাসকারী অভ্যন্তরীণ রাজ্যগুলি গণনা করব ।{বিআমি}{বিআমি}{একজনআমি}মি(এন-1)

অবশ্যই এখানে কম কম্পিউটেশনাল কাজ হচ্ছে (যদিও অ্যালগোরিদমটি খানিকটা কুৎসিত) তবে আপাতত এটি কোনও বিষয় নয়।

সন্দেহ

সমস্যাটি হল: একটি পরিসংখ্যানের দিক থেকে, "সেরা" বিকল্পটি কোনটি? এবং কেন?

আমার অন্তর্নিহিততা আমাকে বলেছে যে প্রথমটি আরও ভাল, কারণ এটি অভ্যন্তরীণ অবস্থার সাথে সম্পর্কিত ওজনগুলিকে "নিয়মিত" করতে সহায়তা করে, যখন দ্বিতীয়টি কেবল পর্যবেক্ষণের সময়-সিরিজের 'অতীতের সাথে সম্পর্কিত ওজনগুলি নিয়মিত করতে সহায়তা করে।


অতিরিক্ত:

  • সময় সিরিজের পূর্বাভাসের জন্য ডেটা বর্ধনের জন্য অন্য কোনও ধারণা?
  • ট্রেনিং সেটে সিন্থেটিক ডেটা কীভাবে ওজন করবেন?

উত্তর:


6

সময় সিরিজের পূর্বাভাসের জন্য ডেটা বর্ধনের জন্য অন্য কোনও ধারণা?

আমি বর্তমানে একই সমস্যা নিয়ে ভাবছি। লে গুয়েনেক এট আল-এর " কনভলিউশনাল নিউরাল নেটওয়ার্ক ব্যবহার করে টাইম সিরিজ শ্রেণিবিন্যাসের জন্য ডেটা অগমেন্টেশন" পত্রিকাটি পেয়েছি । যা পূর্বাভাসের কভার করে না। এখনও উল্লিখিত বৃদ্ধির পদ্ধতিগুলি আশাব্যঞ্জক দেখাচ্ছে। লেখকরা 2 টি পদ্ধতিতে যোগাযোগ করেন:

উইন্ডো স্লাইসিং (ডাব্লুএস)

কম্পিউটার দৃষ্টিভঙ্গি সম্প্রদায় [8,10] থেকে অনুপ্রাণিত একটি প্রথম পদ্ধতি টাইম সিরিজ থেকে স্লাইসগুলি বের করা এবং স্লাইস স্তরে শ্রেণিবিন্যাস সম্পাদন করে। এই পদ্ধতিটি টাইম সিরিজের জন্য প্রবর্তিত হয়েছে []]। প্রশিক্ষণে, ক্লাস ওয়াইয়ের টাইম সিরিজ থেকে প্রাপ্ত প্রতিটি স্লাইসকে একই ক্লাসে বরাদ্দ করা হয় এবং স্লাইসগুলি ব্যবহার করে একটি শ্রেণিবদ্ধকারী শেখা হয়। স্লাইজের আকারটি এই পদ্ধতির একটি প্যারামিটার। পরীক্ষার সময়, পরীক্ষার সময় সিরিজের প্রতিটি স্লাইসকে শিক্ষিত শ্রেণিবদ্ধ ব্যবহার করে শ্রেণিবদ্ধ করা হয় এবং পূর্বাভাস দেওয়া লেবেল সিদ্ধান্ত নেওয়ার জন্য সংখ্যাগরিষ্ঠ ভোট হয় is এই পদ্ধতিটি নিম্নলিখিতটিতে উইন্ডো স্লাইসিং (ডাব্লুএস) হিসাবে উল্লেখ করা হয়েছে।

উইন্ডো ওয়ার্পিং (ডাব্লুডাব্লু)

আমরা ব্যবহার করা শেষ ডেটা বৃদ্ধির কৌশলটি আরও সময়-সিরিজের নির্দিষ্ট। এটি চিত্রের মতো দেখানো হয়েছে এমন সময় সিরিজের একটি এলোমেলোভাবে নির্বাচিত টুকরোটি দ্রুত বা নিচে আঁকানো নিয়ে গঠিত in ২। মূল স্লাইসের আকার এই পদ্ধতির একটি প্যারামিটার। চিত্র 2 2 "ইসিজি ২০০" ডেটাসেট এবং সংশ্লিষ্ট রূপান্তরিত ডেটা থেকে একটি সময় সিরিজ দেখায়। নোট করুন যে এই পদ্ধতিটি বিভিন্ন দৈর্ঘ্যের ইনপুট সময় সিরিজ উত্পন্ন করে। এই সমস্যাটি মোকাবেলা করার জন্য, আমরা সকলের সমান দৈর্ঘ্যের জন্য রুপান্তরিত সময় সিরিজে উইন্ডো টুকরো সঞ্চালন করি। এই গবেষণাপত্রে, আমরা কেবল ওয়ার্পিং অনুপাতকে সমান 0.5বা তার সমান বিবেচনা করি 2, তবে অন্যান্য অনুপাত ব্যবহার করা যেতে পারে এবং প্রশিক্ষণের সেটটিতে ক্রস-বৈধতার মাধ্যমে সর্বোত্তম অনুপাতটিও সূক্ষ্মভাবে সুরক্ষিত হতে পারে। নিম্নলিখিতটিতে, এই পদ্ধতিটি উইন্ডো ওয়ারপিং (ডাব্লুডাব্লু) হিসাবে উল্লেখ করা হবে।

ছবি থেকে কাগজ 2

লেখকরা সিরিজের 90% অপরিবর্তিত রেখেছিলেন (যেমন ডাব্লুএস 90% স্লাইস সেট করা হয়েছিল এবং ডাব্লুডাব্লুওয়ের জন্য 10% সিরিজটি রেপ করা হয়েছিল)। চিত্রগুলি রূপরেখার 1D উপস্থাপনা ব্যতীত বিভিন্ন ধরণের (সময়) সিরিজের ডেটাতে শ্রেণিবিন্যাস ত্রুটি হ্রাস করার পদ্ধতিগুলি রিপোর্ট করা হয়। লেখকরা এখান থেকে তাদের ডেটা নিয়েছেন: http://imeseriesclassization.com

ট্রেনিং সেটে সিন্থেটিক ডেটা কীভাবে ওজন করবেন?

চিত্রের বৃদ্ধিতে, যেহেতু বর্ধনটি কোনও চিত্রের শ্রেণি পরিবর্তন করে না, তাই এটি কোনও বাস্তব তথ্য হিসাবে এটির ওজনে সাধারণ আফিক। সময় সিরিজের পূর্বাভাস (এবং এমনকি সময় সিরিজের শ্রেণিবিন্যাস) আলাদা হতে পারে:

  1. একটি টাইম সিরিজ মানুষের কাছে একটি সংলগ্ন বস্তু হিসাবে সহজেই অনুধাবনযোগ্য নয়, সুতরাং আপনি এটির সাথে কতটা ছলনা করছেন তার উপর নির্ভর করে এটি এখনও একই বর্গ? আপনি যদি কেবল টুকরো টুকরো করে এবং কিছুটা ভাঁজ করেন এবং ক্লাসগুলি দৃশ্যত স্বতন্ত্র হয় তবে এটি শ্রেণিবদ্ধকরণ কার্যগুলির জন্য সমস্যা তৈরি করতে পারে না
  2. পূর্বাভাসের জন্য, আমি তর্ক করব

    ২.১ ডাব্লুএস এখনও একটি দুর্দান্ত পদ্ধতি। আপনি যে সিরিজের 90% ভাগ দেখেছেন তা বিবেচ্য নয়, আপনি এখনও একই নিয়মের ভিত্তিতে পূর্বাভাস আশা করতে পারেন => পুরো ওজন।

    ২.২ ডাব্লুডাব্লু: সিরিজটির শেষের সাথে এটি যত ঘনিয়ে আসবে ততই আমি আরও সতর্ক থাকব। স্বজ্ঞাতভাবে, আমি বক্ররেখার সাম্প্রতিক বৈশিষ্ট্যগুলি সবচেয়ে প্রাসঙ্গিক বলে ধরে নিচ্ছি যে 0 (শেষের দিকে ওয়ারপিং) এবং 1 (শুরুতে ওয়ারপিং) এর মধ্যে স্লাইডিং ওজন ফ্যাক্টর নিয়ে আসব।


6

সময় সিরিজের পূর্বাভাসের জন্য ডেটা বর্ধনের জন্য অন্য কোনও ধারণা?

ডিভ্রিজ এবং টেলরের "ফিচার স্পেসে ডেটাসেট অগমেন্টেশন" এর ভিত্তিতে ভিন্ন পদ্ধতির সাথে আরও একটি উত্তর ।

এই কাজের মধ্যে, আমরা দেখিয়েছি যে বৈশিষ্ট্য জায়গার নমুনাগুলির মধ্যে এক্সট্রাপোলেটিং ডেটাসেটগুলি বাড়ানোর জন্য এবং তদারকি করা শেখার অ্যালগরিদমের কার্যকারিতা উন্নত করতে ব্যবহার করা যেতে পারে। আমাদের পদ্ধতির মূল উপকারটি হ'ল এটি ডোমেন-স্বতন্ত্র , কোনও বিশেষ জ্ঞানের প্রয়োজন নেই এবং তাই বিভিন্ন ধরণের সমস্যায় প্রয়োগ করা যেতে পারে।

আমাকে প্রতিশ্রুতিবদ্ধ মনে হচ্ছে। নীতিগতভাবে আপনি বৈশিষ্ট্যের জায়গাতে উপস্থাপনা তৈরি করতে যে কোনও অটোনকোডার নিতে পারেন । এই বৈশিষ্ট্যগুলি আন্তঃবিবাহিত বা এক্সট্রোপোল্টেড হতে পারে।

নীচের চিত্রটি দুটি বৈশিষ্ট্য স্পেস ভেক্টর এবং ( উদাহরণস্বরূপ রাখুন যে দুটি ভেক্টর থেকে এক্সট্রাপোলেটিংয়ের জন্য আরও ইতিবাচক ফলাফল রিপোর্ট করা হয়েছে, জন্য কাগজটি দেখুন) উদাহরণ হিসাবে দেখানো হয়েছে as ফলস্বরূপ বর্ধিত ভেক্টর এর পরে ইনপুট স্পেসে ডিকোড করে প্রশিক্ষণের জন্য নেটওয়ার্কে খাওয়ানো হয়।সিসিসি'

কাগজটি আবার কেবল সিকোয়েন্স শ্রেণিবিন্যাসকে কভার করে। তবে আবার আইএমও নীতিগুলি রিগ্রেশন বিশ্লেষণের জন্য একই। আপনি সম্ভবত আপনার আসল তথ্য হিসাবে একই বিতরণ থেকে নতুন তথ্য পাবেন, আপনি এটি চান।

এই বৃদ্ধির আর্কিটেকচার

যদি আমরা কোনও নিউরাল নেটওয়ার্ক দ্বারা ডেটা জেনারেশনের এই নীতিটি আরও বিশদভাবে বর্ণনা করি তবে আমরা জেনারেটরি অ্যাডভারসিয়াল নেটওয়ার্কস (জিএএন) এর সাথে শেষ করব । এগুলিকে বাড়ানো ডেটা তৈরি করতে অনুরূপ ফ্যাশনে ব্যবহার করা যেতে পারে যা সম্ভবত এটি করার জন্য সর্বাধিক পরিশীলিত রাষ্ট্র of


4

আমি সম্প্রতি বার্গ্মির, হ্যান্ডম্যান এবং বেনিতেজ থেকে এই কাগজটি দ্বারা অনুপ্রাণিত আরেকটি পদ্ধতির প্রয়োগ করেছি ।

বিবি

এইভাবে প্রয়োজন হিসাবে অতিরিক্ত অতিরিক্ত সময় সিরিজ উত্পন্ন করা যায় যা প্রাথমিক সময় সিরিজটি বেশ ভালভাবে উপস্থাপন করে। অতিরিক্ত অনুরূপ সময় সিরিজ উত্পন্ন করতে কিছু বাস্তব ডেটা প্রয়োগের উদাহরণ এখানে রয়েছে:

সংযুক্ত সিরিজ

মূল কাগজে যেমন পরামর্শ দেওয়া হয়েছে তেমন এখানে ইওও-জনসন ট্রান্সফর্মেশন এবং বক্স কক্সকে ব্যবহার করে বাড়ানো দেখানো হয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.