মেশিন লার্নিংয়ের জন্য টাইম সিরিজের অর্ডার দেওয়া


14

ক্রস-বৈধতা এবং সময় সিরিজ সম্পর্কে আরজে হেন্ডম্যানের একটি "গবেষণা টিপস" পড়ার পরে আমি আমার একটি পুরানো প্রশ্নে ফিরে এসেছি যা আমি এখানে প্রণয়ন করার চেষ্টা করব। ধারণাটি হ'ল শ্রেণিবদ্ধকরণ বা রিগ্রেশন সমস্যাগুলিতে, ডেটার ক্রম গুরুত্বপূর্ণ নয়, এবং তাই কে- ফোল্ড ক্রস-বৈধকরণ ব্যবহার করা যেতে পারে। অন্যদিকে, সময় সিরিজে ডেটা ক্রম করা অবশ্যই একটি বড় গুরুত্বের বিষয়।

যাইহোক, যখন পূর্বাভাস সময় সিরিজ করার জন্য একটি মেশিন লার্নিং মডেল ব্যবহার করে, একটি সাধারণ কৌশল সিরিজ পুনর্নির্মাণ হয় "ইনপুট-আউটপুট ভেক্টর" যা, কিছু সময়ের জন্য বাইরের একটি সেটের দিকে , have ফর্ম ।{y1,...,yT}t(ytn+1,...,yt1,yt;yt+1)

এখন, একবার এই পুনঃনির্মাণটি সম্পন্ন হয়ে গেলে, আমরা কী বিবেচনা করতে পারি যে "ইনপুট-আউটপুট ভেক্টর" এর ফলাফলের সেটটি অর্ডার করার দরকার নেই? উদাহরণস্বরূপ, আমরা যদি এই ডেটাগুলি "শিখতে" n ইনপুট সহ একটি ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্ক ব্যবহার করি, আমরা একই ফলাফলটিতে পৌঁছে যাব যাতে আমরা মডেলকে ভেক্টরগুলি যেভাবে প্রদর্শন করি তা নয়। এবং সেইজন্য, প্রতিবারের মডেলটিকে পুনরায় ফিট করার প্রয়োজন ছাড়াই আমরা কি কে-ফোল্ড ক্রস-বৈধকরণকে স্ট্যান্ডার্ড উপায়ে ব্যবহার করতে পারি?

উত্তর:


2

এই প্রশ্নের উত্তর হ'ল এটি যতক্ষণ না আপনার মডেল ক্রমটি সঠিকভাবে নির্দিষ্ট করা হয় ঠিক ততক্ষণ আপনার মডেল থেকে ত্রুটিগুলি স্বাধীন হবে।

এখানে এই কাগজটি দেখায় যে কোনও মডেলের যদি দুর্বল ক্রস-বৈধতা থাকে তবে এটি আসলে কতটা দুর্বল তা হ্রাস করবে। অন্যান্য সমস্ত ক্ষেত্রে ক্রস-বৈধকরণ একটি ভাল কাজ করবে, বিশেষত, সময় সিরিজের প্রসঙ্গে সাধারণত ব্যবহৃত নমুনা মূল্যায়নের চেয়ে একটি ভাল কাজ।


6

মজার প্রশ্ন!

আপনি যে পদ্ধতির বর্ণনা করেছেন সেটি অবশ্যই সময়কালের সিরিজের ডেটা বিশ্লেষণের জন্য মানক এমএল পদ্ধতিগুলি ব্যবহার করে যার জন্য গুণাবলীর নির্দিষ্ট দৈর্ঘ্যের বৈশিষ্ট্য ভেক্টর প্রয়োজন।

আপনি যে পোস্টটিতে লিঙ্ক করেছেন, হিনডম্যান নির্দেশ করেছেন যে পুনর্নির্মাণ করা ডেটা ভেক্টরগুলির (নমুনা) মধ্যে পারস্পরিক সম্পর্ক রয়েছে। এটি সমস্যাযুক্ত হতে পারে, কারণ কে-সিভি (বা অন্যান্য মূল্যায়ন পদ্ধতি যা এলোমেলোভাবে ডেটা প্রশিক্ষণ এবং পরীক্ষার সেটগুলিতে বিভক্ত করে) ধরে নেয় যে সমস্ত নমুনা স্বাধীন। যাইহোক, আমি মনে করি না যে এই উদ্বেগটি কোনও স্ট্যান্ডার্ড এমএল পদ্ধতিগুলির ক্ষেত্রে প্রাসঙ্গিক, এটি বৈশিষ্ট্যগুলি আলাদাভাবে আচরণ করে।

n=3

A:(y1,y2,y3;y4)B:(y2,y3,y4;y5)C:(y3,y4,y5;y6)

y2


1
আমি আপনার সাথে একমত যে কিছু এমএল অ্যালগরিদম অত্যন্ত সংযোগযুক্ত নমুনাগুলির সমস্যার থেকে প্রতিরোধক হতে পারে কারণ তারা বৈশিষ্ট্যগুলি সম্পূর্ণ আলাদাভাবে আচরণ করে। তবে সেই অ্যালগোরিদমগুলি সময় সিরিজের কাজের জন্য খুব ভাল নয়। সময়ের ধারাবাহিকের জন্য যে এমএল অ্যালগরিদমগুলি প্রতিশ্রুতিবদ্ধ তা লক্ষ্য করতে সক্ষম হতে হবে যে # 1 গুণ এবং গুণ # 2 গুণটি আসলে একই রকম 1)। এই অ্যালগরিদমগুলি হাইডম্যান দ্বারা উল্লিখিত সমস্যা থেকেও ভুগবে।
সর্বাধিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.