3 মাসের ডেটাসেটের সাথে বহুভিত্তিক সময় সিরিজের পূর্বাভাস


12

আমার কাছে 3 মাসের ডেটা (প্রতিটি দিনের সাথে সীমাবদ্ধ প্রতিটি) উত্পন্ন হয়েছে এবং আমি এটির জন্য বহুবিধ সময় সিরিজ বিশ্লেষণ করতে চাই:

যে কলামগুলি উপলভ্য তা হ'ল -

Date    Capacity_booked Total_Bookings  Total_Searches  %Variation

প্রতিটি তারিখের ডেটাসেটে 1 টি প্রবেশ থাকে এবং এতে 3 মাসের ডেটা থাকে এবং আমি অন্যান্য ভেরিয়েবলগুলির পূর্বাভাস দেওয়ার জন্য একটি মাল্টিভারিয়েট টাইম সিরিজের মডেলটি ফিট করতে চাই।

এখনও অবধি, এটি আমার চেষ্টা ছিল এবং আমি নিবন্ধগুলি পড়ে এটি অর্জন করার চেষ্টা করেছি।

আমিও তাই করেছি -

df['Date'] = pd.to_datetime(Date , format = '%d/%m/%Y')

data = df.drop(['Date'], axis=1)

data.index = df.Date

from statsmodels.tsa.vector_ar.vecm import coint_johansen
johan_test_temp = data
coint_johansen(johan_test_temp,-1,1).eig



#creating the train and validation set
train = data[:int(0.8*(len(data)))]
valid = data[int(0.8*(len(data))):]

freq=train.index.inferred_freq

from statsmodels.tsa.vector_ar.var_model import VAR

model = VAR(endog=train,freq=train.index.inferred_freq)
model_fit = model.fit()


# make prediction on validation
prediction = model_fit.forecast(model_fit.data, steps=len(valid))

cols = data.columns

pred = pd.DataFrame(index=range(0,len(prediction)),columns=[cols])
    for j in range(0,4):
        for i in range(0, len(prediction)):
           pred.iloc[i][j] = prediction[i][j]

আমার একটি বৈধতা সেট এবং পূর্বাভাস সেট আছে। তবে ভবিষ্যদ্বাণীগুলি প্রত্যাশার চেয়ে অনেক খারাপ।

ডেটাসেটের প্লটগুলি হ'ল - ১% পার্থক্য এখানে চিত্র বর্ণনা লিখুন

  1. Capacity_Booked এখানে চিত্র বর্ণনা লিখুন

  2. মোট বুকিং এবং অনুসন্ধান এখানে চিত্র বর্ণনা লিখুন

আমি যে আউটপুটটি পাচ্ছি তা হ'ল -

পূর্বাভাস ডেটা ফ্রেম -

এখানে চিত্র বর্ণনা লিখুন

বৈধতা ডেটাফ্রেম -

এখানে চিত্র বর্ণনা লিখুন

আপনি দেখতে পাচ্ছেন যে পূর্বাভাসগুলি প্রত্যাশিত হয় তা বন্ধ হয়ে যায়। নির্ভুলতার উন্নতি করার জন্য যে কেউ কোনও উপায়ে পরামর্শ দিতে পারে। এছাড়াও, আমি যদি পুরো ডেটাতে মডেলটি ফিট করি এবং তারপরে পূর্বাভাসগুলি মুদ্রণ করি তবে নতুন মাস শুরু হয়েছে এবং তাই এর পূর্বাভাস দেওয়ার জন্য এটি বিবেচনায় নেবে না। এটি এখানে কীভাবে সংহত করা যায়। কোন সাহায্য প্রশংসা করা হয়।

সম্পাদনা

ডেটাসেটের সাথে লিঙ্ক - ডেটাসেট

ধন্যবাদ


আপনি কি ক্লাসের এসটিডি পোস্ট করতে পারবেন
স্বরতেশ আডাঙ্কি

@ স্বরথেশ অ্যাডডানকি আমি প্রশ্নের সাথে ডেটাসেটের লিঙ্কটি যুক্ত করেছি ... আপনি একবার দেখতে পারেন।
dper

আপনি "বাড়িতে তৈরি" বৈশিষ্ট্যগুলি ব্যবহার করে ক্লাসিকাল মেশিন লার্নিং অ্যালগরিদম ব্যবহার করার চেষ্টা করতে পারেন। আপনি উদাহরণস্বরূপ গত days দিন (4 * 7 টি বৈশিষ্ট্য সহ একটি সারি তৈরি করুন) ব্যবহার করে কোনও এক দিনের জন্য পার্সেপট্রন বা এসভিএম বা একটি র‌্যান্ডম ফরেস্টকে প্রশিক্ষণের চেষ্টা করতে পারেন। আপনি গত সপ্তাহের একই দিনে (বুধবার আপনি যদি বুধবারের জন্য ভবিষ্যদ্বাণী করতে চান) এবং গত মাসের প্রতিটি বুধবারের গড়কেও ધ્યાનમાં নিতে পারেন। আরও বাস্তবসম্মত পারফরম্যান্স পরিমাপের জন্য ক্রস বৈধকরণ ব্যবহার করুন
পলিটেন্সা

@ পোলিটিন্সা কি আপনিও এর জন্য একটি উদাহরণ ভাগ করতে পারেন?
dper

1
আমি বিশ্বাস করি যে একটি ভাল মডেলের ফিট করার জন্য আপনার কাছে পর্যাপ্ত ডেটা নেই: প্রধান বৈশিষ্ট্যটি এই মাসের শেষে নীচের দিকে লাফিয়ে যায় বলে মনে হয়। আমরা ডেটা সেটে এই দুটি জাম্পের মধ্যে কেবল দুটিটি দেখতে পাচ্ছি, এবং কেবল দুটি পর্যবেক্ষণ থেকে একটি সাধারণ লাফটি কী দেখায় সে সম্পর্কে খুব বেশি কিছু শেখা সম্ভব হবে না। একইভাবে, কয়েক মাসের মধ্যে বৃদ্ধি যথেষ্ট নিয়মিত দেখায় যে মডেলগুলি এই বক্ররেখাগুলির আকৃতিটি বর্ণনা করার চেষ্টা করতে পারে, তবে একটি সাধারণ মাসে মানগুলি কতটা বাড়বে সে সম্পর্কে খুব কম তথ্য নেই। এটি দেওয়া, "পরের মাসটি পূর্ববর্তী মাসের সমান" একটি ভাল যথেষ্ট মডেল হতে পারে?
জোচেন

উত্তর:


1

আপনার নির্ভুলতার উন্নতি করার একটি উপায় হ'ল ভিএআর ডকুমেন্টেশন পৃষ্ঠাতে প্রস্তাবিত প্রতিটি ভেরিয়েবলের স্বতঃসংশোধনের দিকে নজর দেওয়া:

https://www.statsmodels.org/dev/vector_ar.html

স্বতঃসংশোধনের মানটি একটি নির্দিষ্ট ল্যাগের জন্য বৃহত্তর, এই ল্যাগটি প্রক্রিয়াটিতে তত বেশি কার্যকর।

আরেকটি ভাল ধারণা হ'ল আপনার নির্ভুলতা যাচাই করতে এআইসির মানদণ্ড এবং বিআইসির মানদণ্ডের দিকে নজর দেওয়া (উপরের একই লিঙ্কটিতে ব্যবহারের উদাহরণ রয়েছে)। ছোট মানগুলি ইঙ্গিত দেয় যে এর চেয়ে বড় সম্ভাবনা রয়েছে যা আপনি প্রকৃত অনুমানকারীকে পেয়েছেন।

এইভাবে, আপনি নিজের অটোরিগ্রেসিভ মডেলটির ক্রমকে পৃথক করতে পারেন এবং একসাথে বিশ্লেষণ করা দু'টিই সর্বনিম্ন এআইসি এবং বিআইসি সরবরাহকারী একটি দেখতে পান। যদি এআইসি ইঙ্গিত করে যে সেরা মডেলটি 3 এর পিছনে রয়েছে এবং বিআইসি নির্দেশ করে যে সেরা মডেলটির 5 টি পিছনে রয়েছে, সেরা ফলাফল সহ একটি দেখতে আপনার 3,4 এবং 5 এর মানগুলি বিশ্লেষণ করা উচিত।

সর্বোত্তম দৃশ্যে আরও বেশি ডেটা থাকবে (যেহেতু 3 মাস খুব বেশি নয়) তবে আপনি এই পদ্ধতির সাহায্য করে কিনা তা চেষ্টা করে দেখতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.