নিখোঁজ মান এবং / অথবা অনিয়মিত সময় সিরিজের সাথে আর পূর্বাভাস প্যাকেজ ব্যবহার করা


16

আমি আর forecastপ্যাকেজ দ্বারা মুগ্ধ , পাশাপাশি উদাহরণস্বরূপ zooঅনিয়মিত সময় সিরিজের জন্য প্যাকেজ এবং অনুপস্থিত মানগুলির বিভাজন।

আমার অ্যাপ্লিকেশনটি কল সেন্টার ট্র্যাফিক পূর্বাভাসের ক্ষেত্রের, সুতরাং সাপ্তাহিক সপ্তাহের ডেটা (প্রায়) সর্বদা অনুপস্থিত থাকে যা সুন্দরভাবে পরিচালনা করতে পারে zoo। এছাড়াও, কিছু স্বতন্ত্র পয়েন্টগুলি অনুপস্থিত হতে পারে, আমি কেবল এর NAজন্য আর এর ব্যবহার করি।

জিনিসটি হ'ল: পূর্বাভাস প্যাকেজের সমস্ত দুর্দান্ত যাদু যেমন eta(), auto.arima()ইত্যাদি, সরল tsবস্তুগুলির প্রত্যাশা বলে মনে হয় , অর্থাত্ সুসংগত সময় সিরিজটিতে কোনও অনুপস্থিত ডেটা নেই। আমি মনে করি নিখরচায়-কেবল সময়ের সিরিজের জন্য বাস্তব বিশ্বের অ্যাপ্লিকেশনগুলি অবশ্যই উপস্থিত রয়েছে, তবে - আমার মতে - খুব সীমাবদ্ধ।

কয়েকটি স্বতন্ত্র NAমানগুলির সমস্যা zooপাশাপাশি প্রদত্ত যে কোনও ইন্টারপোলেশন ফাংশন ব্যবহার করে খুব সহজেই সমাধান করা যায় forecast::interp। তারপরে, আমি পূর্বাভাসটি চালাই।

আমার প্রশ্নগুলো:

  1. কেউ কি আরও ভাল সমাধানের পরামর্শ দেয়?
  2. (আমার মূল প্রশ্ন) কমপক্ষে আমার অ্যাপ্লিকেশন ডোমেনে, কল সেন্টার ট্র্যাফিক পূর্বাভাস (এবং যতদূর আমি বেশিরভাগ অন্যান্য সমস্যা ডোমেনগুলি কল্পনা করতে পারি), সময় সিরিজটি সুদৃ .় নয়। কমপক্ষে আমাদের "ব্যবসায়িক দিবস" স্কিম বা অন্য কিছু পুনরাবৃত্তি হবে। এটি পরিচালনা করার সেরা উপায় কী এবং এখনও পূর্বাভাস প্যাকেজের সমস্ত শীতল যাদু ব্যবহার করে?

    আমি কি উইকএন্ড পূরণের জন্য টাইম সিরিজটি "সংক্ষেপণ" করেছিলাম, পূর্বে পূর্বাভাসটি করেছিলাম, এবং তারপরে সাপ্তাহিক ছুটিতে এনএ মানগুলি পুনরায় সন্নিবেশ করানোর জন্য ডেটাটি "স্ফীত" করা উচিত? (এটা লজ্জাজনক হবে, আমি মনে করি?)

    পূর্বাভাস প্যাকেজটি চিড়িয়াখানা বা এর মতো অনিয়মিত সময় সিরিজের প্যাকেজের সাথে পুরোপুরি সামঞ্জস্য করার কোনও পরিকল্পনা আছে কি? যদি হ্যাঁ, কখন এবং যদি না, তবে কেন নয়?

আমি পূর্বাভাসে (এবং সাধারণভাবে পরিসংখ্যান) বেশ নতুন, তাই আমি গুরুত্বপূর্ণ কিছু উপেক্ষা করতে পারি।


সাইট এবং পূর্বাভাসে স্বাগতম! সুসংগত-কেবলমাত্র সময়ের সিরিজের জন্য বাস্তব বিশ্বের অ্যাপ্লিকেশনগুলি অবশ্যই খুব সীমাবদ্ধ নয়। আমি পূর্বাভাস সম্পর্কে কিছুটা জানতে পেরেছি যা প্রচারের চাহিদা মোকাবেলা করার জন্য আপনার সুপারমার্কেটে পর্যাপ্ত পণ্য রয়েছে এবং আমার বিশ্বাস, সেই কয়েক মিলিয়ন সময়ের সিরিজ (এক হাজার স্টোরের 20,000 এসকিউ খুব সাধারণ) সত্যিই খুব সুদৃ .়। (দুঃখিত, তবে আপনি এটির জন্য অনুরোধ করেছেন ...) তবে আমি এক মিনিটের মধ্যে আপনার জন্য আরও সহায়ক কিছু নিয়ে আসার চেষ্টা করব।
স্টিফান কোলাসা

2
কল সেন্টারের ডেটা কেন সমতুল্য নয় সে সম্পর্কে আপনি আরও সুস্পষ্ট হতে পারেন? (সম্ভবত "ইক্যস্পিপসড" বলতে আপনার অর্থ কী তা আমি ভুল বুঝছি।) কল সেন্টার পূর্বাভাসের পদ্ধতিগুলি আমি সাধারণত দেখেছি বালতি আগত কলগুলি 15 মিনিটের ব্যবধানে, যা "ইক্যস্পিপসড" এর আমার সংজ্ঞা পূরণ করে। তারপরে আমাদের জটিল seasonতুতে (আন্তঃ দৈনিক, অন্তর্-সাপ্তাহিক, বার্ষিক) মোকাবেলা করতে হবে, কোন বিষয়টির জন্য এটি আপনাকে সহায়তা করতে পারে: stats.stackexchange.com/questions/44704/… এটি কি আপনার প্রশ্নের উত্তর দেয়? যদি তা না হয় তবে আপনার আরও কী প্রয়োজন তা কেবল আমাদের বলুন।
স্টিফান কোলাসা

5
auto.arimaঅনুপস্থিত মানগুলি পরিচালনা করতে পারে।
রব হ্যান্ডম্যান

1
সমস্ত গঠনমূলক মন্তব্যের জন্য ধন্যবাদ! স্টিফান, আমার তথ্য দুটি উপায়ে সুদৃ .় নয়: ১. অনেক কল সেন্টার শনি ও রবিবারে বন্ধ রয়েছে। কিছু কেবল রবিবার বন্ধ থাকে। সুতরাং দুটি সংলগ্ন ডেটা পয়েন্টের মধ্যে "স্বাভাবিক" স্থানটি একদিন, শুক্র থেকে সোম পর্যন্ত, যা তিন দিন। সুতরাং স্থান সমান নয়, অর্থাত্ সুদৃ .় নয়। দ্বিতীয়ত, কোথাও কেবল এলোমেলোভাবে অনুপস্থিত ডেটা থাকতে পারে কারণ তারা সেদিন বা যা কিছু তাদের পরিমাপের ডিভাইসটি চালু করতে ভুলে গিয়েছিল। আমি আশা করি এটি আমার বক্তব্য পরিষ্কার করে দেয়।
entreprogreur

1
শুধু একটি (উস্কানিমূলক) চিন্তাভাবনা। যদি আপনি বলেন কল সেন্টারগুলি সপ্তাহের শেষের দিকে বন্ধ রয়েছে। তারপরে আপনার কোনও ডেটা নেই। আপনার সময়-সিরিজটি মো-ফ্রে ছড়িয়েছে। 5 দিন. বেশ সামঞ্জস্যপূর্ণ। উইকএন্ডে বিভক্ত করা আমার কাছে আনুষ্ঠানিকভাবে ভুল বলে মনে হয়, যেহেতু আপনি জানেন যে কোনও কল আসে না এবং আপনি যে কোনও তথ্য কল্পনা করেন তা মিথ্যা। আমি তর্ক করব যে আপনি কখনই ডেটা আবিষ্কার করে কোনও অনুমান উন্নতি করতে পারবেন না ...
মানে-থেকে-অর্থ

উত্তর:


1

আমি কোনও আর বিশেষজ্ঞ নই তাই সম্ভবত আরও সহজ উপায় আছে তবে আমি এটি আগে এসেছি। আমি এর আগে যা করেছি তা হ'ল একটি ফাংশন বাস্তবায়ন করে যা প্রকৃত তারিখগুলির মধ্যে দূরত্বকে (সময়ের ইউনিটগুলিতে) পরিমাপ করে এবং বিদ্যমান সময় সিরিজের একটি নতুন কলামে এটি সংরক্ষণ করে। সুতরাং আমাদের মত কিছু আছে:

index/date | value | distance  
01.01.2011 |  15   |   1  
02.01.2011 |  17   |   3  
05.01.2011 |  22   |   ..   

এইভাবে, যদি আপনার সময় সিরিজটি এখনও সময়ের (বা ভুল ফর্ম্যাট বা যাই হোক না কেন) পয়েন্টগুলির আসল সিরিজের সাথে যুক্ত না হয় তবে আপনি এখনও এটি নিয়ে কাজ করতে পারেন।

এরপরে, আপনি এমন একটি ফাংশন লিখুন যা আপনার জন্য একটি নতুন সময় সিরিজ তৈরি করে, যেমন:

প্রথমত, আপনি গণনা করেন যে টাইম সিরিজটি আসলে আপনার পছন্দসইয়ের তারিখগুলির মধ্যে কতগুলি সময় থাকে এবং চিড়িয়াখানা বা টিএসে টাইমলাইন তৈরি করে বা খালি মানগুলির সাথে পছন্দগুলি যাই হোক না কেন।

দ্বিতীয়ত, আপনি আপনার অসম্পূর্ণ সময় সিরিজের অ্যারে নিয়ে যান এবং একটি লুপ ব্যবহার করে আপনার পছন্দসই সীমা অনুসারে সঠিক টাইমলাইনে মানগুলি পূরণ করুন। যখন আপনি এমন এক সারিতে এসে পৌঁছান যেখানে ইউনিটের দূরত্ব এক নয় (দিনগুলি (ইউনিটগুলি অনুপস্থিত), আপনি বিরতিযুক্ত মানগুলি পূরণ করেন।

এখন এটি যেহেতু এটি আপনার ফাংশন, তাই আপনি কীভাবে আন্তঃবিয়োগ করতে পারেন তা বেছে নিতে পারেন। উদাহরণস্বরূপ আপনি স্থির করেন যে দূরত্বটি যদি দুটি ইউনিটের চেয়ে কম হয় তবে আপনি একটি আদর্শ লিনিয়ার ইন্টারপোলেশন ব্যবহার করেন। যদি কোনও সপ্তাহ অনুপস্থিত থাকে, আপনি অন্য কিছু করেন এবং যদি হারিয়ে যাওয়ার তারিখগুলির একটি নির্দিষ্ট প্রান্ত পৌঁছে যায় তবে আপনি ডেটা সম্পর্কে একটি সতর্কতা দেন - যা আপনি কল্পনা করতে চান তা সত্যিই।

যদি লুপটি শেষের তারিখে পৌঁছে যায় তবে আপনি আপনার নতুন টিএস ফিরিয়ে দেবেন।

এই জাতীয় ফাংশনটির সুবিধা হ'ল আপনি ব্যবধানের দৈর্ঘ্যের উপর নির্ভর করে বিভিন্ন বিভাজন বা হ্যান্ডলিং পদ্ধতি ব্যবহার করতে পারেন এবং আপনার পছন্দের বিন্যাসে একটি পরিষ্কারভাবে সিরিজ তৈরি করতে পারেন। একবার লিখিত হয়ে গেলে, এটি আপনাকে কোনও ধরণের টাবুলার ডেটা থেকে পরিষ্কার এবং সুন্দর টিএস অর্জন করতে দেয়। আশা করি এটি আপনাকে কোনওভাবে সহায়তা করবে।


ধন্যবাদ, আইএমএ, সহায়ক উত্তরের জন্য! সুতরাং, আমি এখন যা করছি: স্বতন্ত্র অনুপস্থিত মানগুলির জন্য, আমি অনুপস্থিত ডেটা পূরণের জন্য ইন্টারপোলেশন (পাশাপাশি ব্যবহারকারী দ্বারা সরবরাহিত "সমন্বয়গুলি") ব্যবহার করি। আইএমএ, আপনার উত্তরটি আরও বাড়ানোর ক্ষেত্রে এটি খুব সহায়ক। "নিয়মিত" অনুপস্থিত ডেটা যেমন উইকএন্ডের জন্য, আমি আমার ডেটাটিকে সেকেন্ডে রূপান্তর করি, "সিউডো" টিএস কেবলমাত্র পূর্বাভাসের উদ্দেশ্যে, এবং তারপরে ফলাফলটিকে "সঠিক" সময় সিরিজে ফিরিয়ে দেব, যাতে পূর্বাভাসেরও মূল্যবোধ হারিয়ে যায় উইকএন্ডে উইকএন্ডে নিয়মিত "ফাঁক" কীভাবে পরিচালনা করবেন সে সম্পর্কে আরও মার্জিত পরামর্শের জন্য আমি কৃতজ্ঞ থাকব।
entreprogreur

@entreprogreur, আমি উত্তর দিলাম না, আইএমএ করেছে। আইএমএ এর সম্পূর্ণ ক্রেডিট এখানে আছে। আমি কেবল ফর্ম্যাটিংটি টুইট করেছি যাতে এটি দুর্দান্তভাবে প্রদর্শিত হয়।
গুং - মনিকা পুনরায়

1

পরবর্তী পরিসংখ্যানগত চিকিত্সার আগে আপনি যখন বিরতি প্রয়োগ করেন তখন আপনার খুব সতর্ক হওয়া উচিত। আপনার অন্তরঙ্গকরণের জন্য আপনি যে পছন্দটি করেন তা আপনার ডেটাতে পক্ষপাতের পরিচয় দেয়। এটি এমন কিছু যা আপনি অবশ্যই এড়াতে চান, কারণ এটি আপনার পূর্বাভাসের মানের পরিবর্তন করতে পারে। আপনার উল্লেখ করা মূল্যবোধগুলির মতো আমার মতে, যেগুলি নিয়মিতভাবে ফাঁকা থাকে এবং যেগুলি ক্রিয়াকলাপ বন্ধের সাথে সঙ্গতি রাখে, আপনার মডেল থেকে এই দিনগুলি ছেড়ে যাওয়া আরও সঠিক হতে পারে। আপনার কল সেন্টারের সামান্য জগতে (আপনি যে মডেলটি এটি সম্পর্কে তৈরি করছেন), অ-বিদ্যমান কার্যকলাপের পরিমাপ আবিষ্কারের পরিবর্তে সময়টি বন্ধ হয়ে গেলে কেবল এটি বন্ধ হয়ে যাওয়া বিবেচনা করা ভাল। অন্যদিকে, আরিমা মডেলটি পরিসংখ্যানগতভাবে এই ধারণাটি তৈরি করা হয়েছে যে ডেটা সমানভাবে ব্যবধানযুক্ত। আমি যতদূর জানি আপনার মামলায় আরআইএমএর কোনও অভিযোজন নেই। আপনি যদি কার্যদিবসের দিনগুলিতে মাত্র কিছু পরিমাপ অনুপস্থিত থাকেন তবে আপনাকে আন্তঃবিবাহ ব্যবহার করতে বাধ্য করা হতে পারে।


0

@ রেমি উল্লিখিত হিসাবে আমি এই ডেটাতে মডেলটি অনুমান করার আগে ডেটাগুলিকে বিভক্ত করব না। এটি একটি খারাপ ধারণা। একটি চূড়ান্ত উদাহরণ: কল্পনা করুন আপনার জানুয়ারী 2013 এবং জানুয়ারী 2014 এ দুটি ডেটা পয়েন্ট রয়েছে Now এখন 10 মাসিক পয়েন্টের মধ্যে বিভক্ত করুন: ফেব্রুয়ারী থেকে ডিসেম্বর 2013 এবং মাসিক তারিখে রিগ্রেশন চালান। বাস্তবে এটি খারাপ হতে চলেছে না, তবে এটি একই ধারণা: আপনি আপনার পরিসংখ্যানকে সর্বোত্তমভাবে ফুটিয়ে তুলবেন।

যাওয়ার উপায় হ'ল সময় সিরিজের পদ্ধতিগুলি ব্যবহার করা যা অনুপস্থিত ডেটা পরিচালনা করে। উদাহরণস্বরূপ, রাষ্ট্র স্পেস পদ্ধতি। কটাক্ষপাত astsa আর প্যাকেজ। এটি সময় সিরিজের বিশ্লেষণে একটি দুর্দান্ত বই নিয়ে আসে। এটি নিখোঁজ তথ্য হ্যান্ডেল করবে। মতলব এখন এসএসএম প্যাকেজে একই রকম কার্যকারিতা রাখে । আপনার মডেলগুলিকে রাষ্ট্রীয় স্থান আকারে রূপান্তর করতে শিখতে হবে, তবে আপনি যদি auto.arima"যাদু" থেকে দূরে সরে যেতে চান তবে আপনাকে এটি শিখতে হবে ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.