স্প্লিংস পূর্বাভাসের জন্য ব্যবহার করা যেতে পারে?


20

ডেটা মালিকানাধীন হওয়ায় আমি ডেটার প্রকৃতি সম্পর্কে সুনির্দিষ্ট হতে পারি না তবে ধরুন আমাদের কাছে এর মতো ডেটা রয়েছে: প্রতি মাসে কিছু লোক কোনও পরিষেবার জন্য সাইন আপ করে। তারপরে, পরবর্তী প্রতিটি মাসে, এই ব্যক্তিরা পরিষেবাটি আপগ্রেড করতে পারে, পরিষেবাটি বন্ধ করতে বা পরিষেবাটি অস্বীকার করতে পারে (যেমন অর্থ প্রদানের ব্যর্থতার জন্য)। আমাদের ডেটাতে প্রথম দিকের দলটির জন্য, আমাদের কাছে প্রায় 2 বছরের ডেটা (24 মাস) রয়েছে।

প্রতি মাসে যোগদানকারী মানুষের সংখ্যা বড় (100,000 পরিসীমাতে) এবং তিনটি জিনিসের যে কোনও একটি করে করার সংখ্যা হাজারে। যাইহোক, আমরা স্বতন্ত্র স্তরের ডেটা ব্যবহার করছি না (যা কয়েক মিলিয়ন সারি হবে) কিন্তু মাস এবং কোহোর্ট দ্বারা সংগৃহীত ডেটা (প্রতিটি কোটির প্রতিটি অনুপাতের প্রতিটি অংশ প্রতিটি অনুপাতের পরিমাণ কী করে)।

আমরা মাল্টিভিয়ারেট অ্যাডাপিটিভ রিগ্রেশন স্প্লাইনস (এমএআরএস) ব্যবহার করে বিদ্যমান ডেটাগুলি মডেলিং করছি এবং কিছু আকর্ষণীয় ফলাফল পেয়েছি। যাইহোক, আমি এগুলি ব্যবহার করে ভবিষ্যতের ভবিষ্যদ্বাণী বা ভবিষ্যদ্বাণী করতে চিন্তিত। আমার উদ্বেগগুলি কারণ ভবিষ্যতে ভবিষ্যদ্বাণীগুলি অগত্যা নমুনা জায়গার বাইরে (সময়ের নিরিখে) এবং স্প্লাইপগুলি বহির্মুখের জন্য অস্থির হয়ে উঠতে পারে।

এটি কি বৈধ পদ্ধতি? কী উদ্বেগ আছে এবং তাদের সমাধান করা যেতে পারে?


2
অবশ্যই সেগুলি পূর্বাভাসের জন্য ব্যবহার করা যেতে পারে, তবে আপনাকে কীভাবে মডেল হাইপারপ্যারামিটারগুলি সঠিকভাবে টিউন করতে হবে সেদিকে মনোযোগ দিতে হবে। স্প্লাইন ফাংশন (ধ্রুবক, রৈখিক, ঘনক) এর পছন্দটিও গুরুত্বপূর্ণ উদ্বেগ। আইআরসি, মার্সে লিনিয়ার স্প্লাইন ফাংশনগুলি সাধারণত ব্যবহৃত হয় এবং উচ্চ-অর্ডার স্প্লিটগুলি এক্সট্রা পোলাশনের জন্য / অত্যধিক মানসিক চাপের জন্য উদ্বেগের বাইরে এড়ায়।
সাইকোরাক্স মনিকাকে

1
আপনি বিশেষত উদ্বিগ্ন কিছু আছে, যা আপনি ব্যবহার করছেন একটি পদ্ধতি সন্দেহ করতে হবে? আপনার নির্ভুলতা অপ্রত্যাশিতভাবে কম বলে মনে হচ্ছে, বা এরকম কিছু? আপনি কি অন্যান্য পদ্ধতি চেষ্টা করেছেন? তারা কীভাবে তুলনা করবে?
এক_বীক্ষণ

1
@ সোফোলজিস্ট মূলত যে তারা নতুন মূল্যবোধের পক্ষে খুব দূরে থাকবেন যেহেতু নট এবং লাইনগুলি অতীতের মানগুলির উপর ভিত্তি করে। সুতরাং, বলুন, একটি লিনিয়ার স্প্লাইন যা "২০১৪ সালের পরে প্রতি বছর এক্সএক্সএক্স দ্বারা বৃদ্ধি" বলে কেবলমাত্র ২০১৫ এর তথ্যের উপর ভিত্তি করে তৈরি হবে তবে যদি ২০১ 2016-তে প্রয়োগ করা হয়, একই দিকে চালিয়ে যাবে।
পিটার ফ্লুম - মনিকা পুনরায়

3
@ পিটারফ্লোম: আমি সোফোলজিস্টের কাছে আপনার প্রতিক্রিয়া না পড়ার আগে পর্যন্ত আমি আপনার প্রশ্ন সম্পর্কে আসলেই খুব বিভ্রান্ত হয়ে পড়েছিলাম (স্প্লাইন্ডস পূর্বাভাসের জন্য খুব সাধারণ) আপনার উদ্বেগটি কী বলে আমি মনে করি ঠিক তা জোর দেওয়ার জন্য আমি আপনার প্রশ্ন সম্পাদনা করেছি। পর্যালোচনা করুন.
ক্লিফ এবি

2
@ পিটারফ্লম: আমার সম্পাদনাটি সঠিক বলে ধরে নিচ্ছেন, আপনি কি সময়ের ব্যবধানকে একটি স্প্লিন দিয়ে মডেলিং করছেন? যদি তা হয় তবে আমি বেশ উদ্বিগ্ন। যাইহোক, আপনি যদি সময়ের ব্যবধানটি পিছিয়ে পড়ার প্রভাব এবং স্প্লিনস সহ অন্যান্য covariates দিয়ে মডেলিং করছেন তবে আমি কোনও সমস্যা দেখব না?
ক্লিফ এবি

উত্তর:


15

আমার প্রশ্নের ব্যাখ্যা থেকে, আপনি যে অন্তর্নিহিত প্রশ্নটি জিজ্ঞাসা করছেন তা হ'ল আপনি সময়কে একটি স্প্লাইন হিসাবে মডেল করতে পারবেন কিনা।

আমি যে প্রশ্নের প্রথম প্রশ্নের উত্তর দেওয়ার চেষ্টা করব তা হ'ল আপনি আপনার ডেটা এক্সট্রোপোলেটে স্প্লাইন ব্যবহার করতে পারেন কিনা। সংক্ষিপ্ত উত্তরটি এটি নির্ভর করে তবে বেশিরভাগ সময় স্প্লাইপগুলি বহির্মুখের জন্য দুর্দান্ত নয়। স্প্লিংগুলি মূলত একটি দ্বিখণ্ডিত পদ্ধতি, এগুলি আপনার ডেটা যে স্থানটিতে থাকে সেটিকে ভাগ করে দেয় এবং প্রতিটি বিভাগে এগুলি একটি সহজ রেজিস্ট্রার ফিট করে। সুতরাং চলুন MARS এর পদ্ধতিটি দেখুন। MARS পদ্ধতি হিসাবে সংজ্ঞায়িত করা হয় ( এক্স ) = Σ আমি = 1 α আমি বি আমি ( এক্স [ আমি ] ) যেখানে α আমি MARS মডেল i'th শব্দটি এ ধ্রুবক,

^(এক্স)=Σআমি=1এনαআমিবিআমি(এক্স[আমি])
αআমি হ'ল মেথমে বেসগুলি ফাংশন, এবং এক্স [ i ] আইথ শব্দটিতে আপনার বৈশিষ্ট্য ভেক্টর থেকে নির্বাচিত বৈশিষ্ট্য উপস্থাপন করে। ভিত্তি ফাংশন হয় একটি ধ্রুবক হতে পারে বা একটি কব্জা ফাংশন (সংশোধনকারী) হতে পারে। কবজা ফাংশন কেবল হয় মি একটি এক্স ( 0 , এক্স [ আমি ] + + আমি ) কি কবজা ফাংশন বাহিনী মডেল একটি তৈরি করাpiecewiseফাংশন রৈখিক (এটা নোট আকর্ষণীয় যে একটি শায়েস্তা রৈখিক অ্যাক্টিভেশন কাজ করতে পারে সঙ্গে একটি স্নায়ুর নেটওয়ার্ক মার্স মডেলের সুপারসেট মডেল হিসাবে দেখা হবে)। বিআমিএক্স[আমি]
মিএকটিএক্স(0,এক্স[আমি]+ +আমি)

আর

^(এক্স)=5+ +মিএকটিএক্স(0,এক্স-5)+ +2মিএকটিএক্স(0,এক্স-10)

10
^(এক্স)=10+ +2(এক্স-10)=2এক্স-10
5

এখন সময় সিরিজে ফিরে আসি। টাইম সিরিজটি মেশিন লার্নিংয়ে একটি বিশেষ বিশেষ কেস। তাদের কিছুটা কাঠামোর ঝোঁক থাকে, এটি আংশিক ইন-ভেরিয়েন্স হোক বা বিভিন্ন ধরণের বিভিন্ন কাঠামোর মধ্যে একটি হোক এবং এই কাঠামোটি কাজে লাগানো যেতে পারে। তবে বিশেষ অ্যালগরিদমগুলি প্রয়োজন যা এই কাঠামোটি কাজে লাগাতে সক্ষম হয়, দুর্ভাগ্যক্রমে স্প্লাইজগুলি এটি করে না।

কয়েকটি জিনিস রয়েছে যা আমি আপনাকে চেষ্টা করে দেখতে চাই। প্রথমটি হবে পুনরুদ্ধারকারী নেটওয়ার্কগুলি। যদি আপনার সময়ের সিরিজটি দীর্ঘ না হয় (এবং দীর্ঘমেয়াদী নির্ভরতা না থাকে) আপনার একটি সাধারণ ভ্যানিলা পুনরাবৃত্তি নেটওয়ার্ক ব্যবহার করে পালিয়ে যেতে সক্ষম হওয়া উচিত। যদি আপনি কী হতে চলেছে তা বুঝতে সক্ষম হতে চান, তবে আপনি অ্যাক্টিভেশন ফাংশন হিসাবে বায়াসগুলি সহ একটি সংশোধিত লিনিয়ার ইউনিট ব্যবহার করতে পারেন এবং এটি টাইমরিজগুলির উপসেট এবং মার্শাল "মেমরি" এর বার্ষিক স্নায়ুতোষের উপর মার্শ মডেলিংয়ের সমতুল্য হবে ঝুলিতে। নেট দ্বারা মেমরিটি কীভাবে পরিচালিত হয় তা ব্যাখ্যা করা শক্ত হবে, তবে উত্পন্ন স্পেসওয়্যারটি কীভাবে উত্পাদিত অংশবিশেষ রৈখিক কার্যের সাথে সম্মতি সহকারে উপ-স্থানটি পরিচালনা করা হচ্ছে তা আপনার কিছুটা ধারণা নেওয়া উচিত। এছাড়াও আপনার যদি স্থির বৈশিষ্ট্যগুলি টাইম সিরিজের সাথে অন্তর্ভুক্ত না থাকে তবে এগুলি নেট এ ব্যবহার করা অপেক্ষাকৃত সহজ is

আপনার কাছে থাকা টাইম সিরিজটি যদি দীর্ঘ হয় এবং দীর্ঘমেয়াদী নির্ভরতা থাকতে পারে তবে আমি জিআরইউ বা এলএসটিএম এর মতো কিছু গেটেড পুনরাবৃত্ত নেটওয়ার্কগুলির ব্যবহার করার পরামর্শ দিচ্ছি।

সময় সিরিজের শ্রেণিবিন্যাসের আরও ধ্রুপদী দিকে আপনি লুকানো মার্কভ মডেল ব্যবহার করতে পারেন। আমি আর এগুলিতে যাব না, কারণ আমি তাদের সাথে তেমন পরিচিত নই।

উপসংহারে, আমি দুটি কারণে স্প্লাইস ব্যবহার করার পরামর্শ দেব না। এক, এটি জটিল এক্সট্রাপোলেশন সমস্যাগুলি পরিচালনা করতে সক্ষম নয়, যা আপনি বর্ণনা করছেন এমন সমস্যা বলে মনে হচ্ছে। এবং দুটি, স্প্লাইজগুলি টাইম সিরিজের কাঠামোগত ব্যবহার করে না যা সময় সিরিজের শ্রেণিবিন্যাসে খুব শক্তিশালী হতে পারে।

আশাকরি এটা সাহায্য করবে.

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.