সময় সিরিজ 'ক্লাস্টারিং' আর


38

আমার কাছে টাইম সিরিজের ডেটা সেট আছে। প্রতিটি সিরিজ একই সময়কাল জুড়ে, যদিও প্রতিটি সময় সিরিজের আসল তারিখগুলি সমস্ত 'লাইন আপ' না করে may

এটি বলার অপেক্ষা রাখে না, যদি টাইম সিরিজটি 2 ডি ম্যাট্রিক্সে পড়তে হয় তবে এটি এমন কিছু দেখায়:

date     T1   T2   T3 .... TN
1/1/01   100  59   42      N/A
2/1/01   120  29   N/A     42.5
3/1/01   110  N/A  12      36.82
4/1/01   N/A  59   40      61.82
5/1/01    05  99   42      23.68
...
31/12/01  100  59   42     N/A

etc 

আমি একটি আর স্ক্রিপ্ট লিখতে চাই যা টাইম সিরিজ {টি 1, টি 2, ... টিএন} কে 'পরিবারগুলিতে' আলাদা করে দেয় যেখানে একটি পরিবারকে সিরিজের সেট হিসাবে সংজ্ঞায়িত করা হয় যা একে অপরের সাথে "সহানুভূতিতে চলে আসে"।

'ক্লাস্টারিং' অংশের জন্য, আমাকে এক ধরণের দূরত্ব পরিমাপ নির্বাচন / সংজ্ঞায়িত করতে হবে। আমি এটি সম্পর্কে কীভাবে যেতে পারি তা সম্পর্কে পুরোপুরি নিশ্চিত নই, যেহেতু আমি সময় সিরিজ নিয়ে কাজ করছি, এবং একজোড়া ধারাবাহিকতা যা অন্তর অন্তর সহানুভূতিতে চলে যেতে পারে, পরবর্তী সময়ে অন্তর্ভুক্ত নাও করতে পারে।

আমি নিশ্চিত যে এখানে আমার চেয়ে অনেক বেশি অভিজ্ঞ / চতুর লোক রয়েছেন, তাই দূরত্ব পরিমাপের জন্য কীভাবে অ্যালগরিদম / হিউরিস্টিক ব্যবহার করতে হবে এবং কীভাবে সময় সিরিজের গুচ্ছায় ব্যবহার করতে হবে সে সম্পর্কে আমি যে কোনও পরামর্শ, ধারণার জন্য কৃতজ্ঞ থাকব।

আমার ধারণা হ'ল এটি করার জন্য কোনও প্রতিষ্ঠিত শক্তিশালী পরিসংখ্যান পদ্ধতি নেই, সুতরাং লোকেরা কীভাবে এই সমস্যার সমাধান করে / সমাধান করে তা দেখে আমি খুব আগ্রহী হব - একটি পরিসংখ্যানবিদদের মতো চিন্তাভাবনা করুন।


1
আপনি এই প্রশ্নের প্রতিক্রিয়াগুলিতেও আগ্রহী হতে পারেন, stats.stackexchange.com/q/2777/1036
অ্যান্ডি ডব্লু


1
ডিরিচলেট প্রক্রিয়াগুলির উপর ভিত্তি করে একটি পরিসংখ্যান পদ্ধতি রয়েছে যা ডেটাসেটের জন্য কাজ করে যেখানে সমস্ত নমুনার ক্ষেত্রে সময়সীমা একই থাকে না।
দারিও

উত্তর:


24

টাইম সিরিজ ডাটাবেসের ডেটা স্ট্রিমিং এবং মাইনিংয়ের ক্ষেত্রে একটি সাধারণ পন্থা হ'ল সিরিজটিকে প্রতীকী উপস্থাপনায় রূপান্তর করা, তারপরে সিরিজটিকে ক্লাস্টার করার জন্য ইউক্যালিডিয়ান দূরত্বের মতো একটি মিল মেট্রিক ব্যবহার করা। স্যাক্স (কেওগ অ্যান্ড লিন) বা নতুন আইএসএক্স (শিহ ও কেওগ) সর্বাধিক জনপ্রিয় উপস্থাপনাগুলি:

উপরের পৃষ্ঠাগুলিতে দূরত্বের মান এবং ক্লাস্টারিংয়ের উল্লেখও রয়েছে contain কেওগ এবং ক্রু তাদের কোড প্রকাশের জন্য পুনরুত্পাদনযোগ্য গবেষণায় এবং বেশ গ্রহণযোগ্য are সুতরাং আপনি তাদের ইমেল এবং জিজ্ঞাসা করতে পারে। আমি বিশ্বাস করি যদিও তারা ম্যাটল্যাব / সি ++ এ কাজ করার ঝোঁক রয়েছে।

একটি জাভা এবং আর বাস্তবায়ন উত্পাদন করার জন্য একটি সাম্প্রতিক প্রচেষ্টা ছিল:

আমি জানি না এটি কতটা দূরে রয়েছে - এটি মোটিফ সন্ধানের দিকে এগিয়ে গেছে তবে তারা কতটা অর্জন করেছে তার উপর নির্ভর করে আপনার প্রয়োজনীয়তার জন্য আপনাকে কিছু একসাথে রাখার জন্য প্রয়োজনীয় বিট থাকা উচিত (আইএসএএক্স এবং দূরত্বের মেট্রিক্স: যেহেতু এই অংশটি ক্লাস্টারিং এবং মোটিফ সন্ধানের পক্ষে সাধারণ)।


1
এটি দেখতে একটি ভাল, ট্র্যাকটেবল শুরুর পয়েন্টের মতো দেখাচ্ছে। লিঙ্কগুলির জন্য ধন্যবাদ।
মরফিয়াস

4
পবিত্র বোকা, আমি মনে করি যে স্যাক্স পৃষ্ঠাটি আমি দেখেছি যে কুরুচিপূর্ণ ওয়েব পৃষ্ঠা!
nnot101

18

"সহানুভূতিতে চলতে ঝোঁক" বলার আর একটি উপায় হ'ল "সমন্বিত"।

সমন্বয় গণনার দুটি স্ট্যান্ডার্ড উপায় রয়েছে : এনগেল-গ্রেঞ্জার পদ্ধতি এবং জোহেনসেন পদ্ধতি। এগুলি "বিশ্লেষণের সাথে সংহত ও সমাকালিত সময়ের সিরিজের বিশ্লেষণ" ( পিএফএফ ২০০৮) এবং সম্পর্কিত আর urca প্যাকেজটিতে আচ্ছাদিত । আপনি যদি আর এই পদ্ধতিগুলি অনুসরণ করতে চান তবে আমি বইটির সর্বাধিক পরামর্শ দিচ্ছি।

আমি আপনাকে সুপারিশও করি যে আপনি মাল্টিভারিয়েট সময় সিরিজ এবং বিশেষত ইউ. শিকাগোতে রুই স্যাসের কোর্সে এই প্রশ্নটি দেখুন যাতে সমস্ত প্রয়োজনীয় আর কোড অন্তর্ভুক্ত রয়েছে।


কয়েক বছর আগে আমি পুরো সংযুক্তি নিয়ে এসেছি - তবে এটি আমার কাছে ভয়ঙ্কর জটিল বলে মনে হয়েছিল (আমি এটি বুঝতে পারি না!)। আমি আশা করছিলাম এর চেয়ে কম তাত্ত্বিক (যেমন আরও ব্যবহারিক) সমাধান হবে ...
মরফিয়াস

3
এঙ্গেল-গ্রেঞ্জার পদ্ধতিটি বিশেষত জটিল নয়: আপনি কেবল দুটি সিরিজের মধ্যে কোনও রিগ্রেশনের অবশিষ্টাংশগুলি নিয়ে যান এবং নির্ধারণ করেন যে এটির ইউনিট রুট রয়েছে কিনা। এটি অবশ্যই ব্যবহারিক: এটি সমস্যার বিস্তৃত বর্ণের জন্য নিয়মিত ব্যবহৃত হয়। এটি বলেছিল, আমি ধারণা করি যে আপনার প্রশ্নের যে কোনও উত্তরের জন্য কিছু পরিসংখ্যানিক জ্ঞানের প্রয়োজন হবে (উদাহরণস্বরূপ, আপনার উচিত স্ট্যাটারিটি, স্বাধীনতা ইত্যাদির মতো বিষয়গুলি বোঝা) ...
শেন

কো-ইন্টিগ্রেশনের জন্য সমস্ত জোড়-ভিত্তিক সিরিজ পরীক্ষা করার চেয়ে এটি করার আরও ভাল উপায় কি আছে (একসাথে ক্লাস্টার সিরিজটি একই আদর্শে রেখে?) এছাড়াও এই পরামর্শটি এই সিরিজ নিজেই একীভূত হওয়ার উপর নির্ভর করে না? শুরুতে?
অ্যান্ডি ডাব্লু

@ অ্যান্ডি: আমি নিশ্চিত যে এর চেয়ে আরও ভাল উপায় আছে এবং আমি এটি সম্পর্কে শোনার জন্য অপেক্ষা করছি। এটি একটি সুন্দর প্রাথমিক পদ্ধতির।
শেন

1
> আমি অন্য কিছু প্রস্তাব করতে পারি না, তবে সমন্বয় উভয়ই খুব নাজুক ('প্যারামেট্রিক অনুমান' বুনো সিরিজ) অনুশীলনে এবং হাতের কাজটির জন্য অসুস্থ: প্রতিটি পদক্ষেপে, এটি হায়ারারিকিকাল ক্লাস্টারিংয়ের পরিমাণ, সর্বাধিক দুটি মার্জ একের সাথে সিরিজ (সহ-সংহত গড়)।
ব্যবহারকারী 603

4

ক্লাস্টারিং টাইম সিরিজ মোটামুটিভাবে জনসংখ্যার ডায়নাম্যাকিস্টদের দ্বারা সম্পন্ন করা হয়, বিশেষত যারা পোকামাকড় অধ্যয়ন এবং পতনের প্রবণতা বোঝার জন্য অধ্যয়ন করে। জিপসি মথ, স্প্রুস বুদোর্ম, মাউন্টেন পাইন বিটল এবং লার্চ বুডমথের জন্য কাজের সন্ধান করুন।

প্রকৃত ক্লাস্টারিংয়ের জন্য আপনি যে কোনও দূরত্বের মেট্রিক পছন্দ করতে পারেন তা বেছে নিতে পারেন, প্রত্যেকের নিজস্ব নিজস্ব শক্তি এবং সাপ্তাহিকতা রয়েছে যা ধরণের ডেটা ক্লাস্টার করা হচ্ছে তার তুলনায়, কাউফম্যান এবং রুসিউউ ১৯৯০। ডেটাতে গ্রুপগুলি সন্ধান করা। ক্লাস্টার বিশ্লেষণের একটি ভূমিকা শুরু করার জন্য ভাল জায়গা। মনে রাখবেন, ক্লাস্টারিং পদ্ধতিটি 'যত্ন' দেয় না যে আপনি একটি সময় সিরিজ ব্যবহার করছেন, এটি কেবল একই সময়ে পরিমাপকৃত মানগুলি দেখায়। যদি আপনার দুই সময়ের সিরিজটি তাদের জীবনকাল ধরে পর্যাপ্ত সমন্বয় না করে তবে তারা ক্লাস্টারটি করবে না (এবং সম্ভবত করা উচিত নয়)।

যেখানে আপনার সমস্যা হবে তা হ'ল সময় সিরিজটি ক্লাস্টার করার পরে ব্যবহার করার জন্য ক্লাস্টারগুলির সংখ্যা (পরিবার) নির্ধারণ করা। তথ্যমূলক ক্লাস্টারগুলির কাট-অফ নির্বাচন করার বিভিন্ন উপায় রয়েছে তবে এখানে সাহিত্যের খুব ভাল কিছু নেই।


1
y1,t

1
@ ইউজার 603 আপনি কি ব্যাখ্যা করতে পারেন "আপনি হয় তা স্বীকার করতে হবে যে সিরিজটি তার নিজস্ব অতীতটির সাথে প্রতিটি y1, টিকে তার নিজস্ব মাত্রা হিসাবে যুক্ত করে (যেমন এন * টি মাত্রার ফলস্বরূপ) স্থাপন করে" দয়া করে?
বি_মিনার

2

অনুরূপ প্রশ্নের আমার উত্তর এখানে দেখুন । দীর্ঘ গল্পের সংক্ষিপ্তসার, ডেটার একটি দ্রুত ফুরিয়ার রূপান্তর করুন, যদি আপনার ইনপুট ডেটার সত্যিকারের মূল্য হয় তবে রিয়েল্ট্যান্ট ফ্রিকোয়েন্সিগুলি ত্যাগ করুন, দ্রুত ফুরিয়ার ট্রান্সফর্মের প্রতিটি উপাদানগুলির জন্য আসল এবং কল্পিত অংশগুলি পৃথক করুন এবং মডেল করতে R- তে ম্যাক্লাস্ট প্যাকেজটি ব্যবহার করুন প্রতিটি সময় সিরিজের প্রতিটি উপাদান বাস্তব এবং কল্পিত অংশ উপর ভিত্তি করে গুচ্ছ। প্যাকেজটি ক্লাস্টার সংখ্যা এবং তাদের ঘনত্বগুলির তুলনায় অপ্টিমাইজেশন স্বয়ংক্রিয় করে mates


0

আপনি প্যাকেজ ক্লাস্টডিডিস্টও ব্যবহার করতে পারেন, যা বিভিন্ন ত্রুটির ব্যবস্থাসহ নেতাদের পদ্ধতি এবং শ্রেণিবিন্যাসের ক্লাস্টারিং পদ্ধতি সম্পাদন করে:

http://r-forge.r-project.org/projects/clustddist/

স্কোয়ারড ইউক্লিডিয়ান দূরত্বগুলি এমন বিতরণগুলির নিদর্শনকে সমর্থন করে যা একটি খাড়া উচ্চ শিখর রয়েছে এবং তাই পরিমাপ করে

d4(x,y)=(xy)2y
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.