ডায়নামিক টাইম ওয়ার্পিং ক্লাস্টারিং


40

টাইম সিরিজের ক্লাস্টারিংয়ের জন্য ডায়নামিক টাইম ওয়ার্পিং (ডিটিডাব্লু) ব্যবহার করার পদ্ধতির কী হবে?

দুটি সময় সিরিজের মধ্যে সাদৃশ্য খুঁজে পাওয়ার উপায় হিসাবে আমি ডিটিডব্লিউ সম্পর্কে পড়েছি, যখন সেগুলি সময়মতো স্থানান্তরিত হতে পারে। আমি কি এই পদ্ধতির কে-মাধ্যমের মতো ক্লাস্টারিং অ্যালগরিদমের জন্য একটি মিল হিসাবে বিবেচনা করতে পারি?


2
হ্যাঁ, আপনি কে ইনপুট হিসাবে সমানতা পরিমাপকে ক্লাস্টারিং হিসাবে ব্যবহার করতে পারেন এবং তারপরে আপনার ডেটাগুলিতে গ্রুপগুলি নির্ধারণ করতে পারেন।
পূর্বাভাস

স্যার আপনার উত্তরের জন্য আপনাকে ধন্যবাদ। আমি অনুমান করছি যে প্রতিটি পুনরাবৃত্তির জন্য আমার ক্লাস্টারের অন্তর্ভুক্ত সমস্ত সিরিজের মাধ্যম হিসাবে প্রতিটি (সেন্ট্রয়েড, ক্লাস্টারিং পয়েন্ট) দম্পতির জন্য দূরত্বের ম্যাট্রিক্স গঠন করতে হবে এবং স্ট্যান্ডার্ড ফ্যাশনে সেন্ট্রয়েডগুলি পুনরায় গণনা করতে হবে?
মার্কো

1
নীচের উত্তরে আলেকসান্দ্র ব্লেকের একটি ব্লগ পোস্ট রয়েছে যা এটি কীভাবে আর করতে হবে সে সম্পর্কে বিশদ উদাহরণ দেয়
পূর্বাভাসকারী

2
@ ফোরকাস্টার ডিটিডাব্লু দিয়ে কে-মাধ্যম ব্যবহার করবেন না । কে-মানে বৈকল্পিকতা হ্রাস করে, দূরত্বকে নয়। ভেরিয়েন্সটি ইউক্লিডিয়ান স্কোয়ারযুক্ত, তবে এর অর্থ এই নয় যে কে-মানে অন্যান্য দূরত্বকে অনুকূল করতে পারে। গড়টি নয়, এবং ডিটিডাব্লুতে প্রতিরূপ উদাহরণগুলি তৈরি করা বরং সহজ হওয়া উচিত, যেমন by দ্বারা সাইন ওয়েভের মতো : উভয়ই ডিটিডব্লিউর সাথে খুব সমান, তবে তাদের গড়টি ধ্রুব শূন্য - উভয়ের সাথে খুব আলাদা। π
অ্যানি-মৌসে

1
টাইম সিরিজ ক্লাস্টারিংয়ের জন্য কে-মানে কোনও উপযুক্ত অ্যালগরিদম নয়। বিচ্ছিন্ন, দ্রাঘিমাংশীয় ডেটাগুলির জন্য গোপন মার্কভ মডেলগুলি উপযুক্ত। ওবেদ নেটজার (কলম্বিয়া) এবং স্টিভ স্কট (গুগল) এর মূল অবদানের পাশাপাশি এই বিষয়টিতে এখন বেশ কয়েকটি বই বেরিয়েছে। আর একটি পদ্ধতি হ'ল ম্যাক্স প্ল্যাঙ্কে আন্ড্রেয়াস ব্র্যান্ডমায়ার দ্বারা নির্ধারিত তথ্য-তাত্ত্বিক পদ্ধতিটি বলা হয় যাকে অনুমতিপত্র বিতরণ ক্লাস্টারিং বলে। তিনি একটি আর মডিউলও লিখেছেন। গুচ্ছ সমাধানের তুলনা একটি আলাদা সমস্যা। মেরিনা মাইলার কাগজ, ক্লাস্টারিংসের তুলনা, ওয়াশিংটন স্ট্যাটিস্টিকস টেক রিপোর্টের ইউ 418 সেরা।
মাইক হান্টার

উত্তর:


33

টাইমসারিগুলির জন্য কে-মাধ্যম ব্যবহার করবেন না

গভীর নলকুপ এর হয় না মানে দ্বারা কমিয়ে আনা; কে-অর্থগুলি একত্রিত হতে পারে না এবং এটি রূপান্তর করলেও এটি খুব ভাল ফলাফল দেয় না। গড়টি স্থানাঙ্কগুলিতে স্বল্প বর্গের প্রাক্কলনকারী esti এটা তোলে ভ্যারিয়েন্স, নির্বিচারে না দূরত্বের এবং ছোট K-মানে ভ্যারিয়েন্স, কমানোর জন্য ডিজাইন করা হয়েছে না নির্বিচারে দূরত্বের

ধরে নিন আপনার দুটি সময় সিরিজ আছে। একই ফ্রিকোয়েন্সি দুটি সাইন ওয়েভ এবং একটি বরং দীর্ঘ নমুনা সময়কাল; কিন্তু তারা পুষিয়ে হয় । যেহেতু ডিটিডাব্লু টাইম ওয়ারপিং করে, এটি তাদের প্রান্তিককরণ করতে পারে তাই তারা শুরু এবং শেষ ব্যতীত পুরোপুরি মেলে। এই দুটি সিরিজের পরিবর্তে ডিটিডাব্লু একটি ছোট ছোট দূরত্ব নির্ধারণ করবে। তবে আপনি যদি দুটি সিরিজের গড় গণনা করেন তবে এটি ফ্ল্যাট 0 হবে - এগুলি বাতিল হয়ে যায়। গড়টি গতিশীল সময়কে কেন্দ্র করে না , এবং ডিটিডব্লিউ যে সমস্ত মান পেয়েছে তা হারায়। এই জাতীয় ডেটাতে, কে-উপায়গুলি রূপান্তর করতে ব্যর্থ হতে পারে এবং ফলাফলগুলি অর্থহীন হবে। কে-মানেগুলি কেবলমাত্র বৈকল্পিক (= স্কোয়ারড ইউক্লিডিয়ান) বা কিছু ক্ষেত্রে সমান (যেমন কোসাইন যেমন এল 2 নরমালাইজড ডেটা, যেখানে কোসাইন মিল রয়েছে ) দিয়ে ব্যবহার করা উচিতπএকই হিসাবে স্কোয়ারড ইউক্লিডিয় দূরত্ব)2-

পরিবর্তে, ডিটিডাব্লু ব্যবহার করে একটি দূরত্বের ম্যাট্রিক্স গণনা করুন, তারপরে একক-লিঙ্কের মতো শ্রেণিবদ্ধ ক্লাস্টারিং চালান। কে-মানেগুলির বিপরীতে, এই সিরিজের আলাদা দৈর্ঘ্যও থাকতে পারে।


4
ঠিক আছে, অবশ্যই PAM (K-medoids) রয়েছে যা নির্বিচারে দূরত্ব নিয়ে কাজ করে। অনেকগুলি অ্যালগরিদমের মধ্যে একটি যা স্বেচ্ছাসেবী দূরত্বগুলি সমর্থন করে - কে-মানে তা নয়। অন্যান্য পছন্দগুলি হ'ল ডিবিএসসিএন, অপটিক্স, ক্লারানস, এইচএসি, ...
-মৌসেস

1
সম্ভবত। কারণ কে-মেডোইডগুলি ক্লাস্টার সেন্টারটি সন্ধানের জন্য ডিটিডাব্লু-মেডয়েড ব্যবহার করে, এল 2 মানে নয়। সময় সিরিজের কোনও বাস্তব জগতের সফল ক্লাস্টারিং সম্পর্কে আমি জানি না। আমি বিশ্বাস করি আমি কাগজপত্র দেখেছি, তবে ফলাফলটি সত্যই ব্যবহৃত হয়নি none কেবলমাত্র প্রমাণগুলির ধারণাগুলি।
অ্যানি-মৌসে

1
@ আলেকসান্দ্র ব্লেক তার অন্যতম উদাহরণ হিসাবে এটি দিয়েছেন nbviewer.ipython.org/github/alexminnaar/… এ সম্পর্কে আপনার মতামত কী?
মার্কো

1
খেলনা সমস্যা। বাস্তব বিশ্বে অকেজো। বাস্তব ডেটাতে প্রচুর শব্দ রয়েছে যা মসৃণ সাইন রেখাচিত্রগুলি এবং এই উপাত্তগুলিতে উপস্থাপিত নিদর্শনগুলির চেয়ে অনেক বেশি ক্ষতি করবে।
অ্যানি-মৌসে

1
আমি মনে করি শ্রেণিবদ্ধ ক্লাস্টারিং আরও ভাল পছন্দ। আপনি যাইহোক যাইহোক বিশাল সংখ্যক সিরিজ প্রক্রিয়া করতে সক্ষম হবেন না।
অ্যানি-মৌসে

49

হ্যাঁ, আপনি সময় সিরিজের শ্রেণিবদ্ধকরণ এবং ক্লাস্টারিংয়ের জন্য ডিটিডাব্লু পদ্ধতির ব্যবহার করতে পারেন । আমি নিম্নলিখিত সংস্থানগুলি সংকলন করেছি , যা এই বিষয়টিতে ফোকাস করা হয়েছে (আমি সম্প্রতি একটি অনুরূপ প্রশ্নের উত্তর দিয়েছি, তবে এই সাইটে নয়, তাই আমি এখানে প্রত্যেকের সুবিধার্থে সামগ্রীগুলি অনুলিপি করছি):


2
নিবন্ধ এবং ব্লগের +1 দুর্দান্ত সংগ্রহ। খুব ভাল রেফারেন্স।
পূর্বাভাসকারী

@ ফোরকাস্টার: উগ্র এবং সদয় শব্দগুলির জন্য আপনাকে ধন্যবাদ! আপনি সংগ্রহ পছন্দ। এটি অত্যন্ত দুঃখজনক যে বর্তমানে আমার কাছে ভবিষ্যদ্বাণী করা এবং পরিসংখ্যান এবং ডেটা সায়েন্সের আরও অনেক ক্ষেত্র আরও গুরুত্বের সাথে শেখার সময় নেই, তবে আমি নতুন কিছু শেখার জন্য প্রতিটি সুযোগ ব্যবহার করি।
আলেকসান্দ্র ব্লেক

1
@ আলেকসান্দ্রব্লেখ আপনার জবাবের জন্য আপনাকে অনেক ধন্যবাদ, আমি এই অপ্রোচ সম্পর্কে অ্যানি-মুউসের সাথে আলোচনা করছি, যেহেতু আমি কে-মানেগুলির জন্য একটি অনুরূপতা হিসাবে ডিটিডাব্লুয়ে বিশেষভাবে আগ্রহী, তাই আমি আউটপুট হিসাবে সেন্ট্রয়েড পেতে পারি। এর সাথে আপনার মতামত এবং অভিজ্ঞতা কী? আপনি দেখতে পাচ্ছেন অ্যানি-মুউস কিছু যুক্তি দিয়েছিলেন যে ফলাফলগুলি এ ক্ষেত্রে এতটা ভাল নাও হতে পারে ... ব্যবহারিক ক্ষেত্রে কিছু ব্যক্তিগত অভিজ্ঞতা হতে পারে?
মার্কো

1
ঠিক আছে, আবার ধন্যবাদ। আমার কাছ থেকে আপনার কাছে +1 রয়েছে এবং তিনি উত্তর গ্রহণ করেছেন, যেহেতু আমার প্রশ্নটি কে-ইনস এবং ডিটিডাব্লুয়ের দিকে আরও বেশি কেন্দ্রীভূত।
মার্কো

1
@ পেপা: আমার আনন্দ Upvoting জন্য ধন্যবাদ। সম্পূর্ণরূপে গ্রহণযোগ্যতা সম্পর্কে বুঝতে এবং সম্মত হন, কোনও সমস্যা নেই।
আলেকসান্দ্র ব্লেক

1

পেটিজিজান এট আল দ্বারা সাম্প্রতিক একটি পদ্ধতি ডিটিডাব্লু ব্যারিসেনটার অ্যাভারেজিং (ডিবিএ) প্রস্তাব করা হয়েছে গড় সময় সিরিজ। অন্য একটি গবেষণাপত্রে তারা অভিজ্ঞ ও তাত্ত্বিকভাবে প্রমাণ করেছেন যে কীভাবে এটি কে-উপকরণের সাহায্যে ক্লাস্টার টাইম সিরিজ ব্যবহার করতে পারে। লেখকরা ( কোডের লিঙ্ক ) গিটহাবে একটি বাস্তবায়ন সরবরাহ করেছেন ।

1 এফ। পেটিজিজন, জি। ফরস্টিয়ার, জিআই ওয়েব, এই নিকোলসন, ওয়াই চেন এবং ই কেওগ, "টাইম সিরিজের ডায়নামিক টাইম ওয়ার্পিং এভারেজিং আরও দ্রুত এবং আরও সঠিক শ্রেণিবদ্ধকরণের অনুমতি দেয়," ডেটা মাইনিং সম্পর্কিত আইইইই আন্তর্জাতিক সম্মেলন, শেনজেন, ২০১৪ ।

2 এফ পেটিজান, পি। গণারস্কি, গড় দিয়ে সময় সিরিজের একটি সংক্ষিপ্তসার: স্টেইনার ক্রম থেকে একাধিক প্রান্তিককরণ, তাত্ত্বিক কম্পিউটার বিজ্ঞান, খণ্ড 414, সংখ্যা 1, 2012


2
লিঙ্কগুলির পরিবর্তে সম্পূর্ণ রেফারেন্স সরবরাহ করুন। লিঙ্কগুলি মারা যেতে পারে
এন্টোইন

1

ডায়নামিক টাইম ওয়ার্প উপলব্ধ তথ্য পয়েন্টগুলির সাথে তুলনা করে, যা কাজ করতে পারে বা নাও পারে। আরও কঠোর পদ্ধতির মধ্যে হ'ল টেলিস্কোপ দূরত্বের মেট্রিকের মাধ্যমে সময় সিরিজের বিতরণকে তুলনা করা ।

এই মেট্রিক সম্পর্কে দুর্দান্ত জিনিস হ'ল এমপিরিয়াল গণনাটি এসভিএমের মতো বাইনারি শ্রেণিবদ্ধের একটি সিরিজ ফিটিংয়ের মাধ্যমে করা হয়।

একটি সংক্ষিপ্ত ব্যাখ্যা জন্য, এই দেখুন

ক্লাস্টারিং সময় সিরিজের জন্য, এটি ডিটিডাব্লুকে ছাড়িয়ে দেখানো হয়েছে; মূল কাগজে টেবিল 1 দেখুন [1]।

[1] রিয়াবকো, ডি, এবং মেরি, জে (2013) 2013 সময়-সিরিজ বিতরণ এবং পরিসংখ্যানগত এবং শেখার সমস্যাগুলির মধ্যে এর ব্যবহারের মধ্যে একটি বাইনারি-শ্রেণিবদ্ধকরণ-ভিত্তিক মেট্রিক। জার্নাল অফ মেশিন লার্নিং রিসার্চ, 14 (1), 2837-2856।


2
"জেরেমি পল (সহ-লেখক) একটি আছে: একটি প্রয়াস সম্পাদক নোট ওয়েবপৃষ্ঠাটি একটি r- বাস্তবায়ন অ্যালগরিদম আলোচনাতে রয়েছে।
পুনর্বহাল মনিকা - gung

@ গুং ওয়া, চমৎকার! প্রথম লেখকের সাথে আমার চিঠিপত্র ছিল এবং তিনি এটি উল্লেখ করেননি।
horaceT

আমি আসলে কারও কাছ থেকে অনুলিপি করছি যিনি আপনার উত্তরটিতে এটি সম্পাদনা করার চেষ্টা করেছেন, @ হোরেসটিটি। আমি এটি সম্পর্কে খুব বেশি জানি না।
গুং - মনিকা পুনরায়

0

হ্যাঁ. একটি নিষ্পাপ এবং সম্ভাব্য ধীর পদ্ধতির হতে পারে,

  1. আপনার সমস্ত ক্লাস্টার সমন্বয় তৈরি করুন Create কে ক্লাস্টার গণনা এবং এন সিরিজের সংখ্যার জন্য। ফিরে আসা আইটেমের সংখ্যা হওয়া উচিত n! / k! / (n-k)!। এগুলি সম্ভাব্য কেন্দ্রগুলির মতো কিছু হবে।
  2. প্রতিটি সিরিজের জন্য, প্রতিটি ক্লাস্টার গ্রুপের প্রতিটি কেন্দ্রের জন্য ডিটিডাব্লুয়ের মাধ্যমে দূরত্ব গণনা করুন এবং এটি ন্যূনতম একটিকে নির্ধারণ করুন।
  3. প্রতিটি ক্লাস্টার গ্রুপের জন্য, পৃথক ক্লাস্টারের মধ্যে মোট দূরত্ব গণনা করুন।
  4. সর্বনিম্ন চয়ন করুন।

আমি এটি একটি ছোট প্রকল্পের জন্য ব্যবহার করেছি। এখানে সম্পর্কে টাইম সিরিজ ক্লাস্টারিং আমার সংগ্রহস্থলের এবং আমার অন্যান্য জবাব এই সম্পর্কে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.