টাইম-সিরিজ ডেটা রিয়েল-টাইম নরমালাইজের জন্য অ্যালগরিদম?


12

আমি এমন একটি অ্যালগরিদম নিয়ে কাজ করছি যা বেশ কয়েকটি সেন্সর প্রবাহ থেকে অতি সাম্প্রতিক ডেটা পয়েন্টের ভেক্টর গ্রহণ করে এবং ইউক্লিডিয়ান দূরত্বকে পূর্ববর্তী ভেক্টরগুলির সাথে তুলনা করে। সমস্যাটি হ'ল বিভিন্ন ডেটা স্ট্রিমগুলি সম্পূর্ণ আলাদা সেন্সর থেকে আসে, তাই একটি সাধারণ ইউক্লিডিয়ান দূরত্ব নেওয়া নাটকীয়ভাবে কিছু মানকে ছাড়িয়ে যায়। স্পষ্টতই, ডেটা স্বাভাবিক করার জন্য আমার কিছু উপায় প্রয়োজন। তবে, যেহেতু অ্যালগরিদমটি রিয়েল টাইমে চালানোর জন্য ডিজাইন করা হয়েছে, তাই সাধারণকরণের জন্য আমি কোনও তথ্য-স্ট্রিম সম্পর্কিত কোনও তথ্য ব্যবহার করতে পারি না। এখনও অবধি আমি প্রারম্ভকালীন পর্যায়ে (প্রথম 500 ডেটা ভেক্টর) প্রতিটি সেন্সরের জন্য দেখা সবচেয়ে বড় মানের সন্ধান করে চলেছি এবং তারপরে সেই মান দিয়ে ভবিষ্যতের সমস্ত ডেটা ভাগ করে দিচ্ছি। এটি আশ্চর্যজনকভাবে ভাল কাজ করছে, তবে খুব অকার্যকর মনে হচ্ছে।

এর জন্য প্রাক-বিদ্যমান অ্যালগরিদম সন্ধান করার মতো ভাগ্য আমি পাইনি, তবে সম্ভবত আমি সঠিক জায়গাগুলি সন্ধান করছি না। কেউ কি কেউ জানেন? বা কোন ধারণা আছে? আমি চলমান গড় (সম্ভবত ওয়েলফোর্ডের অ্যালগরিদম দ্বারা গণনা করা) ব্যবহার করার জন্য একটি পরামর্শ দেখেছি, তবে আমি যদি তা করি তবে একই মানটির একাধিক পঠন একইরূপে প্রদর্শিত হবে না, যা আমি যদি না দেখি তবে বেশ বড় সমস্যা বলে মনে হয় আমি কিছু মিস করছি কোন চিন্তা প্রশংসা করা হয়! ধন্যবাদ!

উত্তর:


1

আপনার প্রশ্ন থেকে, আমি বুঝতে পারি যে আপনি খুঁজছেন:

  1. এমন একটি উপায় সন্ধান করুন যা প্রতিটি সেন্সর থেকে ডেটা অবদানকে স্বাভাবিক করে তোলে।
  2. নতুন তথ্য পয়েন্টটি পূর্ববর্তী পয়েন্টগুলির থেকে খুব আলাদা কিনা তা দেখুন।

এখানেই আমি শুরু করব

1. আপনার প্রথম প্রশ্নের জন্য: গড়টি সরিয়ে দেওয়া এবং সাদা করা আপনি যা খুঁজছেন তা। একটি সাদা রঙের রূপান্তর নিশ্চিত করে যে আপনার বৈশিষ্ট্যগুলি একই গতিশীল সীমার মধ্যে রয়েছে।

আমি কিছু সহজীকরণ অনুমান করবো যা পুরোপুরি প্রাসঙ্গিক হতে পারে তবে এটি নির্মাণের জন্য একটি প্রাথমিক পয়েন্ট হিসাবে পুরোপুরি উপযুক্ত।

ধরে নিই যে আপনার ডেটা ইউনি-মডেল, এটির একটি একক উচ্চারিত গড় রয়েছে। আমি ডেটাটির গড় বিয়োগ করে এবং একটি সাদা রঙের রূপান্তর সম্পাদন করে শুরু করব (সম্ভবত পিসিএ, সম্ভবত জেডসিএ আপনার ডেটার উপর নির্ভর করে)

আপনি যদি রিয়েল টাইমে এটি করতে চান তবে আমি একটি চলমান স্যাম্পল গণনা ব্যবহার করব যা চলন্ত উইন্ডোতে সাদাকালো সম্পাদন করে। আপনার সাদাকালো হওয়ার জন্য সঠিক হওয়ার জন্য আপনার পর্যায়ে যথেষ্ট নমুনা রয়েছে তা নিশ্চিত করুন (হোয়াইটিংয়ের ক্ষেত্রে সমান্তরাল ম্যাট্রিক্সটি অবলম্বনীয় হওয়া দরকার এবং তার জন্য আপনার সেন্সরগুলির চেয়ে আরও বেশি টেম্পোরাল নমুনাগুলি প্রয়োজন)।

এখন যদি আপনার ডেটা আনমোডাল না হয় তবে মোডগুলি কোথায় থাকে তা দেখতে আমি সম্ভবত ডেটা ক্লাস্টার করব। একেবারে মৌলিকভাবে, প্রতিটি নতুন পয়েন্টে আসার জন্য, আমি এটিকে উপযুক্ত ক্লাস্টারে সহায়তা করব এবং সেখান থেকে সরে যাব।

2. অতীত পয়েন্টগুলি থেকে কার্যকরভাবে একটি দূরত্ব পরিমাপ করতে, আমি মহালানোবিস দূরত্ব ব্যবহার করব । সমস্ত বাস্তবতার মধ্যে, মহালানোবিসের দূরত্বটি সাদা অংশে ইউক্লিডিয়ান দূরত্বের চেয়ে অনেক বেশি।

সংক্ষেপে, দয়া করে শুভ্রকরণ এবং মহালানোবিসের দূরত্ব সম্পর্কে পড়ুন, আমি মনে করি এগুলি আপনাকে খুঁজছেন সেই দিকে নির্দেশ করবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.