পটভূমি
আমি শক্তি মিটার রিডিংয়ের একটি টাইম সিরিজের ডেটা সেট নিয়ে কাজ করছি। সিরিজের দৈর্ঘ্য মিটার অনুসারে পরিবর্তিত হয় - কারও কারও কাছে আমার বেশ কয়েক বছর থাকে, অন্যরা কেবল কয়েক মাস থাকে Many অনেকগুলি উল্লেখযোগ্য seasonতু প্রদর্শন করে এবং প্রায়শই একাধিক স্তর - দিন, সপ্তাহ বা বছরের মধ্যে।
আমি যে বিষয়গুলিতে কাজ করছি তার একটি হ'ল এই সময় সিরিজের ক্লাস্টারিং। আমার কাজটি এই মুহুর্তের জন্য একাডেমিক, এবং আমি পাশাপাশি ডেটাগুলির অন্যান্য বিশ্লেষণও করছি, কিছুটা ক্লাস্টারিং করার জন্য আমার একটি নির্দিষ্ট লক্ষ্য রয়েছে।
আমি কিছু প্রাথমিক কাজ করেছি যেখানে আমি বিভিন্ন বৈশিষ্ট্য গণনা করেছি (উইকএন্ডে বনাম বনাম সপ্তাহের দিন, বিভিন্ন সময় ব্লকে ব্যবহৃত শতাংশ ইত্যাদি)। তারপরে আমি বিভিন্ন সিরিজের মধ্যকার দূরত্ব পেতে ডাইনামিক টাইম ওয়ার্পিং (ডিটিডাব্লু) ব্যবহার করার দিকে নজর রেখেছি এবং পার্থক্যের মানগুলির উপর ভিত্তি করে ক্লাস্টারিং করেছি এবং আমি এর সাথে সম্পর্কিত বেশ কয়েকটি কাগজপত্র পেয়েছি।
প্রশ্ন
কোনও নির্দিষ্ট সিরিজের পরিবর্তনের মরসুমতা কি আমার ক্লাস্টারিংকে ভুল হতে দেবে? এবং যদি তা হয় তবে আমি এটির সাথে কীভাবে व्यवहार করব?
আমার উদ্বেগ হ'ল ডিটিডাব্লু দ্বারা প্রাপ্ত দূরত্বগুলি সেই ক্ষেত্রে বিভ্রান্তিকর হতে পারে যেখানে কোনও সময়ের সিরিজের প্যাটার্নটি পরিবর্তিত হয়েছে। এর ফলে ভুল ক্লাস্টারিং হতে পারে।
উপরের বিষয়গুলি অস্পষ্ট হলে এই উদাহরণগুলি বিবেচনা করুন:
উদাহরণ 1
একটি মিটারের মধ্যরাত থেকে সকাল 8 টা অবধি কম রিডিং থাকে, তারপরে পাঠাগুলি পরের ঘন্টার জন্য তীব্রভাবে বৃদ্ধি পায় এবং 9am থেকে 5PM অবধি উচ্চ থাকে, তারপরে পরবর্তী ঘন্টা ধরে তীব্র হ্রাস এবং তারপরে 6PM থেকে মধ্যরাত অবধি নিম্নে থাকে। মিটার এই প্যাটার্নটি বেশ কয়েক মাস ধরে নিয়মিত ধারাবাহিকভাবে চালিয়ে যায়, তবে তারপরে এমন একটি প্যাটার্নে পরিবর্তিত হয় যেখানে সারা দিন ধরে পড়াগুলি কেবল একটি সামঞ্জস্যপূর্ণ স্তরে থাকে।
উদাহরণ 2
একটি মিটার প্রতি মাসে প্রায় একই পরিমাণ শক্তি খরচ হচ্ছে তা দেখায়। বেশ কয়েক বছর পরে, এটি এমন একটি প্যাটার্নে পরিবর্তিত হয় যেখানে স্বাভাবিক পরিমাণে ফেরার আগে গ্রীষ্মের মাসগুলিতে শক্তির ব্যবহার বেশি হয়।
সম্ভাব্য দিকনির্দেশ
- আমি ভাবলাম যে আমি পুরো সময়ের সিরিজগুলির তুলনা চালিয়ে যেতে পারি কিনা, তবে প্যাটার্নটি যথেষ্ট পরিবর্তিত হলে সেগুলি ভাগ করে আলাদা আলাদা সিরিজ হিসাবে বিবেচনা করুন। তবে এটি করার জন্য আমার এ জাতীয় পরিবর্তনগুলি সনাক্ত করতে সক্ষম হওয়া দরকার। এছাড়াও, আমি ঠিক জানি না এটি কোনও উপযুক্ত উপায় বা ডেটা নিয়ে কাজ করা কিনা।
- আমি ডেটা বিভক্ত করা এবং এটিকে অনেক পৃথক সময় সিরিজ হিসাবে বিবেচনা করেছি। উদাহরণস্বরূপ, আমি প্রতিদিন / মিটার সংমিশ্রণকে একটি পৃথক সিরিজ হিসাবে বিবেচনা করতে পারি। তবে, আমি যদি একইভাবে সাপ্তাহিক / মাসিক / বার্ষিক নিদর্শনগুলি বিবেচনা করতে চাই তবে আমারও একইভাবে করা দরকার। আমি মনে করি এটি কার্যকর হবে, তবে এটি সম্ভাব্যভাবে কঠোর এবং আমি অনুপস্থিত যে আরও ভাল উপায় যদি আমি অনুপস্থিত থাকি তবে এই পথটিতে নামতে আমি ঘৃণা করব।
আরও নোট
এগুলি এমন মন্তব্য যা মন্তব্যে এসেছে, বা মন্তব্যের কারণে আমি যে বিষয়গুলি ভেবেছিলাম তা প্রাসঙ্গিক হতে পারে। আমি এগুলি এখানে রাখছি যাতে লোকেরা প্রাসঙ্গিক তথ্য পেতে সমস্ত কিছু পড়তে না পারে।
- আমি পাইথনে কাজ করছি, তবে সেই জায়গাগুলির জন্য আরপি রয়েছে যেখানে আর বেশি উপযুক্ত। অগত্যা আমি পাইথনের উত্তর খুঁজছি না যদিও - কারও কী করা উচিত তার ব্যবহারিক উত্তর থাকলে আমি নিজেই প্রয়োগের বিশদটি বের করে খুশি।
- আমার প্রচুর "রুট ড্রাফ্ট" কোড রয়েছে - আমি কয়েকটি ডিটিডাব্লু রান করেছি, আমি বেশ কয়েকটি ধরণের ক্লাস্টারিং করেছি, ইত্যাদি I আমি সত্যিই সন্ধান করছি কীভাবে আমি আমার ডেটাগুলি কীভাবে দূরত্ব নির্ধারণের আগে চালানো গোষ্ঠীকরণ ইত্যাদির আগে প্রক্রিয়াজাত করি তা সম্পর্কিত, এটি দেওয়া, আমি সন্দেহ করি যে উত্তরটি সিরিজের মধ্যবর্তী দূরত্বগুলি ডিটিডাব্লু বা একটি সহজ ইউক্লিডিয়ান দূরত্ব (ইডি) এর মাধ্যমে গণনা করা হয় কিনা।
- আমি এই কাগজপত্রগুলি টাইম সিরিজ এবং ডিটিডাব্লুয়ে বিশেষত তথ্যবহুল পেয়েছি এবং বিষয়গুলির ক্ষেত্রে যদি কিছু পটভূমি প্রয়োজন হয় তবে সেগুলি সহায়ক হতে পারে: http://www.cs.ucr.edu/~eamonn/selected_publications.htm