Seriesতু বা অন্যান্য নিদর্শনগুলিতে পরিবর্তিত সময় সিরিজের সাথে কীভাবে ডিল করবেন?


22

পটভূমি

আমি শক্তি মিটার রিডিংয়ের একটি টাইম সিরিজের ডেটা সেট নিয়ে কাজ করছি। সিরিজের দৈর্ঘ্য মিটার অনুসারে পরিবর্তিত হয় - কারও কারও কাছে আমার বেশ কয়েক বছর থাকে, অন্যরা কেবল কয়েক মাস থাকে Many অনেকগুলি উল্লেখযোগ্য seasonতু প্রদর্শন করে এবং প্রায়শই একাধিক স্তর - দিন, সপ্তাহ বা বছরের মধ্যে।

আমি যে বিষয়গুলিতে কাজ করছি তার একটি হ'ল এই সময় সিরিজের ক্লাস্টারিং। আমার কাজটি এই মুহুর্তের জন্য একাডেমিক, এবং আমি পাশাপাশি ডেটাগুলির অন্যান্য বিশ্লেষণও করছি, কিছুটা ক্লাস্টারিং করার জন্য আমার একটি নির্দিষ্ট লক্ষ্য রয়েছে।

আমি কিছু প্রাথমিক কাজ করেছি যেখানে আমি বিভিন্ন বৈশিষ্ট্য গণনা করেছি (উইকএন্ডে বনাম বনাম সপ্তাহের দিন, বিভিন্ন সময় ব্লকে ব্যবহৃত শতাংশ ইত্যাদি)। তারপরে আমি বিভিন্ন সিরিজের মধ্যকার দূরত্ব পেতে ডাইনামিক টাইম ওয়ার্পিং (ডিটিডাব্লু) ব্যবহার করার দিকে নজর রেখেছি এবং পার্থক্যের মানগুলির উপর ভিত্তি করে ক্লাস্টারিং করেছি এবং আমি এর সাথে সম্পর্কিত বেশ কয়েকটি কাগজপত্র পেয়েছি।

প্রশ্ন

কোনও নির্দিষ্ট সিরিজের পরিবর্তনের মরসুমতা কি আমার ক্লাস্টারিংকে ভুল হতে দেবে? এবং যদি তা হয় তবে আমি এটির সাথে কীভাবে व्यवहार করব?

আমার উদ্বেগ হ'ল ডিটিডাব্লু দ্বারা প্রাপ্ত দূরত্বগুলি সেই ক্ষেত্রে বিভ্রান্তিকর হতে পারে যেখানে কোনও সময়ের সিরিজের প্যাটার্নটি পরিবর্তিত হয়েছে। এর ফলে ভুল ক্লাস্টারিং হতে পারে।

উপরের বিষয়গুলি অস্পষ্ট হলে এই উদাহরণগুলি বিবেচনা করুন:

উদাহরণ 1

একটি মিটারের মধ্যরাত থেকে সকাল 8 টা অবধি কম রিডিং থাকে, তারপরে পাঠাগুলি পরের ঘন্টার জন্য তীব্রভাবে বৃদ্ধি পায় এবং 9am থেকে 5PM অবধি উচ্চ থাকে, তারপরে পরবর্তী ঘন্টা ধরে তীব্র হ্রাস এবং তারপরে 6PM থেকে মধ্যরাত অবধি নিম্নে থাকে। মিটার এই প্যাটার্নটি বেশ কয়েক মাস ধরে নিয়মিত ধারাবাহিকভাবে চালিয়ে যায়, তবে তারপরে এমন একটি প্যাটার্নে পরিবর্তিত হয় যেখানে সারা দিন ধরে পড়াগুলি কেবল একটি সামঞ্জস্যপূর্ণ স্তরে থাকে।

উদাহরণ 2

একটি মিটার প্রতি মাসে প্রায় একই পরিমাণ শক্তি খরচ হচ্ছে তা দেখায়। বেশ কয়েক বছর পরে, এটি এমন একটি প্যাটার্নে পরিবর্তিত হয় যেখানে স্বাভাবিক পরিমাণে ফেরার আগে গ্রীষ্মের মাসগুলিতে শক্তির ব্যবহার বেশি হয়।

সম্ভাব্য দিকনির্দেশ

  • আমি ভাবলাম যে আমি পুরো সময়ের সিরিজগুলির তুলনা চালিয়ে যেতে পারি কিনা, তবে প্যাটার্নটি যথেষ্ট পরিবর্তিত হলে সেগুলি ভাগ করে আলাদা আলাদা সিরিজ হিসাবে বিবেচনা করুন। তবে এটি করার জন্য আমার এ জাতীয় পরিবর্তনগুলি সনাক্ত করতে সক্ষম হওয়া দরকার। এছাড়াও, আমি ঠিক জানি না এটি কোনও উপযুক্ত উপায় বা ডেটা নিয়ে কাজ করা কিনা।
  • আমি ডেটা বিভক্ত করা এবং এটিকে অনেক পৃথক সময় সিরিজ হিসাবে বিবেচনা করেছি। উদাহরণস্বরূপ, আমি প্রতিদিন / মিটার সংমিশ্রণকে একটি পৃথক সিরিজ হিসাবে বিবেচনা করতে পারি। তবে, আমি যদি একইভাবে সাপ্তাহিক / মাসিক / বার্ষিক নিদর্শনগুলি বিবেচনা করতে চাই তবে আমারও একইভাবে করা দরকার। আমি মনে করি এটি কার্যকর হবে, তবে এটি সম্ভাব্যভাবে কঠোর এবং আমি অনুপস্থিত যে আরও ভাল উপায় যদি আমি অনুপস্থিত থাকি তবে এই পথটিতে নামতে আমি ঘৃণা করব।

আরও নোট

এগুলি এমন মন্তব্য যা মন্তব্যে এসেছে, বা মন্তব্যের কারণে আমি যে বিষয়গুলি ভেবেছিলাম তা প্রাসঙ্গিক হতে পারে। আমি এগুলি এখানে রাখছি যাতে লোকেরা প্রাসঙ্গিক তথ্য পেতে সমস্ত কিছু পড়তে না পারে।

  • আমি পাইথনে কাজ করছি, তবে সেই জায়গাগুলির জন্য আরপি রয়েছে যেখানে আর বেশি উপযুক্ত। অগত্যা আমি পাইথনের উত্তর খুঁজছি না যদিও - কারও কী করা উচিত তার ব্যবহারিক উত্তর থাকলে আমি নিজেই প্রয়োগের বিশদটি বের করে খুশি।
  • আমার প্রচুর "রুট ড্রাফ্ট" কোড রয়েছে - আমি কয়েকটি ডিটিডাব্লু রান করেছি, আমি বেশ কয়েকটি ধরণের ক্লাস্টারিং করেছি, ইত্যাদি I আমি সত্যিই সন্ধান করছি কীভাবে আমি আমার ডেটাগুলি কীভাবে দূরত্ব নির্ধারণের আগে চালানো গোষ্ঠীকরণ ইত্যাদির আগে প্রক্রিয়াজাত করি তা সম্পর্কিত, এটি দেওয়া, আমি সন্দেহ করি যে উত্তরটি সিরিজের মধ্যবর্তী দূরত্বগুলি ডিটিডাব্লু বা একটি সহজ ইউক্লিডিয়ান দূরত্ব (ইডি) এর মাধ্যমে গণনা করা হয় কিনা।
  • আমি এই কাগজপত্রগুলি টাইম সিরিজ এবং ডিটিডাব্লুয়ে বিশেষত তথ্যবহুল পেয়েছি এবং বিষয়গুলির ক্ষেত্রে যদি কিছু পটভূমি প্রয়োজন হয় তবে সেগুলি সহায়ক হতে পারে: http://www.cs.ucr.edu/~eamonn/selected_publications.htm

+1 খুব সুন্দর প্রশ্ন, এবং এত উত্সাহ দেখতে দারুণ! আমি মনে করি আপনি নিজের প্রশ্নটি কিছুটা পেরেছিলেন তাই অন্যদের পড়ার জন্য এটি আরও বেশি আমন্ত্রণ জানায় এবং তারপরে আপনাকে একটি উত্তর দেয়।
রুবেন্স

@ রুবেস ধন্যবাদ! আমি আজ সন্ধ্যায় আমি যখন বাসায় যাব তখন আমি এটি পুনরায় কাজ করব, আমি দেখতে পেলাম যে আমি কীভাবে এসেছি এবং কেন এই বিষয়ে আরও কিছু তথ্য অন্তর্ভুক্ত করা দরকারী। এটি খুব দীর্ঘ হয়ে যাওয়ার বিষয়ে আমি উদ্বিগ্ন ছিলাম, তবে আমি পটভূমিটি আলাদা করব এবং এটি অপঠনযোগ্য না হওয়ার জন্য আরও কিছু প্রশ্ন করব।
জো ডগ্লাস

এটি "খাঁটি পরিসংখ্যান" প্রশ্ন নাও হতে পারে তবে এর বিশুদ্ধ পরিসংখ্যানের উত্তর প্রয়োজন needs আপনি খাঁটি পরিসংখ্যানের পদগুলিতে এটি সম্পর্কে চিন্তা না করা পর্যন্ত আপনি সংগ্রাম করবেন।
স্পেসডম্যান

@ স্পিডম্যান - আমি যেভাবে লোকেরা মনে করি সেগুলির উত্তর দেওয়ার সর্বোত্তম উপায় হিসাবে আমি উত্তরগুলি স্বাগত জানাই, এই সতর্কতার সাথে উত্তরটি সূত্র বা পরিসংখ্যানগত ধারণাগুলির রেফারেন্সগুলির বিষয়ে উত্তর যদি আমি এখনও বুঝতে পারি না তবে আমার আরও প্রশ্ন থাকতে পারে।
জো ডগ্লাস

জো আপনি আপনার প্রশ্নের সঠিক উত্তর খুঁজে পেয়েছেন? আমি একই পরিস্থিতিতে আছি এবং আমার সাহায্য দরকার need আপনাকে ধন্যবাদ
এলসোলা

উত্তর:


14

আপনার প্রশ্নের পড়ার পর, আমি বিষয় সম্পর্কে জানতে আগ্রহী হয়ে ওঠে সময় সিরিজ ক্লাস্টারিং এবং গতিশীল সময় warping (গভীর নলকুপ এর) । সুতরাং, আমি একটি সীমাবদ্ধ অনুসন্ধান করেছি এবং বুনিয়াদি বোঝাপড়া নিয়ে এসেছি (আমার জন্য) এবং নীচের আইএমএইচও সম্পর্কিত প্রাসঙ্গিক রেফারেন্স (আপনার জন্য)। আমি আশা করি যে আপনি এটি দরকারী খুঁজে পেয়েছেন, তবে মনে রাখবেন যে আমি ইচ্ছাকৃতভাবে গবেষণামূলক প্রবন্ধগুলি এড়িয়ে গেছি, কারণ আমি বিষয়টির ব্যবহারিক দিকগুলিতে আরও আগ্রহী ছিলাম ।

সম্পদ:


1
এর মধ্যে অনেকগুলি সংস্থান যা আমি দেখছি - উদাহরণস্বরূপ আমি 2 এবং 4 পয়েন্টে কাজের একটি সংশোধিত সংস্করণ প্রয়োগ করেছি - সুতরাং আমরা সম্ভবত এখন একই-ইশ পৃষ্ঠাতে রয়েছি। এবং আমি যা জানি তার সিংহভাগই ইমন কেওগের কাগজপত্র বা তাদের উপর ভিত্তি করে নিবন্ধগুলির উপর ভিত্তি করে। তবে এখানে কিছু আছে যা আমি পড়িনি, এবং বাইক ভাগের সময় সিরিজের ক্লাস্টারিং সম্পর্কে একটি আকর্ষণীয় - ধন্যবাদ! আমি এমন কিছু দেখছি না যা বিশেষত আমার প্রশ্নের উত্তর দেয় তবে আমি পড়ার সময় যদি কিছু মিস করেছি তবে এটি উল্লেখ করুন।
জো ডগ্লাস

1
এছাড়াও, আপনি যদি এখনও এটি আকর্ষণীয় সন্ধান করেন তবে কেওগের কাগজপত্রগুলি সত্যিই পঠনযোগ্য। এগুলি আশ্চর্যজনকভাবে সহজেই পড়া যায় এবং অনেকগুলি ডেটা সেট ব্যবহার করার উপর নজর দেওয়া এবং এমন যথেষ্ট তথ্য সরবরাহ করা হয় যে কোনও ব্যক্তি সমস্ত পরীক্ষা-নিরীক্ষা পুনরায় তৈরি করতে পারে। সর্বাধিক সাম্প্রতিক একটি আকর্ষণীয় এবং আমি যখন আমার প্রশ্নটি দ্বারা বর্ধিত হলাম তখন আমি সেই পথে কাজ করছিলাম। cs.ucr.edu/~eamonn/selected_publications.htm
জো ডগলাস

1
@ জোডগ্লাস: আপনাকে স্বাগতম! আমি সরাসরি আপনার প্রশ্নের উত্তর দেওয়ার ইচ্ছুক ছিলাম না (বিষয়টি সম্পর্কে আমার সীমিত জ্ঞানের কারণে), তবে আশা করি এটি সহায়ক হবে, যা সম্ভবত প্রদর্শিত হবে। সুন্দর মন্তব্য এবং রেফারেন্সের জন্য আপনাকে ধন্যবাদ - আমি কাগজগুলি ব্রাউজ করব এবং আরও ভাল ধারণা পাওয়ার চেষ্টা করব। শেখার মতো অনেক কিছুই আছে, এটি কিছুটা অভিভূত হয়।
আলেকসান্দ্র ব্লেক

1
অতিমাত্রায় বলা ঠিক, আমি এই বিষয়টিকে কিছু সময়ের জন্য বেছে নেওয়ার জন্য নিজেকে লাথি মারছিলাম! আমি মনে করি আমি সেখানে পৌঁছেছি, যদিও - এবং এটি সম্পর্কে জানতে আগ্রহী হয়েছে। আমার যা করা দরকার তার কয়েকটি ধরণের সংস্করণ হিসাবে আমার প্রচুর পরিমাণে কাজ চলছে এবং আমি এখন আমার মডেলগুলির মাধ্যমে এটি চালানোর আগে কীভাবে আমার ডেটা প্রক্রিয়াকরণ করব তা নির্ধারণের বিষয়ে আরও মনে করি। সেই বাইক ভাগের লিঙ্কটি আমার কাছে আকর্ষণীয় কারণ আমি উল্লেখ করেছি সাম্প্রতিক কেওগ পেপারটি পড়ার পর থেকে প্রথম সিরিজের গড় নিয়ে আলোচনা করতে দেখা গেছে।
জো ডগ্লাস

1
@ জোডগ্লাস: যখন আমি "অপ্রতিরোধ্য" বলেছি, তখন আমি পুরো ডেটা সায়েন্স ডোমেন (এআই / এমএল এবং পরিসংখ্যান সহ, বিশেষত) বোঝাতাম। আমি এখনো একটি এটি আছি রিসোর্স , যা উপহার একটি উচ্চ পর্যায়ের বিভিন্ন আলোচনার পন্থা এবং / অথবা পদ্ধতি যেমন থিম , একটি একত্রিত ব্যাপক , এখনো মিতব্যায়ী , ফ্রেমওয়ার্ক
আলেকসান্দ্র ব্লেক

4

আপনি যদি কেবলমাত্র মৌসুমী নিদর্শনগুলির জন্য খনিতে চান তবে স্বতঃসংশ্লিষ্টতার দিকে নজর দিন । যদি আপনি এমন কোনও মডেল সন্ধান করছেন যা মরসুমী নিদর্শনগুলি শিখতে এবং এটি থেকে পূর্বাভাস তৈরি করতে পারে, তবে হোল্ট-উইন্টারস একটি ভাল শুরু, এবং আরিমা এটি অনুসরণ করা ভাল জিনিস thing এখানে [পিডিএফ] টিউটোরিয়াল যা আমাকে মাটি থেকে নামিয়ে দিয়েছে।


নিখুঁত ব্যবহারিক না হয়ে কাজটি (বর্তমানে জন্য) একাডেমিক। আমি খুব দেরিতে বা ভবিষ্যতে কিছুটা পূর্বাভাস করতে পারি তবে আমি এখনকার অতীতের ডেটা অন্বেষণে আরও আগ্রহী। ক্লাস্টারিং একটি লক্ষ্য এবং এটি নিজেই, পাশাপাশি কিছু ধারণাগুলিও আমি সেই বিষয়টির অতীতটি ঘুরে দেখতে চাই।
জো ডগ্লাস

দুঃখিত, অকালে প্রবেশ করুন। আমি কিছুটা অটোকোরিয়েশন দেখেছি এবং এটি পুরোপুরি আমার ডেটার একটি উপসেটে চালিয়েছি তবে আমি কী এ থেকে বেরিয়ে যেতে পারি তা আমার কাছে সত্যই পরিষ্কার ছিল না। তথ্য বেশ গোলমাল। মৌসুমীতার নিদর্শনগুলি কখনও কখনও চাক্ষুষরূপে বেশ সুস্পষ্ট হয় তবে তাদের সময়সাপেক্ষে অক্ষত থাকে - তাই আমি একই ধরণের সন্ধান করতে পারি তবে কোনও সুন্দর, এমনকি সময়সূচীতেও না। আমাকে বলা হয়েছিল যে অটোক্রেলেশন এই জাতীয় ডেটাতে সমস্যাযুক্ত হতে পারে তবে এর কোনও মূল্য আছে কিনা তা অন্য চেহারাতে খুশি। আমি কেবল মৌসুমীতা খুঁজে পেতে চাই না , তবে এটি বোঝা একটি লক্ষ্য।
জো ডগ্লাস

এই টিউটোরিয়ালটির মাধ্যমে কমপক্ষে 2.5 পর্যন্ত এবং অন্তর্ভুক্ত কাজ করুন। এটি আর ব্যবহার করে যা আপনার একাডেমিক পরিবেশের জন্য বিশেষত ভাল। এটি আপনাকে অটোকোরিয়েশন শিখিয়ে দেবে যা আপনি যা খুঁজছেন ঠিক তেমনই মনে হচ্ছে (এটি উপযুক্ত নয় কিনা তা বলতে পারছেন না কারণ আপনি কী দেখছিলেন তা জানতেন না বা ডেটা আসলে খুব গোলমাল করছে)। যদি গোলমাল ইস্যুটি হয় তবে এটির সাথে সহায়তা করার এক উপায় হ'ল ঘৃণ্য স্মুথিং, যা হোল্ট উইন্টার্স মডেলের অংশ হিসাবে শেখানো হবে। এমনকি যদি সেগুলি সমস্ত উত্তর না দেয় তবে এটি অবশ্যই আপনার পরবর্তী পদক্ষেপটি আরও পরিষ্কার করে দেবে।
TheGrimmScientist

টিউটোরিয়ালটির মাধ্যমে আমার একটি পড়া ছিল, তবে এটি বেশিরভাগ ক্ষেত্রে আমি ইতিমধ্যে জানি over আমি আসলে পাইথনে কাজ করছি এবং আমি আর থেকে স্যুইচ করার বিষয়গুলিতে কিছুটা দূরে রয়েছি, যদিও আমি কোনও সময় পাইপনের গ্রন্থাগারগুলিতে খুঁজে পাচ্ছিলাম না এমন কিছু জিনিস রাইপি কে ধরার পরিকল্পনা করেছি। আমি আমার প্রশ্নটি পুনরায় লিখেছি যদি এটি কোনওরকমভাবে সহায়তা করে - যেমন আমি বলি, ক্লাস্টারিং একটি লক্ষ্য এবং এটি নিজেই, আমি ভিতরে যাওয়ার জন্য সম্পূর্ণ ভিন্ন দিকটি খুঁজছি না I'm আমি টিউটোরিয়ালটি ভয় পাচ্ছি না ' সত্যিই আমার প্রশ্নের উত্তর দিন।
জো ডগ্লাস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.