সময়-সিরিজের শ্রেণিবিন্যাস - খুব খারাপ ফলাফল


11

আমি একটি টাইম সিরিজের শ্রেণিবদ্ধকরণ সমস্যা নিয়ে কাজ করছি যেখানে সেল ফোন অ্যাকাউন্টের প্রথম 21 দিনের জন্য ইনপুট টাইম সিরিজ ভয়েস ব্যবহারের ডেটা (সেকেন্ডে) হয়। সংশ্লিষ্ট টার্গেট ভেরিয়েবল হ'ল 35-45 দিনের পরিসরে যে অ্যাকাউন্টটি বাতিল হয়েছে তা নয়। সুতরাং এটি বাইনারি শ্রেণিবদ্ধার সমস্যা is

আমি এখন পর্যন্ত যে পদ্ধতি ব্যবহার করেছি তার সব থেকে খুব খারাপ ফলাফল পাচ্ছি (বিভিন্ন ডিগ্রীতে)। প্রথমে আমি কে-এনএন শ্রেণিবদ্ধকরণ চেষ্টা করেছি (বিভিন্ন পরিবর্তন সহ) এবং অত্যন্ত খারাপ ফলাফল পেয়েছি। এটি আমাকে সময় সিরিজ থেকে বৈশিষ্ট্যগুলি বের করতে পরিচালিত করে - অর্থাত্ গড়, বৈকল্পিক, সর্বোচ্চ, মিনিট, মোট শূন্য দিন, মোট চলার শূন্য দিন, প্রথম অর্ধের গড় এবং দ্বিতীয়ার্ধের গড়ের মধ্যে পার্থক্য ইত্যাদি and এবং সবচেয়ে ভবিষ্যদ্বাণীপূর্ণ বৈশিষ্ট্যগুলি মোট বলে মনে হয়েছিল জিরোস দিন এবং মোট পিছনে শূন্য দিন (বেশ কয়েকটি শ্রেণিবদ্ধকরণ অ্যালগোরিদম ব্যবহার করে)। এটি সেরা পারফর্ম করেছে তবে পারফরম্যান্সটি এখনও খুব একটা ভাল ছিল না।

আমার পরবর্তী কৌশলটি ছিল আমার প্রশিক্ষণের সেটে নেতিবাচক উদাহরণগুলিকে নমুনা জানানো যেহেতু সেগুলির মধ্যে খুব কম ছিল। এর ফলে আরও সঠিক বাতিল পূর্বাভাসের ফলস্বরূপ ফলাফল হয়েছে তবে আরও ভুয়া-পজিটিভের ব্যয়ে।

আমি ভাবতে শুরু করি যে সম্ভবত সময় সিরিজের ব্যবহারের ডেটা নিজেই খুব ভবিষ্যদ্বাণীপূর্ণ নয় (যদিও সাধারণ জ্ঞান বলে যে এটি হওয়া উচিত)। সম্ভবত কিছু সুপ্ত পরিবর্তনশীল রয়েছে যা আমি বিবেচনা করছি না। ডেটা দেখে কিছু অদ্ভুত আচরণও দেখায়। উদাহরণস্বরূপ কিছু উদাহরণ খুব সামান্য বা হ্রাস ব্যবহার দেখায় (বা কখনও কখনও মোটেও কিছুই নয়) এবং বাতিল করে না, এবং কিছু ব্যবহার বাতিল করে দেয় এমন র‌্যাম্প দেখায়। সম্ভবত এই দ্বন্দ্বমূলক আচরণটি কোনও শ্রেণিবদ্ধের জন্য খুব পরিষ্কার সিদ্ধান্তের সীমানা তৈরি করে না।

ত্রুটির জন্য আরেকটি সম্ভাব্য উত্স হ'ল বহু প্রশিক্ষণের উদাহরণগুলি খুব বিরল (যেমন 0 ব্যবহারের সাথে অনেক দিন) many একটি ধারণা যা আমি এখনও চেষ্টা করি নি তা হ'ল সময় ধারাবাহিকে বিভাগগুলিতে বিভক্ত করা এবং সেভাবে কিছু বৈশিষ্ট্য উত্পন্ন করা, তবে আমার উচ্চ আশা নেই।


1
প্রারম্ভিকদের জন্য, আমি আপনাকে নীচের বিভিন্নগুলি ব্যবহার করার পরামর্শ দিচ্ছি।। ঘন্টা / দিন দ্বারা ব্যবহারের ডেটা একত্রিত করুন। ২. আপনার প্রশিক্ষণের ডেটা থেকে, দুটি গ্রুপের মধ্যে নিদর্শনগুলি দেখতে এই সময়-সিরিজের প্লটগুলি ওভারলে করুন। ৩. বিভিন্ন সময়-সিরিজ / রিগ্রেশন মডেলগুলি অনুসন্ধান করুন যা আপনার ডেটা ভালভাবে ফিট করে। ৪. আপনার শ্রেণিবদ্ধের জন্য বৈশিষ্ট্য হিসাবে মডেল সহগগুলি ব্যবহার করুন।
রমহির

আমি আপনার বৈশিষ্ট্য নিষ্কাশন কৌশল পছন্দ করি। আমি এটা চেষ্টা করব. আমি নিশ্চিত হয়েছি যে আমার ডেটা নিদর্শনগুলি খুঁজে পাওয়ার জন্য খুব কমই বিচ্ছিন্ন, তবে কে জানে। ধন্যবাদ!
ব্যবহারকারী 1893354

উত্তর:


13

দূরত্বের মেট্রিক হিসাবে ডায়নামিক টাইম ওয়ারপিংয়ের সাথে কেএনএন প্রয়োগ করার ক্ষেত্রে আমি বেশ ভাল সাফল্য পেয়েছি।

আমার গবেষণা (পিডিএফ) পরামর্শ দেয় যে এই পদ্ধতিটি বীট করা খুব কঠিন। নিচে পরিকল্পিত উপর KNN এবং গভীর নলকুপ আমার পাইথন বাস্তবায়ন থেকে GitHub । বা আইপিথন নোটবুক দেখুন

কেএনএন এবং ডিটিডাব্লু

যদি আপনি প্রশিক্ষণের ডেটা সেটটি খুব বড় হয় তবে আমি দূরত্বের ম্যাট্রিক্সের একটি শ্রেণিবিন্যাসের ক্লাস্টারিংয়ের পরামর্শ দিচ্ছি। তারপরে আপনার ছোট প্রশিক্ষণের ডেটা সেট তৈরি করতে পছন্দসই ক্লাস্টারগুলি থেকে নমুনা। এটি hclustআপনার কাছে এমন সময় সিরিজ নিশ্চিত করবে যা আপনার ডেটাতে সময় সিরিজের বৈশিষ্ট্যের বিস্তৃত পরিসীমা উপস্থাপন করে।


4
আপনি কি আপনার গবেষণা কাগজের লিঙ্কটি আপডেট করতে পারবেন?
টিলাপ্রিমের


10

সময় সিরিজের শ্রেণিবিন্যাসের দুটি পদ্ধতির

শ্রেণিবদ্ধকরণের কাজের জন্য অস্থায়ী কাঠামোগত ইনপুটকে কীভাবে মোকাবেলা করতে হবে তার দুটি উপায় রয়েছে:

  1. উত্সর্গীকৃত সময় সিরিজ মডেল: মেশিন লার্নিং অ্যালগরিদম সরাসরি সময় সিরিজ অন্তর্ভুক্ত করে। আমি এই বিভাগে ডিটিডাব্লু মডেল সহ কেএনএন গণনা করি।
  2. বৈশিষ্ট্য ভিত্তিক পদ্ধতির: এখানে সময় সিরিজটিকে অন্য কোনওটিতে ম্যাপ করা হয়েছে, সম্ভবত নিম্ন মাত্রিক, উপস্থাপনা। এর অর্থ বৈশিষ্ট্য নিষ্কাশন অ্যালগরিদম সময় সিরিজের গড় বা সর্বাধিক মান হিসাবে বৈশিষ্ট্য গণনা করে। বৈশিষ্ট্যগুলি তখন একটি নিউরাল নেটওয়ার্ক, এলোমেলো বন বা সমর্থন ভেক্টর মেশিনের মতো একটি "সাধারণ" মেশিন লার্নিংয়ে ফিচার ম্যাট্রিক্স হিসাবে পাস করা হয়। এই পদ্ধতির ফলাফলগুলির আরও ভাল ব্যাখ্যাযোগ্যতার সুবিধা রয়েছে। আরও এটি তদারকি করা মেশিন লার্নিংয়ের একটি উন্নত তত্ত্ব ব্যবহার করতে সক্ষম করে।

আমি অতীতে সফলভাবে ডিটিডব্লিউর সাথে কেএনএন মোতায়েন করেছিলাম। যাইহোক, আমি প্রায় সর্বদা সুনির্দিষ্টভাবে এমন ডিজাইন করা বৈশিষ্ট্য ব্যবহার করে এমন একটি মডেল দিয়ে এর যথার্থতাটি পরাতে সক্ষম হয়েছি। এছাড়াও, বাইনারি শ্রেণিবদ্ধকরণের জন্য ডিএনডাব্লু সহ কেএনএন ও (n_t · m_ {ট্রেন} · m_ {পরীক্ষা}) এর সাথে এন_টি সময় সিরিজের দৈর্ঘ্য, ট্রেন এবং পরীক্ষার সেটের ডিভাইসের সংখ্যা যথাক্রমে ট্রেন এবং পরীক্ষার মেট্র । এর অর্থ হল গণনাগুলি বেশ দীর্ঘ সময় নেয় ..

অতএব, আমি কোনও বৈশিষ্ট্য ভিত্তিক পদ্ধতির অনুসরণ করার পরামর্শ দেব।

tsfresh একটি বিশাল সংখ্যক বৈশিষ্ট্য গণনা করে

পাইথন প্যাকেজ টি এসফ্রেশ সময় প্যানেলগুলি থেকে ডেটা ফ্রেম থেকে একটি বিশাল সংখ্যক বৈশিষ্ট্য গণনা করে। আপনি এর ডকুমেন্টেশনটি http://tsfresh.readthedocs.io এ খুঁজে পেতে পারেন ।

এখানে চিত্র বর্ণনা লিখুন

বিপুল পরিমাণ বৈশিষ্ট্য গণনা করার জন্য আপনি এটি চেষ্টা করতে পারেন। পরে আপনি তাদের তাত্পর্য জন্য বৈশিষ্ট্যগুলি ফিল্টার করতে পারেন এবং প্রতিশ্রুতিশীল প্রার্থীদের সনাক্ত করতে পারেন।

দাবি অস্বীকার: আমি tsfresh এর অন্যতম লেখক।


আপনার দুর্দান্ত পোস্টের জন্য অনেক ধন্যবাদ। আমার কাছে খুব ছোট একটি টাইম-সিরিজ রয়েছে (উদাহরণস্বরূপ, প্রতি সিরিজে 10 টি ডাটা পয়েন্ট)। সেক্ষেত্রে, আপনি কি আমার ডেটাসেটের জন্য tsfresh ব্যবহার করার পরামর্শ দিবেন? আপনাকে ধন্যবাদ :)
এএমজে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.