আমি একটি টাইম সিরিজের শ্রেণিবদ্ধকরণ সমস্যা নিয়ে কাজ করছি যেখানে সেল ফোন অ্যাকাউন্টের প্রথম 21 দিনের জন্য ইনপুট টাইম সিরিজ ভয়েস ব্যবহারের ডেটা (সেকেন্ডে) হয়। সংশ্লিষ্ট টার্গেট ভেরিয়েবল হ'ল 35-45 দিনের পরিসরে যে অ্যাকাউন্টটি বাতিল হয়েছে তা নয়। সুতরাং এটি বাইনারি শ্রেণিবদ্ধার সমস্যা is
আমি এখন পর্যন্ত যে পদ্ধতি ব্যবহার করেছি তার সব থেকে খুব খারাপ ফলাফল পাচ্ছি (বিভিন্ন ডিগ্রীতে)। প্রথমে আমি কে-এনএন শ্রেণিবদ্ধকরণ চেষ্টা করেছি (বিভিন্ন পরিবর্তন সহ) এবং অত্যন্ত খারাপ ফলাফল পেয়েছি। এটি আমাকে সময় সিরিজ থেকে বৈশিষ্ট্যগুলি বের করতে পরিচালিত করে - অর্থাত্ গড়, বৈকল্পিক, সর্বোচ্চ, মিনিট, মোট শূন্য দিন, মোট চলার শূন্য দিন, প্রথম অর্ধের গড় এবং দ্বিতীয়ার্ধের গড়ের মধ্যে পার্থক্য ইত্যাদি and এবং সবচেয়ে ভবিষ্যদ্বাণীপূর্ণ বৈশিষ্ট্যগুলি মোট বলে মনে হয়েছিল জিরোস দিন এবং মোট পিছনে শূন্য দিন (বেশ কয়েকটি শ্রেণিবদ্ধকরণ অ্যালগোরিদম ব্যবহার করে)। এটি সেরা পারফর্ম করেছে তবে পারফরম্যান্সটি এখনও খুব একটা ভাল ছিল না।
আমার পরবর্তী কৌশলটি ছিল আমার প্রশিক্ষণের সেটে নেতিবাচক উদাহরণগুলিকে নমুনা জানানো যেহেতু সেগুলির মধ্যে খুব কম ছিল। এর ফলে আরও সঠিক বাতিল পূর্বাভাসের ফলস্বরূপ ফলাফল হয়েছে তবে আরও ভুয়া-পজিটিভের ব্যয়ে।
আমি ভাবতে শুরু করি যে সম্ভবত সময় সিরিজের ব্যবহারের ডেটা নিজেই খুব ভবিষ্যদ্বাণীপূর্ণ নয় (যদিও সাধারণ জ্ঞান বলে যে এটি হওয়া উচিত)। সম্ভবত কিছু সুপ্ত পরিবর্তনশীল রয়েছে যা আমি বিবেচনা করছি না। ডেটা দেখে কিছু অদ্ভুত আচরণও দেখায়। উদাহরণস্বরূপ কিছু উদাহরণ খুব সামান্য বা হ্রাস ব্যবহার দেখায় (বা কখনও কখনও মোটেও কিছুই নয়) এবং বাতিল করে না, এবং কিছু ব্যবহার বাতিল করে দেয় এমন র্যাম্প দেখায়। সম্ভবত এই দ্বন্দ্বমূলক আচরণটি কোনও শ্রেণিবদ্ধের জন্য খুব পরিষ্কার সিদ্ধান্তের সীমানা তৈরি করে না।
ত্রুটির জন্য আরেকটি সম্ভাব্য উত্স হ'ল বহু প্রশিক্ষণের উদাহরণগুলি খুব বিরল (যেমন 0 ব্যবহারের সাথে অনেক দিন) many একটি ধারণা যা আমি এখনও চেষ্টা করি নি তা হ'ল সময় ধারাবাহিকে বিভাগগুলিতে বিভক্ত করা এবং সেভাবে কিছু বৈশিষ্ট্য উত্পন্ন করা, তবে আমার উচ্চ আশা নেই।