প্রসঙ্গ:
আমার একটি ওয়েবসাইট রয়েছে যেখানে আমি প্রতিদিনের ভিত্তিতে ভিজিটের সংখ্যা রেকর্ড করি:
W0 = { 30, 34, 28, 30, 16, 13, 8, 4, 0, 5, 2, 2, 1, 2, .. }
W1 = { 1, 3, 21, 12, 10, 20, 15, 43, 22, 25, .. }
W2 = { 0, 0, 4, 2, 2, 5, 3, 30, 50, 30, 30, 25, 40, .. }
...
Wn
সাধারণ প্রশ্ন:
- কোন সাইটগুলি সর্বাধিক সক্রিয় তা আমি কীভাবে নির্ধারণ করব?
এর দ্বারা আমার বোঝা যাচ্ছে আরও কয়েকদিন পরিদর্শন করা বা গত কয়েকদিনের মধ্যে হঠাৎ করে পরিদর্শন করা বৃদ্ধি। উদাহরণস্বরূপ, ডাব্লু0 এর উপরে ছোট উদাহরণে প্রথমদিকে জনপ্রিয় হবে তবে ত্যাগ প্রদর্শন শুরু করছে, ডাব্লু 1 স্থির জনপ্রিয়তা দেখাচ্ছে (কিছু বিচ্ছিন্ন শিখর সাথে), এবং ডাব্লু 3 একটি শান্ত শুরুর পরে একটি গুরুত্বপূর্ণ উত্থাপন)।
প্রাথমিক চিন্তা:
আমি এই থ্রেডটি এসওতে পেয়েছি যেখানে একটি সাধারণ সূত্র বর্ণিত হয়েছে:
// pageviews for most recent day
y2 = pageviews[-1]
// pageviews for previous day
y1 = pageviews[-2]
// Simple baseline trend algorithm
slope = y2 - y1
trend = slope * log(1.0 +int(total_pageviews))
error = 1.0/sqrt(int(total_pageviews))
return trend, error
এটি দেখতে বেশ ভাল এবং সহজ লাগছে, তবে এটিতে আমার সমস্যা হচ্ছে।
গণনা opালু উপর ভিত্তি করে। এটি সূক্ষ্ম এবং আমি আগ্রহী এমন বৈশিষ্ট্যগুলির মধ্যে একটি, তবে আইএমএইচও এটি নন-মোনোটোনিক সিরিজের জন্য সমস্যা রয়েছে। কল্পনা করুন যে কিছু দিনের মধ্যে আমাদের ধ্রুবক পরিদর্শন হয় (তাই theাল = 0), তবে উপরের প্রবণতাটি শূন্য হবে।
প্রশ্নাবলী:
- আমি উভয় ক্ষেত্রে (একঘেয়েমিক বৃদ্ধি / হ্রাস) এবং প্রচুর পরিমাণে হিটগুলি কীভাবে পরিচালনা করব?
- আমার কি আলাদা সূত্র ব্যবহার করা উচিত?