আমি একটি ডেটা বিশ্লেষণ প্রকল্প হাতে নিচ্ছি যা বছরের পর বছর ধরে ওয়েবসাইট ব্যবহারের সময়গুলি অনুসন্ধানের সাথে জড়িত। আমি যা করতে চাই তা ব্যবহারের ধরণগুলি কীভাবে "সামঞ্জস্যপূর্ণ", তুলনা করে বলুন, তারা এমন একটি প্যাটার্নের সাথে কতটা কাছাকাছি আছেন যা প্রতি সপ্তাহে একবার 1 ঘন্টা ব্যবহার করা জড়িত, বা একটি যা 10 মিনিটের জন্য একবার ব্যবহার করে জড়িত, 6 প্রতি সপ্তাহে বার. আমি গণনা করা যেতে পারে যে কয়েকটি জিনিস সম্পর্কে সচেতন:
- শ্যানন এন্ট্রপি: পরিমাপের "নির্দিষ্টতা" কতটা পৃথক করে তা পরিমাপ করে, অর্থাত্ সম্ভাবনার বন্টন একরকমের থেকে কতটা পৃথক;
- কুলব্যাক-লেবলার ডাইভারজেন্স: পরিমাপ করে যে এক সম্ভাবনার বন্টন অন্যের থেকে কতটা পৃথক
- জেনসেন-শ্যানন ডাইভারজেন্স: কেএল-ডাইভারজেন্সের অনুরূপ, তবে এটি সীমাবদ্ধ মানগুলি ফেরত দেওয়ার কারণে আরও দরকারী
- স্মিমনভ-কোলমোগোরভ পরীক্ষা : ক্রমাগত এলোমেলো ভেরিয়েবলের জন্য দুটি ক্রম বিতরণ ফাংশন একই নমুনা থেকে আসে কিনা তা নির্ধারণের জন্য একটি পরীক্ষা।
- চি-স্কোয়ার টেস্ট: একটি ফ্রিকোয়েন্সি বিতরণ একটি প্রত্যাশিত ফ্রিকোয়েন্সি বিতরণ থেকে কতটা আলাদা তার সিদ্ধান্ত নেওয়ার জন্য একটি ধার্মিকতা-ফিট-পরীক্ষা।
আমি যা করতে চাই তা হল বিতরণের ক্ষেত্রে আদর্শ ব্যবহারের সময় (কমলা) থেকে প্রকৃত ব্যবহারের সময়সীমা (নীল) কতটা পৃথক compare এই বিতরণগুলি পৃথক, এবং নীচের সংস্করণগুলি সম্ভাব্যতা বন্টনে পরিণত হওয়ার জন্য স্বাভাবিক করা হয়েছে। অনুভূমিক অক্ষটি কোনও ওয়েবসাইটে ওয়েবসাইটে ব্যয় করেছে এমন পরিমাণের (মিনিটের মধ্যে) প্রতিনিধিত্ব করে; এটি বছরের প্রতিটি দিনের জন্য রেকর্ড করা হয়েছে; ব্যবহারকারী যদি ওয়েবসাইটে ওয়েবসাইটে না যান তবে এই শূন্য সময়কাল হিসাবে গণনা করা হয় তবে এগুলি ফ্রিকোয়েন্সি বিতরণ থেকে সরানো হয়েছে। ডানদিকে ক্রম বিতরণ ফাংশন।
আমার একমাত্র সমস্যাটি হ'ল যদিও আমি সীমাবদ্ধ মূল্য ফেরত দেওয়ার জন্য জেএস-ডাইভারজেন্স পেতে পারি, যখন আমি বিভিন্ন ব্যবহারকারীর দিকে নজর রাখি এবং তাদের ব্যবহারের বিতরণকে আদর্শের সাথে তুলনা করি তখন আমি মানগুলি পাই যা বেশিরভাগই অভিন্ন (যা অতএব ভাল নয়) তারা কতটা আলাদা তার নির্দেশক)। এছাড়াও, ফ্রিকোয়েন্সি বিতরণের চেয়ে সম্ভাব্যতা বিতরণকে স্বাভাবিক করার সময় বেশ কিছুটা তথ্য নষ্ট হয়ে যায় (বলুন যে কোনও শিক্ষার্থী 50 বার প্ল্যাটফর্মটি ব্যবহার করে, তারপরে নীল বিতরণটি উল্লম্বভাবে ছোট করে দেওয়া উচিত যাতে বারের দৈর্ঘ্যের মোট পরিমাণ 50 হয় এবং এবং কমলা বারটির উচ্চতা 1 এর চেয়ে 50 টি হওয়া উচিত)। আমরা "ধারাবাহিকতা" বলতে যা বোঝায় তার অংশটি হ'ল কোনও ব্যবহারকারী কতবার ওয়েবসাইটে যায় সেগুলি কতটা প্রভাব ফেলতে পারে তা প্রভাবিত করে; যদি তারা ওয়েবসাইটটি দেখার সময়টি হারিয়ে যায় তবে সম্ভাব্যতা বিতরণের তুলনা করা কিছুটা সন্দেহজনক; এমনকি যদি কোনও ব্যবহারকারীর সময়কালের সম্ভাব্যতা বন্টন "আদর্শ" ব্যবহারের খুব কাছাকাছি থাকে তবে সেই ব্যবহারকারী কেবল বছরের জন্য 1 সপ্তাহের জন্য প্ল্যাটফর্মটি ব্যবহার করতে পারেন যা তর্কসাপেক্ষভাবে খুব সামঞ্জস্যপূর্ণ নয়।
দুটি ফ্রিকোয়েন্সি ডিস্ট্রিবিউশনগুলির সাথে তুলনা করার জন্য এবং কোনও ধরণের মেট্রিকের গণনা করার জন্য কি কোনও সুপ্রতিষ্ঠিত কৌশল রয়েছে যা তাদের অনুরূপ (বা ভিন্ন) কীভাবে চিহ্নিত করে?