দুটি ফ্রিকোয়েন্সি বিতরণের মধ্যে পরিসংখ্যানিক "দূরত্ব" কীভাবে পরিমাপ করবেন?


14

আমি একটি ডেটা বিশ্লেষণ প্রকল্প হাতে নিচ্ছি যা বছরের পর বছর ধরে ওয়েবসাইট ব্যবহারের সময়গুলি অনুসন্ধানের সাথে জড়িত। আমি যা করতে চাই তা ব্যবহারের ধরণগুলি কীভাবে "সামঞ্জস্যপূর্ণ", তুলনা করে বলুন, তারা এমন একটি প্যাটার্নের সাথে কতটা কাছাকাছি আছেন যা প্রতি সপ্তাহে একবার 1 ঘন্টা ব্যবহার করা জড়িত, বা একটি যা 10 মিনিটের জন্য একবার ব্যবহার করে জড়িত, 6 প্রতি সপ্তাহে বার. আমি গণনা করা যেতে পারে যে কয়েকটি জিনিস সম্পর্কে সচেতন:

  • শ্যানন এন্ট্রপি: পরিমাপের "নির্দিষ্টতা" কতটা পৃথক করে তা পরিমাপ করে, অর্থাত্ সম্ভাবনার বন্টন একরকমের থেকে কতটা পৃথক;
  • কুলব্যাক-লেবলার ডাইভারজেন্স: পরিমাপ করে যে এক সম্ভাবনার বন্টন অন্যের থেকে কতটা পৃথক
  • জেনসেন-শ্যানন ডাইভারজেন্স: কেএল-ডাইভারজেন্সের অনুরূপ, তবে এটি সীমাবদ্ধ মানগুলি ফেরত দেওয়ার কারণে আরও দরকারী
  • স্মিমনভ-কোলমোগোরভ পরীক্ষা : ক্রমাগত এলোমেলো ভেরিয়েবলের জন্য দুটি ক্রম বিতরণ ফাংশন একই নমুনা থেকে আসে কিনা তা নির্ধারণের জন্য একটি পরীক্ষা।
  • চি-স্কোয়ার টেস্ট: একটি ফ্রিকোয়েন্সি বিতরণ একটি প্রত্যাশিত ফ্রিকোয়েন্সি বিতরণ থেকে কতটা আলাদা তার সিদ্ধান্ত নেওয়ার জন্য একটি ধার্মিকতা-ফিট-পরীক্ষা।

আমি যা করতে চাই তা হল বিতরণের ক্ষেত্রে আদর্শ ব্যবহারের সময় (কমলা) থেকে প্রকৃত ব্যবহারের সময়সীমা (নীল) কতটা পৃথক compare এই বিতরণগুলি পৃথক, এবং নীচের সংস্করণগুলি সম্ভাব্যতা বন্টনে পরিণত হওয়ার জন্য স্বাভাবিক করা হয়েছে। অনুভূমিক অক্ষটি কোনও ওয়েবসাইটে ওয়েবসাইটে ব্যয় করেছে এমন পরিমাণের (মিনিটের মধ্যে) প্রতিনিধিত্ব করে; এটি বছরের প্রতিটি দিনের জন্য রেকর্ড করা হয়েছে; ব্যবহারকারী যদি ওয়েবসাইটে ওয়েবসাইটে না যান তবে এই শূন্য সময়কাল হিসাবে গণনা করা হয় তবে এগুলি ফ্রিকোয়েন্সি বিতরণ থেকে সরানো হয়েছে। ডানদিকে ক্রম বিতরণ ফাংশন।

আদর্শ ব্যবহারের ডেটা বনাম ওয়েবসাইট ব্যবহারের ডেটা বিতরণ

আমার একমাত্র সমস্যাটি হ'ল যদিও আমি সীমাবদ্ধ মূল্য ফেরত দেওয়ার জন্য জেএস-ডাইভারজেন্স পেতে পারি, যখন আমি বিভিন্ন ব্যবহারকারীর দিকে নজর রাখি এবং তাদের ব্যবহারের বিতরণকে আদর্শের সাথে তুলনা করি তখন আমি মানগুলি পাই যা বেশিরভাগই অভিন্ন (যা অতএব ভাল নয়) তারা কতটা আলাদা তার নির্দেশক)। এছাড়াও, ফ্রিকোয়েন্সি বিতরণের চেয়ে সম্ভাব্যতা বিতরণকে স্বাভাবিক করার সময় বেশ কিছুটা তথ্য নষ্ট হয়ে যায় (বলুন যে কোনও শিক্ষার্থী 50 বার প্ল্যাটফর্মটি ব্যবহার করে, তারপরে নীল বিতরণটি উল্লম্বভাবে ছোট করে দেওয়া উচিত যাতে বারের দৈর্ঘ্যের মোট পরিমাণ 50 হয় এবং এবং কমলা বারটির উচ্চতা 1 এর চেয়ে 50 টি হওয়া উচিত)। আমরা "ধারাবাহিকতা" বলতে যা বোঝায় তার অংশটি হ'ল কোনও ব্যবহারকারী কতবার ওয়েবসাইটে যায় সেগুলি কতটা প্রভাব ফেলতে পারে তা প্রভাবিত করে; যদি তারা ওয়েবসাইটটি দেখার সময়টি হারিয়ে যায় তবে সম্ভাব্যতা বিতরণের তুলনা করা কিছুটা সন্দেহজনক; এমনকি যদি কোনও ব্যবহারকারীর সময়কালের সম্ভাব্যতা বন্টন "আদর্শ" ব্যবহারের খুব কাছাকাছি থাকে তবে সেই ব্যবহারকারী কেবল বছরের জন্য 1 সপ্তাহের জন্য প্ল্যাটফর্মটি ব্যবহার করতে পারেন যা তর্কসাপেক্ষভাবে খুব সামঞ্জস্যপূর্ণ নয়।

দুটি ফ্রিকোয়েন্সি ডিস্ট্রিবিউশনগুলির সাথে তুলনা করার জন্য এবং কোনও ধরণের মেট্রিকের গণনা করার জন্য কি কোনও সুপ্রতিষ্ঠিত কৌশল রয়েছে যা তাদের অনুরূপ (বা ভিন্ন) কীভাবে চিহ্নিত করে?


4
আপনার ক্ষতির ফাংশনটি কী তা নিজেকে জিজ্ঞাসা করেই শুরু করতে পারেন (এটি কীভাবে ব্যবহারের প্যাটার্নটি আদর্শ খারাপের থেকে পৃথক, এবং কীভাবে ক্ষয়ক্ষতির পরিমাণ কীভাবে বিচ্যুত হয় তার উপর কীভাবে নির্ভর করে) এবং আপনার মেট্রিকের নকশা তৈরি করে কাছাকাছি।
সংগৃহীত

উত্তর:


12

আপনি পৃথিবী মুভারের দূরত্ব সম্পর্কে আগ্রহী হতে পারেন যা ওয়াসারস্টাইন মেট্রিক হিসাবেও পরিচিত । এটি আর ( emdistপ্যাকেজটি দেখুন) এবং পাইথনে প্রয়োগ করা হয়েছে । আমরা আছে এটা থ্রেডের একটি সংখ্যা

ইএমডি ক্রমাগত এবং বিযুক্ত উভয় বিতরণের জন্য কাজ করে। emdistআর প্যাকেজের বিযুক্ত ডিস্ট্রিবিউশন কাজ করে।

পরিসংখ্যানের মতো কোনও কিছুর উপরে সুবিধা হ'ল ইএমডি ব্যাখ্যাযোগ্য ফলাফল দেয়। আপনার বিতরণটিকে পৃথিবীর oundsিবিরূপ হিসাবে চিত্রিত করুন, তারপরে EMD আপনাকে জানায় যে একটি বন্টনকে অপরদিকে রূপান্তর করার জন্য আপনাকে কত পৃথিবী পরিবহণ করতে হবে।χ2

অন্য উপায় রাখুন: দুটি বিতরণ (1,0,0) এবং (0,1,0) (1,0,0) এবং (0,0,1) এর চেয়ে "আরও অনুরূপ" হওয়া উচিত। ইএমডি এটি স্বীকৃতি দেবে এবং দ্বিতীয়টির চেয়ে প্রথম জোড়কে একটি ছোট দূরত্ব নির্ধারণ করবে। পরিসংখ্যাত, উভয় জোড়া একই দূরত্ব নির্ধারণ করবে, কারণ এটি বিতরণ এন্ট্রি একটি ক্রম কোন ধারণা আছে।χ2


কেন সেই বিশেষ দূরত্ব? মনে হয় এটি কোনও অবিচ্ছিন্ন বিতরণের জন্য ডিজাইন করা হয়েছে। ওপিতে একটি ফ্রিকোয়েন্সি বিতরণ থাকে, তবে চি-স্কোয়ারের মতো আরও "বিচ্ছিন্ন" দূরত্ব কেন নয়?
ব্যবহারকারী 2974951

@ ব্যবহারকারী 2974951: যথেষ্ট ন্যায্য। আমার সম্পাদনা দেখুন।
স্টিফান কোলাসা

যদি ডিস্ট্রিবিউশনগুলি 1D হয়, যেমন প্রশ্নের মধ্যে পরামর্শ দেওয়া হয়েছে, তবে চলমান এবং ইএমডি সলভার ওভারকিল। যা করা দরকার তা উভয় ঘনত্বের অভিজ্ঞতাগত কোয়ান্টাইল ফাংশনের মধ্যে একটি মেট্রিক গণনা করা (মূলত সিডিএফগুলির বিপরীতে অনুসন্ধানে প্লট করা হয়েছে)। আর.এস.আই.ভি.এস.আবস / ১80০৩.০৫67 in তে পি ৩১১ অথবা আপনার যদি আরও বিস্তারিত হিসাবের ম্যাথ.ইউএসপুড.ফ.আর / ফিলিপো / উটম-cvgmt.pdfLp
মার্কো কাটুরি

@ মার্কো কুতুরি: একটি দূরত্ব অবশ্যই অন্য সম্ভাবনা। যাইহোক, এটি আবার (1,0,0) এবং (0,1,0) এর মধ্যে (1,0,0) এবং (0,0,1) এর মধ্যে একই দূরত্ব নির্ধারণ করবে, যা কিছুটা অপ্রকাশ্য। EMD- র অতিরিক্ত অন্তর্নিহিত কৌতূহলতা অতিরিক্ত জটিলতার জন্য মূল্যবান কিনা তা ওপি বিবেচনা করতে পারে। Lp
স্টিফান কোলাসা

3

আপনি যদি এলোমেলোভাবে দুটি বিতরণের প্রতিটি থেকে পৃথকভাবে নমুনা নেন তবে আপনি তাদের মধ্যে একটি পার্থক্য গণনা করতে পারেন। আপনি যদি এটির (প্রতিস্থাপন সহ) বেশ কয়েকবার পুনরাবৃত্তি করেন তবে আপনি পার্থক্যগুলির বিতরণ তৈরি করতে পারেন যা আপনার পরে সমস্ত তথ্য রয়েছে। আপনি এই বিতরণটি চক্রান্ত করতে পারেন এবং এটির যে কোনও সংক্ষিপ্ত পরিসংখ্যান - মানে, মিডিয়ানস ইত্যাদির সাথে এটি বৈশিষ্ট্যযুক্ত করতে পারেন


1
এই জাতীয় পদ্ধতির নাম আছে কি?
ব্যবহারকারী 2974951

4
আমি আশ্চর্য হই যে কীভাবে কেউ বেসলাইন ফ্যাক্টের জন্য অ্যাকাউন্ট করতে পারে যে একটি স্বেচ্ছাসেবী বিতরণের জন্য পার্থক্য বিতরণ এবং নিজেই বিভিন্ন স্বেচ্ছাসেবী বিতরণের জন্য পৃথক হবে; নিজেকে (0,1) বনাম নিজেই এন (0,1) বনামের সাথে তুলনা করুন। সুতরাং, আপনি দুটি ভিন্ন বিতরণের তুলনা করতে পার্থক্য বিতরণ একটি অনন্য বেসলাইন অনুপস্থিতিতে মূল্যায়ন করা কঠিন। পর্যবেক্ষণগুলি যুক্ত করা থাকলে সমস্যাটি অদৃশ্য হয়ে যায়, তবে বেসলাইনটি শূন্যের একক ভর হবে।
রিচার্ড হার্ডি

@ ব্যবহারকারী 2974951 আমি নিশ্চিত যে এটি রয়েছে, কারণ এটি বেশ সহজ এবং স্পষ্টভাবে বুটস্ট্র্যাপিংয়ের সাথে সম্পর্কিত। তবে এটাকে কী বলা উচিত তা আমি ঠিক জানি না।
এমকেটি - মনিকা পুনরায়

1
@ এমকেটি, আপনার স্পষ্টির জন্য ধন্যবাদ। কেবল এটির জন্য তর্ক করার ইচ্ছা না করেই আমি এখনও মনে করি একটি অনন্য বেসলাইন ছাড়া আমাদের বেশিরভাগই শাসক নেই। তবে আমি এটি এটি ছেড়ে দেব। যাইহোক আপনার ধারণা সম্পর্কে দুর্দান্ত কিছু আছে।
রিচার্ড হার্ডি

1
@ রিচার্ড হার্ডি আমি এখানে বিনিময়টির প্রশংসা করি, এবং আপনি সম্ভবত সঠিক হতে পারেন। আমি এই সম্পর্কে আরও চিন্তা করতে হবে।
এমকেটি - মনিকা পুনরায়

0

মেট্রিকগুলির মধ্যে একটি হ'ল হিংগার দুটো বিতরণের মধ্যবর্তী দূরত্ব যা মাধ্যম এবং মানক বিচ্যুতি দ্বারা চিহ্নিত করা হয়। আবেদনটি নীচের নিবন্ধে পাওয়া যাবে।

https://www.sciencedirect.com/science/article/pii/S1568494615005104


তার জন্য ধন্যবাদ. আমি দেখেছি যে ডাইভারজেন্সগুলির একটি পুরো পরিবার রয়েছে (এফ-ডাইভারজেন্স) যা আমি চাই তা করি তবে সাহিত্যের মাধ্যমে একটি দ্রুত ঝাঁকুনি ইঙ্গিত দেয় না যে কোনটা ভাল যখন ... আপনি কি কোনও ভাল সাহিত্য সম্পর্কে জানেন? এই?
ওমেগাএএসএক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.