DKL(P||Q)≠DKL(Q||P)DKL(R||P)≤DKL(Q||P)+DKL(R||Q)
যেমন ব্যবহারিক পার্থক্যে আসে, তারপরে সবচেয়ে গুরুত্বপূর্ণটি হ'ল কেএল (এবং অন্যান্য অনেকগুলি ব্যবস্থা) এর বিপরীতে ওয়াসারস্টেইন মেট্রিক স্পেসকে বিবেচনা করে এবং কম বিমূর্ত শর্তে এর অর্থ সম্ভবত একটি উদাহরণ দিয়ে সবচেয়ে ভাল ব্যাখ্যা করা হয়েছে (এড়িয়ে যেতে দ্বিধা বোধ করবেন না) চিত্রটি, কেবল এটি তৈরির জন্য কোড):
# define samples this way as scipy.stats.wasserstein_distance can't take probability distributions directly
sampP = [1,1,1,1,1,1,2,3,4,5]
sampQ = [1,2,3,4,5,5,5,5,5,5]
# and for scipy.stats.entropy (gives KL divergence here) we want distributions
P = np.unique(sampP, return_counts=True)[1] / len(sampP)
Q = np.unique(sampQ, return_counts=True)[1] / len(sampQ)
# compare to this sample / distribution:
sampQ2 = [1,2,2,2,2,2,2,3,4,5]
Q2 = np.unique(sampQ2, return_counts=True)[1] / len(sampQ2)
fig = plt.figure(figsize=(10,7))
fig.subplots_adjust(wspace=0.5)
plt.subplot(2,2,1)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,3)
plt.bar(np.arange(len(Q)), Q, color='b')
plt.xticks(np.arange(len(Q)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
scipy.stats.wasserstein_distance(sampP, sampQ), scipy.stats.entropy(P, Q)), fontsize=10)
plt.subplot(2,2,2)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,4)
plt.bar(np.arange(len(Q2)), Q2, color='b')
plt.xticks(np.arange(len(Q2)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
scipy.stats.wasserstein_distance(sampP, sampQ2), scipy.stats.entropy(P, Q2)), fontsize=10)
plt.show()
এখানে লাল এবং নীল বিতরণগুলির মধ্যে ব্যবস্থাগুলি কেএল ডাইভার্জেন্সের জন্য সমান, যেখানে ওয়াসারস্টেইন দূরত্বটি সম্ভাব্যতাটিকে "রাস্তা" হিসাবে এক্স-অক্ষ ব্যবহার করে লাল রাজ্য থেকে নীল রাজ্যে স্থানান্তরিত করার জন্য প্রয়োজনীয় কাজটি পরিমাপ করে। এই পরিমাপটি স্পষ্টতই বৃহত্তর সম্ভাব্যতার পরিমাণের চেয়ে বেশি (সুতরাং ওরফে আর্থ মুভারের দূরত্ব)। আপনি কোনটি ব্যবহার করতে চান তা নির্ভর করে আপনার অ্যাপ্লিকেশন অঞ্চল এবং আপনি কী পরিমাপ করতে চান তার উপর। একটি নোট হিসাবে, কেএল ডাইভার্জেন্সের পরিবর্তে জেনসেন-শ্যানন দূরত্বের মতো অন্যান্য বিকল্পও রয়েছে যা যথাযথ মেট্রিক।