কুলব্যাক-লেবলার ডাইভারজেন্সের তুলনায় ওয়াসারস্টেইন মেট্রিকের সুবিধাগুলি কী?


25

ওয়াসারস্টেইন মেট্রিক এবং কুলব্যাক-লেবলার ডাইভারজেন্সের মধ্যে ব্যবহারিক পার্থক্য কী ? ওয়াসারস্টেইন মেট্রিককে আর্থ মুভারের দূরত্ব হিসাবেও উল্লেখ করা হয় ।

উইকিপিডিয়া থেকে:

ওয়াসারস্টেইন (বা ভ্যাসারস্টাইন) মেট্রিক একটি দূরত্ব ফাংশন যা প্রদত্ত মেট্রিক স্পেস এম তে সম্ভাব্যতা বিতরণের মধ্যে সংজ্ঞায়িত হয় function

এবং

কুলব্যাক – লেবলার ডাইভার্জেন্স হ'ল একটি সম্ভাব্যতা বন্টন কীভাবে দ্বিতীয় প্রত্যাশিত সম্ভাব্যতা বিতরণ থেকে আলাদা হয় তার একটি পরিমাপ।

আমি দেখেছি কেএল মেশিন লার্নিং বাস্তবায়নে ব্যবহৃত হয়েছিল, তবে আমি সম্প্রতি ওয়াশারস্টেইন মেট্রিক জুড়ে এসেছি। একটি বা অন্যটি কখন ব্যবহার করবেন সে সম্পর্কে কোনও ভাল গাইডলাইন রয়েছে?

( Wassersteinবা দিয়ে একটি নতুন ট্যাগ তৈরি করার জন্য আমার অপর্যাপ্ত খ্যাতি আছে Earth mover's distance))


যেখানে আমি ওয়াসারস্টেইন মেট্রিক পেরিয়ে এসেছি: github.com/RaRe-Technologies/movie-plots-by-genre/blob/master/…
টমাস ফাসকানজার

1
পোস্টারের অনুরোধের ভিত্তিতে একটি ওয়াসারস্টেইন ট্যাগ যুক্ত করতে পোস্ট সম্পাদনা করা। একটি উত্তর যোগ করুন।
লুকাস রবার্টস

উত্তর:


28

DKL(P||Q)DKL(Q||P)DKL(R||P)DKL(Q||P)+DKL(R||Q)

যেমন ব্যবহারিক পার্থক্যে আসে, তারপরে সবচেয়ে গুরুত্বপূর্ণটি হ'ল কেএল (এবং অন্যান্য অনেকগুলি ব্যবস্থা) এর বিপরীতে ওয়াসারস্টেইন মেট্রিক স্পেসকে বিবেচনা করে এবং কম বিমূর্ত শর্তে এর অর্থ সম্ভবত একটি উদাহরণ দিয়ে সবচেয়ে ভাল ব্যাখ্যা করা হয়েছে (এড়িয়ে যেতে দ্বিধা বোধ করবেন না) চিত্রটি, কেবল এটি তৈরির জন্য কোড):

# define samples this way as scipy.stats.wasserstein_distance can't take probability distributions directly
sampP = [1,1,1,1,1,1,2,3,4,5]
sampQ = [1,2,3,4,5,5,5,5,5,5]
# and for scipy.stats.entropy (gives KL divergence here) we want distributions
P = np.unique(sampP, return_counts=True)[1] / len(sampP)
Q = np.unique(sampQ, return_counts=True)[1] / len(sampQ)
# compare to this sample / distribution:
sampQ2 = [1,2,2,2,2,2,2,3,4,5]
Q2 = np.unique(sampQ2, return_counts=True)[1] / len(sampQ2)

fig = plt.figure(figsize=(10,7))
fig.subplots_adjust(wspace=0.5)
plt.subplot(2,2,1)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,3)
plt.bar(np.arange(len(Q)), Q, color='b')
plt.xticks(np.arange(len(Q)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
    scipy.stats.wasserstein_distance(sampP, sampQ), scipy.stats.entropy(P, Q)), fontsize=10)
plt.subplot(2,2,2)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,4)
plt.bar(np.arange(len(Q2)), Q2, color='b')
plt.xticks(np.arange(len(Q2)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
    scipy.stats.wasserstein_distance(sampP, sampQ2), scipy.stats.entropy(P, Q2)), fontsize=10)
plt.show()

দুটি ভিন্ন জোড়া বিতরণের জন্য ওয়াসারস্টেইন মেট্রিক এবং কুলব্যাক-লেবেলার ডাইভারজেন্স এখানে লাল এবং নীল বিতরণগুলির মধ্যে ব্যবস্থাগুলি কেএল ডাইভার্জেন্সের জন্য সমান, যেখানে ওয়াসারস্টেইন দূরত্বটি সম্ভাব্যতাটিকে "রাস্তা" হিসাবে এক্স-অক্ষ ব্যবহার করে লাল রাজ্য থেকে নীল রাজ্যে স্থানান্তরিত করার জন্য প্রয়োজনীয় কাজটি পরিমাপ করে। এই পরিমাপটি স্পষ্টতই বৃহত্তর সম্ভাব্যতার পরিমাণের চেয়ে বেশি (সুতরাং ওরফে আর্থ মুভারের দূরত্ব)। আপনি কোনটি ব্যবহার করতে চান তা নির্ভর করে আপনার অ্যাপ্লিকেশন অঞ্চল এবং আপনি কী পরিমাপ করতে চান তার উপর। একটি নোট হিসাবে, কেএল ডাইভার্জেন্সের পরিবর্তে জেনসেন-শ্যানন দূরত্বের মতো অন্যান্য বিকল্পও রয়েছে যা যথাযথ মেট্রিক।


6

ওয়াসারস্টেইন মেট্রিক সর্বাধিক সাধারণভাবে পরিবহন সমস্যার ক্ষেত্রে দেখা যায় যেখানে লক্ষ্য দেওয়া হয় একটি ন্যূনতম কনফিগারেশন থেকে ন্যূনতম ব্যয় বা ন্যূনতম দূরত্বে কোনও পছন্দসই কনফিগারেশনে জিনিস স্থানান্তর করা। কুলব্যাক-লেবলার (কেএল) একটি বিচ্যুতি (কোনও মেট্রিক নয়) এবং পরিসংখ্যান, মেশিন লার্নিং এবং তথ্য তত্ত্বের ক্ষেত্রে প্রায়শই প্রদর্শিত হয়।

এছাড়াও, ওয়াসারস্টেইন মেট্রিক উভয় পদক্ষেপের একই সম্ভাবনার জায়গার উপরের প্রয়োজন হয় না , যেখানে কেএল ডাইভার্জেন্সকে একই সম্ভাবনার জায়গাতে সংজ্ঞায়িত করার জন্য উভয় পদক্ষেপের প্রয়োজন হয়।

kμiΣii=1,2

W2(N0,N1)2=μ1μ222+tr(Σ1+Σ22(Σ21/2Σ1Σ21/2)1/2)
DKL(N0,N1)=12(tr(Σ11Σ0)+(μ1μ0)TΣ11(μ1μ0)k+ln(detΣ1detΣ0)).
Σ1=Σ2=wIkμ1μ20k0, সুতরাং এই দুটি পরিমাণ হয়ে যায়: and এবং খেয়াল করুন যে ওয়াসারস্টেইনের দূরত্ব পরিবর্তিত হয় না যদি পরিবর্তনের পরিবর্তন হয় (বলুন কে কোভারিয়েন্স ম্যাট্রিকগুলিতে একটি বৃহত পরিমাণ হিসাবে গ্রহণ করুন ) যেখানে কেএল ডাইভারজেন্স রয়েছে। এটি কারণ দুটি সম্ভাব্যতার পরিমাপের যৌথ সমর্থনের জায়গাগুলিতে ওয়াসারস্টেইন দূরত্ব একটি দূরত্ব ফাংশন। বিপরীতে কেএল ডাইভারজেন্স হ'ল একটি বিচ্যুতি এবং বিতরণগুলির তথ্য স্থানের (শব্দ অনুপাতের সংকেত) উপর ভিত্তি করে এই বিচ্যুতি পরিবর্তন হয় changes
W2(N0,N1)2=μ1μ222
DKL(N0,N1)=(μ1μ0)TΣ11(μ1μ0).
w


1

ওয়াসারস্টাইন মেট্রিক মডেলগুলির বৈধকরণে কার্যকর কারণ এটির ইউনিটগুলি এটির প্রতিক্রিয়া। উদাহরণস্বরূপ, যদি আপনি একই সিস্টেম দুটি সম্ভাব্যতার সূত্রাবলি উপস্থাপনা তুলনা করা হয় (যেমন হ্রাস-অর্ডার মডেল), এবং , এবং প্রতিক্রিয়া স্থানচ্যুতি একক হয়, Wasserstein মেট্রিক স্থানচ্যুতি ইউনিট বলে। আপনি যদি কোনও স্ট্রাস্টিকের প্রতিনিধিত্বকে একটি নির্জনবাদী হিসাবে কমাতে থাকেন তবে প্রত্যেকটির বিতরণ সিডিএফ একটি পদক্ষেপ ফাংশন। ওয়াসারস্টাইন মেট্রিক মানগুলির পার্থক্য।PQ

দুটি এলোমেলো ভেরিয়েবলের মধ্যে পরম পার্থক্য সম্পর্কে কথা বলতে আমি এই সম্পত্তিটিকে খুব প্রাকৃতিক বর্ধন বলে মনে করি

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.