সর্বাধিক গড় তাত্পর্য (দূরত্ব বিতরণ)


15

আমার কাছে দুটি ডেটা সেট রয়েছে (উত্স এবং লক্ষ্য ডেটা) যা বিভিন্ন বিতরণ অনুসরণ করে। আমি এমএমডি ব্যবহার করছি - এটি উত্স এবং লক্ষ্য ডেটার মধ্যে প্রান্তিক বিতরণ গণনা করার জন্য একটি অ-প্যারাম্যাট্রিক দূরত্ব বিতরণ।

উত্স তথ্য, এক্স

লক্ষ্য তথ্য, এক্সটি

অভিযোজন ম্যাট্রিক্স এ

* অনুমিত ডেটা, যদ = একটি '* XS এবং ZT = একটি' XT

* এমএমডি => দূরত্ব (পি (এক্স), পি (এক্সটি)) = | গড় (A'Xs) - গড় (এ ' এক্সটি) |

এর অর্থ: মূল স্থানটিতে উত্স এবং লক্ষ্য ডেটার মধ্যে বিতরণের দূরত্বটি এমবেডড স্পেসে অনুমানিত উত্স এবং লক্ষ্য ডেটার মধ্যকার দূরত্বের সমতুল্য।

এমএমডি ধারণা সম্পর্কে আমার একটি প্রশ্ন আছে।

এমএমডি সূত্রে, কেন সুপ্ত স্থানে কম্পিউটারের দূরত্বের সাহায্যে আমরা মূল স্থানটিতে বিতরণের দূরত্বটি পরিমাপ করতে পারি?

ধন্যবাদ


আপনি আসলে এখনও কোনও প্রশ্ন জিজ্ঞাসা করেননি: আপনি কেবল আমাদের জানিয়েছেন যে আপনি বিভ্রান্ত হয়ে পড়েছেন!
whuber

উত্তর:


44

এটি এমএমডি সম্পর্কে একটি সংক্ষিপ্তসার আরও কিছুটা দিতে সহায়তা করতে পারে।

সাধারণভাবে, বৈশিষ্ট্যগুলির গড় এমবেডিংয়ের মধ্যে দূরত্ব হিসাবে বিতরণগুলির মধ্যে দূরত্বগুলি উপস্থাপনের ধারণা দ্বারা এমএমডি সংজ্ঞায়িত করা হয় । অর্থাৎ বলতে আমরা ডিস্ট্রিবিউশন আছে এবং একটি সেট উপর । এমএমডি একটি বৈশিষ্ট্য মানচিত্র দ্বারা সংজ্ঞায়িত করা হয় , যেখানে , যাকে প্রজনন কার্নেল হিলবার্ট স্পেস বলা হয়। সাধারণভাবে, এমএমডি হ'ল PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

একটি উদাহরণ হিসাবে, আমাদের কাছে এবং । : সুতরাং এই এমএমডি দুটি বিতরণের মাধ্যমের মধ্যবর্তী দূরত্ব। এই জাতীয় ডিস্ট্রিবিউশনগুলির সাথে মিলে যাওয়া তাদের অর্থগুলির সাথে মেলে, যদিও তারা তাদের ভিন্নতা বা অন্য উপায়ে ভিন্ন হতে পারে।X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

আপনার কিছুটা আলাদা: আমাদের এবং ,, , যেখানে একটি ম্যাট্রিক্স। সুতরাং আমাদের এই এমএমডি হ'ল মধ্যবর্তী দুটি পৃথক অনুমানের মধ্যে পার্থক্য। যদি বা ম্যাপিং অন্যথায় পরিবর্তিত না হয়,X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA আগেরটির তুলনায়: এটি পূর্ববর্তী যেটি বিতরণ করে তার মধ্যে পার্থক্য করে না।

আপনি আরও শক্তিশালী দূরত্ব তৈরি করতে পারেন। উদাহরণস্বরূপ, যদি এবং আপনি তবে এমএমডি পূর্ব becomes হয়ে যায় , এবং কেবলমাত্র বিভিন্ন উপায়ে নয় বিতরণগুলিও পৃথক করতে পারে differentX=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

এবং আপনি এর চেয়ে আরও শক্তিশালী হতে পারেন: যদি if একটি সাধারণ পুনরুত্পাদন কার্নেল হিলবার্ট স্পেসে মানচিত্র করে, তবে আপনি এমএমডি গণনা করতে কার্নেল ট্রিক প্রয়োগ করতে পারেন , এবং দেখা গেছে যে গাউসিয়ান কার্নেল সহ অনেকগুলি কার্নেল এমএমডি বাড়ে lead শূন্য এবং যদি কেবল বিতরণগুলি অভিন্ন হয়।φ

বিশেষত, , আপনি পেতে পারেন যা আপনি নমুনাগুলির সাহায্যে সোজাভাবে অনুমান করতে পারেন।k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


আপডেট: এখানে "সর্বাধিক" নামটি এসেছে।

বৈশিষ্ট্যটির মানচিত্র একটি পুনরুত্পাদন কার্নেল হিলবার্ট স্পেসে মানচিত্র। এগুলো শূণ্যস্থান আছে ফাংশন , এবং একটি চাবি সম্পত্তি (যাকে বলা হয় সন্তুষ্ট প্রতিলিপি সম্পত্তি :) কোন ।φ:XHf,φ(x)H=f(x)fH

সবচেয়ে সহজ উদাহরণে, সহ , আমরা প্রতিটি as কিছু to এর সাথে ফাংশন হিসাবে দেখি , । তারপরে প্রজনন সম্পত্তি বোঝা উচিতX=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

গাউসিয়ান কার্নেলের মতো আরও জটিল সেটিংসে, আরও জটিল কাজ, তবে পুনরুত্পাদন সম্পত্তি এখনও ধারণ করে।f

এখন, আমরা এমএমডি এর বিকল্প বৈশিষ্ট্য দিতে পারি: দ্বিতীয় লাইন হিলবার্ট স্পেসগুলির নিয়ম সম্পর্কে সাধারণ তথ্য:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=g দ্বারা অর্জন করা হয়েছে । চতুর্থ কোনও প্রযুক্তিগত অবস্থার উপর নির্ভর করে যা বোচনার ইন্টিগ্রাবিলিটি নামে পরিচিত তবে এটি সত্য যেমন বাউন্ডেড কার্নেল বা সীমানা সমর্থন সহ বিতরণের জন্য utions তারপরে শেষে আমরা প্রজনন সম্পত্তি ব্যবহার করি।f=g/g

এটি সর্বাধিক টেস্ট ফাংশন উপর, - এই শেষ লাইন কেন এটি "সর্বাধিক গড় অমিল" বলা হয় হয় ইউনিট বল , দুই ডিস্ট্রিবিউশন মধ্যে গড় পার্থক্য।fH


আপনার ব্যাখ্যার জন্য ধন্যবাদ, এটি আমার জন্য আরও স্পষ্ট হয়ে ওঠে; তবুও আমি এই ধারণাটি পেলাম না, শুরুতে আপনি বলেছিলেন: "এমএমডি বৈশিষ্ট্যগুলির গড় এমবেডিংয়ের মধ্যবর্তী দূরত্ব হিসাবে বিতরণগুলির মধ্যে দূরত্বকে উপস্থাপনের ধারণা দ্বারা সংজ্ঞায়িত করা হয়।" কেন এই ধারণা সত্য?
মাহসা 11

"এমএমডি বৈশিষ্ট্যগুলির গড় এম্বেডিংয়ের মধ্যবর্তী দূরত্ব হিসাবে বিতরণগুলির মধ্যে দূরত্ব উপস্থাপনের ধারণা দ্বারা সংজ্ঞায়িত হয়।" কেন এই ধারণাটি সত্য হয়? এটি কি আরকেএইচএসের জায়গার সাথে সম্পর্কিত?
মহাসা

1
এটি কেবল একটি সংজ্ঞা: আপনি বিতরণগুলির মাধ্যমের সাথে তুলনা করে তুলনা করতে পারেন। বা, আপনি বিতরণগুলি তাদের কিছু পরিবর্তনের সাথে তুলনা করে তুলনা করতে পারেন; বা তাদের উপায় এবং প্রকরণের তুলনা করে; বা আরকেএইচএসের একটি সহ অন্য কোনও বৈশিষ্ট্য মানচিত্রের গড়ের তুলনা করে।
ডগল

আপনার প্রতিক্রিয়ার জন্য ধন্যবাদ; আমি আরকেএইচএস বৈশিষ্ট্য মানচিত্র সম্পর্কে আরও পড়তে যাচ্ছি; আমি ভাবছিলাম, কেন আরএমএইচএস বৈশিষ্ট্য মানচিত্রে এমএমডি দূরত্ব নির্ধারিত? মানে, এমএমডি দূরত্ব সংজ্ঞায় আরকেএইচএসের কী লাভ?
মহাসা

এখানে ব্যাখ্যাটি "সর্বাধিক গড় তাত্পর্য" এর বিপরীতে "গড় বিভেদ" এর দিকে কেন্দ্রীভূত। কেউ কি "ম্যাক্সিমাইজেশন" অংশটি বিশদভাবে বলতে পারেন?
জিয়াং জিয়াং

5

এখানে আমি এমএমডি ব্যাখ্যা করেছি। দু'টি বিতরণ যদি তাদের মুহুর্তগুলি একই হয়। কার্নেল প্রয়োগ করে, আমি পরিবর্তনশীলটিকে এমন রূপান্তর করতে পারি যে সমস্ত মুহুর্ত (প্রথম, দ্বিতীয়, তৃতীয় ইত্যাদি) গণনা করা হয়। সুপ্ত স্পেসে আমি মুহুর্তের মধ্যে পার্থক্যটি গণনা করতে পারি এবং এটি গড় করতে পারি। এটি ডেটাসেটের মধ্যে সাদৃশ্য / ভিন্নতার একটি পরিমাপ দেয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.