গুচ্ছ সমাধানগুলি মূল্যায়নের জন্য দুটি গাউসিয়ান মিশ্রণের মধ্যে দূরত্ব


11

আমি বিভিন্ন ক্লাস্টারিং পদ্ধতির তুলনা করার জন্য একটি দ্রুত সিমুলেশন চালাচ্ছি এবং বর্তমানে ক্লাস্টার সমাধানগুলি মূল্যায়নের চেষ্টা করে একটি ছিটকেছি hit

আমি বিভিন্ন বৈধতা মেট্রিকগুলি জানি (অনেকগুলি ক্লাস্টার.স্ট্যাটসে ( আর-তে পাওয়া যায় ) ) তবে আমি অনুমান করি যে ক্লাস্টারের আনুমানিক সংখ্যা প্রকৃত সংখ্যার ক্লাস্টারের সংখ্যার সমান হলে সেগুলি সবচেয়ে ভাল ব্যবহৃত হয়। মূল সিমুলেশনে যখন ক্লাস্টারগুলির সঠিক সংখ্যা নির্দিষ্ট করে না (যেমন, একটি তিনটি ক্লাস্টার সলিউশন মডেল ডেটা যে 4-ক্লাস্টার থাকার জন্য সিমুলেটেড ছিল তা কতটা ভাল করে না যখন কোনও ক্লাস্টারিং সমাধান কত ভাল সঞ্চালন করে তা পরিমাপ করার ক্ষমতাটি বজায় রাখতে চাই want সমাধান)। কেবল আপনার তথ্যের জন্য, ক্লাস্টারগুলিকে অভিন্ন কোভেরিয়েন্স ম্যাট্রিক্সের জন্য সিমুলেটেড করা হয়।

আমি ভেবেছিলাম গাউসিয়ানদের দুটি মিশ্রণের মধ্যে কেএল ডাইভার্জেন্স কার্যকর করতে কার্যকর হবে, তবে কোনও বদ্ধ ফর্মের সমাধান নেই ( হার্শেই এবং ওলসন (2007) ) এবং একটি মন্টি কার্লো সিমুলেশন বাস্তবায়ন কম্পিউটেশনাল ব্যয়বহুল হতে শুরু করেছে।

বাস্তবায়ন করা সহজ হতে পারে এমন আরও কোনও সমাধান রয়েছে (এমনকি যদি কেবল একটি আনুমানিকতাও হয়)?


দুটি গাউসিয়ান মিশ্রণের মধ্যে এল 2 দূরত্ব বন্ধ আকারে উপলব্ধ। এটি ব্যবহার করুন এবং আপনার প্রস্তুত হওয়া উচিত।

আপনি কীভাবে এটি করবেন তা আমি জানি না, তবে এটি আমার কাছে ভাল ধারণা বলে মনে হয় না। একটি মিশ্রণ নিন, উপাদানগুলি স্থির করুন (পি (এক্স) এর কোনও পরিবর্তন নেই) এবং এল 2 দূরত্ব যে কোনও কিছু হতে পারে। এছাড়াও, এল 2 দুরত্ব কোভেরিয়েন্স ম্যাট্রিক্সের পক্ষে ভাল ধারণা নয়।
বায়ারজ

একটি অনুষ্ঠিত আউট টেস্ট ডেটাসেটের পূর্ববর্তী ভবিষ্যদ্বাণীমূলক সম্ভাবনা। আমার সন্দেহ হয় যদিও আপনাকে কে-তে প্রিরিয়ার দরকার হবে।
অনুমানগুলি

প্রথম লিঙ্কটি নষ্ট
ttnphns

উত্তর:


6

ধরুন, আমাদের Rd দুটি গাউসিয়ান মিশ্রণ রয়েছে :

P=i=1nαiPi=i=1nαiN(μi,Σi)Q=j=1mβjQj=j=1mN(mj,Sj).
তাদের ঘনত্বগুলিকে যথাক্রমে এবং এবং , তাদের উপাদানগুলির ঘনত্বগুলি বোঝান , ।p()q()PiQjpi(x)=N(x;μi,Σi)qj(x)=N(x;mj,Sj)

নিম্নলিখিত দূরত্বগুলি বন্ধ আকারে উপলব্ধ:

  • L2 দূরত্ব, যেমন ব্যবহারকারী 3966565 দ্বারা একটি মন্তব্যে প্রস্তাবিত। এটি হ'ল: দ্রষ্টব্য, উদাহরণস্বরূপ ম্যাট্রিক্স কুকবুকের ৮.১.৮ অংশে দেখা গেছে : যাতে এটি সময়ে সহজেই মূল্যায়ন করা যায় ।

    L2(P,Q)2=(p(x)q(x))2dx=(iαipi(x)jβjqj(x))2dx=i,iαiαipi(x)pi(x)dx+j,jβjβjqj(x)qj(x)dx2i,jαiβjpi(x)qj(x)dx.
    N ( x ; μ , Σ ) এন ( x ; μ , Σ )
    N(x;μ,Σ)N(x;μ,Σ)dx=N(μ;μ,Σ+Σ)
    O(mn)

  • গাউসিয়ান আরবিএফ কার্নেলের সাথে সর্বাধিক গড় তাত্পর্য (এমএমডি)। এটি একটি শীতল দূরত্ব, এখনও পরিসংখ্যান সম্প্রদায়ের মধ্যে অতি সুপরিচিত নয়, এটি নির্ধারণ করতে কিছুটা গণিত লাগে th

    লেটিং হিলবার্ট স্পেস সংজ্ঞায়িত যেমন প্রতিলিপি কার্নেল হিলবার্ট স্পেস সংশ্লিষ্ট : ।

    k(x,y):=exp(12σ2xy2),
    Hkk(x,y)=φ(x),φ(y)H

    as হিসাবে গড় মানচিত্রের কার্নেলটি সংজ্ঞায়িত করুন

    K(P,Q)=EXP,YQk(X,Y)=EXPφ(X),EYQφ(Y).

    এমএমডি তখন

    MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]=K(P,P)+K(Q,Q)2K(P,Q)=supf:fH1EXPf(X)EYQf(Y).

    আমাদের মিশ্রণের জন্য এবং , নোট যে এবং একইভাবে জন্য এবং ।PQ

    K(P,Q)=i,jαiβjK(Pi,Qj)
    কে(পি,পি)কে(প্রশ্নঃ,প্রশ্নঃ)

    এটি সক্রিয় আউট, হিসাবে অনুরূপ ঠাট ব্যবহার , যে হয় এল2কে(এন(μ,Σ),এন(μ',Σ'))

    (2πσ2)/2এন(μ;μ',Σ+ +Σ'+ +σ2আমি)

    হিসাবে , একটি একাধিক পরিষ্কারভাবে এই এগোয় দূরত্ব। আপনি সাধারণত একটি পৃথক ব্যবহার করতে চান , যদিও তথ্যের প্রকরণের স্কেলের একটি।σ0এল2σ

    বদ্ধ ফর্মগুলি এমএমডিতে বহুপুত্র কার্নেল এর জন্যও উপলব্ধ ; দেখা

    মুয়ানাদেট, ফুকুমিজু, দিনুজ্জো এবং শেলকোফ্ফ (২০১২)। সমর্থন পরিমাপ মেশিনের মাধ্যমে বিতরণ থেকে শেখা। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমগুলির অগ্রযাত্রায় ( অফিসিয়াল সংস্করণ )। আরএক্সিভ: 1202.6504

    এই দূরত্বের অনেক দুর্দান্ত বৈশিষ্ট্যের জন্য, দেখুন

    শ্রীপেরুম্বুদুর, গ্রেটটন, ফুকুমিজু, শেলকোফ্ফ এবং ল্যাঙ্ক্রিয়েট (২০১০)। হিলবার্ট স্পেস এম্বেডিংস এবং সম্ভাব্যতার পদক্ষেপে মেট্রিক্স। জার্নাল অফ মেশিন লার্নিং রিসার্চ, 11, 1517-1515আরএক্সিভ: 0907.5309

  • চতুর্ভুজ জেনসেন-রোনি বিচ্যুতি। রনি- এন্ট্রপিকে হিসাবে সংজ্ঞায়িত করা হয়েছে এটির limit সীমাটি শ্যানন এনট্রপি। জেনসেন-রোনি বিচ্যুতি হ'ল যেখানে এবং মধ্যে সমান মিশ্রণকে বোঝায় । দেখা যাচ্ছে যে, যখন এবং যখন এবং গাউসিয়ান মিশ্রণ হয় (যেমন এখানে), আপনি জন্য একটি বদ্ধ ফর্মটি গণনা করতে পারেন । এটি করা হয়েছিলα

    এইচα(পি)=11-αলগ(পি(এক্স)αএক্স)
    α1
    জেআরα(পি,কুই)=এইচα(পি+ +কুই2)-এইচα(পি)+ +এইচα(কুই)2
    পি+ +কুই2পিকুইα=2পিপ্রশ্নঃজেআর2

    ওয়াং, সৈয়দা-মাহমুদ, ভেমুরি, বায়মার, এবং রাঙ্গারাজন (২০০৯)। ক্লোজড-ফর্ম জেনসেন-রেনিই গৌড়ীয়দের মিশ্রণের বিভাজন এবং গ্রুপ-ভিত্তিক আকার নিবন্ধকরণের জন্য অ্যাপ্লিকেশন। মেড ইমেজ কম্পিউট কম্পিউট সহায়তা ইন্টারভ।, 12 (1), 648–655। ( ফ্রি পাবড সংস্করণ )


0

আপনার ক্লাস্টার আসলে হন না গসিয়ান মিশ্রণ কিন্তু ইচ্ছামত আকৃতির আপনার ফলাফলগুলো আসলে অনেক ভালো হতে পারে যখন আপনি আরো অনেক কিছু ক্লাস্টার উত্পাদন তারপর কিছু একত্রীকরণ আবার পরে।

অনেক ক্ষেত্রে, কেউ কেবল কে কে নির্বিচারে উচ্চতর হিসাবে বেছে নেয়, উদাহরণস্বরূপ একটি বড় ডেটা সেটের জন্য 1000; বিশেষত যখন আপনি মডেলগুলির প্রতি সত্যই আগ্রহী নন, তবে কেবল ভেক্টর কোয়ান্টাইজেশন মাধ্যমে ডেটা সেট করা জটিলতা হ্রাস করতে চান।


আমি গুচ্ছ মিশ্রণ থেকে আঁকা ক্লাস্টারগুলি সিমুলেটেড করেছি, তাই আমার ধারণাটি অনুমানযোগ্য valid এখানে লক্ষ্যটি হ'ল জটিলতা হ্রাস করা বা কে বেছে নেওয়ার সিদ্ধান্তের মানদণ্ড নিয়ে আসা নয়, তবে কে প্রকৃতপক্ষে ভুল হলে কে ক্লাস্টারগুলি ডেটা কীভাবে মডেল করে তা তুলনা করা। কিছু ভুল পছন্দ অন্যদের তুলনায় ডেটা আরও ভাল মডেল করতে পারে এবং আমি কিছু গণনা (যেমন কেএল ডাইভার্জেন্স, তবে গাউসিয়ান মিশ্রণের জন্য কার্যকর করা সহজ) এর সাথে এই ডিগ্রিটি মিসফিট করার চেষ্টা করছি।
dmarin

0

ফিশার কার্নেল পদ্ধতি এবং অন্যান্য কৌশলগুলি ব্যবহার করে জিএমএমগুলিতে মহালানোবিস ডি-র একটি সাধারণীকরণ এখানে দেওয়া হয়েছে:

টিপিং, মাইকেল ই। "গাউসিয়ান মিশ্রণ মডেলগুলি থেকে ডেরাইভিং ক্লাস্টার অ্যানালিটিক দূরত্ব ফাংশন।" (1999): 815-820। https://pdfs.semanticscholar.org/08d2/0f55442aeb79edfaaaafa7ad54c513ee1dcb.pdf

আরও দেখুন: মহালানোবিসের দূরত্বের বহু-গাউসীয় সংস্করণ রয়েছে কি?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.