কে-মিনস এবং ইএম এর সাথে ক্লাস্টারিং: এগুলি কীভাবে সম্পর্কিত?


50

আমি ক্লাস্টারিং ডেটার জন্য অ্যালগরিদমগুলি অধ্যয়ন করেছি (নিরীক্ষণযোগ্য শিক্ষণ): ইএম এবং কে-মানে। আমি নিম্নলিখিত পড়তে থাকি:

ক্লোস্টারগুলি গোলাকার বলে অনুমান করে কে-মানে ইএম এর একটি বৈকল্পিক।

কেউ কি উপরের বাক্যটি ব্যাখ্যা করতে পারেন? গোলাকৃতির অর্থ কী, এবং কীমান এবং ইএম কীভাবে সম্পর্কিত তা আমি বুঝতে পারি না, যেহেতু একটি সম্ভাব্য কার্যনির্বাহী কার্য সম্পাদন করে এবং অপরটি নির্জনবাদী উপায়ে এটি করে।

এছাড়াও, কোন পরিস্থিতিতে কে-ই মানে ক্লাস্টারিং ব্যবহার করা ভাল? অথবা ইএম ক্লাস্টারিং ব্যবহার করবেন?


গোলাকৃতির অর্থ প্রতিটি ক্লাস্টারের জন্য অভিন্ন বৈকল্পিক-কোভেরিয়েন্স ম্যাট্রিকেস (গাউসিয়ান বিতরণ অনুমান করে), যা মডেল-ভিত্তিক ক্লাস্টারিং নামেও পরিচিত। আপনি কোন পদ্ধতির প্রতিরোধমূলক হিসাবে বিবেচনা করেন?
chl

2
প্রশংসার উত্সটি দিলে ভাল লাগবে।
ttnphns

1
কে-এর অর্থ "ধরে নেওয়া হয়" যে ক্লাস্টারগুলি কমবেশি বৃত্তাকার এবং শক্ত (ভারী প্রসারিত বা বাঁকা বা কেবল রঙিত নয়) ইউক্যালিডীয় স্থানের মেঘ। এগুলি সাধারণ বিতরণ থেকে আসা প্রয়োজন হয় না । EM এর এটির প্রয়োজন নেই (বা কমপক্ষে নির্দিষ্ট ধরণের বিতরণটি জানা উচিত)।
ttnphns

উত্তর:


38

কে মানে

  1. কনভার্ভেশনে একটি নির্দিষ্ট ক্লাস্টারে হার্ড ডেটা পয়েন্ট বরাদ্দ করুন।
  2. অপ্টিমাইজ করার সময় এটি এল 2 আদর্শ ব্যবহার করে (ন্যূনতম} থেটা} এল 2 আদর্শ পয়েন্ট এবং এর সেন্ট্রয়েড স্থানাঙ্ক)।

ই.এম.

  1. সফট ক্লাস্টারগুলিকে একটি বিন্দু বরাদ্দ করে (তাই এটি কোনও সেন্ট্রয়েডের সাথে সম্পর্কিত কোনও বিন্দুতে সম্ভাব্যতা দেয়)।
  2. এটি L2 আদর্শের উপর নির্ভর করে না, তবে এটি প্রত্যাশার উপর নির্ভর করে, যেমন একটি নির্দিষ্ট ক্লাস্টারের অন্তর্গত পয়েন্টের সম্ভাবনা। এটি গোলকের ক্লাস্টারের দিকে কে-মানে পক্ষপাতদুষ্ট করে তোলে।

57

এখানে "কে-মানে অ্যালগরিদম" নেই। কে-মানেগুলির জন্য ম্যাককিউনস অ্যালগরিদম রয়েছে, কে-মানেগুলির জন্য লয়েড / ফোরজি অ্যালগরিদম, হারটিগান-ওয়াং পদ্ধতি, ...

"ইএম-অ্যালগরিদমও নেই"। সম্ভাবনাগুলি বারবার প্রত্যাশা করা এবং তারপরে মডেলটি সর্বাধিক করে তোলার এটি একটি সাধারণ স্কিম। ইএম এর সর্বাধিক জনপ্রিয় রূপটি "গাউসিয়ান মিকচার মডেলিং" (জিএমএম) নামেও পরিচিত, যেখানে মডেলটি মাল্টিভারেট গাউসীয় বিতরণ।

লয়েডস অ্যালগরিদমকে দুটি পদক্ষেপ নিয়ে গঠিত বিবেচনা করতে পারেন:

  • ই-পদক্ষেপ, যেখানে প্রতিটি বস্তু সেন্ট্রয়েডকে এমনভাবে বরাদ্দ করা হয় যা এটি সম্ভবত সম্ভাব্য ক্লাস্টারে নির্ধারিত হয়।
  • এম-পদক্ষেপ, যেখানে মডেল (= সেন্ট্রয়েড) পুনরায় সংযুক্ত করা হয় (= সর্বনিম্ন স্কোয়ার অপ্টিমাইজেশন)।

... লয়েডের মতো এই দুটি পদক্ষেপের পুনরাবৃত্তি এটিকে কার্যকরভাবে সাধারণ ইএম স্কিমের উদাহরণ হিসাবে তৈরি করে। এটি জিএমএম থেকে পৃথক যে:

  • এটি হার্ড পার্টিশন ব্যবহার করে, অর্থাৎ প্রতিটি বস্তু ঠিক একটি ক্লাস্টারে নির্ধারিত হয়
  • মডেলটি কেবল সেন্ট্রয়েড, কোনও সমবায় বা রূপগুলি বিবেচনায় নেওয়া হয় না

আপনি মিনসের রূপগুলিতে কিছুটা বিকাশ করতে পারেন ? আমি পরিসংখ্যানগত শিক্ষার উপাদানগুলি (হাসিটি, তিবশিরানী, ফ্রেডম্যান), অধ্যায় 14 এ এক ঝলক পেয়েছি ... তারা " মীনস অ্যালগরিদম" এর অস্তিত্বের ধারণাকে সমর্থন করে । কেkk
এলভিস

10
লয়েডস অ্যালগরিদম সহ অনেকগুলি বই সমান কে-মানে, তবে তিনি কখনই এটিকে কে-মানে বলেননি। ম্যাকউউইন নামটি কে-মানে উপস্থাপন করেছে। দুঃখিত: অনেক বই এখানে ভুল নামকরণ ব্যবহার করে । কে-মানে সমস্যা হ'ল লয়েড কেবল একটি জনপ্রিয় সমাধান। আসলে, আর কমিয়ানদের সমাধানের জন্য ডিফল্টভাবে হার্টিগান-ওয়াং চালাবে।
অ্যানি-মৌসে

4

এখানে একটি উদাহরণ রয়েছে, যদি আমি এমপিপ্লাসে এটি করতাম, যা সহায়ক হতে পারে এবং আরও বিস্তৃত উত্তরগুলির প্রশংসা করতে পারে:

বলুন আমার কাছে 3 ধারাবাহিক ভেরিয়েবল রয়েছে এবং এগুলির উপর ভিত্তি করে ক্লাস্টারগুলি সনাক্ত করতে চাই। শর্তসাপেক্ষে স্বাধীনতা (পর্যবেক্ষিত ভেরিয়েবলগুলি স্বতন্ত্র, ক্লাস্টারের সদস্যপদ প্রাপ্তি) ধরে ধরে আমি একটি মিশ্রণ মডেল (এই ক্ষেত্রে আরও স্পষ্টতই একটি প্রচ্ছন্ন প্রোফাইল মডেল) উল্লেখ করব:

Model: 
%Overall%
v1* v2* v3*;  ! Freely estimated variances
[v1 v2 v3];   ! Freely estimated means

আমি এই মডেলটি একাধিকবার চালাব, প্রতিটি সময় বিভিন্ন সংখ্যক ক্লাস্টার নির্দিষ্ট করেছিলাম এবং আমার সবচেয়ে বেশি পছন্দ হওয়া সমাধানটি বেছে নিতে পারি (এটি করার জন্য এটি নিজেরাই একটি বিস্তৃত বিষয়)।

এরপরে কে-অর্থ চালাতে, আমি নিম্নলিখিত মডেলটি নির্দিষ্ট করব:

Model: 
%Overall%
v1@0 v2@0 v3@0;  ! Variances constrained as zero
[v1 v2 v3];      ! Freely estimated means

সুতরাং শ্রেণি সদস্যপদ কেবল পর্যবেক্ষণযোগ্য ভেরিয়েবলগুলির মাধ্যমের দূরত্বের ভিত্তিতে। অন্যান্য প্রতিক্রিয়াগুলিতে যেমন বলা হয়েছে, রূপগুলির এর সাথে কোনও সম্পর্ক নেই।

এমপ্লাসে এটি করার জন্য দুর্দান্ত জিনিসটি হ'ল এগুলি নেস্টেড মডেল এবং সুতরাং দুটি পদ্ধতির মধ্যে শ্রেণিবিন্যাসের ক্ষেত্রে বিভেদকে তুলনা করতে সক্ষম হওয়া ছাড়াও যদি আপনি বাধাগুলি আরও খারাপ ফিট করে তবে আপনি সরাসরি পরীক্ষা করতে পারেন। এই উভয় মডেল, যাইহোক, একটি EM অ্যালগরিদম ব্যবহার করে অনুমান করা যায়, তাই মডেলটি সম্পর্কে পার্থক্যটি আরও বেশি।

যদি আপনি 3-ডি স্পেসে ভাবেন, তবে 3 টি মানে একটি বিন্দু তৈরি করুন ... এবং বিন্দুটির মধ্য দিয়ে চলমান একটি উপবৃত্তের তিনটি অক্ষের রূপগুলি। তিনটি রূপই যদি একই হয় তবে আপনি একটি গোলক পাবেন।


এই উদাহরণের জন্য আপনাকে ধন্যবাদ। এটি কিছু ধারণা ঠিক করতে অনেক সহায়তা করে।
ময়না 21
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.