যদি কে-মানে ক্লাস্টারিং গাউসিয়ান মিশ্রণ মডেলিংয়ের একটি রূপ, ডেটা স্বাভাবিক না থাকে তখন কী এটি ব্যবহার করা যেতে পারে?


21

আমি GM GM এর জন্য ইএম অ্যালগরিদমের উপর বিশপ পড়ছি এবং জিএমএম এবং কে-অর্থের মধ্যে সম্পর্কের।

এই বইতে এটি বলেছে যে কে-মানে জিএমএম এর একটি হার্ড অ্যাসাইন সংস্করণ। আমি ভাবছি কি এর দ্বারা বোঝা যায় যে আমি যে ডেটা ক্লাস্টার করার চেষ্টা করছি তা যদি গাউসিয়ান না হয় তবে আমি কে-মানে ব্যবহার করতে পারি না (বা কমপক্ষে এটি ব্যবহারের পক্ষে উপযুক্ত নয়)? উদাহরণস্বরূপ, যদি ডেটা হস্তাক্ষর অঙ্কের চিত্র হয়, যার মধ্যে 0 বা 1 মান সহ 8 * 8 পিক্সেল থাকে (এবং তারা স্বাধীন হয় তবে এটি বার্নোলির মিশ্রণ হওয়া উচিত)?

আমি এটি সম্পর্কে কিছুটা বিভ্রান্ত হয়েছি এবং যে কোনও ধারণার প্রশংসা করব।


2
আপনি যদি জিজ্ঞাসা করছেন যে এটি নন-নরমাল ডেটাতে কে-মানে ক্লাস্টারিং করা বৈধ কিনা, উত্তরটি হ্যাঁ যদি ডেটা অবিচ্ছিন্ন বলে ধরে নেওয়া হয়। বাইনারি ডেটা অবিচ্ছিন্ন নয়। কিছু লোকেরা এই জাতীয় ডেটাতে কে-মানে করেন যা কোন জিনিসটি উচ্চতর বৈধভাবে অনুমোদিত, তবে তাত্ত্বিকভাবে অবৈধ।
ttnphns

কে-মানেগুলির জন্য কোনও সম্ভাবনার মডেল নেই তাই অকার্যকর করার কোনও স্বাভাবিকতা অনুমান নেই। (এর অর্থ এটি ভালভাবে কাজ করবে না)
অনুমান

1
@ ধারণাগুলি হুঁ ... তবে কে-মেনাসগুলি জিএমএম এর সমতুল্য, এবং জিএমএম সাধারণ অনুমান করে।
eddie.xie

আপনার উত্তরের জন্য ধন্যবাদ! সুতরাং আমি অনুমান করি যে আমি যদি স্কোরগুলিতে পাঠ্য স্থানান্তর করতে এবং এটি অবিচ্ছিন্ন করতে টিএফ-আইডিএফ ব্যবহার করি তবে আমি আবেদন করতে পারি এবং এটি বৈধ?
eddie.xie

আমি হঠাৎ বুঝতে পারলাম যে জিএমএম কয়েক গাউসিয়ান মিশ্রণ (যোগফল) এবং এটি যথেষ্ট পরিমাণ মিশ্রণ দেয় যা বিতরণই প্রকাশ করতে সক্ষম হওয়া উচিত। সুতরাং, এমনকি জিএমএম এবং কে-অর্থ সমতুল্য হ'ল কে-মানে অ-সাধারণ ডেটা ব্যবহার করতে পারে না কারণ জিএমএম যা-ই হোক না কেন বিতরণ প্রকাশ করতে পারে। এটা কি ঠিক?
এডি.এক্সি

উত্তর:


20

সাধারণ ইএম জিএমএম পরিস্থিতিতে, কেউ বৈচিত্র্য এবং সমবায়ুকে বিবেচনা করে। এটি কে-উপায়ে করা হয় না।

তবে প্রকৃতপক্ষে, কে-ইস্যুগুলির জন্য অন্যতম জনপ্রিয় হিউরিস্টিক্স (দ্রষ্টব্য: কে-মানে একটি সমস্যা, একটি অ্যালগরিদম নয়) - লয়েড অ্যালগরিদম মূলত একটি ইএম অ্যালগরিদম, সেন্ট্রয়েড মডেল (ভিন্নতা ছাড়াই) এবং হার্ড অ্যাসাইনমেন্ট ব্যবহার করে।

কে-মানে স্টাইল ক্লাস্টারিং করার সময় (যেমন ভেরিয়েন্স মিনিমাইজেশন), আপনি

  • কাকতালীয়ভাবে স্কোয়ারড ইউক্লিডিয়ান দূরত্ব হ্রাস করুন, কারণ ডাব্লুসিএসএস (স্কোয়ারের ক্লাস্টারের যোগফল) ভেরিয়েন্স অবদান = স্কোয়ারড ইউক্যালিডিয়ান দূরত্ব
  • কাকতালীয়ভাবে ইউক্লিডিয়ান দূরত্ব দ্বারা নিকটতম ক্লাস্টারে অবজেক্টগুলি অর্পণ করুন, কারণ স্কয়ার্ট ফাংশনটি একঘেয়েমি (লক্ষ্য করুন যে গড়টি ইউক্যালিডিয়ান দূরত্বকে অনুকূল করে না , তবে ডাব্লুসিএসএস ফাংশন)
  • শুধুমাত্র সেন্ট্রয়েড ব্যবহার করে ক্লাস্টার উপস্থাপন করুন
  • ভোরোনাই সেল আকৃতির ক্লাস্টারগুলি, অর্থাৎ বহুভুজগুলি পান
  • এটি গোলাকার ক্লাস্টারগুলির সাথে সেরা কাজ করে

argminSi=1kxjSid=1D(xjdμid)2
S={S1Sk}kDxjd

এটি সাধারণত বলা হয় যে কে-মানে গোলাকার ক্লাস্টারগুলি ধরে নেয়। এটিও সাধারণভাবে স্বীকৃত যে কে-মানে ক্লাস্টারগুলি ভোরোনাই কোষ, অর্থাৎ গোলাকার নয়। উভয়ই সঠিক, এবং উভয়ই ভুল। প্রথমত, ক্লাস্টারগুলি সম্পূর্ণ ভোরোনাই কোষ নয়, তবে এটির মধ্যে কেবলমাত্র পরিচিত বস্তু। ক্লাস্টারদের মধ্যে যে কোনও ক্লাস্টারের অংশ হিসাবে মৃত স্থান বিবেচনা করার দরকার নেই, কারণ সেখানে কোনও বস্তু থাকার ফলে অ্যালগোরিদমের ফলাফলকে প্রভাবিত করবে। তবে একে "গোলাকৃতির" বলা আরও বেশি ভাল নয়, কারণ ইউক্যালিডিয়ান দূরত্বটি গোলাকৃতির। কে-মানে ইউক্লিডিয়ান দূরত্ব সম্পর্কে চিন্তা করে না। এটি হ'ল রূপগুলি হ্রাস করার জন্য একটি উপাস্য । এবং এটি আসলে, আপনার কে-কে বিবেচনা করা উচিত: ভেরিয়েন্স হ্রাস min


আরও নির্ভুলতার জন্য - আপনাকে আপনাকে কিছু অভিব্যক্তি কিছুটা পরিমার্জন করার পরামর্শ দিই। উদাহরণস্বরূপ, কি minimize squared euclidean distanceবা হয় minimize the variances? এখানে "যোগফল" বা "পুলড" বা এরকম শব্দ থাকতে হবে, কারণ আমাদের 2+ টি ক্লাস্টার আছে তাই না?
ttnphns

বিটিডাব্লু, যেহেতু কে-মানে পুল led 2 এর ক্লাস্টারের মধ্যে স্ব-স্তরের ক্লাস্টারের অবজেক্টের সংখ্যা দ্বারা বিভক্ত হ্রাস করেছে, তাই আপনার বক্তব্যটি coincidentally minimize Euclidean distance, because the sqrt function is monotoneসঠিক, সঠিক নয়।
ttnphns

যথাযথ উদ্দেশ্যমূলক ফাংশন, যার জন্য আপনি রূপান্তর প্রমাণ করতে পারেন, তা হ'ল ডাব্লুসিএসএস, ক্লাসারের সম -অফ-স্কোয়ারগুলির মধ্যে । এবং প্রকৃতপক্ষে, এটি ইউক্লিডিয়ান দূরত্বকে হ্রাস করে না, তবে এটি নিকটতম সেন্ট্রয়েড-বাই-ইউক্লিডিয়ান দূরত্বও ডাব্লুসিএসএস অনুকূল কার্যভার।
অ্যানি-মৌসে-রিনস্টেট মনিকা

আপনার কথাটি দুর্ভাগ্যজনকভাবে সন্দেহজনক রয়ে গেছে । বাক্যাংশটির minimize squared Euclidean distance, because WCSS variance contribution = squared euclidean distance অর্থ কী ? আপনি কি এই বলে "স্কোয়ারড ডি এর মধ্যে বস্তু ক্লাস্টার মধ্যে কমিয়ে আনা পেতে কারণ ডেভিয়েশন WCSS মিনিমাইজ করুন", বা শুধু "ডেভিয়েশন WCSS কমিয়ে আনা পেতে, যা - - বিচ্যুতি হয় প্রকৃতি দ্বারা ইউক্লিডিয় দুরুত্ব"? নাকি স্মেথ?
ttnphns

1
স্পষ্টতই, আপনি যদি আপনার ডেটার একটি সেন্ট্রয়েড মডেল চান তবে কে-মানেগুলি ভাল পছন্দ। আপনি যদি জোড়ের দিক থেকে দূরত্বগুলি অনুকূল করতে চান তবে শ্রেণিবদ্ধ ক্লাস্টারিং ব্যবহার করুন।
অ্যানি-মাউস-রিনিস্টেট মনিকা

8

জিএমএম ওভারল্যাপিং পাহাড়গুলি ব্যবহার করে যা অনন্তকে প্রসারিত করে (তবে কার্যত কেবলমাত্র 3 সিগমা হিসাবে গণনা করা হয়)। প্রতিটি পয়েন্ট সমস্ত পাহাড়ের সম্ভাবনার স্কোর পায়। এছাড়াও, পাহাড়গুলি "ডিমের আকারের" [ঠিক আছে, তারা প্রতিসাম্বিত উপবৃত্তাকার ] এবং সম্পূর্ণ কোভারিয়েন্স ম্যাট্রিক্স ব্যবহার করে কাত হয়ে যেতে পারে ।

কে-মানে হার্ড- একক ক্লাস্টারে একটি পয়েন্ট নির্ধারণ করে , তাই অন্যান্য ক্লাস্টার কেন্দ্রগুলির স্কোরগুলি উপেক্ষা করা হয় (স্পষ্টতই শূন্যে পুনরায় সেট করা হয় / যত্ন নেয় না)। পাহাড়গুলি গোলাকার সাবান বুদবুদ। যেখানে দুটি সাবান বুদবুদ স্পর্শ করে, তাদের মধ্যে সীমানা একটি সমতল (হাইপার-) বিমান হয়ে যায়। আপনি যখন অনেক সাবান বুদবুদগুলির ফেনা ফুঁকান, ঠিক তেমনই অভ্যন্তরের বুদবুদ সমতল নয় তবে বাক্সিক হয়, তাই অনেকগুলি (হাইপার) গোলকের মধ্যবর্তী সীমানাগুলি আসলে স্থানটির একটি ভারোণোয় বিভাজন গঠন করে। 2 ডি-তে, এটি ষড়ভুজ ঘনিষ্ঠ-প্যাকিংয়ের মতো অস্পষ্টভাবে দেখতে দেখায়, একটি মৌমাছি-মধুচক্র মনে করে (যদিও অবশ্যই ভোরোনাই কোষগুলি হেক্সাগন হওয়ার নিশ্চয়তা নেই)। একটি কে-মানে পাহাড়টি গোলাকার এবং কাত হয়ে পড়ে না, সুতরাং এর প্রতিনিধিত্ব শক্তি কম; তবে এটি গণনা করা আরও দ্রুত, বিশেষত উচ্চতর মাত্রায়।

যেহেতু কে-ই ইউক্লিডিয়ান দূরত্বের মেট্রিক ব্যবহার করে, এটি ধরে নিয়েছে যে মাত্রাগুলি তুলনীয় এবং সমান ওজনের। সুতরাং যদি মাত্রা X এর প্রতি ঘণ্টায় মাইল একক থাকে, 0 থেকে 80 এর মধ্যে পৃথক, এবং ডাইমেনশন ওয়াই এর একক পাউন্ড রয়েছে, 0 থেকে 400 এর মধ্যে পৃথক, এবং আপনি এই XY স্পেসে চেনাশোনাগুলি ফিট করছেন, তবে একটি মাত্রা (এবং এর বিস্তার) অন্যান্য মাত্রার চেয়ে আরও শক্তিশালী হতে চলেছে এবং ফলাফলগুলি ছায়া নেবে। এই কারণেই কে-উপায় গ্রহণের সময় ডেটা স্বাভাবিক করার প্রথাগত ।

জিএমএম এবং কে-উভয়ই যা দেওয়া হয়েছে তার সর্বোত্তম অনুমানের মধ্যে ফিট করে ডেটা মডেল করে। জিএমএম টিল্টড ডিম ফিট করে এবং কে-মানে প্রান্তিক গোলকগুলি ফিট করে। তবে অন্তর্নিহিত ডেটা যে কোনও আকারের মতো আকারের হতে পারে, এটি সর্পিল বা পিকাসো চিত্রকর্ম হতে পারে এবং প্রতিটি অ্যালগোরিদম এখনও চলতে পারে এবং এর সেরা শট নিতে পারে। ফলাফলের মডেলটি প্রকৃত ডেটার মতো কিছু দেখায় কি না তা ডেটা উত্পন্ন করার অন্তর্নিহিত শারীরিক প্রক্রিয়ার উপর নির্ভর করে। (উদাহরণস্বরূপ, সময়-বিলম্বের পরিমাপগুলি একতরফা; কোনও গাউসিয়ান কি ভাল ফিট? সম্ভবত))

Rএন

সুতরাং আপনার 8x8 বাইনারি চিত্রটি প্রথম হাইপারকোয়াড্রেন্টে একটি 64-মাত্রিক হাইপারকিউব হিসাবে বিবেচিত হতে চলেছে। এরপরে অ্যালগরিদমগুলি ক্লাস্টারগুলি সন্ধান করতে জ্যামিতিক উপমা ব্যবহার করে। কে-মানে সহ দূরত্ব 64৪-মাত্রিক স্থানে ইউক্লিডিয়ান দূরত্ব হিসাবে দেখায়। এটি করার এক উপায়।


নোট দুটি অ্যালগরিদমগুলি স্পষ্টতই ধরে নিচ্ছে যে স্পেস অক্ষগুলি সমস্ত পয়েন্টে সমানভাবে ঘন, সুতরাং তাত্পর্যপূর্ণভাবে, লগারিদমিকভাবে ফিট করা বা সাইনাসয়েডলি-পরিবর্তিত ডেটা সাধারণত প্রাক-রূপান্তর থেকে উপাত্তটিকে প্রায়-লিনিয়ার-পরিবর্তিত ডোমেনে পুনরায় তৈরি করতে উপকৃত হয়।
ড্রাগনলর্ড
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.