কীভাবে সেন্ট্রয়েড সন্ধানের অর্থটি খুঁজে পাওয়া থেকে আলাদা?


26

শ্রেণিবদ্ধ ক্লাস্টারিংয়ের সময়, ক্লাস্টারগুলির মধ্যে দূরত্ব পরিমাপ করতে অনেকে মেট্রিক ব্যবহার করতে পারেন। এই জাতীয় দুটি মেট্রিকগুলি ক্লাস্টারগুলিতে সেন্ট্রয়েড এবং ডেটা পয়েন্টগুলির মাধ্যমের গণনা বোঝায়।

গড় এবং সেন্ট্রয়েডের মধ্যে পার্থক্য কী? গুচ্ছ এ একই পয়েন্ট না?

উত্তর:


38

আমি যতদূর জানি, একটি ক্লাস্টারের "গড়" এবং একটি ক্লাস্টারের সেন্ট্রয়েড একই জিনিস, যদিও "সেন্ট্রয়েড" শব্দটি মাল্টিভারিয়েট ডেটার সাথে লেনদেন করার সময় "গড়" এর চেয়ে কিছুটা সুনির্দিষ্ট হতে পারে।

সেন্ট্রয়েড সন্ধানের জন্য, প্রতিটি মাত্রার জন্য পৃথকভাবে পয়েন্টের অবস্থানগুলির (অঙ্কগুলি) গণনা করা হয়। উদাহরণস্বরূপ, যদি আপনার এখানে পয়েন্ট থাকে:

  • (-1, 10, 3),
  • (0, 5, 2), এবং
  • (1, 20, 10),

তারপরে সেন্ট্রয়েডটি ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3) এ অবস্থিত হবে যা সরল করে (0, 11 2/3, 5)। (এনবি: সেন্ট্রয়েড হতে হবে না - এবং খুব কমই হয় --- মূল ডেটার পয়েন্টগুলির মধ্যে একটি)

সেন্ট্রয়েডকে কখনও কখনও তার দৈহিক ব্যাখ্যার উপর ভিত্তি করে ভর বা ব্যারিসেনটারের কেন্দ্রও বলা হয় (এটি পয়েন্টগুলি দ্বারা সংজ্ঞায়িত কোনও বস্তুর ভর কেন্দ্রে)। গড়ের মতো, সেন্ট্রয়েডের অবস্থান অন্যান্য পয়েন্টগুলি থেকে যোগফলের দূরত্বকে হ্রাস করে।

একটি সম্পর্কিত ধারণা হ'ল মিডিয়াম , যা ডেটা পয়েন্ট যা অন্য সমস্ত ডেটা পয়েন্ট থেকে "কমপক্ষে ভিন্ন"। সেন্ট্রয়েড থেকে পৃথক, মাঝারিটি মূল পয়েন্টগুলির মধ্যে একটি হতে হবে। আপনি জ্যামিতিক মিডিয়ানেও আগ্রহী হতে পারেন যা মিডিয়ানের জন্য বেদনাদায়ক, তবে মাল্টিভারিয়েট ডেটার জন্য। এগুলি উভয়ই সেন্ট্রয়েড থেকে পৃথক।

একজনবিcentroid(একজন)centroid(বি)একটিআমিএকজনDist(একটিআমি,1)Dist(একটিআমি,2)Dist(একটিআমি,এন)


কোন অবস্থার মধ্যে সেন্ট্রয়েড এবং মিডোয়েড একরকম হতে পারে? এবং কেন সেন্ট্রয়েড পয়েন্টের একটি সেট একটি ভাল প্রতিনিধি?
রাইকুমারদীপক

@ ডেকেআর, আপনি আরও (এবং আরও গভীরতার) প্রতিক্রিয়া পেতে এটি একটি নতুন প্রশ্ন হিসাবে বলতে চাইতে পারেন। এটি বলেছিল, পার্থক্যটি দুটি জিনিস পর্যন্ত সিদ্ধ হয়: 1) জিনিসটি হ্রাস করতে হবে (সেন্ট্রয়েডের জন্য স্কোয়ার্ড ডিস্টেন্স / এল 2 আদর্শ, মধ্যবর্তী সময়ের জন্য পরম দূরত্ব / এল 1 আদর্শ) এবং 2) আউটপুট কোনও বিন্দু হতে পারে কিনা (সেন্ট্রয়েড) বা অবশ্যই ডেটা সেটে থাকতে হবে (মধ্যম)। আপনি কেসগুলি কল্পনা করতে পারেন যেখানে সেগুলি একই হবে তবে সাধারণভাবে তারা তা করবে না। সেন্ট্রয়েড একই কারণগুলির জন্য "ভাল" কারণ (পয়েন্টগুলির মধ্যে ক্ষুদ্রতম সমষ্টি-বর্গক্ষেত্রের দূরত্ব) এবং একই রকম ত্রুটিও রয়েছে (যেমন, বহিরাগতদের বিরুদ্ধে দৃ not় নয়)।
ম্যাট ক্রাউস

4

উপরের উত্তরটি ভুল হতে পারে এই ভিডিওটি দেখুন: https://www.youtube.com/watch?v=VMyXc3SiEqs দেখে মনে হচ্ছে গড় ক্লাস্টার 1 এবং ক্লাস্টার 2 এর উপাদানগুলির মধ্যে দূরত্বগুলির সমস্ত সংযোজন যুক্ত করেছে - এটি n ^ 2 টি দূরত্ব একসাথে যুক্ত হয় এবং তারপরে গড়ে n ^ 2 দিয়ে বিভাজক হয়।

সেন্ট্রয়েড পদ্ধতি প্রথমে নিজের মধ্যে প্রতিটি ক্লাস্টারের গড় গণনা করে। তারপরে এটি সেই গড় পয়েন্টগুলির মধ্যে এক দূরত্ব গণনা করে।


1
হাই গাবে! আমার মনে হয় আপনি ভিডিওর এই অংশটি নিয়ে কথা বলছেন ? যতদূর আমি জানি, একক ক্লাস্টারের সেন্ট্রয়েড এবং গড় একই জিনিস তবে আপনি যেমন দেখিয়েছেন, দুটি গুচ্ছের মধ্যবর্তী সেন্ট্রয়েড দূরত্ব এবং গড় দূরত্ব ভিন্ন ব্যবস্থা। আমি ভেবেছিলাম যে ওপি প্রাক্তন সম্পর্কে জিজ্ঞাসা করছে, তবে আমি কেবল পরে সম্পর্কেটি কিছুটা সম্পাদনা করেছি। এটি নির্দেশ করার জন্য ধন্যবাদ (+1) এবং ক্রস ভ্যালিডেটে স্বাগতম!
ম্যাট ক্রাউস

-1

সেন্ট্রয়েড একটি ক্লাস্টারে ডেটা পয়েন্টের গড় হয়, সেন্ট্রয়েড পয়েন্টটি ডেটা সেটে উপস্থাপন করতে হয় না তবে মিডয়েড হ'ল ডেটা পয়েন্ট যা সেন্ট্রয়েডের কাছাকাছি থাকে, মিডিয়োডকে মূল ডেটাতে উপস্থিত থাকতে হয়

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.