কে-মানে বনাম কে-মিডিয়ান?


14

আমি জানি যে কে-মানে ক্লাস্টারিং অ্যালগরিদম এবং কে-মিডিয়ান রয়েছে। একটি ক্লাস্টারের কেন্দ্র হিসাবে গড় ব্যবহার করে এবং অন্যটি মিডিয়ান ব্যবহার করে। আমার প্রশ্ন: কখন / কোথায় কোনটি ব্যবহার করবেন?


আপনার যদি একাধিক মাত্রা থাকে তবে আপনাকে মিডিয়ানগুলি সংজ্ঞায়িত করতে হবে (এবং সম্ভবত সেগুলি গণনা করুন); আপনি যদি প্রতিটি মানটিতে কেবল মধ্যমা গ্রহণ করেন তবে আপনি ঘূর্ণন সংক্রান্ত বৈশিষ্ট্য হারাবেন। আরও সম্ভাবনা হ'ল কে- মেডয়েডস
হেনরি

উত্তর:


14

কে-মানে-ক্লাস্টারের বৈকল্পিকতা হ্রাস করা হয়, যা ইউক্লিডিয়ান দূরত্বের সমান।

সাধারণভাবে, গাণিতিক মানে এটি করে। এটি দূরত্বগুলি অনুকূল করে না , তবে গড় থেকে স্কোয়ার বিচ্যুতি।

কে-মিডিয়ানরা নিখুঁত বিচ্যুতি হ্রাস করে, যা ম্যানহাটনের দূরত্বের সমান।

সাধারণভাবে, প্রতি-অক্ষের মাঝারিটিকে এটি করা উচিত। এটি বর্গাকারগুলির পরিবর্তে, আপনি যদি নিরঙ্কুশ বিচ্যুতির যোগফলকে সংশ্লেষ করতে চান (তবে যোগ_আইবি অ্যাবস (x_i-y_i)) এর পক্ষে এটি একটি ভাল অনুমানকারী।

এটি নির্ভুলতার বিষয়ে প্রশ্ন নয়। এটি সঠিকতার প্রশ্ন। ;-)

সুতরাং এখানে আপনার সিদ্ধান্ত গাছ:

  • যদি আপনার দূরত্বটি ইউক্লিডিয়ান দূরত্ব বর্গক্ষেত্র হয় তবে কে-উপায় ব্যবহার করুন
  • যদি আপনার দূরত্ব ট্যাক্সিক্যাব মেট্রিক হয় তবে কে-মিডিয়ান ব্যবহার করুন
  • আপনার যদি অন্য কোনও দূরত্ব থাকে তবে কে-মেডোইডগুলি ব্যবহার করুন

কিছু ব্যতিক্রম: আমি যতদূর বলতে পারি, কোসাইন মিলকে সর্বাধিকীকরণ করা L2- নরমালাইজড ডেটাতে স্কোয়ার্ড ইউক্লিডিয়ান দূরত্ব হ্রাস করার সাথে সম্পর্কিত। সুতরাং আপনার ডেটা যদি L2 স্বাভাবিক হয়; এবং আপনি প্রতিটি পুনরাবৃত্তি আপনার মাধ্যমকে L2- স্বাভাবিক করুন, তারপরে আপনি আবার কে-মেনস ব্যবহার করতে পারেন।


আমি কিছুটা বিবৃতি দিয়ে বিষয়টি গ্রহণ করি যে মধ্যযন্ত্রটি ম্যানহাটনের দূরত্বকে হ্রাস করে, যেহেতু বহুমাত্রিক তথ্যের জন্য কোনও মিডিয়ানের ধারণা সম্পর্কে কোনও অনন্য সম্মতি নেই। এটি মিথ্যা নয়, তবে বহুমাত্রিক প্রসঙ্গে এটি একটি বিভ্রান্তিমূলক বক্তব্য খুঁজে পেয়েছি। মিডিয়ানদের একাধিক বহুমাত্রিক সাধারণীকরণ রয়েছে, যার অনেকেরই ম্যানহাটনের দূরত্ব হ্রাস করার কোনও সংযোগ নেই।
টিম সেগুইন

1
আমি এটিকে প্রতি-অক্ষের মিডিয়ানে পরিবর্তন করি। আমি আশা করি আপনি এখন সুখী।
কিউইট আছে - অ্যানি-মাউস

2

আপনি যদি চরম মানগুলির সম্ভাব্য প্রভাব সম্পর্কিত নয় তবে বিশ্লেষণ করতে চান তবে আপনি যদি আরও সঠিকভাবে ব্যবহার করতে চান তবে কে মিডিয়ান


5
আপনি কি কোনওভাবেই এই প্রতিবেদনের সমর্থন এবং / বা ব্যাখ্যা করতে পারেন?
জোনা

হ্যাঁ আপনি আরও বিস্তারিত বলতে পারেন দয়া করে? উদাহরণ দিয়ে?
জ্যাক টোয়াইন

2
আমি মনে করি এটি কারণ "মিডিয়ান" বহিরাগতদের সহ্য করতে পারে তবে "মিডিন" তাদের দ্বারা সম্পূর্ণভাবে প্রভাবিত হয়। উদাহরণস্বরূপ: যদি আমাদের কাছে ডেটা পয়েন্ট থাকে তবে 2 1,2,3,5,78} এটি সুস্পষ্ট যে 78৮ আউটরিয়ার। এই ডেটার মধ্যস্থতা 3 এবং গড় 17.8 হয়। সুতরাং মধ্যমা হ'ল এই ডেটা সংক্ষিপ্ত করার সর্বোত্তম উপায়।
ফাদওয়া
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.