আমি জানি যে কে-মানে ক্লাস্টারিং অ্যালগরিদম এবং কে-মিডিয়ান রয়েছে। একটি ক্লাস্টারের কেন্দ্র হিসাবে গড় ব্যবহার করে এবং অন্যটি মিডিয়ান ব্যবহার করে। আমার প্রশ্ন: কখন / কোথায় কোনটি ব্যবহার করবেন?
আমি জানি যে কে-মানে ক্লাস্টারিং অ্যালগরিদম এবং কে-মিডিয়ান রয়েছে। একটি ক্লাস্টারের কেন্দ্র হিসাবে গড় ব্যবহার করে এবং অন্যটি মিডিয়ান ব্যবহার করে। আমার প্রশ্ন: কখন / কোথায় কোনটি ব্যবহার করবেন?
উত্তর:
কে-মানে-ক্লাস্টারের বৈকল্পিকতা হ্রাস করা হয়, যা ইউক্লিডিয়ান দূরত্বের সমান।
সাধারণভাবে, গাণিতিক মানে এটি করে। এটি দূরত্বগুলি অনুকূল করে না , তবে গড় থেকে স্কোয়ার বিচ্যুতি।
কে-মিডিয়ানরা নিখুঁত বিচ্যুতি হ্রাস করে, যা ম্যানহাটনের দূরত্বের সমান।
সাধারণভাবে, প্রতি-অক্ষের মাঝারিটিকে এটি করা উচিত। এটি বর্গাকারগুলির পরিবর্তে, আপনি যদি নিরঙ্কুশ বিচ্যুতির যোগফলকে সংশ্লেষ করতে চান (তবে যোগ_আইবি অ্যাবস (x_i-y_i)) এর পক্ষে এটি একটি ভাল অনুমানকারী।
এটি নির্ভুলতার বিষয়ে প্রশ্ন নয়। এটি সঠিকতার প্রশ্ন। ;-)
সুতরাং এখানে আপনার সিদ্ধান্ত গাছ:
কিছু ব্যতিক্রম: আমি যতদূর বলতে পারি, কোসাইন মিলকে সর্বাধিকীকরণ করা L2- নরমালাইজড ডেটাতে স্কোয়ার্ড ইউক্লিডিয়ান দূরত্ব হ্রাস করার সাথে সম্পর্কিত। সুতরাং আপনার ডেটা যদি L2 স্বাভাবিক হয়; এবং আপনি প্রতিটি পুনরাবৃত্তি আপনার মাধ্যমকে L2- স্বাভাবিক করুন, তারপরে আপনি আবার কে-মেনস ব্যবহার করতে পারেন।
আপনি যদি চরম মানগুলির সম্ভাব্য প্রভাব সম্পর্কিত নয় তবে বিশ্লেষণ করতে চান তবে আপনি যদি আরও সঠিকভাবে ব্যবহার করতে চান তবে কে মিডিয়ান