স্ট্যান্ডার্ড এবং গোলাকার কে-মানে অ্যালগরিদমের মধ্যে পার্থক্য


28

আমি বুঝতে চাই, স্ট্যান্ডার্ড এবং গোলাকার কে-মানে ক্লাস্টারিং অ্যালগরিদমের মধ্যে প্রধান বাস্তবায়ন পার্থক্য কী।

প্রতিটি পদক্ষেপে, কে-মানে উপাদান ভেক্টর এবং ক্লাস্টার সেন্ট্রয়েডগুলির মধ্যে দূরত্বগুলি গণনা করে এবং এই ক্লাস্টারে নথিটি পুনরায় সাইন করে, যার সেন্ট্রয়েড সবচেয়ে নিকটতম। তারপরে, সমস্ত সেন্ট্রয়েডগুলি পুনরায় সংযুক্ত করা হয়।

গোলাকৃতির কে-উপায়ে, সমস্ত ভেক্টরগুলি স্বাভাবিক করা হয়, এবং দূরত্ব পরিমাপ কোজিনের ভিন্নতা।

এটাই সব, নাকি অন্য কিছু আছে?

উত্তর:


23

প্রশ্ন হচ্ছে:

ধ্রুপদী কে-মাধ্যম এবং গোলাকার কে-মানেগুলির মধ্যে পার্থক্য কী?

ক্লাসিক কে মানে:

ক্লাসিক কে-উপায়ে আমরা ক্লাস্টার সেন্টার এবং ক্লাস্টারের সদস্যদের মধ্যে একটি ইউক্লিডিয়ান দূরত্ব হ্রাস করতে চাই। এর পিছনে স্বজ্ঞাততা হ'ল ক্লাস্টার-কেন্দ্র থেকে উপাদান অবস্থানের রেডিয়াল দূরত্বটি cl ক্লাস্টারের সমস্ত উপাদানগুলির জন্য "একইতা" বা "অনুরূপ" হওয়া উচিত।

অ্যালগরিদমটি হ'ল:

  • ক্লাস্টারের সংখ্যা নির্ধারণ করুন (ওরফে ক্লাস্টার গণনা)
  • ক্লাস্টার সূচকগুলিতে স্থানটিতে এলোমেলোভাবে পয়েন্টগুলি বরাদ্দ করে সূচনা করুন
  • একত্রিত হওয়া পর্যন্ত পুনরাবৃত্তি করুন
    • প্রতিটি পয়েন্টের জন্য নিকটতম ক্লাস্টারটি সন্ধান করুন এবং ক্লাস্টারে পয়েন্ট নির্ধারণ করুন
    • প্রতিটি ক্লাস্টারের জন্য সদস্য পয়েন্ট এবং আপডেট সেন্টারের গড়ের সন্ধান করুন
    • ত্রুটি ক্লাস্টারের দূরত্বের আদর্শ

গোলাকার কে-মানে:

গোলাকৃতির কে-উপায়ে, ধারণাটি প্রতিটি ক্লাস্টারের কেন্দ্রটি এমনভাবে নির্ধারণ করা হয় যে এটি উভয় অভিন্ন এবং উপাদানগুলির মধ্যে ন্যূনতম কোণ তৈরি করে। অন্তর্দৃষ্টিটি তারার দিকে তাকানোর মতো - পয়েন্টগুলির একে অপরের মধ্যে ধারাবাহিক ব্যবধান থাকা উচিত। এই ব্যবধানটি "কোসাইন সাদৃশ্য" হিসাবে পরিমাপ করা সহজ, তবে এর অর্থ এমন কোনও "মিল্কি-ওয়ে" গ্যালাক্সি নেই যা উপাত্তের আকাশ জুড়ে বিশাল উজ্জ্বল স্বাদ তৈরি করে। (হ্যাঁ, আমি বর্ণনার এই অংশে দাদীর সাথে কথা বলার চেষ্টা করছি ))

আরও প্রযুক্তিগত সংস্করণ:

ভেক্টর, যে বিষয়গুলি আপনি গ্রাফিকের সাথে তীর হিসাবে আঁকেন সেগুলি এবং স্থির দৈর্ঘ্যের বিষয়ে চিন্তা করুন। এটি যে কোনও জায়গায় অনুবাদ করা যেতে পারে এবং একই ভেক্টর হতে পারে। সুত্র

এখানে চিত্র বর্ণনা লিখুন

স্থানের বিন্দুটির বিন্যাস (একটি রেফারেন্স লাইন থেকে এর কোণ) লিনিয়ার বীজগণিত বিশেষত ডট পণ্য ব্যবহার করে গণনা করা যেতে পারে।

যদি আমরা সমস্ত ডেটা স্থানান্তর করি যাতে তাদের লেজ একই বিন্দুতে থাকে, আমরা তাদের কোণ দ্বারা "ভেক্টরগুলি" এবং একই জাতীয় গ্রুপকে একটি ক্লাস্টারে গ্রুপ করতে পারি।

এখানে চিত্র বর্ণনা লিখুন

স্বচ্ছতার জন্য, ভেক্টরগুলির দৈর্ঘ্যগুলি মাপানো হয়, যাতে তারা "আইবল" তুলনা করা আরও সহজ হয়।

এখানে চিত্র বর্ণনা লিখুন

আপনি এটিকে নক্ষত্র হিসাবে ভাবতে পারেন। একক ক্লাস্টারের তারা কিছুটা অর্থে একে অপরের কাছাকাছি থাকে। এগুলি আমার চোখের দোল বিবেচিত নক্ষত্রগুলি।

এখানে চিত্র বর্ণনা লিখুন

সাধারণ পদ্ধতির মানটি হ'ল এটি আমাদের ভেক্টরগুলিকে সংক্রামিত করতে দেয় যা অন্যথায় কোনও জ্যামিতিক মাত্রা নেই, যেমন টিএফ-আইডিএফ পদ্ধতিতে, যেখানে নথিগুলিতে ভেক্টরগুলি শব্দ ফ্রিকোয়েন্সি are দুটি "এবং" যুক্ত শব্দ একটি "" এর সমান হয় না। শব্দগুলি অ-অবিচ্ছিন্ন এবং অ-সংখ্যাযুক্ত। তারা জ্যামিতিক দিক থেকে অ-শারীরিক, তবে আমরা এগুলিকে জ্যামিতিকভাবে সাজাতে পারি এবং তারপরে এগুলি পরিচালনা করার জন্য জ্যামিতিক পদ্ধতি ব্যবহার করতে পারি। গোলকের কে-মানে শব্দের উপর ভিত্তি করে ক্লাস্টার ব্যবহার করা যেতে পারে।

[x1y1x2y2group00.80.20130.7316B0.80.10.95240.3639A0.20.30.20610.1434C0.80.10.47870.153B0.70.20.72760.3825A0.90.90.7480.6793C]

কিছু বিষয়:

  • তারা নথির দৈর্ঘ্যের পার্থক্যের জন্য অ্যাকাউন্টে এক ইউনিট গোলকের কাছে প্রজেক্ট করে।

আসুন একটি আসল প্রক্রিয়াটি নিয়ে কাজ করি এবং দেখুন আমার "চোখের ছোঁড়া" কেমন ছিল (খারাপ)।

পদ্ধতিটি হ'ল:

  1. (সমস্যাটিতে অন্তর্ভুক্ত) সংযোগকারী ভেক্টরগুলি মূলতে লেজ থাকে
  2. ইউনিট গোলকের মধ্যে প্রকল্প (নথির দৈর্ঘ্যের পার্থক্যের জন্য অ্যাকাউন্টে)
  3. " কোসাইন ভিন্নতা " হ্রাস করতে ক্লাস্টারিং ব্যবহার করুন

J=id(xi,pc(i))

d(x,p)=1cos(x,p)=x,pxp

(আরও সম্পাদনা শীঘ্রই আসছে)

লিঙ্ক:

  1. http://epub.wu.ac.at/4000/1/paper.pdf
  2. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
  3. http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
  4. https://www.jstatsoft.org/article/view/v050i10
  5. http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
  6. https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf

পাঠ্য ফাইলগুলিতে, আমি মনে করি যে "ডিফ" ফাংশন যা অক্ষরগুলিকে একত্রিত করে, বা ওজনের সাথে পরিবর্তনগুলি নির্দেশ করে, অর্থপূর্ণ ক্লাস্টারিংয়ের উন্নতির জন্য "ঘনিষ্ঠ-একসাথে" পাঠ্যগুলির
প্রিপ্রোসেসিং

আমি # 1 লিঙ্কটিতে "অ্যাক্সেস নিষিদ্ধ" পেয়েছি ( sci.utah.edu/~weiliu/research/clustering_fmri/… )
ডেভিড ডরিয়া

@ ডেভিড - আমিও সর্বদা চলমান ... ইন্টারনেট? এক মুহূর্ত দয়া করে।
এনগ্রিস্টুডেন্ট - মনিকা

1
কিছুটা দ্বিধায় থাকার পরে আমি এই উত্তরটি বর্তমানে ডাউনওয়েট করতে বেছে নিয়েছি। এটি কেবল খুব বেশি "ঠাকুরমা" ব্যাখ্যা নয়, এটি অনর্থক। radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that clusterসোজা ভুল বা ভোঁতা শব্দ। ইন both uniform and minimal the angle between components"উপাদান" সংজ্ঞায়িত করা হয় না। আমি আশা করি আপনি যদি কিছুটা আরও কঠোর এবং প্রসারিত করেন তবে আপনি সম্ভাব্য দুর্দান্ত উত্তরের উন্নতি করতে পারবেন।
ttnphns
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.