প্রশ্ন হচ্ছে:
ধ্রুপদী কে-মাধ্যম এবং গোলাকার কে-মানেগুলির মধ্যে পার্থক্য কী?
ক্লাসিক কে মানে:
ক্লাসিক কে-উপায়ে আমরা ক্লাস্টার সেন্টার এবং ক্লাস্টারের সদস্যদের মধ্যে একটি ইউক্লিডিয়ান দূরত্ব হ্রাস করতে চাই। এর পিছনে স্বজ্ঞাততা হ'ল ক্লাস্টার-কেন্দ্র থেকে উপাদান অবস্থানের রেডিয়াল দূরত্বটি cl ক্লাস্টারের সমস্ত উপাদানগুলির জন্য "একইতা" বা "অনুরূপ" হওয়া উচিত।
অ্যালগরিদমটি হ'ল:
- ক্লাস্টারের সংখ্যা নির্ধারণ করুন (ওরফে ক্লাস্টার গণনা)
- ক্লাস্টার সূচকগুলিতে স্থানটিতে এলোমেলোভাবে পয়েন্টগুলি বরাদ্দ করে সূচনা করুন
- একত্রিত হওয়া পর্যন্ত পুনরাবৃত্তি করুন
- প্রতিটি পয়েন্টের জন্য নিকটতম ক্লাস্টারটি সন্ধান করুন এবং ক্লাস্টারে পয়েন্ট নির্ধারণ করুন
- প্রতিটি ক্লাস্টারের জন্য সদস্য পয়েন্ট এবং আপডেট সেন্টারের গড়ের সন্ধান করুন
- ত্রুটি ক্লাস্টারের দূরত্বের আদর্শ
গোলাকার কে-মানে:
গোলাকৃতির কে-উপায়ে, ধারণাটি প্রতিটি ক্লাস্টারের কেন্দ্রটি এমনভাবে নির্ধারণ করা হয় যে এটি উভয় অভিন্ন এবং উপাদানগুলির মধ্যে ন্যূনতম কোণ তৈরি করে। অন্তর্দৃষ্টিটি তারার দিকে তাকানোর মতো - পয়েন্টগুলির একে অপরের মধ্যে ধারাবাহিক ব্যবধান থাকা উচিত। এই ব্যবধানটি "কোসাইন সাদৃশ্য" হিসাবে পরিমাপ করা সহজ, তবে এর অর্থ এমন কোনও "মিল্কি-ওয়ে" গ্যালাক্সি নেই যা উপাত্তের আকাশ জুড়ে বিশাল উজ্জ্বল স্বাদ তৈরি করে। (হ্যাঁ, আমি বর্ণনার এই অংশে দাদীর সাথে কথা বলার চেষ্টা করছি ))
আরও প্রযুক্তিগত সংস্করণ:
ভেক্টর, যে বিষয়গুলি আপনি গ্রাফিকের সাথে তীর হিসাবে আঁকেন সেগুলি এবং স্থির দৈর্ঘ্যের বিষয়ে চিন্তা করুন। এটি যে কোনও জায়গায় অনুবাদ করা যেতে পারে এবং একই ভেক্টর হতে পারে। সুত্র
স্থানের বিন্দুটির বিন্যাস (একটি রেফারেন্স লাইন থেকে এর কোণ) লিনিয়ার বীজগণিত বিশেষত ডট পণ্য ব্যবহার করে গণনা করা যেতে পারে।
যদি আমরা সমস্ত ডেটা স্থানান্তর করি যাতে তাদের লেজ একই বিন্দুতে থাকে, আমরা তাদের কোণ দ্বারা "ভেক্টরগুলি" এবং একই জাতীয় গ্রুপকে একটি ক্লাস্টারে গ্রুপ করতে পারি।
স্বচ্ছতার জন্য, ভেক্টরগুলির দৈর্ঘ্যগুলি মাপানো হয়, যাতে তারা "আইবল" তুলনা করা আরও সহজ হয়।
আপনি এটিকে নক্ষত্র হিসাবে ভাবতে পারেন। একক ক্লাস্টারের তারা কিছুটা অর্থে একে অপরের কাছাকাছি থাকে। এগুলি আমার চোখের দোল বিবেচিত নক্ষত্রগুলি।
সাধারণ পদ্ধতির মানটি হ'ল এটি আমাদের ভেক্টরগুলিকে সংক্রামিত করতে দেয় যা অন্যথায় কোনও জ্যামিতিক মাত্রা নেই, যেমন টিএফ-আইডিএফ পদ্ধতিতে, যেখানে নথিগুলিতে ভেক্টরগুলি শব্দ ফ্রিকোয়েন্সি are দুটি "এবং" যুক্ত শব্দ একটি "" এর সমান হয় না। শব্দগুলি অ-অবিচ্ছিন্ন এবং অ-সংখ্যাযুক্ত। তারা জ্যামিতিক দিক থেকে অ-শারীরিক, তবে আমরা এগুলিকে জ্যামিতিকভাবে সাজাতে পারি এবং তারপরে এগুলি পরিচালনা করার জন্য জ্যামিতিক পদ্ধতি ব্যবহার করতে পারি। গোলকের কে-মানে শব্দের উপর ভিত্তি করে ক্লাস্টার ব্যবহার করা যেতে পারে।
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢x10−0.80.20.8−0.70.9y1−0.80.10.30.10.20.9x2−0.2013−0.95240.20610.4787−0.72760.748y2−0.73160.3639−0.14340.1530.38250.6793groupBACBAC⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
কিছু বিষয়:
- তারা নথির দৈর্ঘ্যের পার্থক্যের জন্য অ্যাকাউন্টে এক ইউনিট গোলকের কাছে প্রজেক্ট করে।
আসুন একটি আসল প্রক্রিয়াটি নিয়ে কাজ করি এবং দেখুন আমার "চোখের ছোঁড়া" কেমন ছিল (খারাপ)।
পদ্ধতিটি হ'ল:
- (সমস্যাটিতে অন্তর্ভুক্ত) সংযোগকারী ভেক্টরগুলি মূলতে লেজ থাকে
- ইউনিট গোলকের মধ্যে প্রকল্প (নথির দৈর্ঘ্যের পার্থক্যের জন্য অ্যাকাউন্টে)
- " কোসাইন ভিন্নতা " হ্রাস করতে ক্লাস্টারিং ব্যবহার করুন
J=∑id(xi,pc(i))
d(x,p)=1−cos(x,p)=⟨x,p⟩∥x∥∥p∥
(আরও সম্পাদনা শীঘ্রই আসছে)
লিঙ্ক:
- http://epub.wu.ac.at/4000/1/paper.pdf
- http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
- http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
- https://www.jstatsoft.org/article/view/v050i10
- http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
- https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf