আমি কিছু গবেষণা করেছি। আমি দুটি সমন্বিত সিস্টেম নন মেট্রিক (ডাব্লুজিএস 84) এবং মেট্রিক (পোল্যান্ড 1992) এ কিছু পয়েন্ট নিয়েছি।
আমি এই কোডটি ব্যবহার করেছি:
from scipy import loadtxt
from sklearn.cluster import Birch
import matplotlib.pyplot as plt
data84 = loadtxt("/home/damian/workspace/84.csv", delimiter=",")
data90 = loadtxt("/home/damian/workspace/90.csv", delimiter=",")
brc = Birch(threshold=0.5)
তারপরে আমি আমাদের মডেলটিকে মেট্রিক ডেটা দিয়ে ফিট করি:
brc.fit(data90)
এবং ফলাফলগুলি প্লট করুন, যেখানে ক্রসগুলি আমার পয়েন্ট এবং চেনাশোনাগুলি আমার সাবক্লাস্টার ছিল:
c = brc.subcluster_centers_
plt.plot(data90[:,0], data90[:,1], '+')
plt.plot(c[:,0], c[:,1], 'o')
plt.show()
এটি আমি পেয়েছি:
আপনি দেখতে পাচ্ছেন, যে প্রান্তিক মানটি খুব ছোট ছিল, কারণ এটি প্রতিটি পয়েন্টে উপক্লাস্টার খুঁজে পেয়েছিল।
প্রান্তিক সংজ্ঞা:
একটি নতুন নমুনা এবং নিকটতম সাবক্লাস্টারটি মার্জ করে প্রাপ্ত সাবক্লাস্টারের ব্যাসার্ধটি প্রান্তিকের চেয়ে কম হওয়া উচিত। অন্যথায় একটি নতুন সাবক্লাস্টার শুরু হয়।
সুতরাং এই ক্ষেত্রে আমাদের এই মান বাড়াতে হবে।
এর জন্য:
brc = Birch(threshold=5000)
এটা অনেক ভাল ছিল:
এবং ডাব্লুজিএস 84 প্রান্তিক 0.5 এর জন্য পয়েন্ট:
brc = Birch(threshold=0.5)
brc.fit(data84)
কেবল একটি সাবক্লাস্টার, ভাল নয়। তবে এই ক্ষেত্রে আমাদের প্রান্তিক মান হ্রাস করা উচিত, সুতরাং 0.05 এর জন্য:
brc = Birch(threshold=0.05)
brc.fit(data84)
আমরা ভাল ফলাফল পেয়েছি।
উপসংহার:
সিআরএস বিষয়। আপনার যথাযথ প্রান্তিক মান সন্ধান করতে হবে, এটি আপনার ডেটা সমন্বয় ব্যবস্থা এবং পয়েন্টগুলির মধ্যে দূরত্বের উপর নির্ভর করে। আপনার যদি মেট্রিক সিআরএস না থাকে তবে প্রান্তিকতা মেট্রিক সিস্টেমের তুলনায় তুলনামূলকভাবে ছোট হওয়া উচিত। আপনাকে মিটার এবং ডিগ্রির মধ্যে পার্থক্য জানতে হবে, যদি দুটি পয়েন্টের মধ্যে দূরত্ব 10000 মিটার সমান হয় তবে ডাব্লুজিএস 84 এ এটি 1 ডিগ্রির কম হবে। আরও সঠিক মানগুলিতে গুগল চেক করুন।
এছাড়াও n_clusters মানের চেয়ে আরও বেশি পয়েন্ট রয়েছে। ঠিক আছে, গুচ্ছগুলির সেন্ট্রয়েড নেই, তবে সাবক্লাস্টার রয়েছে। আপনি যদি কোনও কিছু, বা লেবেলগুলি মুদ্রণের পূর্বাভাস দেওয়ার চেষ্টা করেন তবে এটি আপনার পয়েন্টটিকে n_clusters এর একটিতে (বা 0,1,2, ..., n_clusters লেবেলে শ্রেণিবদ্ধ করা) মুদ্রণ করবে will
আপনি যদি বিভিন্ন পরামিতি চেষ্টা করতে না চান তবে আপনি সর্বদা অন্য অ্যালগরিদম নিতে পারেন। ক্লাস্টারিংয়ের জন্য খুব সহজ এবং সাধারণ অ্যালগরিদম হ'ল কে-মানে অ্যালগরিদম।
http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
থ্রেশহোল্ড ইত্যাদি সম্পর্কে যত্ন ছাড়াই আপনার ডেটার জন্য এন ক্লাস্টারগুলি খুঁজে পাওয়া উচিত etc.