খুব দূরে না গিয়ে আমাকে কেবল নিজের ফাংশন (এসপিএসের জন্য একটি ম্যাক্রো) থেকে বিকল্পগুলির একটি তালিকা কপি-পেস্ট করতে অনুমতি দিন, এখানে!kmini
"ক্লাস্টারিং" সংগ্রহে পাওয়া গেছে ।
প্রাথমিক ক্লাস্টার কেন্দ্রগুলি তৈরি বা নির্বাচন করার পদ্ধতি। পছন্দ করা:
- আরজিসি - এলোমেলো সাবমেলের সেন্ট্রয়েড । ডেটাগুলি এলোমেলোভাবে
k
ননওভারল্যাপিং দ্বারা বিভক্ত করা হয় , সদস্যপদ দ্বারা, গোষ্ঠীগুলির দ্বারা এবং এই গোষ্ঠীর সেন্ট্রয়েডগুলি প্রাথমিক কেন্দ্র হিসাবে নিযুক্ত করা হয়। সুতরাং, কেন্দ্রগুলি গণনা করা হয়, বিদ্যমান ডাটাবেস ক্ষেত্রে থেকে নির্বাচিত নয়। এই পদ্ধতিতে এমন কেন্দ্রগুলি পাওয়া যায় যা একে অপরের সাথে এবং ডেটার সাধারণ সেন্ট্রয়েডের কাছে থাকে।
- আরপি - এলোমেলোভাবে নির্বাচিত পয়েন্ট ।
k
ডেটা পৃথক ক্ষেত্রে প্রাথমিক কেন্দ্র হতে এলোমেলোভাবে নির্বাচিত হয়।
- আরএনএফপি -
দূরতম পয়েন্ট (চলমান নির্বাচন)। প্রথমে
k
কেসগুলি কেন্দ্র হিসাবে গ্রহণ করা হয় এবং তারপরে চালানো চলাকালীন বাকী ডেটাসেটের ক্ষেত্রে সেখানে পর্যায়ক্রমে কেন্দ্রগুলির মধ্যে প্রতিস্থাপন করা হয়; প্রতিস্থাপনের লক্ষ্য হ'ল চূড়ান্ত k
স্থানে একে অপরের থেকে সবচেয়ে দূরের শেষ পয়েন্টগুলি অর্জন করা। ডেটা মেঘে পেরিফেরিয়াল অবস্থান দখল করা এই পয়েন্টগুলি (কেসগুলি) হ'ল উত্পাদিত প্রাথমিক কেন্দ্র। (এসপিএসএস কে-মানে পদ্ধতিতে পদ্ধতিটি ডিফল্ট হিসাবে ব্যবহৃত হয় SP QUICK CLUSTER
এসপিএসএস অ্যালগরিদমে বিশদটি দেখুন also এছাড়াও এখানে বর্ণিত দেখুন )।
- সিমএফপি - দূরতম পয়েন্ট (সাধারণ নির্বাচন)। প্রথম কেন্দ্রটি ডেটাসেট থেকে এলোমেলো কেস হিসাবে নির্বাচিত হয়। ২ য় কেন্দ্রটি সেই কেন্দ্র থেকে সর্বাধিক দূরের ক্ষেত্রে হিসাবে নির্বাচিত হয়। তৃতীয় কেন্দ্রটি সেই দুটি (দুজনের নিকটতম থেকে) থেকে সর্বাধিক দূরের কেস হিসাবে নির্বাচন করা হয়েছে - ইত্যাদি।
- কেএমপিপি - এলোমেলো দূরতম পয়েন্ট, বা কে-মানে ++। প্রথম কেন্দ্রটি ডেটাসেট থেকে এলোমেলো কেস হিসাবে নির্বাচিত হয়। ২ য় কেন্দ্রটি এলোমেলোভাবেও নির্বাচিত হয় তবে কোনও কেস নির্বাচনের সম্ভাবনা এটির (1 ম) কেন্দ্রের দূরত্বের (বর্গাকার ইউক্লিডিয়ান) সমানুপাতিক। তৃতীয় কেন্দ্রটি এলোমেলোভাবে নির্বাচন করা হয় those দুটি কেন্দ্রের নিকটতম কোনও ক্ষেত্রেের দূরত্বে আনুপাতিক নির্বাচনের সম্ভাবনা সহ - এবং আরও অনেক কিছু। (আর্থার, ডি।, ভাসিলভিটস্কি, এস .. কে-মানে ++: সাবধানে বীজ বপন করার সুবিধা //
- GREP - গ্রুপ প্রতিনিধি পয়েন্ট । পদ্ধতি ধারণা - কেন্দ্র হিসাবে সংগ্রহ করা
k
সর্বাধিক প্রতিনিধি, "ডেপুটি" মামলাগুলি। 1 ম কেন্দ্রটিকে সাধারণ ডেটা সানরয়েডের সবচেয়ে কাছের কেস হিসাবে নেওয়া হয়। তারপরে বাকি কেন্দ্রগুলি ডাটা পয়েন্টগুলি থেকে এমনভাবে নির্বাচন করা হয় যে প্রতিটি পয়েন্টটি পরের প্রতিটিগুলির তুলনায় পয়েন্টের একটি সেটের নিকটবর্তী (এবং কতটি স্কোয়ারড ইউক্যালিডিয়ান দূরত্বের দিক দিয়ে) হয় কিনা তা বিবেচনা করা হয় ইতিমধ্যে বিদ্যমান কেন্দ্রগুলির কোনও একটি। অর্থাত্ প্রতিটি পয়েন্টটি ইতিমধ্যে সংগৃহীত কেন্দ্রগুলির দ্বারা যথাযথভাবে উপস্থাপিত কিছু পয়েন্টের কিছু গ্রুপের প্রতিনিধি হিসাবে প্রার্থী হিসাবে পরিচিত হয়েছে। এই ক্ষেত্রে পয়েন্ট সর্বাধিক প্রতিনিধি পরবর্তী কেন্দ্র হিসাবে নির্বাচিত হয়। (কাউফম্যান, এল। রুসইউউ, পিজে তথ্যসমূহে দলগুলি সন্ধান করছে: ক্লাস্টার বিশ্লেষণের একটি ভূমিকা।, 1990 দেখুন See পেনা, জেএম এট আল কে। এর অর্থ অ্যালগোরিদম // প্যাটার্ন রিকগনিশন লেটের জন্য চারটি সূচনা পদ্ধতির একটি অনুশীলনমূলক তুলনা। 20 (10), 1999,
- [ম্যাক্রোতে এখনও আমার দ্বারা প্রয়োগ করা হয়নি এমন একটি দুর্দান্ত পদ্ধতি রয়েছে,
k
যা এলোমেলো ইউনিফর্মের দিক থেকে তৈরি হলেও "এলোমেলো থেকে কম এলোমেলো", কোথাও এলোমেলো এবং লোভের মধ্যে রয়েছে; এই পদ্ধতির সম্ভাব্য তাত্ত্বিক ভিত্তি দেখুন ]
- আর একটি পদ্ধতি হ'ল ওয়ার্ডের পদ্ধতি দ্বারা শ্রেণিবদ্ধ ক্লাস্টারিং করা। যদি নমুনাটি খুব বড় হয় তবে আপনি অবজেক্টগুলির সাবমিকেলে এটি করতে পারেন। তারপরে
k
এটি দ্বারা উত্পাদিত ক্লাস্টারগুলির অর্থ কে-মানে পদ্ধতির প্রাথমিক বীজ seeds ওয়ার্ডগুলি অন্যান্য শ্রেণিবিন্যাসের ক্লাস্টারিং পদ্ধতির চেয়ে বেশি পছন্দনীয় কারণ এটি কে-মাধ্যমের সাথে সাধারণ লক্ষ্য লক্ষ্য ভাগ করে নেয় ।
পদ্ধতিগুলি আরজিসি, আরপি, সিমএফপি, কেএমপিপি এলোমেলো সংখ্যার উপর নির্ভর করে এবং তাদের ফলাফল রান থেকে রানে পরিবর্তিত হতে পারে।
পদ্ধতি RUNFP ডেটাসেটে কেস অর্ডার সম্পর্কে সংবেদনশীল হতে পারে; তবে পদ্ধতি জিআরইপি হয় না (যখন ডেটাগুলিতে অনেকগুলি অভিন্ন ঘটনা, সম্পর্ক থাকে তখন উপলক্ষে)। পদ্ধতি জিআরপি সমস্ত k
কেন্দ্র সংগ্রহ করতে ব্যর্থ হতে পারে যদি k
ডেটা ( n
) এর ক্ষেত্রে সংখ্যার তুলনায় বড় হয় তবে বিশেষত যখন k>n/2
। [যদি ডেটা কেন্দ্রটিকে সংগ্রহের অনুমতি দেয় না তবে ম্যাক্রো জানিয়ে দেবে k
]। পদ্ধতি জিআরইপি সবচেয়ে ধীরে ধীরে এটি [আমার বাস্তবায়নে] সমস্ত ক্ষেত্রে মেট্রিক্সের দূরত্বের গণনা করে, তাই হাজার হাজার বা কয়েক মিলিয়ন মামলার ক্ষেত্রে এটি উপযুক্ত হবে না। আপনি তথ্যের একটি এলোমেলো সাবসাম্পলে এটি করতে পারেন।
আমি বর্তমানে কোন পদ্ধতিটি "ভাল" এবং কোন পরিস্থিতিতে কোনটি নিয়ে আলোচনা করছি না, কারণ আমি এখনও পর্যন্ত প্রশ্নের ব্যাপক সিমুলেশনাল প্রোবাইনিং করিনি। আমার খুব প্রাথমিক এবং উচ্চতর ছাপগুলি হ'ল জিইআরপি বিশেষভাবে উপযুক্ত (তবে এটি ব্যয়বহুল), এবং আপনি যদি এখনও সস্তার পদ্ধতিটি যথেষ্ট পরিমাণে প্রতিযোগিতামূলক চান তবে কেবল এলোমেলো কে পয়েন্টস, আরপি, একটি শালীন পছন্দ।