কে-ই শুরু করার পদ্ধতিগুলি মানে ক্লাস্টারিং


11

আমি কে-মাধ্যমের জন্য প্রাথমিক বীজ (ক্লাস্টার সেন্টার) বাছাই করার জন্য শিল্পের বর্তমান অবস্থানে আগ্রহী।

গুগলিং দুটি জনপ্রিয় পছন্দ বাড়ে:

  1. প্রাথমিক বীজের এলোমেলো নির্বাচন, এবং,
  2. কেমিয়ানস ++ নির্বাচন কৌশলটি ব্যবহার করে: আর্থার এবং ভ্যাসিলভিটস্কি 2006 কে-মানে ++: যত্নশীল বপনের সুবিধা

এখানে এমন যে কোনও প্রতিশ্রুতিবদ্ধ পদ্ধতি রয়েছে যা এখানকার যে কেউ সচেতন, যা সম্ভবত এত জনপ্রিয় না?

উত্তর:


12

খুব দূরে না গিয়ে আমাকে কেবল নিজের ফাংশন (এসপিএসের জন্য একটি ম্যাক্রো) থেকে বিকল্পগুলির একটি তালিকা কপি-পেস্ট করতে অনুমতি দিন, এখানে!kmini "ক্লাস্টারিং" সংগ্রহে পাওয়া গেছে ।

প্রাথমিক ক্লাস্টার কেন্দ্রগুলি তৈরি বা নির্বাচন করার পদ্ধতি। পছন্দ করা:

  • আরজিসি - এলোমেলো সাবমেলের সেন্ট্রয়েডডেটাগুলি এলোমেলোভাবেk ননওভারল্যাপিং দ্বারা বিভক্ত করা হয় , সদস্যপদ দ্বারা, গোষ্ঠীগুলির দ্বারা এবং এই গোষ্ঠীর সেন্ট্রয়েডগুলি প্রাথমিক কেন্দ্র হিসাবে নিযুক্ত করা হয়। সুতরাং, কেন্দ্রগুলি গণনা করা হয়, বিদ্যমান ডাটাবেস ক্ষেত্রে থেকে নির্বাচিত নয়। এই পদ্ধতিতে এমন কেন্দ্রগুলি পাওয়া যায় যা একে অপরের সাথে এবং ডেটার সাধারণ সেন্ট্রয়েডের কাছে থাকে।
  • আরপি - এলোমেলোভাবে নির্বাচিত পয়েন্টkডেটা পৃথক ক্ষেত্রে প্রাথমিক কেন্দ্র হতে এলোমেলোভাবে নির্বাচিত হয়।
  • আরএনএফপি - দূরতম পয়েন্ট (চলমান নির্বাচন)। প্রথমে kকেসগুলি কেন্দ্র হিসাবে গ্রহণ করা হয় এবং তারপরে চালানো চলাকালীন বাকী ডেটাসেটের ক্ষেত্রে সেখানে পর্যায়ক্রমে কেন্দ্রগুলির মধ্যে প্রতিস্থাপন করা হয়; প্রতিস্থাপনের লক্ষ্য হ'ল চূড়ান্ত kস্থানে একে অপরের থেকে সবচেয়ে দূরের শেষ পয়েন্টগুলি অর্জন করা। ডেটা মেঘে পেরিফেরিয়াল অবস্থান দখল করা এই পয়েন্টগুলি (কেসগুলি) হ'ল উত্পাদিত প্রাথমিক কেন্দ্র। (এসপিএসএস কে-মানে পদ্ধতিতে পদ্ধতিটি ডিফল্ট হিসাবে ব্যবহৃত হয় SP QUICK CLUSTERএসপিএসএস অ্যালগরিদমে বিশদটি দেখুন also এছাড়াও এখানে বর্ণিত দেখুন )।
  • সিমএফপি - দূরতম পয়েন্ট (সাধারণ নির্বাচন)। প্রথম কেন্দ্রটি ডেটাসেট থেকে এলোমেলো কেস হিসাবে নির্বাচিত হয়। ২ য় কেন্দ্রটি সেই কেন্দ্র থেকে সর্বাধিক দূরের ক্ষেত্রে হিসাবে নির্বাচিত হয়। তৃতীয় কেন্দ্রটি সেই দুটি (দুজনের নিকটতম থেকে) থেকে সর্বাধিক দূরের কেস হিসাবে নির্বাচন করা হয়েছে - ইত্যাদি।
  • কেএমপিপি - এলোমেলো দূরতম পয়েন্ট, বা কে-মানে ++। প্রথম কেন্দ্রটি ডেটাসেট থেকে এলোমেলো কেস হিসাবে নির্বাচিত হয়। ২ য় কেন্দ্রটি এলোমেলোভাবেও নির্বাচিত হয় তবে কোনও কেস নির্বাচনের সম্ভাবনা এটির (1 ম) কেন্দ্রের দূরত্বের (বর্গাকার ইউক্লিডিয়ান) সমানুপাতিক। তৃতীয় কেন্দ্রটি এলোমেলোভাবে নির্বাচন করা হয় those দুটি কেন্দ্রের নিকটতম কোনও ক্ষেত্রেের দূরত্বে আনুপাতিক নির্বাচনের সম্ভাবনা সহ - এবং আরও অনেক কিছু। (আর্থার, ডি।, ভাসিলভিটস্কি, এস .. কে-মানে ++: সাবধানে বীজ বপন করার সুবিধা //
  • GREP - গ্রুপ প্রতিনিধি পয়েন্ট । পদ্ধতি ধারণা - কেন্দ্র হিসাবে সংগ্রহ করাkসর্বাধিক প্রতিনিধি, "ডেপুটি" মামলাগুলি। 1 ম কেন্দ্রটিকে সাধারণ ডেটা সানরয়েডের সবচেয়ে কাছের কেস হিসাবে নেওয়া হয়। তারপরে বাকি কেন্দ্রগুলি ডাটা পয়েন্টগুলি থেকে এমনভাবে নির্বাচন করা হয় যে প্রতিটি পয়েন্টটি পরের প্রতিটিগুলির তুলনায় পয়েন্টের একটি সেটের নিকটবর্তী (এবং কতটি স্কোয়ারড ইউক্যালিডিয়ান দূরত্বের দিক দিয়ে) হয় কিনা তা বিবেচনা করা হয় ইতিমধ্যে বিদ্যমান কেন্দ্রগুলির কোনও একটি। অর্থাত্ প্রতিটি পয়েন্টটি ইতিমধ্যে সংগৃহীত কেন্দ্রগুলির দ্বারা যথাযথভাবে উপস্থাপিত কিছু পয়েন্টের কিছু গ্রুপের প্রতিনিধি হিসাবে প্রার্থী হিসাবে পরিচিত হয়েছে। এই ক্ষেত্রে পয়েন্ট সর্বাধিক প্রতিনিধি পরবর্তী কেন্দ্র হিসাবে নির্বাচিত হয়। (কাউফম্যান, এল। রুসইউউ, পিজে তথ্যসমূহে দলগুলি সন্ধান করছে: ক্লাস্টার বিশ্লেষণের একটি ভূমিকা।, 1990 দেখুন See পেনা, জেএম এট আল কে। এর অর্থ অ্যালগোরিদম // প্যাটার্ন রিকগনিশন লেটের জন্য চারটি সূচনা পদ্ধতির একটি অনুশীলনমূলক তুলনা। 20 (10), 1999,
  • [ম্যাক্রোতে এখনও আমার দ্বারা প্রয়োগ করা হয়নি এমন একটি দুর্দান্ত পদ্ধতি রয়েছে, kযা এলোমেলো ইউনিফর্মের দিক থেকে তৈরি হলেও "এলোমেলো থেকে কম এলোমেলো", কোথাও এলোমেলো এবং লোভের মধ্যে রয়েছে; এই পদ্ধতির সম্ভাব্য তাত্ত্বিক ভিত্তি দেখুন ]
  • আর একটি পদ্ধতি হ'ল ওয়ার্ডের পদ্ধতি দ্বারা শ্রেণিবদ্ধ ক্লাস্টারিং করা। যদি নমুনাটি খুব বড় হয় তবে আপনি অবজেক্টগুলির সাবমিকেলে এটি করতে পারেন। তারপরে kএটি দ্বারা উত্পাদিত ক্লাস্টারগুলির অর্থ কে-মানে পদ্ধতির প্রাথমিক বীজ seeds ওয়ার্ডগুলি অন্যান্য শ্রেণিবিন্যাসের ক্লাস্টারিং পদ্ধতির চেয়ে বেশি পছন্দনীয় কারণ এটি কে-মাধ্যমের সাথে সাধারণ লক্ষ্য লক্ষ্য ভাগ করে নেয়

পদ্ধতিগুলি আরজিসি, আরপি, সিমএফপি, কেএমপিপি এলোমেলো সংখ্যার উপর নির্ভর করে এবং তাদের ফলাফল রান থেকে রানে পরিবর্তিত হতে পারে।

পদ্ধতি RUNFP ডেটাসেটে কেস অর্ডার সম্পর্কে সংবেদনশীল হতে পারে; তবে পদ্ধতি জিআরইপি হয় না (যখন ডেটাগুলিতে অনেকগুলি অভিন্ন ঘটনা, সম্পর্ক থাকে তখন উপলক্ষে)। পদ্ধতি জিআরপি সমস্ত kকেন্দ্র সংগ্রহ করতে ব্যর্থ হতে পারে যদি kডেটা ( n) এর ক্ষেত্রে সংখ্যার তুলনায় বড় হয় তবে বিশেষত যখন k>n/2। [যদি ডেটা কেন্দ্রটিকে সংগ্রহের অনুমতি দেয় না তবে ম্যাক্রো জানিয়ে দেবে k]। পদ্ধতি জিআরইপি সবচেয়ে ধীরে ধীরে এটি [আমার বাস্তবায়নে] সমস্ত ক্ষেত্রে মেট্রিক্সের দূরত্বের গণনা করে, তাই হাজার হাজার বা কয়েক মিলিয়ন মামলার ক্ষেত্রে এটি উপযুক্ত হবে না। আপনি তথ্যের একটি এলোমেলো সাবসাম্পলে এটি করতে পারেন।

আমি বর্তমানে কোন পদ্ধতিটি "ভাল" এবং কোন পরিস্থিতিতে কোনটি নিয়ে আলোচনা করছি না, কারণ আমি এখনও পর্যন্ত প্রশ্নের ব্যাপক সিমুলেশনাল প্রোবাইনিং করিনি। আমার খুব প্রাথমিক এবং উচ্চতর ছাপগুলি হ'ল জিইআরপি বিশেষভাবে উপযুক্ত (তবে এটি ব্যয়বহুল), এবং আপনি যদি এখনও সস্তার পদ্ধতিটি যথেষ্ট পরিমাণে প্রতিযোগিতামূলক চান তবে কেবল এলোমেলো কে পয়েন্টস, আরপি, একটি শালীন পছন্দ।



আমি আপনার উত্তরটির মতো কিছু দেখে খুশি হব - কে-মেনস সূচনা করার জন্য নির্ধারিত তবে কার্যকর উপায় ways
রায়ই

@ রয়ী, আপনার যদি এ নিয়ে প্রশ্ন থাকে তবে কেন প্রশ্ন পোস্ট করবেন না?
ttnphns

আপনার ভাগ করার অনেক পদ্ধতি আছে? আমি কয়েকটি "দীর্ঘতম নমুনাগুলি সন্ধান করুন" কৌশলগুলি তৈরি করেছি, তবে একটি প্রশ্ন খোলার পক্ষে অনেক ভাল কী আছে?
রাই

আপনার কাছে যোগ্য হিসাবে বিবেচিত এমন কিছু যদি থাকে তবে যদি প্রশ্নটির দ্বারা যোগ্য কিছু জিজ্ঞাসা করা যায় তবে এটি একটি প্রশ্নের আকারে ভাগ করুন।
ttnphns

5

গতবার আমি এ সম্পর্কে একটি বিস্তৃত সাহিত্য পর্যালোচনা করেছি, যা প্রায় 20 বছর আগে স্বীকার করা হয়েছিল, দুটি প্রধান সুপারিশ ছিল:

  1. প্রাথমিক কেন্দ্রগুলি খুঁজতে ওয়ার্ডের পদ্ধতিটি (এটি একটি স্ট্যান্ডার্ড হায়ারারিকিকাল ক্লাস্টার অ্যানালাইসিস অ্যালগরিদম) ব্যবহার করতে।
  2. এলোমেলো ব্যবহার শুরু করুন।

বড় ডেটা অ্যাপ্লিকেশনগুলিতে, ওয়ার্ডের পদ্ধতিটি এত ভাল কাজ করে না, যদিও এটি উপ-নমুনায় প্রয়োগ করা যেতে পারে।

আমি কিছু সিমুলেশন করেছিলাম, যা আমি কখনই প্রকাশের কাছে পাইনি এবং এটি পেয়েছিলাম:

আমি এ থেকে যে প্রধান গ্রহণ করেছি তা হ'ল এসপিএসএস অ্যালগরিদম আশ্চর্যজনকভাবে ভাল তবে যদি কারও কাছে সংস্থান থাকে তবে 1000+ র্যান্ডম স্টার্ট পয়েন্টগুলি যাওয়ার উপায়।


আপনার সিমুলেশনগুলিতে আপনি উচ্চ মাত্রিক ডেটার জন্য আচরণের কোনও পরিবর্তন লক্ষ্য করেছেন?
অরিন চৌধুরী ২

আমি মনে করতে পারি না যে। তবে আমার অনুকরণগুলি আমার মনে হয় প্রায় 20 টির বেশি ভেরিয়েবল ব্যবহার করে না used যাইহোক, মাত্রিক মাত্রা যত বেশি, এলোমেলোভাবে শুরু হওয়া সংখ্যার বেশি সংখ্যার জন্য একই রকম হওয়া দরকার।
টিম

একটি দ্রষ্টব্য: ডিফল্ট এসপিএসএস অ্যালগরিদম (বিটিডব্লু আপনার লিঙ্কটি ভেঙে গেছে) এটাই আমি আমার উত্তরে আরএনএফপি হিসাবে সংক্ষিপ্ত রূপ নিয়েছি।
ttnphns

4

Ttnphns নামকরণ সহ, আমি আরজিসি, আরপি এবং কেএমপিপি পরীক্ষা করেছি:

  • 2 ডি / 3 ডি পয়েন্ট
  • পাঠ্য নথি থেকে শব্দ ব্যাগ
  • এল2

আমি আরজিসির প্রস্তাব দিই না কারণ ফলাফলকেন্দ্রগুলি একে অপরের খুব কাছাকাছি: অনেক পয়েন্টের গড় বিশ্বব্যাপী গড়ের (বৃহত সংখ্যার আইন) কাছাকাছি। এটি রূপান্তরকে অনেকটা ধীর করতে পারে: ক্লাস্টারগুলি পৃথককরণের আগে কিছুটা সময় নেয়।

আরপি সাধারণত ভাল এবং প্রথম সহজ পছন্দ হিসাবে পুনর্নির্মাণ করতে হবে।

কেএমপিপি খুব জনপ্রিয় এবং ছোট মাত্রায় খুব ভাল কাজ করে: আরপি এর তুলনায় এটি স্থানীয় সর্বনিম্নে শেষ হওয়ার সম্ভাবনা হ্রাস করে।

তবে আমি যখন বড় ডেটাসেটগুলিতে কাজ করছিলাম (1 এম পয়েন্টগুলি যা বড় মাত্রার সহ পাঠ্য দলিলগুলির শব্দের ব্যাগ) তখন আরপি কিছুটা কম বিবর্তনের সাথে কেএমপিপিকে সামান্য ছাড়িয়ে গেল। এতে আমি অবাক হয়েছি। বড় ডেটাসেট / উচ্চ মাত্রায়, বিশ্ব সর্বনিম্নে রূপান্তর অসম্ভব, আপনি "স্থানীয় সর্বনিম্ন কত ভাল" = "ছোট চূড়ান্ত এসওডি কতটা" হিসাবে গুণটি পরিমাপ করেন। দুটি পদ্ধতিরই একই গুণ ছিল।

নোট করুন যে আপনি যদি মানের উন্নতি করতে প্রতিরূপ ব্যবহার করতে চান তবে এলোমেলো পদ্ধতি ব্যবহার করা গুরুত্বপূর্ণ।


ধন্যবাদ। আমি বড় মাত্রা ডেটা নিয়ে কাজ করব তাই এটি বেশ কার্যকর।
অরিন চৌধুরি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.