ন্যূনতম ক্লাস্টার আকারের সীমাবদ্ধতার সাথে ক্লাস্টারিং (কে-মানে বা অন্যথায়)


14

বর্গাকার (ডাব্লুএসএস) এর গ্রুপের যোগফলকে ন্যূনতম করার জন্য আমাকে ক্লাস্টার ইউনিটগুলি ক্লাস্টারগুলিতে করতে হবে, তবে আমার নিশ্চিত করতে হবে যে প্রতিটি ক্লাস্টারে কমপক্ষে ইউনিট রয়েছে। কোনও ধারণা যদি আর এর কোনও ক্লাস্টারিং ফাংশন ন্যূনতম ক্লাস্টার আকারের সীমাবদ্ধতার সাপেক্ষে ক্লাস্টারগুলিতে ক্লাস্টারিংয়ের অনুমতি দেয় ? kmeans () কোনও আকারের বাধা বিকল্প হিসাবে উপস্থিত বলে মনে হচ্ছে না।এম কেkmk

উত্তর:


5

ইএম ক্লাস্টারিং ব্যবহার করুন

ইএম ক্লাস্টারিং-এ, অ্যালগরিদম পুনরাবৃত্তভাবে ডেটা ফিট করার জন্য একটি প্রাথমিক ক্লাস্টার মডেলটিকে সংশোধন করে এবং একটি ক্লাস্টারে কোনও ডেটা পয়েন্টের উপস্থিতি সম্ভাবনা নির্ধারণ করে। সম্ভাব্য মডেল যখন ডেটা ফিট করে তখন অ্যালগরিদম প্রক্রিয়াটি শেষ করে। ফিট নির্ধারণ করতে ব্যবহৃত ফাংশনটি হ'ল মডেলটির দেওয়া ডেটার লগ-সম্ভাবনা।

প্রক্রিয়া চলাকালীন যদি খালি ক্লাস্টার তৈরি করা হয়, বা এক বা একাধিক ক্লাস্টারের সদস্যতা যদি একটি নির্দিষ্ট প্রান্তিকের নীচে পড়ে, তবে কম জনসংখ্যার ক্লাস্টারগুলি নতুন পয়েন্টগুলিতে পুনরায় সংযুক্ত করা হয় এবং ইএম অ্যালগরিদম পুনরায় চালু করা হয়।


ধন্যবাদ, মারিয়ানা আমি এমন একটি সমাধান পছন্দ করবো যা প্যারামেট্রিক মডেলগুলিতে (সাধারণত, অযৌক্তিকভাবে) কম ভারী নির্ভর করে তবে অবশ্যই এটি সন্ধান করবে।
সাইরাস এস

4

এই কাগজটিতে এই সমস্যাটির সমাধান করা হয়েছে:

ব্র্যাডলি, পিএস, কেপি বেনেট, এবং আয়ান ডিমিরিজ। "সীমাবদ্ধ কে-মানে ক্লাস্টারিং।" মাইক্রোসফট রিসার্চ, রেডমন্ড (2000) : 1-8।

পাইথনে আমার অ্যালগরিদমের প্রয়োগ রয়েছে have


এই নিখুঁত, ধন্যবাদ! আমি rPythonআমার আর স্ক্রিপ্ট থেকে অ্যাক্সেস করে এই প্রয়োগের একটি ইন্টারফেস তৈরি করতে আর এর মধ্যে প্যাকেজটি ব্যবহার করেছি।
মাইকেল অহলরোগ

@ মিশেলঅহল্রোগে আপনি যে পাইথন প্যাকেজ ফর্ম আর কল করতে লিখেছিলেন সেই ইন্টারফেসে কোথাও (গিথব?) উদাহরণ রয়েছে? ধন্যবাদ!
মাতিফু

দুঃখিত, আমি আমার পুরানো কোডটি ঘুরে দেখলাম কিন্তু এটি আর খুঁজে পেলাম না।
মাইকেল অহল্রোগ

3

আমি মনে করি এটি কেবল ক্লাস্টারের আকারের জন্য একটি পরীক্ষা দিয়ে লুপ হিসাবে অংশ হিসাবে কে মানে চালানো বিষয় হবে, ক্লাস্টার কেতে গণনা এন - এটিও মনে রাখবেন যে কে মানে একই ডেটাতে প্রতিটি রানের জন্য বিভিন্ন ফলাফল দেবে "সেরা" ফলাফলটি বের করার জন্য আপনার সম্ভবত এটি কোনও লুপের অংশ হিসাবে চলমান উচিত


1
ধন্যবাদ, অ্যালেক্স যদিও আমি এটির সাথে একটি সমস্যা দেখতে পাচ্ছি: লুপগুলি যদি উত্পন্ন সমাধানগুলি কখনই সীমাবদ্ধতা মেটায় না? যদি কে মানে কোনও ক্লাস্টার আকারের সীমাবদ্ধতা না দিয়ে চালানো হয় তবে এটি ঘটতে পারে। আমি একটি সমাধান পছন্দ করি যা এড়ানো যায়। (অ্যাপ্লিকেশনটির প্রকৃতিটি এমন যে আমার ক্লাস্টারগুলি সর্বনিম্ন আকারের হওয়া উচিত তা নিশ্চিত করার দরকার need)
সাইরাস এস

1

আপনার ডেটা সেট কত বড়? হতে পারে আপনি একটি শ্রেণিবিন্যাসিক ক্লাস্টারিং চালানোর চেষ্টা করতে পারেন এবং তারপরে সিদ্ধান্ত নিতে পারেন আপনার ডেনড্রগ্রামের উপর ভিত্তি করে কোন ক্লাস্টার ধরে রাখতে পারে।

যদি আপনার ডেটা সেটটি বিশাল হয় তবে আপনি উভয় ক্লাস্টারিং পদ্ধতিগুলি একত্রিত করতে পারেন: একটি প্রাথমিক অ-স্তরক্রমিক ক্লাস্টারিং এবং তারপরে অ-স্তরক্রমিক বিশ্লেষণ থেকে গোষ্ঠীগুলি ব্যবহার করে একটি শ্রেণিবদ্ধ ক্লাস্টারিং। আপনি মার্টিনিজ-যাজক এট আল (2005) এ এই পদ্ধতির উদাহরণ খুঁজে পেতে পারেন


ধন্যবাদ, ম্যানুয়েল এটি আসলে খুব আগ্রহজনক সম্ভাবনার মতো শোনাচ্ছে। শ্রেণিবদ্ধকরণটি নির্দিষ্ট আকারগুলিকে আরোপ করবে কিনা তা নিয়ে আমার চিন্তাভাবনা করা উচিত যা আকারের সীমাবদ্ধতার অধীনে সরাসরি ক্লাস্টার পার্টিশন অর্জন থেকে অ্যালগরিদমকে বাধা দেয়। কিন্তু স্বজ্ঞাতভাবে, আমি দেখতে পাচ্ছি যে এটি কার্যকর হতে পারে।
সাইরাস

0

ক্লাস্টার অ্যাসাইনমেন্ট স্টেপ (ইএম ইন ই) সংশোধন করে এটি ন্যূনতম ব্যয় প্রবাহ (এমসিএফ) রৈখিক নেটওয়ার্ক অপ্টিমাইজেশন সমস্যা হিসাবে রূপায়িত করে অর্জন করা যেতে পারে।

আমি একটি পাইথন প্যাকেজ লিখেছি যা গুগলের অপারেশনস গবেষণা সরঞ্জামগুলির সিম্পলমিনকস্টফ্লো ব্যবহার করে যা একটি দ্রুত সি ++ বাস্তবায়ন + এটিতে একটি স্ট্যান্ডার্ড সাইকিট-লীন এপিআই রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.