গুচ্ছ গুণমানের পরিমাপ


17

আমার কাছে একটি ক্লাস্টারিং অ্যালগরিদম আছে (কে-মানে নয়) ইনপুট প্যারামিটার (ক্লাস্টারের সংখ্যা)। ক্লাস্টারিংয়ের পরে আমি এই ক্লাস্টারিংয়ের মানের কিছু পরিমাণগত পরিমাপ পেতে চাই। ক্লাস্টারিং অ্যালগরিদমের একটি গুরুত্বপূর্ণ সম্পত্তি রয়েছে। জন্য = 2 যদি আমি খেতে এন ফলে এই অ্যালগরিদম তাদের মধ্যে কোনো উল্লেখযোগ্য পার্থক্য ছাড়া ডাটা পয়েন্টের আমি ধারণকারী এক থোকা পাবেনkk=2N ডাটা পয়েন্টের সঙ্গে এক থোকা 1 ডাটা পয়েন্ট। অবশ্যই এটি আমি চাই না। সুতরাং আমি এই ক্লাস্টারিংয়ের যুক্তিসঙ্গততার অনুমান করতে এই গুণমানের পরিমাপটি গণনা করতে চাই। আদর্শভাবে আমি বিভিন্ন কে এর জন্য এই ব্যবস্থাগুলি তুলনা করতে সক্ষম হবN11k। সুতরাং আমি এর পরিসরে ক্লাস্টারিং চালাব এবং সেরা মানের সাথে একটিটি বেছে নেব । আমি কীভাবে এই জাতীয় মান পরিমাপ করব?k

হালনাগাদ:

এখানে খারাপ ক্লাস্টারিংয়ের উদাহরণ রয়েছে । আসুন ধরা যাক সমতলের ত্রিভুজ গঠনে একটি বিমানের 3 টি পয়েন্ট রয়েছে। এই পয়েন্টগুলিকে 2 টি ক্লাস্টারে বিভক্ত করা স্পষ্টতই তাদের 1 বা 3 ক্লাস্টারে বিভক্ত করার চেয়ে খারাপ।(N1,1)


আমার কাছে এটি সুস্পষ্ট নয়। আমি এমন ক্লাস্টারগুলি দেখি যে বাস্তবে সমস্ত সময় বিভিন্ন আকার থাকে ...
অ্যানি-মৌসেস -রিনস্টেট মনিকা ২

উত্তর:


12

বরং ক্লাস্টারিংয়ের উদ্দেশ্য আপনি কী বিবেচনা করছেন তার উপর মেট্রিকের পছন্দ নির্ভর করে। ব্যক্তিগতভাবে আমি মনে করি ক্লাস্টারিং হওয়া উচিত পর্যবেক্ষণের বিভিন্ন গোষ্ঠীগুলি সনাক্ত করা যা প্রত্যেকটি আলাদা আলাদা ডেটা উত্পন্নকরণ প্রক্রিয়া দ্বারা তৈরি করা হয়েছিল। সুতরাং আমি জ্ঞাত উপাত্ত তৈরির প্রক্রিয়াগুলি থেকে ডেটা উত্পন্ন করে একটি ক্লাস্টারিংয়ের গুণমান পরীক্ষা করব এবং তারপরে গণনা করব যে ক্লাস্টারিংয়ের মাধ্যমে কতবার নিদর্শনগুলি ভুলভাবে শ্রেণিবদ্ধ করা হয়। অবশ্যই এটি প্রতিটি উত্পাদন প্রক্রিয়া থেকে নিদর্শন বিতরণ সম্পর্কে ধারণা তৈরি করা জড়িত, তবে আপনি তত্ত্বাবধানে শ্রেণিবিন্যাসের জন্য ডিজাইন করা ডেটাসেট ব্যবহার করতে পারেন।

অন্যরা ক্লাস্টারিংকে একই বৈশিষ্ট্যযুক্ত মানগুলির সাথে একত্রে পয়েন্টগুলি গ্রুপ করার চেষ্টা হিসাবে দেখেন, এই ক্ষেত্রে এসএসই ইত্যাদির মতো পদক্ষেপ প্রযোজ্য। তবে আমি ক্লাস্টারিংয়ের চেয়ে বরং অসন্তুষ্টির এই সংজ্ঞাটি পেয়েছি, কারণ এটি আপনাকে অন্তর্নিহিত বিতরণগুলি সম্পর্কে সাধারণরূপে কিছু না করে কেবলমাত্র ডেটার নির্দিষ্ট নমুনা সম্পর্কে কিছু বলে। ওভারল্যাপিং ক্লাস্টারগুলির সাথে কীভাবে পদ্ধতিগুলি व्यवहार করে এই ভিউটির সাথে একটি বিশেষ সমস্যা ("ডেটা তৈরির প্রক্রিয়া" দেখার জন্য এটি কোনও আসল সমস্যা সৃষ্টি করে না, আপনি কেবল ক্লাস্টারের সদস্যতার সম্ভাবনা পাবেন)।


3
মডেল-ভিত্তিক ক্লাস্টারিং বনাম বিশুদ্ধরূপে দূরত্ব-ভিত্তিক আনসারভিজ ক্লাস্টারিংয়ের মধ্যে পার্থক্য হাইলাইট করার জন্য +1 ।
chl

1
আমি মনে করি উভয় উদ্দেশ্য পৃথক সেটিংসে তাদের নিখুঁত ব্যবহার আছে। অনেকগুলি প্রসঙ্গ রয়েছে যা আপনি কেবলমাত্র হাতের ডেটা দেখতে যেমন করেন (যেমন: আউটলেটার সংজ্ঞা)। এছাড়াও, বিভিন্ন ডেটা উত্পন্ন করার প্রক্রিয়াগুলিতে পৌঁছনোর আগে, আপনাকে অনুসন্ধানের দরকার যা আপনার দ্বিতীয় সংজ্ঞা দিয়ে সেরা হয় ...
এটিয়েন লো-ডেকারি

আমি এটেইনিকে সম্মত করি যে উভয় পদ্ধতিরই ব্যবহার রয়েছে। তবে আমি এও বলব যে কোনও পর্যবেক্ষণ আউটলেটর কিনা বা স্পষ্টভাবে তথ্য উত্পন্নকরণ প্রক্রিয়া সম্পর্কে কিছু ধারণা তৈরি করে, সুতরাং যখন আপনি নিজেকে সঠিকভাবে পরিচালিত করার চেষ্টা করছেন তখন ক্লাস্টারিংয়ের দ্বিতীয় রূপটি কেবলমাত্র ডেটা বোঝার প্রথম ধাপের জন্য।
ডিকরান মার্সুপিয়াল

4

যেহেতু ক্লাস্টারিং নিষ্ক্রিয় করা হয়েছে তাই সেরা ক্লাস্টারিং কী তা কোনও প্রাইমারিটি জানা শক্ত। এটি গবেষণার বিষয়। গ্যারি কিং, একটি সুপরিচিত পরিমাণগত সামাজিক বিজ্ঞানী, এই বিষয়ে একটি আসন্ন নিবন্ধ আছে।


+ +! হা; @ ম্যাক্স আপনি এই "সুস্পষ্ট" ক্লাস্টারিং কি জিনিস জিনিস?

@ এমবিকিউ: আসলে আমি জানি না এটির জন্য ভাল ক্লাস্টারিং কী হবে। "স্পষ্ট" দ্বারা আমি পরামর্শ দিচ্ছি যে (এন -১, ১) অবশ্যই এটির জন্য ভাল ক্লাস্টারিং নয়। আরও ভাল ক্লাস্টারিং কেবল একটি ক্লাস্টার হতে পারে, তাই কোনও ক্লাস্টারিং মোটেই নেই। অথবা কিছু গুচ্ছ সংখ্যা 2 এরও বেশি ক্লাস্টারিং করতে পারে
সর্বাধিক

আপনার লিঙ্কটি নষ্ট হয়ে গেছে বলে মনে হচ্ছে।
এটিয়েন লো-ডিকারি

নিবন্ধটির আপডেট লিঙ্কটি এখানে: gking.harvard.edu/files/abs/discov-abs.shtml
দোলান

4

এখানে আপনার কয়েকটি ব্যবস্থা রয়েছে তবে আরও অনেকগুলি রয়েছে:

এসএসই: প্রতিটি ক্লাস্টারের আইটেমগুলি থেকে বর্গ ত্রুটির যোগফল।

আন্ত ক্লাস্টারের দূরত্ব: প্রতিটি ক্লাস্টার সেন্ট্রয়েডের মধ্যে বর্গক্ষেত্রের যোগফল।

প্রতিটি ক্লাস্টারের জন্য ইন্ট্রা ক্লাস্টারের দূরত্ব: প্রতিটি ক্লাস্টারের আইটেম থেকে এর সেন্ট্রয়েড পর্যন্ত বর্গক্ষেত্রের যোগফল।

সর্বাধিক ব্যাসার্ধ: এর ক্লাস্টার সেন্ট্রয়েড থেকে উদাহরণ থেকে বৃহত্তম দূরত্ব।

গড় ব্যধি


আমি আন্ত ক্লাস্টারের দূরত্বে ইন্ট্রা ব্যবহার করার চেষ্টা করেছি, তবে একটি পয়েন্ট সহ একটি ক্লাস্টারের জন্য দরকারী কিছু মনে করতে পারিনি। এছাড়াও আমার কোনও সেন্টার পয়েন্ট নেই। আমার কেবলমাত্র পয়েন্টগুলির মধ্যে দূরত্ব রয়েছে।
সর্বোচ্চ

আন্ত ক্লাস্টারের দূরত্ব যত বেশি তত ভাল, আপনি এটি গুচ্ছগুলির কেন্দ্রের মধ্যবর্তী দূরত্ব গণনা করে পরিমাপ করতে পারবেন।
মারিয়ানা সোফার

4

আপনি ক্লাস্টারিং বৈধকরণ অঞ্চলে দৌড়েছিলেন। আমার ছাত্র বর্ণিত কৌশলগুলি ব্যবহার করে বৈধতা দিয়েছে:

উ: বন্দ্যোপাধ্যায় এবং আরএন ডেভ। হপকিন্স পরিসংখ্যান ব্যবহার করে ক্লাস্টারগুলিকে বৈধকরণ। ফিজি সিস্টেমগুলিতে 2004 আইইইই ইন্টারন্যাশনাল কনফারেন্স আইইইই বিড়াল নং 044CH37542, 1: পি। 149–153, 2004।

এটি নীতির উপর ভিত্তি করে তৈরি করা হয় যে যদি কোনও ক্লাস্টারটি বৈধ হয় তবে ডেটা পয়েন্টগুলি একটি ক্লাস্টারের মধ্যে সমানভাবে বিতরণ করা হয়।

তবে এর আগে আপনার নির্ধারণ করা উচিত যে আপনার ডেটাতে কোনও তথাকথিত ক্লাস্টারিং প্রবণতা রয়েছে কিনা তা যদি এটি ক্লাস্টারিংয়ের জন্য এবং ক্লাস্টারের সর্বোত্তম সংখ্যার জন্য মূল্যবান হয়:

এস সাইত্তা, বি। রাফেল এবং আইএফসি স্মিথ। ক্লাস্টারিংয়ের জন্য একটি বিস্তৃত বৈধতা সূচক। Intell। ডেটা অ্যানাল।, 12 (6): পি। 529–548, 2008।


3

অন্যরা যেমন উল্লেখ করেছে, ক্লাস্টারিংয়ের "মানের" করার অনেকগুলি ব্যবস্থা রয়েছে; বেশিরভাগ প্রোগ্রাম এসএসইকে হ্রাস করে। কোনও একক সংখ্যা ডেটাতে শব্দ, বা পদ্ধতিতে গোলমাল বা ফ্ল্যাট মিনিমা - সাসকাচোয়ানে নিম্ন পয়েন্ট সম্পর্কে খুব বেশি কিছু বলতে পারে না।

সুতরাং প্রথমে ভিজ্যুয়ালাইজ করার চেষ্টা করুন, প্রদত্ত ক্লাস্টারিংয়ের জন্য অনুভূতি অর্জন করুন, এটি "41" এ নামানোর আগে। তারপরে 3 রান করুন: আপনি কি এসএসই পাবেন 41, 39, 43 বা 41, 28, 107? গুচ্ছ আকার এবং রেডিআই কি কি?

(যুক্ত :) সিলুয়েট প্লট এবং সিলুয়েটের স্কোরগুলি একবার দেখুন, উদাহরণস্বরূপ ইজেনম্যান, মডার্ন মাল্টিভারিয়ট স্ট্যাটিস্টিকাল টেকনিকস (২০০৮, 1৩১ পি, আইএসবিএন ০৩8787৮৮৮৮৮৯) বইটিতে।


3

শিলোট ক্লাস্টারিং ফলাফল নির্ণয় করতে ব্যবহার করা যেতে পারে। এটি একটি ক্লাস্টারের মধ্যে গড় দূরত্বের সাথে নিকটতম ক্লাস্টারের পয়েন্টগুলির সাথে গড় দূরত্বের তুলনা করে তা করে।


2

নিরীক্ষণযুক্ত এলোমেলো বনাঞ্চলে যেমন ব্যবহার করা যেতে পারে used

র‌্যান্ডম ফরেস্ট অ্যালগরিদমগুলি অদৃশ্য শ্রেণিবিন্যাসকে একটি দুটি শ্রেণির সমস্যা হিসাবে বিবেচনা করে, সম্পূর্ণ ভিন্ন কৃত্রিম এবং এলোমেলো ডাটা সেট প্রথম ডেটা থেকে ডেটা নির্ভরতা কাঠামো (র্যান্ডমাইজেশন) মুছে ফেলে সেট থেকে তৈরি করা হয়েছিল।

এরপরে আপনি এমন একটি কৃত্রিম এবং এলোমেলো ডেটা সেট তৈরি করতে পারেন, আপনার ক্লাস্টারিং মডেলটি প্রয়োগ করতে পারেন এবং আপনার সত্যের ডেটা এবং আপনার এলোমেলো ডেটাতে আপনার পছন্দের মেট্রিক (যেমন। এসএসই) তুলনা করতে পারেন।

র্যান্ডমাইজেশন, ক্রমুয়েশন, বুটস্ট্র্যাপিং, ব্যাগিং এবং / অথবা জ্যাকনিফিংয়ের সাথে মিশ্রণ আপনাকে প্রদত্ত ক্লাস্টারিং মডেলটির পরিমাণকে মেট্রিক ব্যবহার করে আপনার এলোমেলো ডেটার তুলনায় সত্যিকারের ডেটার জন্য একটি ছোট মান দেওয়ার পরিমাণের পরিমাপ করে একটি পি মানের সমান একটি পরিমাপ দিতে পারে পছন্দ (উদাঃ এসএসই, বা ব্যাগ ত্রুটির পূর্বাভাসের বাইরে)

আপনার মেট্রিকটি সত্য এবং এলোমেলো তথ্যের মধ্যে যে কোনও পছন্দের মেট্রিকের মধ্যে এইভাবে পার্থক্য (সম্ভাবনা, আকারের পার্থক্য, ...)।

অনেকগুলি মডেলের জন্য এটি সজ্জিত করা আপনাকে মডেলগুলির মধ্যে পার্থক্য করতে দেয়।

এটি আরে প্রয়োগ করা যেতে পারে

এলোমেলোভাবে আর পাওয়া যায়


+1, আমি এই ধারণাটি পছন্দ করি; তবে, এলোমেলোকরণ / ডেটা অনুমোদনের ফলে কেবল সম্পর্ক বি / টি ভেরিয়েবল ভেঙে যায়, ডাব্লু / আইআই একক ভেরিয়েবল ক্লাস্টারিং থাকলে এটি কাজ করবে না।
গুং - মনিকা পুনরায়

1

যদি ক্লাস্টারিং অ্যালগরিদম নির্বিচারে না হয় তবে ক্লাস্টারিংয়ের "স্থিতিশীলতা" পরিমাপ করার চেষ্টা করুন - প্রতিটি দুটি পর্যবেক্ষণ একই ক্লাস্টারের অন্তর্ভুক্ত কতবার তা খুঁজে বের করুন। এটি জেনারালি আকর্ষণীয় পদ্ধতি, কেমান্স অ্যালগরিদমে কে বেছে নেওয়ার জন্য দরকারী।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.