কীভাবে বলতে হবে যে ডেটাগুলি "ক্লাস্টারড" যথেষ্ট পরিমাণে ক্লাস্টারিং অ্যালগরিদমগুলিকে অর্থবহ ফলাফল দেওয়ার জন্য রয়েছে?


78

আপনি কীভাবে জানবেন যে আপনার (উচ্চ মাত্রিক) ডেটা যথেষ্ট পরিমাণে ক্লাস্টারিং প্রদর্শন করে যাতে কমিয়ান বা অন্যান্য ক্লাস্টারিং অ্যালগরিদম থেকে প্রাপ্ত ফলাফলগুলি আসলে অর্থবহ হয়?

বিশেষত কে-মানে অ্যালগরিদমের জন্য, প্রকৃতির ক্লাস্টারিংয়ের ফলাফলগুলি অর্থবহ (এবং উদ্দীপক নয়) হওয়ার জন্য-ক্লাস্টারের বৈকল্পিকতার মধ্যে হ্রাসের পরিমাণ কত হওয়া উচিত?

যখন ক্লাস্টারিংটি ভিজ্যুয়ালাইজ করা যায় না, তখন কি ক্লাস্টারিংয়ের বিষয়টি দৃশ্যমান হওয়া উচিত?


1
হস্তাক্ষর অঙ্কগুলি ক্লাস্টারিংয়ের জন্য একটি দুর্দান্ত পরীক্ষা করে: কেউ 10 টি আলাদাভাবে বিচ্ছিন্ন ক্লাস্টার আশা করতে পারে, তবে এটি কে = 10 এ মোটেও হাঁটু দেখায় না, কমপক্ষে 64 ডি-তে ইউক্লিডিয়ান মেট্রিকে।
ডেনিস


2
আপনার ক্লাস্টারিংয়ের ফলাফলের বৈধতা কীভাবে পরীক্ষা করবেন এবং কীভাবে "আরও ভাল" পদ্ধতি নির্বাচন করবেন তা এই প্রশ্নের সাথে কিছুটা হলেও সম্পর্কিত। উদাহরণস্বরূপ stats.stackexchange.com/q/195456/3277 দেখুন ।
ttnphns

উত্তর:


77

বিশেষত কে-মানে সম্পর্কে, আপনি গ্যাপ পরিসংখ্যান ব্যবহার করতে পারেন। মূলত, ধারণাটি ক্রমবর্ধমান সংখ্যক ক্লাস্টারের রেফারেন্স বিতরণের তুলনায় গড় বিস্তারের উপর ভিত্তি করে ক্লাস্টারিং পরিমাপের একটি ভালতা গণনা করা। মূল কাগজে আরও তথ্য পাওয়া যাবে:

তিবশিরানী, আর।, ওয়ালথার, জি।, এবং হাস্টি, টি। (2001)। ফাঁক পরিসংখ্যানের মাধ্যমে কোনও ডেটা সেট করে গুচ্ছের সংখ্যা নির্ধারণ করা । জেআর স্ট্যাটিস্ট। SOC। বি, 63 (2): 411-423।

আমি সম্পর্কিত প্রশ্নের যে উত্তর সরবরাহ করেছি তা অন্যান্য সাধারণ বৈধতা সূচকগুলিকে হাইলাইট করে যা কোনও প্রদত্ত ডেটাসেট কোনও কাঠামোর কোনও প্রকারের প্রদর্শন করে কিনা তা পরীক্ষা করতে ব্যবহৃত হতে পারে।

আপনি যদি কেবল গোলমাল হচ্ছিলেন তবে কী কী প্রত্যাশা করবেন তা সম্পর্কে আপনার কোনও ধারণা নেই, তখন একটি ভাল পদ্ধতির পুনরায় মডেলিং ব্যবহার করা এবং ক্লাস্টারগুলির স্থায়িত্ব অধ্যয়ন করা। অন্য কথায়, আপনার ডেটা পুনরায় নমুনা করুন (বুটস্ট্র্যাপের মাধ্যমে বা এতে ছোট শব্দ যোগ করে) এবং জ্যাকার্ডের মিলগুলির দ্বারা পরিমাপকৃত পার্টিশনের "ঘনিষ্ঠতা" গণনা করুন । সংক্ষেপে, এটি যে ফ্রিকোয়েন্সি সহ ডেটাগুলিতে অনুরূপ ক্লাস্টারগুলি পুনরুদ্ধার করেছিল তা অনুমান করতে দেয়। এই পদ্ধতিটি সহজেই fpc আর প্যাকেজে উপলব্ধ clusterboot()। এটি কাঁচা ডেটা বা একটি দূরত্বের ম্যাট্রিক্স হিসাবে ইনপুট হিসাবে গ্রহণ করে এবং বিভিন্ন ধরণের ক্লাস্টারিং পদ্ধতি (শ্রেণিবদ্ধ, কে-মানে, অস্পষ্ট পদ্ধতি) প্রয়োগ করতে দেয়। লিঙ্কটি রেফারেন্সে পদ্ধতিটি আলোচনা করা হয়েছে:

হেননিগ, সি। (2007) ক্লাস্টারের স্থায়িত্বের ক্লাস্টার-ভিত্তিক মূল্যায়নগণনা পরিসংখ্যান এবং ডেটা বিশ্লেষণ , 52, 258-271।

হেননিগ, সি। (২০০৮) ডিসসুলেশন পয়েন্ট এবং বিচ্ছিন্নতা দৃust়তা: সাধারণ ক্লাস্টার বিশ্লেষণ পদ্ধতিগুলির জন্য দৃust়তার মানদণ্ডমাল্টিভারিয়েট বিশ্লেষণ জার্নাল , 99, 1154-1176।

নীচে কে-মানে অ্যালগরিদম সহ একটি ছোট বিক্ষোভ প্রদর্শন করা হচ্ছে।

sim.xy <- function(n, mean, sd) cbind(rnorm(n, mean[1], sd[1]),
rnorm(n, mean[2],sd[2]))
xy <- rbind(sim.xy(100, c(0,0), c(.2,.2)),
            sim.xy(100, c(2.5,0), c(.4,.2)),
            sim.xy(100, c(1.25,.5), c(.3,.2)))
library(fpc)
km.boot <- clusterboot(xy, B=20, bootmethod="boot",
                       clustermethod=kmeansCBI,
                       krange=3, seed=15555)

এই কৃত্রিম (এবং সুগঠিত) ডেটাসেটে ফলাফলগুলি বেশ ইতিবাচক, যেহেতু তিনটি ক্লাস্টার ( krange) কোনওটিরই নমুনা জুড়ে দ্রবীভূত হয়নি, এবং সমস্ত ক্লাস্টারের জন্য গড় ক্লাস্টারওয়াইজ জ্যাকার্ড সমানতা> ০.৯৯।

নীচে 20 টি বুটস্ট্র্যাপ নমুনার ফলাফল রয়েছে। যেমন দেখা যায়, পরিসংখ্যান ইউনিটগুলির মধ্যে একই পর্যায়ের গোষ্ঠীতে গোষ্ঠীবদ্ধ হওয়ার ঝোঁক রয়েছে, এই পর্যবেক্ষণগুলির মাঝখানে থাকা ব্যতিক্রম কয়েকটি ব্যতিক্রম ছাড়া।

এখানে চিত্র বর্ণনা লিখুন

আপনি এই ধারণাটি যে কোনও বৈধতা সূচকে প্রসারিত করতে পারেন, অবশ্যই: বুটস্ট্র্যাপ (প্রতিস্থাপন সহ) দ্বারা পর্যবেক্ষণের একটি নতুন সিরিজ চয়ন করুন, আপনার পরিসংখ্যানগুলি গণনা করুন (উদাহরণস্বরূপ, সিলুয়েটের প্রস্থ, কোফেনেটিক পারস্পরিক সম্পর্ক, হুবার্টের গামা, বর্গের যোগফলের মধ্যে) একটি ব্যাপ্তির জন্য গুচ্ছ সংখ্যা (উদাহরণস্বরূপ, 2 থেকে 10), 100 বা 500 বার পুনরাবৃত্তি করুন এবং ক্লাস্টারের সংখ্যার ফাংশন হিসাবে আপনার পরিসংখ্যানের বক্সপ্লটটি দেখুন।

আমি একই সিমুলেটেড ডেটাসেটের সাথে যা পেয়েছি তা এখানে, তবে ওয়ার্ডের শ্রেণিবিন্যাসের ক্লাস্টারিং ব্যবহার করে এবং কোফেনেটিক পারস্পরিক সম্পর্ক বিবেচনা করে (যা নির্ধারণ করে যে পার্টিশনগুলিতে দূরত্বের তথ্যগুলি কতটা ভালভাবে পুনরুত্পাদন করা হয়) এবং সিলুয়েটের প্রস্থ (একটি সংমিশ্রণ পরিমাপ যা ইন্টার-ক্লাস্টার একজাতীয়তা এবং আন্তঃ- গুচ্ছ বিচ্ছেদ)।

কফেনেটিক পারস্পরিক সম্পর্ক 070267 থেকে 0.7511 থেকে 0.7031 (500 বুটস্ট্র্যাপ নমুনা) এর মধ্যম মানের সহ হয়। সিলুয়েটের প্রস্থ সর্বাধিক বলে মনে হয় যখন আমরা 3 টি ক্লাস্টার বিবেচনা করি (মাঝারি 0.8408, পরিসীমা 0.7371-0.8769)।

এখানে চিত্র বর্ণনা লিখুন


এই তথ্যবহুল উত্তরের জন্য ধন্যবাদ! ক্লাস্টারবুটের মতো শব্দগুলি হ'ল আমি যা খুঁজছি। লিঙ্কগুলি অন্তর্ভুক্ত করার জন্য আপনাকে ধন্যবাদ।
xuexue

1
সিলুয়েট মানগুলি ব্যাখ্যা করার জন্য কিছু ম্যাজিক সংখ্যা: stats.stackexchange.com/a/12923/12359
ফ্রাঙ্ক ডারননকোর্ট

1
জিআইএফ-তে এই চার্টগুলি তৈরি করতে আপনি যে আদেশ (গুলি) ব্যবহার করেছিলেন?
ট্র্যাভিস হিটার

2
@Travis ইমেজ পৃথক PNG ফাইল হিসাবে সংরক্ষণ করা হয়েছে, এবং তারপর ব্যবহার করে একটি অ্যানিমেটেড জিআইএফ ফাইল রূপান্তরিত করে ImageMagick । আরও দেখুন এই পোস্টে
chl

10

উচ্চ মাত্রিক তথ্য যথেষ্ট ক্লাস্টারিং প্রদর্শন করে কিনা তা দ্রুত দেখার জন্য একটি উপায় হ'ল টি-ডিস্ট্রিবিউটড স্টোকাস্টিক নেবার এম্বেডিং ( টি-এসএনই ) ব্যবহার করা। এটি ডেটাটি কিছু নিম্ন মাত্রিক স্থানের (যেমন 2 ডি, 3 ডি) প্রজেক্ট করে এবং ক্লাস্টার স্ট্রাকচার যদি থাকে তবে রাখার জন্য বেশ ভাল কাজ করে।

যেমন এমএনআইএসটি ডেটা সেট :

এখানে চিত্র বর্ণনা লিখুন

অলিভট্টির মুখোমুখি ডেটা সেট:

এখানে চিত্র বর্ণনা লিখুন


1
আর-তে মুখগুলি (বা কোনও চিত্র) প্রয়োগ করার কোনও উপায় আছে কি?
ট্র্যাভিস হিটার

1
@ ট্র্যাভিসহিটার আমি জানি না
ফ্রাঙ্ক ডারননকোর্ট

3
টিএসএনই প্রজেক্টড ডেটা ক্লাস্টার করবেন না। দেখুন, উদাহরণস্বরূপ, এই উত্তরটি দেখুন: stats.stackexchange.com/a/264647/7828
-

9

অবশ্যই, ক্লাস্টারিং অ্যালগোরিদমের উপযোগিতার জন্য ক্লাস্টারগুলিকে চাক্ষুষভাবে দৃশ্যমানভাবে চিহ্নিত করার ক্ষমতা একটি সন্দেহজনক মাপদণ্ড, বিশেষত যদি এই মাত্রা হ্রাস নিজেই ক্লাস্টারিংয়ের মাধ্যমে স্বাধীনভাবে করা হয় (যেমন: এটি একটি ব্যর্থ চেষ্টা করে যদি তা খুঁজে বের করার চেষ্টা করা হয়) গুচ্ছ কাজ করবে)।

প্রকৃতপক্ষে, ক্লাস্টারিং পদ্ধতিগুলির ক্লাস্টারগুলিতে সর্বাধিক মূল্য রয়েছে যেখানে মানব চোখ / মন ক্লাস্টারগুলি দেখতে অক্ষম।

সহজ উত্তরটি হল: ক্লাস্টারিং করুন, তারপরে এটি কার্যকর হয়েছে কিনা তা সন্ধান করুন (আপনার আগ্রহী কোনও মানদণ্ডের সাথে, @ জেফের উত্তরও দেখুন)।


1
হ্যাঁ, এবং ক্লাস্টারগুলি অবিচ্ছিন্নভাবে পয়েন্টগুলির দুর্দান্ত বৃত্তাকার দল নয়, যা মূলত কমেনস অনুমান করে।
ওয়েইন

@ chl আপনি কি আর দিয়ে এই অ্যানিমেটেড চিত্রটি তৈরি করেছেন?
স্টাফেন লরেন্ট

7

যাইহোক ফলাফল কখন অর্থবহ হয়? বিশেষত কে-মানে ফলাফল?

ঘটনাটি হ'ল কে-মানে একটি নির্দিষ্ট গাণিতিক পরিসংখ্যানকে অনুকূল করে তোলে। এর সাথে কোনও "অর্থপূর্ণ" যুক্ত নেই।

বিশেষত উচ্চ মাত্রার ডেটাতে, প্রথম প্রশ্নটি হওয়া উচিত: ইউক্লিডিয়ান দূরত্ব এখনও অর্থবহ ? যদি তা না হয় তবে কে-উপায় ব্যবহার করবেন না। ইউক্লিডিয়ান দূরত্ব শারীরিক বিশ্বে অর্থবহ, তবে আপনার যখন অন্য ডেটা থাকে তখন তা দ্রুত অর্থ হারাবে। বিশেষত, আপনি যখন কৃত্রিমভাবে ডেটাটিকে একটি ভেক্টর স্পেসে রূপান্তর করেন, তখন ইউক্লিডিয়ান হওয়ার কোনও কারণ আছে কি?

আপনি যদি ক্লাসিক "পুরাতন বিশ্বস্ত" ডেটা সেট করেন এবং সাধারণীকরণ ছাড়াই এর উপর কে-মেন চালান , তবে খাঁটি ইউক্লিডিয়ান দূরত্ব থাকলে, এটি ইতিমধ্যে অর্থবহ নয়। ইএম, যা বাস্তবে "ক্লাস্টার স্থানীয়" মহালানোবিস দূরত্বের কিছু ফর্ম ব্যবহার করে, এটি আরও ভালভাবে কাজ করবে। বিশেষত, এটি খুব আলাদা স্কেলযুক্ত অক্ষগুলিতে খাপ খায়।

বিটিডাব্লু, কে- মানেগুলির একটি মূল শক্তিটি এটি হ'ল সর্বদা ডেটা ভাগ করে দেবে, তা দেখতে যত তা দেখায় না। আপনি কে ক্লাস্টারগুলিতে অভিন্ন শব্দের বিভাজনে কে-মাধ্যম ব্যবহার করতে পারেন । যে কেউ দাবি করতে পারে যে স্পষ্টতই, কে-মানে গুচ্ছগুলি অর্থবহ নয়। বা যেহেতু কেউ এটি মেনে নিতে পারে: ক্লাস্টারগুলির "অর্থবহ" হওয়ার প্রয়োজন ছাড়াই ব্যবহারকারী স্কোয়ারড ইউক্লিডিয়ান দূরত্ব হ্রাস করতে ডেটা বিভাজন করতে চেয়েছিল।


@ অ্যানি-মাউস এবং কে কে ক্লাস্টারে বিভাজন ইউনিফর্মের জন্য কেস ব্যবহার করবেন?
কোডফর্মার

কেউ নেই. মুল বক্তব্যটি হ'ল কে-মানে যত্ন করে না, এটি ইউনিফর্ম ডেটাগুলিকে "ক্লাস্টার" এ বিভক্ত করবে, অর্থাত্ এটি ননসেন্স ক্লাস্টার তৈরি করে।
অ্যানি-মৌসে

6

আমি সম্প্রতি ক্লাস্টারিং অ্যালগরিদমগুলি ব্যবহার শুরু করেছি, তাই আশা করি আরও জ্ঞানী কেউ আরও সম্পূর্ণ উত্তর সরবরাহ করতে পারেন তবে এখানে কিছু চিন্তাভাবনা রয়েছে:

'অর্থবহ', যেহেতু আমি নিশ্চিত আপনি সচেতন, খুব সাবজেক্টিভ। সুতরাং ক্লাস্টারিং যথেষ্ট ভাল কিনা তা সম্পূর্ণরূপে নির্ভর করে যে আপনাকে কেন প্রথম স্থানে ক্লাস্টার প্রয়োজন। যদি আপনি গোষ্ঠী সদস্যতার পূর্বাভাস দেওয়ার চেষ্টা করছেন তবে সম্ভবত যে কোনও ক্লাস্টারিং সুযোগের চেয়ে ভাল করবে (এবং আরও খারাপ নয়), সুতরাং ফলাফলগুলি কিছুটা হলেও অর্থবহ হওয়া উচিত।

যদি আপনি জানতে চান যে এই ক্লাস্টারিং কতটা নির্ভরযোগ্য , আপনার এটির সাথে তুলনা করার জন্য কিছু মেট্রিক দরকার। আপনার যদি পরিচিত সদস্যতার সাথে সত্ত্বার একটি সেট থাকে, তবে ভবিষ্যদ্বাণীগুলি কতটা ভাল ছিল তা দেখতে আপনি বৈষম্যমূলক বিশ্লেষণ ব্যবহার করতে পারেন। আপনার যদি পরিচিত সদস্যতার সাথে সত্ত্বার সেট না থাকে তবে আপনার ক্ষেত্রের ক্লাস্টারগুলির মধ্যে কী বৈকল্পিক বৈশিষ্ট্য তা জানতে হবে। অনমনীয় বিভাগগুলির সাথে সত্তাগুলির শারীরিক বৈশিষ্ট্যগুলি মানুষের মধ্যে সাইকোমেট্রিক তথ্যের তুলনায় গ্রুপ-পার্থক্য অনেক কম হতে পারে তবে এটি অবশ্যই ক্লাস্টারিংটিকে আরও খারাপ করে তোলে না।

আপনার দ্বিতীয় প্রশ্নটি 'কে এর কোন মানটি নির্বাচন করা উচিত?' আবার, এখানে কোনও শক্ত উত্তর নেই। বিভাগগুলির কোনও অগ্রাধিকার সেটের অভাবে, আপনি সম্ভবত ক্লাস্টারের সংখ্যা হ্রাস করতে চান এবং গড় ক্লাস্টারের বৈচিত্রকেও হ্রাস করতে চান। একটি সহজ পদ্ধতির হতে পারে 'ক্লাস্টারগুলির সংখ্যা' বনাম 'গড় ক্লাস্টারের বৈকল্পিক' প্লট করা এবং "কনুই" সন্ধান করা - যেখানে আরও ক্লাস্টার যুক্ত করা আপনার ক্লাস্টারের বৈকল্পিকতার উপর উল্লেখযোগ্য প্রভাব ফেলবে না।

আমি বলব না কে-মাধ্যমের ফলাফলগুলি অর্থহীন, যদি এটি কল্পনা করা যায় না, তবে ক্লাস্টারগুলি দৃশ্যত দৃশ্যমান হলে এটি অবশ্যই আবেদনকারী। এটি আবারও এই প্রশ্নের দিকে ফিরে যায়: কেন আপনাকে ক্লাস্টারিং করতে হবে এবং আপনার কতটা নির্ভরযোগ্য হওয়া দরকার? শেষ পর্যন্ত, এটি এমন একটি প্রশ্ন যা আপনাকে কীভাবে ডেটা ব্যবহার করবে তার ভিত্তিতে উত্তর দেওয়া দরকার।


3

একটি ক্লাস্টারিং অর্থবোধক কিনা তা জানাতে, আপনি ক্লাস্টারের সংখ্যা গণনা করতে একটি অ্যালগরিদম চালাতে পারেন এবং দেখুন যে এটি 1 এর চেয়ে বড় কিছু আউটপুট দেয়।

যেমন চিএল বলেছিল, একটি ক্লাস্টার-কাউন্টিং অ্যালগরিদম হ'ল গ্যাপ স্ট্যাটিস্টিক অ্যালগরিদম। মোটামুটি, এটি আপনার প্রকৃত ডেটা প্রদত্ত মোট ক্লাস্টার বৈকল্পকে গণনা করে এবং এটির সামগ্রিক ক্লাস্টার ভেরিয়েন্সের সাথে তুলনা করে যার কোনও ক্লাস্টার থাকা উচিত নয় (উদাহরণস্বরূপ, আপনার প্রকৃত ডেটার সমান সীমানার মধ্যে একত্রে নমুনা তৈরি করে একটি ডেটাসেট)। ক্লাস্টার সংখ্যা তারপর তাকে বাছাই করা হয় যে এই দুই ক্লাস্টার ভেরিয়ানস মধ্যে বৃহত্তম "ফাঁক" দেয়।কেkk

আরেকটি অ্যালগোরিদম হ'ল ভবিষ্যদ্বাণী শক্তি শক্তি অ্যালগরিদম (যা chl এর উত্তরগুলির সাথে মিল রয়েছে)। মোটামুটি, এটি কে-মানে ক্লাস্টারিংগুলির একটি গুচ্ছ সম্পাদন করে এবং একই ক্লাস্টারে থাকা পয়েন্টগুলির অনুপাতের গণনা করে। কে তখন সবচেয়ে ছোট হিসাবে বেছে নেওয়া হয় যা কিছু প্রান্তিকের চেয়ে বেশি অনুপাত দেয় (যেমন, 0.8 এর প্রান্তিক)।কেkk

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.