ক্লাস্টারের সঠিক সংখ্যা সম্পর্কে কীভাবে সিদ্ধান্ত নেবেন?


54

আমরা ক্লাস্টার কেন্দ্রগুলি খুঁজে পাই এবং কে-মানে ক্লাস্টারিংয়ে কে বিভিন্ন ক্লাস্টার বিনগুলিতে পয়েন্টগুলি অর্পণ করি যা একটি খুব সুপরিচিত অ্যালগরিদম এবং নেটটিতে প্রায় প্রতিটি মেশিন লার্নিং প্যাকেজে পাওয়া যায়। তবে আমার মতে অনুপস্থিত এবং সবচেয়ে গুরুত্বপূর্ণ অংশটি হ'ল একটি সঠিক কে। এটির জন্য সর্বোত্তম মান কী? এবং, সর্বোত্তম বলতে কী বোঝায় ?

আমি বৈজ্ঞানিক কম্পিউটিংয়ের জন্য ম্যাটল্যাব ব্যবহার করি যেখানে সিলুয়েট প্লটগুলি এখানে দেখানো কে সম্পর্কে সিদ্ধান্ত নেওয়ার উপায় হিসাবে দেওয়া হয়েছে । যাইহোক, আমি বায়েশিয়ান পদ্ধতির বিষয়ে আরও আগ্রহী হব। কোন পরামর্শ প্রশংসা করা হয়।


2
চমৎকার প্রশ্ন ...


ভিজ্যুয়ালাইজেশন-ফর-ক্লাস্টারিংয়ের অধীনে কে-ক্লাস্টারগুলিকে চিত্র দেওয়ার একটি উপায় রয়েছে (আহমেদ) এবং এমএসটি ব্যবহার করে এক শটে বিভিন্ন কে এর প্রভাব দেখুন।
ডেনিস

আমি অর্ধেক একটি ডজন পদ্ধতির জন্য এই প্রশ্নের উত্তর দিয়েছেন Rওভার এখানে
বেন

1
ক্লাস্টারগুলির "সেরা" নম্বর কে নিয়ে সিদ্ধান্ত নেওয়া বোঝায় বিভিন্ন কে দিয়ে ক্লাস্টার সমাধানের তুলনা করা যায় - যা সমাধানটি আরও ভাল। এটি শ্রদ্ধার সাথে, টাস্কটি কীভাবে ক্লাস্টারিংয়ের পদ্ধতিগুলির তুলনা করতে অনুরূপ প্রদর্শিত হয় - যা আপনার ডেটার জন্য "আরও ভাল"। সাধারণ নির্দেশিকা এখানে রয়েছে
ttnphns

উত্তর:


28

এটি স্ট্যাকওভারফ্লোতে কয়েকবার জিজ্ঞাসা করা হয়েছিল: এখানে , এখানে এবং এখানে । সেখানকার লোকেরা এই প্রশ্নটি সম্পর্কে (বা এর একটি ছোট রূপ) সম্পর্কে কী চিন্তা করে তা একবার দেখে নিতে পারেন।

আমাকে এই প্রশ্নের নিজের উত্তরটি স্ট্যাকওভারফ্লো ডটকম-এ অনুলিপি করতে দাও:

দুর্ভাগ্যক্রমে স্বয়ংক্রিয়ভাবে "ডান" কে সেট করার কোনও উপায় নেই বা "ডান" কী এর কোনও সংজ্ঞা নেই। কোনও নীতিগত পরিসংখ্যান পদ্ধতি নেই, সহজ বা জটিল যা "ডান কে" সেট করতে পারে। এখানে হিরিস্টিকস, থাম্বের নিয়ম রয়েছে যা কখনও কখনও কাজ করে, কখনও কখনও তা করে না।

পরিস্থিতি আরও সাধারণ কারণ অনেকগুলি ক্লাস্টারিং পদ্ধতিতে এই ধরণের প্যারামিটার থাকে এবং আমি মনে করি এটি ক্লাস্টারিং / আনসারভিজড লার্নিং রিসার্চ সম্প্রদায়ের মধ্যে একটি বড় উন্মুক্ত সমস্যা।


+1 পড়ার পরে - এটি আমার কাছে এতটা স্বজ্ঞাত মনে হয়েছে .... তবে আমার অবশ্যই বলতে হবে যে আমি এর আগে কখনও ভেবে দেখিনি। আসলে পিসিএতে পিসি সংখ্যা বাছাই করার সমস্যাটি কে-
মিনে

2
@ ডোভ এই দুটি জিনিস মোটামুটি সমতুল্য নয়। একটি নির্দিষ্ট ব্যবস্থা রয়েছে যা একটি পিসিএ সমাধানের মান পরীক্ষা করার জন্য ব্যবহার করা যেতে পারে (সর্বাধিক উল্লেখযোগ্য পুনর্গঠন ত্রুটি, তবে% এর বিভিন্ন ধরণের পরিবর্তনও রয়েছে) এবং এগুলি বেশিরভাগ ক্ষেত্রেই সামঞ্জস্যপূর্ণ থাকে। তবে ক্লাস্টারিংয়ে প্রায়শই কোনওরই "সঠিক উত্তর" থাকে না - একটি ক্লাস্টারিং এক মেট্রিকের চেয়ে অন্যের চেয়ে ভাল হতে পারে এবং বিপরীতটি অন্য মেট্রিক ব্যবহার করে সত্য হতে পারে। এবং কিছু পরিস্থিতিতে একই মেট্রিকের অধীনে দুটি পৃথক পৃথক ক্লাস্টারিং সমানভাবে সম্ভাব্য হতে পারে।
tdc

@tdc কিন্তু এই না en.wikipedia.org/wiki/... বেশী বা কম ভালো হয় improvedoutcomes.com/docs/WebSiteDocs/PCA/... ?
ডভ

2
@ ডভ হ্যাঁ, তারা একে অপরের মতো "কম-বেশি", তবে আমি কেবল বলছিলাম যে ক্লাস্টার সংখ্যা বাছাই করার সমস্যাটি পিসি সংখ্যা বাছাই করার চেয়ে অনেক বেশি পরিপূর্ণ ie যেমন তারা "সমতুল্য" নয়।
tdc

1
+1 আপনি ঠিক বলেছেন। আমরা সর্বোত্তম কে সম্পর্কে সিদ্ধান্ত নেওয়ার জন্য কিছু অন্য মডেল বা অনুমানের পরিচয় করি তবে তারপরে প্রশ্নটি দেখা দেয় যে সেই মডেল বা অনুমানটি সর্বোত্তম কেন ...
পেট্রিচোর

19

প্রথমত একটি সতর্কতা ক্লাস্টারিংয়ে প্রায়শই কোনওরই "সঠিক উত্তর" থাকে না - একটি ক্লাস্টারিং এক মেট্রিকের চেয়ে অন্যের চেয়ে ভাল হতে পারে এবং বিপরীতটি অন্য মেট্রিক ব্যবহার করে সত্য হতে পারে। এবং কিছু পরিস্থিতিতে একই মেট্রিকের অধীনে দুটি পৃথক পৃথক ক্লাস্টারিং সমানভাবে সম্ভাব্য হতে পারে।

এটি বলার পরে, আপনি ডিরিচলেট প্রক্রিয়াগুলি একবার দেখতে চান । এই টিউটোরিয়ালটি দেখুন

যদি আপনি কোনও গাউসিয়ান মিশ্রণ মডেল দিয়ে শুরু করেন তবে আপনার কে-ইনের সাথে একই সমস্যা রয়েছে - যে আপনাকে ক্লাস্টারের সংখ্যাটি বেছে নিতে হবে। আপনি মডেল প্রমাণ ব্যবহার করতে পারেন, তবে এই ক্ষেত্রে এটি দৃust় হবে না। সুতরাং কৌশলটি হ'ল মিশ্রণ উপাদানগুলির পূর্বে একটি ডিরিচলেট প্রক্রিয়া ব্যবহার করা, যা পরে আপনাকে সম্ভাব্য অসীম সংখ্যক মিশ্রণ উপাদানগুলি রাখার অনুমতি দেয়, তবে মডেলটি (সাধারণত) স্বয়ংক্রিয়ভাবে উপাদানগুলির "সঠিক" সংখ্যার সন্ধান করবে (অনুমানের অধীনে) মডেলটি).

αα


1
কোন ঘনত্বের প্যারামিটারের অধীনে একটি ডিরিচলেট প্রক্রিয়া? এটি একই মূল প্রশ্নের সমতুল্য, কে-এর অধীনে কে-মানে? যদিও আমি একমত যে আমরা ডাইরচলেট বিতরণ আরও ভালভাবে বুঝতে পারি যে কিছু বাস্তব-বিশ্বের ডেটাতে কিছু জটিল অ্যালগরিদমের আচরণ।
কার্লোসডিসি

@ কার্লোসডিসি ভালো কথা, আমি ঘনত্বের পরামিতি সম্পর্কে কিছুটা আলোচনার জন্য উত্তরটি আপডেট করেছি
tdc

1
আমার অভিজ্ঞতায় একটি সীমাবদ্ধ মিশ্রণ মডেলের ক্লাস্টারের সংখ্যা নির্ধারণের চেয়ে আলফার মতো ক্রমাগত মূল্যবান একাগ্রতার প্যারামিটার শিখতে আরও সহজ। আপনি যদি সসীম মিশ্রণের মডেলটি ধরে রাখতে চান এবং কোনও বায়সিয়ান ট্র্যাকটি নিতে চান, সেখানে বিপরীতমুখী ঝাঁপ এমসিএমসি ( onLelibrary.wiley.com/doi/10.1111/1467-9868.00095/abstract ) আছে

1
দুর্দান্ত উত্তর। আমি রিভিজিটিং কে-মিনস: বয়েসিয়ান ননপ্যারমেট্রিক্সের মাধ্যমে নতুন অ্যালগরিদমগুলিকে যুক্ত করব । যা কে-মিনসে একটি সাধারণ "ধারাবাহিক" পদ্ধতির দেয়। তারপরে অনুকূল মানটি ব্যবহার করে অনুকূল মানটি সন্ধান করা সহজ।
রই

9

আমি কনুই পদ্ধতিটি ব্যবহার করি :

  • কে = 2 দিয়ে শুরু করুন এবং আপনার ক্লাস্টারগুলি এবং প্রশিক্ষণের সাথে যে ব্যয় হয় তার হিসাব করে প্রতিটি ধাপে এটি 1 দ্বারা বাড়িয়ে রাখুন। কে-এর জন্য কিছু মূল্যে ব্যয় নাটকীয়ভাবে হ্রাস পায় এবং এরপরে এটি আরও বাড়িয়ে তুললে এটি মালভূমিতে পৌঁছে যায়। এটি আপনি চান কে মান value

যুক্তিটি হ'ল এর পরে, আপনি ক্লাস্টারের সংখ্যা বাড়িয়েছেন তবে নতুন ক্লাস্টারটি বিদ্যমান কয়েকটির কাছে খুব কাছে।


এটির মতো মনে হচ্ছে এটি এল পদ্ধতিটি (আমার উত্তর দেখুন) মূল্যায়ন করে principle
20'12

6

ক্লাস্টারের আকারগুলি আপনার ডেটা এবং আপনি কী ফলাফলগুলি ব্যবহার করতে যাচ্ছেন তার উপর অত্যন্ত নির্ভর করে। জিনিসগুলিকে বিভাগগুলিতে বিভক্ত করার জন্য যদি আপনার ডেটা ব্যবহার করা হয় তবে আপনি প্রথমে কতগুলি বিভাগ চান তা কল্পনা করার চেষ্টা করুন। যদি এটি ডেটা ভিজ্যুয়ালাইজেশনের জন্য হয় তবে এটিকে কনফিগারযোগ্য করুন, যাতে লোকেরা বড় ক্লাস্টার এবং আরও ছোট দুটি দেখতে পারে।

আপনার যদি এটি স্বয়ংক্রিয় করার দরকার হয়, আপনি সম্ভবত কে বাড়িয়ে তুলতে চাইবেন এবং সর্বোত্তম ক্লাস্টারটি সেইভাবে গণনা করুন। এবং তারপরে আপনি কেবলমাত্র ওজন কে এর উপর নির্ভর করে আপনি এক টন ক্লাস্টার চান বা আপনি খুব কম চান।


5

আপনি বর্ণিত সমস্যাটির সাথে মোকাবিলা না করে (ক্লাস্টারের সংখ্যাটি সন্ধান করে) যা এর পরিবর্তিত সংস্করণটি এখানে প্রয়োগ করা হয়েছে তা অসম্পর্কিত অনুকূল ফাজি ক্লাস্টারিংও পরীক্ষা করতে পারেন


5

ভৌগলিক অ্যাপ্লিকেশনটিতে ক্লাস্টারের সংখ্যা নির্ধারণ করতে আমি "এল পদ্ধতি" ব্যবহার করতে সক্ষম হয়েছি (যেমন প্রযুক্তিগতভাবে ইউক্লিডিয়ান না হলেও তাত্পর্যপূর্ণভাবে 2 ডি সমস্যা)।

এল পদ্ধতিটি এখানে বর্ণিত হয়েছে: হায়ারারিকাল ক্লাস্টারিং / বিভাগ বিভাগের অ্যালগোরিদম স্ট্যান সালভাদোর এবং ফিলিপ চ্যানে ক্লাস্টার / বিভাগের সংখ্যা নির্ধারণ

মূলত এটি কে এর বিভিন্ন মানের জন্য ফিটকে মূল্যায়ন করে। একটি "এল" আকৃতির গ্রাফটি গ্রাফের হাঁটু দ্বারা উপস্থাপিত সর্বোত্তম কে মানের সাথে দেখা যায়। হাঁটির পয়েন্টটি সন্ধান করতে একটি সাধারণ দ্বৈত-লাইন সর্বনিম্ন-স্কোয়ার ফিটিং গণনা ব্যবহৃত হয়।

আমি পদ্ধতিটি খুব ধীর পেয়েছি কারণ পুনরাবৃত্ত k-মানে কে এর প্রতিটি মানের জন্য গণনা করতে হয়। এছাড়াও আমি একাধিক রান এবং শেষের দিকে সেরাটি বেছে নিয়ে সবচেয়ে ভাল কাজ করেছে k যদিও প্রতিটি ডেটা পয়েন্টের মাত্র দুটি মাত্রা ছিল, একটি সাধারণ পাইথাগোরিয়ান দূরত্ব ব্যবহার করা যায়নি। সুতরাং এটি গণনা অনেক।

একটি ধারণা হ'ল কে (বলুন) এর অন্যান্য মানকে গণনার অর্ধেক এবং এড়িয়ে যাওয়া বা কে-মানে পুনরাবৃত্তির সংখ্যা হ্রাস করা এবং তারপরে আরও সঠিক ফিটের জন্য ফলাফলটি বক্ররে সামান্য মসৃণ করা। আমি স্ট্যাকওভারফ্লোতে এই সম্পর্কে জিজ্ঞাসা করেছি - আইএমএইচও, স্মুথিং প্রশ্নটি একটি মুক্ত গবেষণা প্রশ্ন হিসাবে রয়ে গেছে।


4

তবে যদি আপনার ডেটা সেটটি ভোরোনাই স্কিমের সাথে খাপ খায় না?


3
যদিও প্রথম অনুচ্ছেদে কে-অর্থের বিবরণটি ভুল নয়, এটি কিছু লোককে মূল তথ্যের ভিত্তিতে ভোরোনাই বিভাজনের সাথে এই পদ্ধতির সমান করতে বিভ্রান্ত করতে পারে এটি তেমন নয়: পার্টিশনটি ক্লাস্টারের অর্থের অবস্থানগুলির উপর ভিত্তি করে তৈরি করা হয়, যা মূল ডেটার সাথে একত্রে (এবং সাধারণত হবে না) হতে পারে।
হোবার

3

সামগ্রিকভাবে, আপনি দুটি পৃথক পথে বেশ কয়েকটি ক্লাস্টার বেছে নিতে পারেন।

  1. জ্ঞান চালিত: ব্যবসায়ের দিক থেকে আপনার কতগুলি ক্লাস্টার প্রয়োজন তা আপনার কিছু ধারণা থাকা উচিত ideas উদাহরণস্বরূপ, আপনি গ্রাহকদের ক্লাস্টার করছেন, আপনার নিজের জিজ্ঞাসা করা উচিত, এই গ্রাহকদের পাওয়ার পরে, আমার আর কী করা উচিত? বিভিন্ন ক্লাস্টারের জন্য আপনার আলাদা চিকিত্সা থাকতে পারে? (যেমন ইমেল বা ফোনে বিজ্ঞাপন দেওয়া)। তাহলে আপনি কতগুলি সম্ভাব্য চিকিত্সার পরিকল্পনা করছেন? এই উদাহরণে, আপনি 100 টি ক্লাস্টার খুব বেশি অর্থবোধ করবেন না বলে নির্বাচন করুন।

  2. ডেটা চালিত: বেশি সংখ্যক ক্লাস্টার ওভার-ফিটিং এবং কম ক্লাস্টারের সংখ্যা কম-ফিটিং। আপনি সর্বদা অর্ধে ডেটা বিভক্ত করতে পারেন এবং কতগুলি ক্লাস্টার ভাল তা দেখতে ক্রস বৈধতা চালাতে পারেন। দ্রষ্টব্য, ক্লাস্টারিংয়ে আপনার এখনও ক্ষতি ফাংশন রয়েছে, তদারকি করা সেটিংয়ের মতো।

শেষ অবধি, আপনার সর্বদা বাস্তব বিশ্বে চালিত জ্ঞান এবং ডেটা একত্রিত করা উচিত।


2

যেহেতু কেউ এখনও এটি নির্দেশ করে নি, আমি ভেবেছিলাম আমি এটি ভাগ করে নেব। এক্স-মেনস নামে একটি পদ্ধতি রয়েছে, ( এই লিঙ্কটি দেখুন ) যা বয়েসিয়ান তথ্য মাপদণ্ড (বিআইসি) ব্যবহার করে সঠিক সংখ্যক ক্লাস্টারের অনুমান করে। মূলত, এটি বিভিন্ন কে-কে দিয়ে কে বোঝানোর চেষ্টা করা হবে, প্রতিটি কে-র জন্য বিআইসির গণনা করা এবং সেরা কে বেছে নেওয়ার মতো This এই অ্যালগরিদম সেই দক্ষতার সাথে করে।

একটি ওয়েকা বাস্তবায়নও রয়েছে, এর বিশদ এখানে পাওয়া যাবে


0

আরেকটি পদ্ধতি হ'ল বিবর্তনীয় অ্যালগরিদম ব্যবহার করা যার ব্যক্তির বিভিন্ন দৈর্ঘ্যের ক্রোমোজোম থাকে। প্রতিটি স্বতন্ত্র প্রার্থীর সমাধান: প্রত্যেকে সেন্ট্রোডের স্থানাঙ্ক বহন করে। সেরা ক্লাস্টারিং মূল্যায়নের স্কোর পাওয়া এমন কোনও সমাধানে পৌঁছানোর জন্য সেন্ট্রয়েডের সংখ্যা এবং তাদের স্থানাঙ্কগুলি বিবর্তিত হয়েছে।

এই কাগজটি অ্যালগরিদম ব্যাখ্যা করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.