ডেটাসেটের এলোমেলো সাবমেলগুলির মাধ্যমে কে-কেন্দ্র কেন্দ্রগুলি শুরু করছেন?

13

আমার যদি একটি নির্দিষ্ট ডেটাসেট থাকে তবে dat ডেটাসেটের এলোমেলো নমুনার মাধ্যম ব্যবহার করে গুচ্ছ কেন্দ্রগুলি শুরু করা কতটা স্মার্ট হবে?

উদাহরণস্বরূপ, ধরুন আমি চাই 5 clusters। আমি মূল ডেটাসেটের 5 random samplesবলি size=20%। তাহলে আমি কি এই 5 টি এলোমেলো নমুনার প্রত্যেকটির গড় গ্রহণ করতে পারি এবং সেগুলি আমার 5 প্রাথমিক ক্লাস্টার কেন্দ্র হিসাবে ব্যবহার করতে পারি? আমি কোথায় এটি পড়েছি তা জানি না তবে আপনি ধারণা সম্পর্কে আপনারা কী ভাবছেন তা জানতে চাই।

আপডেট: দয়া করে এই থ্রেডটি কে-মানে ক্লাস্টারিংয়ের সূচনাটি দেখুন: বিদ্যমান পদ্ধতিগুলি কী কী? বিভিন্ন সূচনা পদ্ধতি সম্পর্কে সাধারণ আলোচনার জন্য।

clustering k-means unsupervised-learning

— JEquihua
সূত্র

11

যদি আপনি এলোমেলোভাবে নমুনাটিকে 5 টি সাবমিতে বিভক্ত করেন তবে আপনার 5 টির অর্থ প্রায় মিলবে। প্রাথমিক ক্লাস্টার সেন্টারগুলিতে এই জাতীয় ঘনিষ্ঠ পয়েন্টগুলি তৈরির বোধটি কী? বেশিরভাগ কে-মানে বাস্তবায়নে প্রাথমিক ক্লাস্টার সেন্টারগুলির ডিফল্ট নির্বাচনটি বিপরীত ধারণার ভিত্তিতে হয়: 5 টি পয়েন্টগুলি সন্ধান করতে যা খুব দূরে রয়েছে এবং তাদের প্রাথমিক কেন্দ্রগুলি তৈরি করে।

— ttnphns

2

@ttnphns এটি একটি দুর্দান্ত উত্তর হবে।

2

আমি মনে করি সামগ্রিক গড়টিকে এক পয়েন্ট হিসাবে বেছে নেওয়া এবং সেই কেন্দ্র থেকে দূরে থাকা অন্যদের বেছে নেওয়া আরও ভাল।

— মাইকেল আর চেরনিক

1

বোধ হয়। আমি কীভাবে এই 5 পয়েন্টগুলি দূরের সন্ধানে প্রায় সন্ধান করব? ধন্যবাদ!

— জেকুইয়া

@ জেকুইহুয়া, আমি উত্তর হিসাবে আমার মন্তব্য পোস্ট করেছি এবং আপনি অনুরোধ করছেন এমন বিবরণ যুক্ত করেছেন।

— ttnphns

16

যদি আপনি এলোমেলোভাবে নমুনাটিকে 5 টি সাবমিতে বিভক্ত করেন তবে আপনার 5 টির অর্থ প্রায় মিলবে। প্রাথমিক ক্লাস্টার সেন্টারগুলিতে এই জাতীয় ঘনিষ্ঠ পয়েন্টগুলি তৈরির বোধটি কী?

অনেক কে-মানে বাস্তবায়নে প্রাথমিক ক্লাস্টার সেন্টারগুলির ডিফল্ট নির্বাচনটি বিপরীত ধারণার উপর ভিত্তি করে থাকে: 5 টি পয়েন্টগুলি সন্ধান করতে যা খুব দূরে রয়েছে এবং সেগুলি প্রাথমিক কেন্দ্র করে তোলে। আপনি জিজ্ঞাসা করতে পারেন যে এই দূরে পয়েন্ট খুঁজে পেতে উপায় কি হতে পারে? এখানে এসপিএসএস-কে-এর অর্থ কী করছে:

প্রাথমিক কেন্দ্র হিসাবে ডেটাসেটের কোনও কে ক্ষেত্রে (পয়েন্ট) নিন । নিম্নলিখিত সমস্ত শর্তাবলী নিম্নলিখিত শর্তাবলী অনুসারে প্রাথমিক কেন্দ্র হিসাবে তাদের প্রতিস্থাপনের যোগ্যতার জন্য যাচাই করা হচ্ছে:

ক) যদি কেসটি একে অপরের কেন্দ্রের সবচেয়ে কাছের দুটিয়ের মধ্যকার দূরত্বের চেয়ে নিকটবর্তী কেন্দ্র থেকে খুব বেশি দূরে থাকে তবে কেসটি পরের দুটি কেন্দ্রের কাছাকাছি যেটির কাছাকাছি থাকে তার প্রতিস্থাপন করে।
খ) যদি কেসটি কেন্দ্রের নিকটতমতম কেন্দ্র এবং এই দ্বিতীয়টির নিকটতম কেন্দ্রের মধ্যবর্তী দূরত্বের চেয়ে নিকটতম কেন্দ্রের থেকে খুব বেশি দূরে থাকে তবে কেসটি কেন্দ্রটির নিকটতম স্থানটিকে প্রতিস্থাপন করে।

শর্ত (ক) সন্তুষ্ট না হলে শর্ত (খ) পরীক্ষা করা হয়; যদি তা সন্তুষ্ট না হয় তবে মামলাটি কেন্দ্রে পরিণত হয় না। এই ধরনের মামলার মধ্য দিয়ে চলার ফলস্বরূপ আমরা মেঘে কে সর্বাধিক কেস পাই যা প্রাথমিক কেন্দ্র হয়। এই শক্তির ফল, যদিও যথেষ্ট শক্তিশালী, "কোনও কে কেস" শুরু করার পছন্দ এবং ডেটাসেটে মামলার সাজানোর ক্ষেত্রে সম্পূর্ণ সংবেদনশীল নয় ; সুতরাং, বেশ কয়েকটি এলোমেলো প্রারম্ভিক প্রচেষ্টা এখনও স্বাগত, কারণ এটি সর্বদা কে-মাধ্যমের ক্ষেত্রে হয়।

আমার উত্তরটি কে-মাধ্যমের জন্য জনপ্রিয় প্রাথমিক পদ্ধতির তালিকার সাথে দেখুন । এলোমেলো সাবমেলগুলিতে বিভক্ত হওয়ার পদ্ধতি (আমার এবং অন্যরা এখানে সমালোচনা করেছেন) পাশাপাশি এসপিএসএস দ্বারা বর্ণিত পদ্ধতিটিও তালিকায় রয়েছে।

— ttnphns
সূত্র

1

একবার আপনি যা বর্ণনা করেছেন আমি তা শেষ করে দিয়েছি, কোন সূচনাটি আরও ভাল পার্টিশনের দিকে পরিচালিত করে তা নির্ধারণের জন্য আমি কোন পরিসংখ্যান ব্যবহার করতে পারি? সবকিছুর জন্য তোমাকে ধন্যবাদ.

— জেকুইয়া

প্রাথমিক কেন্দ্র হিসাবে চূড়ান্ত পয়েন্টগুলি একবারে সর্বোত্তম পার্টিশন পাওয়ার গ্যারান্টি দেয় না, তারা ভেবেছিল যে (এলোমেলো প্রাথমিক কেন্দ্রগুলির তুলনায়) "স্থানীয় সর্বোত্তম" এর মধ্যে আটকা পড়ার সম্ভাবনা হ্রাস পাবে এবং তারা রূপান্তর প্রক্রিয়াটিকে গতি দেয় do । মামলার ক্রম পরিবর্তনশীল, সম্পূর্ণ কে-মানে পার্টিশনটি 2-5 বার করুন, প্রাপ্ত চূড়ান্ত কেন্দ্রগুলি সংরক্ষণ করুন , সেগুলি গড় করুন এবং একটি চূড়ান্ত ক্লাস্টারাইজেশনের জন্য প্রাথমিক হিসাবে ইনপুট করুন। এই বিভাজন অবশ্যই সেরা। এটি পরীক্ষা করার জন্য আপনার আসলে কোনও বিশেষ পরিসংখ্যানের প্রয়োজন নেই, যদি না আপনি বিভিন্ন কে এর অংশীদারি তুলনা করছেন ।

— ttnphns

1

আমি বিভিন্ন কে এর পার্টিশন তুলনা করতে চাই। আমি কি ব্যবহার করতে পারি? ভাল ধারণা কি? আমাকে অনেক সাহায্য করার জন্য আপনাকে ধন্যবাদ। @ttnphns।

— জেকুইহুয়া

এখানে প্রচুর পরিমাণে "অভ্যন্তরীণ" ক্লাস্টারিং মাপদণ্ড রয়েছে । কে-উপায়গুলির জন্য সবচেয়ে উপযুক্তগুলির মধ্যে একটি হ'ল ক্যালিনস্কি-হারাবাসস (মাল্টিভারিয়েট ফিশারের এফ)। গুগল এটির জন্য বা অন্যদের জন্য।

— ttnphns

7

উপায় অনেক বেশি অনুরূপ হবে। আপনি ঠিক পাশাপাশি ডেটা সেট গড়ের সন্ধান করতে পারেন এবং তারপরে প্রাথমিক সেন্ট্রয়েডগুলিকে একটি ছোট বৃত্ত / গোলকের মধ্যে রেখেছেন।

আপনি যদি কে-অর্থের জন্য আরও কিছু শব্দ শুরুর স্কিম দেখতে চান তবে কে-মানে ++ দেখুন look তারা কে-পদ্ধতিতে বীজ বপনের জন্য যথেষ্ট চালাক পদ্ধতি তৈরি করেছে।

আর্থার, ডি এবং ভ্যাসিলভিটস্কি, এস (2007)।
কে-মানে ++: সাবধানে বীজ বপনের সুবিধাগুলি "
Disc

লেখক স্লাইডস: http://www.ima.umn.edu/~iwen/REU/BATS-Means.pdf

— কোয়েট আছে - অ্যানি-মৌসে
সূত্র

আমি এটি পড়েছি, এটি বেশ স্বজ্ঞাতভাবে সুবিধাজনক বলে মনে হচ্ছে তবে আমি মনে করি এটি এখনও প্রমাণ করা যায়নি যে এটি এলোমেলো সূচনা পয়েন্টগুলি অনেকটা গ্রহণ করার চেয়ে ভাল কাজ করে। আপনি যদি এটি চেষ্টা করতে চান তবে আমি এই সাধারণ কোডটি পেয়েছি: কিমিপিপি <- ফাংশন (এক্স, কে) {n <- নরো (এক্স) সি <- সংখ্যাসূচক (কে) সি [1] <- নমুনা (1: n, 1) এর জন্য (আমি ইন 2: কে) {ডিএম <- দূরত (এক্স, এক্স [সি,]) পিআর <- প্রয়োগ (ডিএম, 1, মিনিট); জনসাধারণের [সি] <- 0 সে [আমি] <- নমুনা (1: এন, 1, প্রোব = পিআর)} কামিয়ানস (এক্স, এক্স [সি,])}

— জেকুইহুয়া

এটি একীকরণের আগ পর্যন্ত পুনরাবৃত্তির সংখ্যা উল্লেখযোগ্যভাবে হ্রাস করতে এবং গড় ভাল ফলাফলের জন্য পরিচিত। আমি নিশ্চিত করতে পারি যে আমার নিজের পরীক্ষায়, kmeans ++ যাওয়ার উপায়। আমি ELKI প্রয়োগ ব্যবহার করছি।

— কিট আছে - অ্যানি-মৌসে

ELKI বাস্তবায়ন কি? আমি কোথায় এটি সন্ধান করতে পারি? শুভেচ্ছা!

— জেকুইহুয়া

en.wikipedia.org/wiki/ELKI

— QUIT আছে - Anony-হেয়ার ক্রিম

4

Ttnphns তার মন্তব্যে উল্লেখ করেছেন, এলোমেলো নমুনার মাধ্যমগুলি আপনাকে যা প্রয়োজন তার বিপরীতে দেবে। আমাদের যা প্রয়োজন তা হ'ল একে অপরের থেকে মোটামুটি দূরে থাকা ডাটা পয়েন্টগুলি সন্ধান করার একটি উপায়।

আদর্শভাবে, আপনি সমস্ত পয়েন্টগুলিতে পুনরাবৃত্তি করতে পারেন, তাদের মধ্যে দূরত্বগুলি খুঁজে পেতে পারেন, দূরত্বগুলি কোথায় সবচেয়ে বেশি তা নির্ধারণ করতে পারেন ...

ওপি'র অভিপ্রায়টি পাশ কাটাতে নয়, তবে আমি মনে করি "সমাধান" কে-মানে অ্যালগরিদম দিয়ে তৈরি। আমরা একাধিক পুনরাবৃত্তি সম্পাদন করি এবং পূর্ববর্তী পুনরাবৃত্তির উপর ভিত্তি করে ক্লাস্টার সেন্ট্রয়েডগুলি পুনরায় গণনা করি। আমরা সাধারণত কম্মানস অ্যালগোরিদম কয়েকবার চালিয়ে যাই (এলোমেলো প্রাথমিক মান সহ), এবং ফলাফলগুলি তুলনা করি।

যদি কারও কাছে অগ্রাধিকার জ্ঞান থাকে, ডোমেন জ্ঞান থাকে, তবে এটি প্রাথমিক ক্লাস্টার সেন্টারগুলি কোথায় হওয়া উচিত তা চিহ্নিত করার একটি উচ্চতর পদ্ধতিতে নিয়ে যেতে পারে। অন্যথায়, এটি সম্ভবত প্রাথমিক মান হিসাবে এলোমেলো ডেটা পয়েন্টগুলি নির্বাচন করার এবং তারপরে একাধিক রান এবং একাধিক রানের জন্য একাধিক পুনরাবৃত্তি ব্যবহার করার বিষয়।

— একজন মানুষ
সূত্র

একবার আপনি যা বর্ণনা করেছেন আমি তা শেষ করে দিয়েছি, কোন সূচনাটি আরও ভাল পার্টিশনের দিকে পরিচালিত করে তা নির্ধারণের জন্য আমি কোন পরিসংখ্যান ব্যবহার করতে পারি? সবকিছুর জন্য তোমাকে ধন্যবাদ.

— জেকুইহুয়া

2

$k$

— gregmacfarlane
সূত্র

প্রচুর বোধ করে। আমি কি আপনাকে জিজ্ঞাসা করতে পারি আমি আমনকে জিজ্ঞাসা করেছি। মনে করুন আমি একটি জিলিয়ন এলোমেলো প্রাথমিক পয়েন্টগুলি গ্রহণ করি। ফলস্বরূপ কোনটি পার্টিশন সবচেয়ে ভাল তা নির্ধারণ করতে আমি কী ব্যবহার করতে পারি? গ্রিটিংস! @gmacfarlane

— জেকুইয়া

k

$k$

k

$k$