কে-উপায়গুলির ত্রুটিগুলি কীভাবে বোঝা যায়

365

ক্লাস্টার বিশ্লেষণে কে-মানে একটি বহুল ব্যবহৃত পদ্ধতি। আমার বোধগম্যতার জন্য, এই পদ্ধতিটির জন্য কোনও অনুমানের প্রয়োজন হয় না, অর্থাত্ আমাকে একটি ডেটাসেট এবং একটি নির্দিষ্ট নির্দিষ্ট ক্লাস্টার, কে প্রদান করুন এবং আমি কেবল এই অ্যালগরিদম প্রয়োগ করি যা ক্লাস্টারের স্কোয়ারের মধ্যে স্কোয়ার ত্রুটির যোগফলকে কমিয়ে দেয় (এসএসই) the ত্রুটি।

সুতরাং কে-মানেটি মূলত একটি অপ্টিমাইজেশান সমস্যা।

আমি কে-মাধ্যমের ত্রুটিগুলি সম্পর্কে কিছু উপাদান পড়েছি। তাদের বেশিরভাগ বলে যে:

কে-মানে প্রতিটি অ্যাট্রিবিউটের বিতরণের বৈকল্পিক (পরিবর্তনশীল )টি গোলাকার হিসাবে ধরে নেওয়া হয়;
সমস্ত ভেরিয়েবলের একই বৈকল্পিকতা রয়েছে;
সমস্ত কে ক্লাস্টারের পূর্ব সম্ভাবনা একই, অর্থাত্, প্রতিটি ক্লাস্টারে প্রায় সমান পর্যবেক্ষণ রয়েছে;

যদি এই 3 টি অনুমানের মধ্যে কোনও একটি লঙ্ঘিত হয়, তবে কে-উপায় ব্যর্থ হবে।

আমি এই বক্তব্যের পিছনে যুক্তি বুঝতে পারি না। আমি মনে করি কে-মানে পদ্ধতিটি মূলত কোনও অনুমান করে না, এটি কেবল এসএসইকে ন্যূনতম করে, তাই এসএসই এবং এই 3 "অনুমান" হ্রাস করার মধ্যবর্তী লিঙ্কটি আমি দেখতে পাচ্ছি না।

— KevinKim
সূত্র

49

আমি বলব যে গুচ্ছ সংখ্যা ইতিমধ্যে বেশ অনুমান হয়।

— njzk2

30

K-মানে চাবি ধারনাগুলো: 1. সেখানে হয় ট ক্লাস্টার। ২. এসএসই হ্রাস করার সঠিক উদ্দেশ্য । ৩. সমস্ত ক্লাস্টারে একই এসএসই থাকে। ৪. সমস্ত ভেরিয়েবলের প্রতিটি ক্লাস্টারের জন্য সমান গুরুত্ব থাকে। এগুলি বেশ শক্তিশালী অনুমান ...

— অ্যানি-মৌসে

2

আপনার দ্বিতীয় প্রশ্নের (উত্তর হিসাবে পোস্ট করা হয়েছে, তারপরে মুছে ফেলা হয়েছে): আপনি যদি লিনিয়ার রিগ্রেশন এর অনুরূপ অপ্টিমাইজেশান সমস্যা হিসাবে কে-মানে বুঝতে চান তবে এটিকে পরিমাণ হিসাবে বিবেচনা করুন । এটি

উদাহরণস্বরূপ ব্যবহার করে ডেটাগুলির সর্বনিম্ন বর্গক্ষেত্রের সন্ধানের চেষ্টা করে । অর্থাৎ আপনি যদি প্রতিটি পয়েন্টকে নিকটতম সেন্ট্রয়েড দ্বারা বাস্তবে প্রতিস্থাপন করেন ।

k

$k$

— অ্যানি-মৌসে

2

@ অ্যানি-মউস, আমি কিছু উপাদান পড়েছি এবং পরে নিম্নলিখিত চিন্তাভাবনা নিয়ে এসেছি:

অর্থ একটি পরিসংখ্যানগত মডেল হিসাবে (অপ্টিমাইজেশন পদ্ধতির পরিবর্তে) ধরে নেওয়া হয়েছে যে কে ক্লাস্টারগুলি অন্তর্নিহিত রয়েছে এবং ডেটা ছড়িয়ে দেওয়ার বিষয়টি খাঁটি স্বাভাবিক কারণে সমান বৈকল্পিকের সাথে এলোমেলো গোলমাল। এটি সাধারণ লিনিয়ার রিগ্রেশন মডেল অনুমানের সাথে সাদৃশ্যপূর্ণ। তারপরে (আমি বিশ্বাস করি, আমি কোনও কাগজ পাইনি) গৌস-মার্কভের উপপাদনের কিছু সংস্করণ,

অর্থ আপনাকে আমাদের ডেটা ধরে নিয়েছি এমন অন্তর্নিহিত কে ক্লাস্টারগুলির গড়ের ধারাবাহিক অনুমান প্রদান করবে।

k -

$k-$

k -

$k-$

— কেভিনকিম

1

আমি নীচে আমার ডেটা সেটটির উত্তরে একটি চিত্র যুক্ত করেছি যেখানে কে-মেনস সত্যিই ভাল কাজ করে (একই আকারের সমস্ত ক্লাস্টার) ধরে নিতে পারে তবুও এটি স্থানীয় মিনিমে আটকে যায়; এমনকি 1000 পুনরাবৃত্তিও সর্বোত্তম ফলাফলটি খুঁজে পায় নি।

— অ্যানি-মৌসে

273

যদিও আমি ডেভিড রবিনসনের উত্তরটি এখানে অনেক পছন্দ করি, এখানে কে-মাধ্যমের কিছু অতিরিক্ত সমালোচনা রয়েছে।

ক্লাস্টারিং নন-ক্লাস্টার্ড ডেটা

অভিন্ন ডেটাতে কে-মানে চালান, এবং আপনি এখনও ক্লাস্টার পাবেন! এটি কখন আপনাকে ডেটা ক্লাস্টার করে না এবং এটি আপনার গবেষণাকে একটি শেষের দিকে নিয়ে যেতে পারে তা আপনাকে জানায় না ।

ইউনিফর্ম ডেটাতে কে-মানে

স্কেল সংবেদনশীল

আপনার ডেটাসেটগুলি পুনরায় উদ্ধার করলে ফলাফলগুলি পুরোপুরি বদলে যাবে। এটি নিজেই খারাপ না হলেও, আপনার ডেটা স্কেলিংয়ের জন্য আপনাকে অতিরিক্ত মনোযোগ দিতে হবে তা অনুধাবন করা খারাপ নয়। স্কেলিং ফ্যাক্টরগুলি অতিরিক্ত লুকানো প্যারামিটারগুলি কে-এর অর্থ হ'ল "ডিফল্ট" থেকে 1 এবং এভাবে সহজেই উপেক্ষা করা যায়, তবে এর একটি বড় প্রভাব রয়েছে (তবে অবশ্যই এটি অন্যান্য অনেক অ্যালগরিদমেও প্রযোজ্য)। $d$

এটি সম্ভবত আপনি "সমস্ত ভেরিয়েবলগুলির একই বৈকল্পিক রয়েছে" হিসাবে উল্লেখ করেছেন। আদর্শ হিসাবে বাদে আপনি উপযুক্ত হলে অ-রৈখিক স্কেলিং বিবেচনা করবেন।

এছাড়াও সচেতন থাকুন যে ইউনিট বৈকল্পিকতা রাখতে প্রতিটি অক্ষকে স্কেল করা কেবলমাত্র একটি তাত্পর্যপূর্ণ । এটি নিশ্চিত করে না যে কে-মানে কাজ করে। স্কেলিং আপনার ডেটা সেটটির অর্থের উপর নির্ভর করে। এবং যদি আপনার একাধিক ক্লাস্টার থাকে তবে আপনি চাইবেন যে প্রতিটি ক্লাস্টারের (স্বতন্ত্রভাবে) প্রতিটি ভেরিয়েবলের ক্ষেত্রেও একই রকম পরিবর্তন রয়েছে।

এখানে ডেটা সেটগুলির একটি ক্লাসিক কাউন্টারিক্স নমুনা রয়েছে যে কে-মানে ক্লাস্টার করতে পারে না । উভয় অক্ষ প্রতিটি ক্লাস্টারে iid হয়, সুতরাং এটি 1 মাত্রায় এটি করার পক্ষে যথেষ্ট হবে। কিন্তু গুচ্ছগুলির বিভিন্ন ধরণের রূপ রয়েছে এবং কে-মানেগুলি এগুলি ভুলভাবে বিভক্ত করে।

কে-মানে এই ডেটা সেটটিকে ক্লাস্টার করতে পারে না

আমি মনে করি না কে-এর জন্য এই পাল্টা নমুনাটি আপনার পয়েন্টগুলি দ্বারা আবৃত হয়েছে:

সমস্ত ক্লাস্টারগুলি গোলাকার (আইড গাউসিয়ান)।
সমস্ত অক্ষের একই বিতরণ এবং এইভাবে বৈকল্পিক রয়েছে।
উভয় ক্লাস্টারে প্রতিটি 500 টি উপাদান রয়েছে।

তবুও, কে-মানে এখনও খারাপভাবে ব্যর্থ হয় (এবং যদি বৃহত্তর ক্লাস্টারের জন্য আমি 0.5 এর বাইরে বৈচিত্রটি বাড়িয়ে তুলি তবে এটি আরও খারাপ হয়) তবে: এটি অ্যালগরিদম নয় যে ব্যর্থ হয়েছিল। এটা অনুমান, যা ধারণ করে না । কে-মানে পুরোপুরি কাজ করছে, এটি কেবলমাত্র ভুল মাপদণ্ডকে অনুকূল করেছে।

এমনকি নির্ভুল ডেটা সেটগুলিতেও এটি স্থানীয় সর্বনিম্নে আটকে যেতে পারে

নীচে সেরা ক্লাসিক A3 তে ডেটা সেট উপর K-উপায়ে 10 রানের। এটি একটি সিনথেটিক ডেটা সেট, কে-উপকরণের জন্য ডিজাইন করা । 50 টি ক্লাস্টার, প্রতিটি গাউসিয়ান আকৃতি, যুক্তিসঙ্গতভাবে ভালভাবে পৃথক করা হয়েছে। তবুও, এটি কেবলমাত্র কে-মানে ++ এবং 100 পুনরাবৃত্তির সাহায্যে আমি প্রত্যাশিত ফলাফল পেয়েছি ... (উদাহরণের জন্য নীচে নিয়মিত কে-মাধ্যমের 10 টি পুনরাবৃত্তি রয়েছে)।

K3 মানে এ 3 ডেটা সেট

আপনি এই ডেটা সেটগুলিতে দ্রুত অনেকগুলি ক্লাস্টার খুঁজে পাবেন, যেখানে কে-মানে সঠিক কাঠামোটি খুঁজে পেতে ব্যর্থ হয়েছে। উদাহরণস্বরূপ নীচের ডানদিকে, একটি গুচ্ছটি তিন ভাগে বিভক্ত হয়েছিল। তবে কোনও উপায় নেই, কে-মানেগুলি এই সেন্ট্রয়েডগুলির মধ্যে একটিকে ডেটা সেটের সম্পূর্ণ ভিন্ন স্থানে নিয়ে যেতে চলেছে - এটি একটি স্থানীয় ন্যূনতমের মধ্যে আটকা পড়েছে (এবং এটি ইতিমধ্যে সেরা 10 রান!)

এবং এই ডেটা সেটটিতে এমন অনেকগুলি স্থানীয় মিনিমা রয়েছে। খুব প্রায়শই যখন আপনি একই ক্লাস্টার থেকে দুটি নমুনা পান, এটি একটি ন্যূনতম জায়গায় আটকে যাবে যেখানে এই ক্লাস্টারটি বিভক্ত থাকবে এবং তার পরিবর্তে আরও দুটি ক্লাস্টার একীভূত হবে। সবসময় না, তবে খুব প্রায়ই। সুতরাং আপনার ভাগ্যবান বাছাই করতে আপনার প্রচুর পুনরুক্তি প্রয়োজন। কে-অর্থের 100 পুনরাবৃত্তির সাহায্যে, আমি এখনও 6 টি ত্রুটি গণনা করেছি এবং 1000 পুনরাবৃত্তির সাহায্যে আমি এটিকে 4 টি ত্রুটিতে পেয়েছি। কে-মানে ++ যেভাবে এটি এলোমেলো নমুনাগুলি ওজন করে, এই ডেটা সেটটিতে আরও ভাল কাজ করে।

মানে অবিচ্ছিন্ন

আপনি বাইনারি ডেটা (বা এক-হট এনকোডেড শ্রেণীবদ্ধ ডেটা) -তে কে-ইন্স চালাতে পারবেন তবে ফলাফলগুলি বাইনারি হবে না। সুতরাং আপনি ফলাফল পেতে পারেন, তবে আপনি শেষ পর্যন্ত এটি ব্যাখ্যা করতে অক্ষম হতে পারেন, কারণ এটিতে আপনার মূল ডেটার চেয়ে আলাদা ডেটা টাইপ রয়েছে।

লুকানো অনুমান: এসএসই হ্রাস করার উপযুক্ত worth

এটি মূলত উপরের উত্তরে ইতিমধ্যে উপস্থিত রয়েছে, লিনিয়ার রিগ্রেশন সহ সুন্দরভাবে প্রদর্শিত হয়েছে। কিছু ব্যবহারের ক্ষেত্রে রয়েছে যেখানে কে-মানে নিখুঁত ধারণা দেয়। লয়েডকে যখন পিসিএম সংকেতগুলি ডিকোড করতে হয়েছিল, তখন তিনি বিভিন্ন সুরের সংখ্যা জানতেন এবং কমপক্ষে স্কোয়ার ত্রুটিটি ডিকোডিং ত্রুটির সম্ভাবনা হ্রাস করে। এবং চিত্রযুক্ত রঙের পরিমাণে, প্যালেট হ্রাস করার সময় আপনি রঙ ত্রুটিও হ্রাস করেন। তবে আপনার ডেটাতে, স্কোয়ার বিচ্যুতির যোগগুলি কি অর্থবহ মানদণ্ডকে হ্রাস করতে পারে?

উপরে counterexample সালে ভ্যারিয়েন্স হয় না কমানোর মূল্য, কারণ এটি ক্লাস্টার উপর নির্ভর করে। পরিবর্তে, কোনও গাউসিয়ান মিশ্রণ মডেলটি নীচের চিত্রের মতো উপাত্তের সাথে ফিট হতে হবে:

গাউসিয়ান মিশ্রণ মডেলিং

(কিন্তু এই হল না চূড়ান্ত পদ্ধতি পারেন। এটি এমন ডেটা রয়েছে যা অনুমান, যেমন "K গসিয়ান পরিবেশনে সংমিশ্রণ" সন্তুষ্ট না গঠন করা ঠিক যেমন সহজ, আওয়াজকে অনেকটা যোগ করে)

খারাপ ব্যবহার করা খুব সহজ

সব মিলিয়ে আপনার ডেটাতে কে-মেন ছুড়ে ফেলা খুব সহজ, এবং তবুও একটি ফলাফল বের করুন (এটি বেশ এলোমেলো, তবে আপনি লক্ষ্য করবেন না)। আমি মনে করি এমন একটি পদ্ধতি থাকলে আরও ভাল হত যা যদি আপনি নিজের ডেটা না বুঝে ব্যর্থ হতে পারেন ...

কে-মানে কোয়ান্টাইজেশন হিসাবে

যদি আপনি কে-কী বোঝায় তার একটি তাত্ত্বিক মডেল চান, তবে এটি ক্লাস্টারিং অ্যালগরিদম নয়, একটি মানদণ্ডের পদ্ধতির বিবেচনা করুন ।

কে-মানেগুলির উদ্দেশ্য - স্কোয়ার ত্রুটি হ্রাস করা - একটি যুক্তিসঙ্গত পছন্দ যদি আপনি প্রতিটি বস্তুকে তার কাছের সেন্ট্রয়েড দ্বারা প্রতিস্থাপন করেন। (আপনি গোষ্ঠীগুলির মূল ডেটা আইএমএইচওও পরীক্ষা করে নিলে এটি অনেক কম বোঝায়))

$k$

এই কোয়ান্টাইজেশন সম্ভবত লিনিয়ার রিগ্রেশন উদাহরণের সাথে বেশ মিল similar লিনিয়ার রিগ্রেশন সেরা লিনিয়ার মডেলটি আবিষ্কার করে । এবং কে-অর্থগুলি (কখনও কখনও) বহুমাত্রিক ডেটা সেটের কে মানগুলিতে সর্বাধিক হ্রাস পায় । যেখানে "সেরা" সর্বনিম্ন স্কোয়ার ত্রুটি।

আইএমএইচও, কে-মানে একটি ভাল কোয়ান্টাইজেশন অ্যালগরিদম (এই পোস্টের প্রথম চিত্রটি দেখুন - আপনি যদি দুটি পয়েন্টে উপাত্ত সেট করে আনতে চান তবে এটি একটি যুক্তিসঙ্গত পছন্দ!)। যদি আপনি আবিষ্কার কাঠামোর মতো ক্লাস্টার বিশ্লেষণ করতে চান তবে কে-মানেই আইএমএইচও সেরা পছন্দ নয়। ক্লাস্টার না থাকলে এটি ক্লাস্টারের ঝোঁক থাকে এবং এটি ডেটাতে আপনি অনেক কিছুই দেখতে পাচ্ছেন এমন বিভিন্ন কাঠামো সনাক্ত করতে পারে না।

দুর্দান্ত মুদ্রণ: সমস্ত চিত্র ELKI দিয়ে তৈরি হয়েছিল । ডেটা .xmlজেনারেশন ফর্ম্যাট ব্যবহার করে ডেটা তৈরি করা হয়েছিল , তবে এগুলি এতটা মৌলিক যে এগুলি ভাগ করে নেওয়া উচিত নয়।

— Anony-হেয়ার ক্রিম
সূত্র

17

(কেবল লক্ষ্য করার জন্য - সম্ভবত "উপরের উত্তর" সম্পর্কে কথা বলা ভাল ধারণা নয়, যেহেতু একজন পাঠক যে উত্তর আদেশটি দেখেন সেগুলি পরিবর্তনশীল হতে পারে instance উদাহরণস্বরূপ, যদি তারা প্রদর্শন ক্রমটি "সক্রিয়" হিসাবে সেট করে থাকে তবে আপনার উত্তরটি হ'ল আসলে উপরে একটি!)

— সিলভারফিশ

1

@ অ্যানি-মউস এই উত্তরটি সত্যিই দুর্দান্ত। তবে এখন অবধি, আমি সাধারণত ভুলে যাচ্ছি যে আমরা সাধারণত "কে-মানে কিছু শর্তে কাজ করবে এবং অন্যান্য শর্তে ব্যর্থ হবে" এই কথাটি বলতে কী বোঝায়। এই প্রসঙ্গে "কাজ" বা "ব্যর্থ" শব্দের অর্থ কী? "কাজ" এর অর্থ কি-কে দ্বারা উত্পন্ন সমাধানটি দৃশ্যত 'যুক্তিসঙ্গত দেখাচ্ছে'? এটি এক ধরণের অস্পষ্ট। বা 'কাজের' অর্থ যদি কে-মানে সমাধান সরবরাহ করে যা 'স্ট্যান্ডার্ড সলিউশন' এর সমান, অর্থাত্, আমরা একটি ডেটা সেট প্রি-জেনারেট করি এবং কে-মানে ব্যবহার করি। এই প্রসঙ্গে 'কাজ' অর্থবোধ করে, কিন্তু বাস্তবে, ডেটা কিছু বিতরণের মাধ্যমে প্রাক-উত্পন্ন হয় না।

— কেভিনকিম

সাধারণত লোকেরা কিছু স্থল সত্যকে বোঝায়, যেমন কীভাবে ডেটা তৈরি হয়েছিল বা অ্যালগরিদম থেকে লুকানো কোনও লেবেলে। উত্পন্ন ডেটার সাথে তুলনা করা সেই অ্যালগরিদমগুলিকে পছন্দ করবে যা প্রজন্মের জন্য ব্যবহৃত মডেলটিকে অনুকূল করে (যেমন জিএমএম এবং কে-মানে গাউসিয়ানদের জন্য)। এমনকি বাস্তব এবং লেবেলযুক্ত তথ্যেও এই মূল্যায়ণটি একটি পরিচিত ফলাফল পুনরুত্পাদন সম্পর্কে । আপনি যখন শোষক / জ্ঞান আবিষ্কারের দিকটি বিবেচনা করেন, যেখানে আপনি নতুন কিছু শিখতে চান । তবে আমরা যা পেয়েছি তা সবই।

— অ্যানি-মৌসে

k

$k$

@TMOTTM এটি পূর্ববর্তী জ্ঞানের দ্বারা নির্বাচিত কে সহ is 10 টির মধ্যে সেরা "সঠিক" কে দিয়ে অগ্রাধিকারটি বেছে নিয়েছেন।

— অ্যানি-মৌসে

450

কী দুর্দান্ত প্রশ্ন- এটি কোনও ব্যক্তির কোনও পরিসংখ্যানগত পদ্ধতির ত্রুটিগুলি এবং অনুমানগুলি কীভাবে পরিদর্শন করবে তা দেখানোর সুযোগ। যথা: কিছু ডেটা তৈরি করুন এবং এটিতে অ্যালগরিদম চেষ্টা করুন!

আমরা আপনার দুটি অনুমান বিবেচনা করব এবং আমরা দেখব যে এই অনুমানগুলি ভেঙে গেলে কে-মানে অ্যালগরিদমের কী হয়। ভিজ্যুয়ালাইজ করা সহজ যেহেতু আমরা দ্বি-মাত্রিক ডেটাতে থাকব। ( মাত্রিকতার অভিশাপের জন্য ধন্যবাদ , অতিরিক্ত মাত্রা যুক্ত করা এই সমস্যাগুলিকে আরও গুরুতর করে তুলবে, কম নয়)। আমরা পরিসংখ্যান প্রোগ্রামিং ভাষার সাথে কাজ করব আর: আপনি এখানে পুরো কোডটি খুঁজে পেতে পারেন (এবং ব্লগ ফর্মের পোস্টটি এখানে )।

ডাইভারশন: আনসকম্বের চতুর্মুখী

প্রথমত, একটি উপমা। কল্পনা করুন যে কেউ নিম্নলিখিত তর্ক করেছেন:

লিনিয়ার রিগ্রেশন-এর অসুবিধাগুলি সম্পর্কে আমি কিছু উপাদান পড়েছি- যে এটি একটি রৈখিক প্রবণতা প্রত্যাশা করে, অবশিষ্টাংশগুলি সাধারণত বিতরণ করা হয়, এবং কোনও বিদেশী নেই। তবে সমস্ত লিনিয়ার রিগ্রেশন করছিল পূর্বাভাস করা রেখা থেকে স্কোয়ার ত্রুটির যোগফলকে কমিয়ে আনা (এসএসই)। এটি একটি অপ্টিমাইজেশান সমস্যা যা বক্রের আকার বা অবশিষ্টাংশের বিতরণ যাই হোক না কেন সমাধান করা যায় be সুতরাং, লিনিয়ার রিগ্রেশনটির কাজ করার জন্য কোনও অনুমানের প্রয়োজন নেই।

ভাল, হ্যাঁ, স্কোয়ারের অবশিষ্টাংশের যোগফলকে হ্রাস করে লিনিয়ার রিগ্রেশন কাজ করে। তবে এটি নিজে থেকে কোনও আবেগের লক্ষ্য নয়: আমরা যা করার চেষ্টা করছি তা হল একটি লাইন আঁকা যা এক্স এর উপর ভিত্তি করে y এর নির্ভরযোগ্য, নিরপেক্ষ ভবিষ্যদ্বাণী হিসাবে কাজ করে । গাউস-মার্কভ উপপাদ্য আমাদেরকে বলে যে SSE কমানোর accomplishes যে goal- কিন্তু যে উপপাদ্য কিছু খুব নির্দিষ্ট অনুমানের উপর অবস্থিত থাকলে সংশ্লিষ্ট। যদি এই অনুমানগুলি ভেঙে যায়, আপনি এখনও এসএসইকে ছোট করতে পারেন, তবে এটি নাও করতে পারেকিছু. "আপনি প্যাডেলটি ঠেকিয়ে গাড়ি চালাচ্ছেন: বলছেন কল্পনা করুন: ড্রাইভিং মূলত একটি 'প্যাডেল-পুশিং প্রক্রিয়া'। ট্যাঙ্কে যতটা গ্যাস থাকুক না কেন প্যাডেলটি ধাক্কা দেওয়া যায় Therefore সুতরাং, ট্যাঙ্কটি খালি থাকলেও আপনি প্যাডেলটি চাপতে এবং গাড়ি চালাতে পারেন। "

তবে কথাবার্তা সস্তা। আসুন দেখে নেওয়া যাক শীতল, শক্ত, ডেটা। বা আসলে, মেক-আপ ডেটা।

$R^2$

কেউ বলতে পারেন "লিনিয়ার রিগ্রেশন এখনও সেই ক্ষেত্রে কাজ করছে , কারণ এটি অবশিষ্টাংশের বর্গের যোগফলকে হ্রাস করে।" তবে কী পিরাহিক বিজয় ! লিনিয়ার রিগ্রেশন সর্বদা একটি লাইন আঁকবে, তবে এটি যদি অর্থহীন লাইন হয় তবে কে যত্ন করে?

সুতরাং এখন আমরা দেখতে পাচ্ছি যে কেবলমাত্র একটি অপ্টিমাইজেশন সম্পাদন করা যেতে পারে তার অর্থ এই নয় যে আমরা আমাদের লক্ষ্য অর্জন করছি। এবং আমরা দেখতে পাচ্ছি যে ডেটা তৈরি করা এবং এটির দৃশ্যায়ন করা কোনও মডেলের অনুমানগুলি পরীক্ষা করার জন্য একটি ভাল উপায়। এই স্বজ্ঞাতে থাকুন, আমাদের এক মিনিটের মধ্যে এটির প্রয়োজন হবে।

ভাঙা অনুমান: অ-গোলাকার তথ্য

আপনি যুক্তি দিয়েছিলেন যে কে-মানে অ্যালগোরিদম অ-গোলাকার ক্লাস্টারগুলিতে সূক্ষ্মভাবে কাজ করবে। নন-গোলাকার ক্লাস্টারগুলি ... এইগুলি?

সম্ভবত এটি আপনি প্রত্যাশা করেছিলেন তা নয় - তবে এটি ক্লাস্টারগুলি তৈরির জন্য একদম যুক্তিসঙ্গত উপায়। এই চিত্রটির দিকে তাকালে আমরা মানুষগুলি সাথে সাথে দুটি প্রাকৃতিক দফার পয়েন্টগুলি সনাক্ত করতে পারি them এগুলিতে কোনও ভুল হয় না। সুতরাং আসুন দেখা যাক কী-কীভাবে করে: অ্যাসাইনমেন্টগুলি রঙে দেখানো হয়, অভিযুক্ত কেন্দ্রগুলি এক্স এর হিসাবে দেখানো হয়।

এখানে চিত্র বর্ণনা লিখুন

ঠিক আছে, এটা ঠিক না। কে-মানে একটি বৃত্তাকার ছিদ্রটি একটি বৃত্তাকার ছিদ্রের সাথে ফিট করার চেষ্টা করছিল - তাদের চারপাশে ঝরঝরে ঝরঝরে সুন্দর কেন্দ্রগুলি সন্ধান করার চেষ্টা করেছিল - এবং এটি ব্যর্থ হয়েছিল। হ্যাঁ, এটি এখনও স্কোয়ারের মধ্যে-ক্লাস্টারের যোগফলকে কমিয়ে দিচ্ছে- তবে ঠিক উপরের অঙ্কম্বের চতুর্মুখীর মতোই এটি একটি পিরারিক জয়ের!

আপনি বলতে পারেন "এটি একটি নিখুঁত উদাহরণ নয় ... কোনও ক্লাস্টারিং পদ্ধতি সঠিকভাবে এমন ক্লাস্টারগুলি খুঁজে পায়নি যা সেই অদ্ভুত।" সত্য না! একক লিংকেজ শ্রেণিবদ্ধ ক্লাস্টারিং চেষ্টা করুন :

এখানে চিত্র বর্ণনা লিখুন

এটি পেরেক! এটি কারণ সিঙ্গল-লিঙ্কেজ হায়ারারিকিকাল ক্লাস্টারিং এই ডেটাসেটের জন্য সঠিক অনুমানগুলি তৈরি করে। ( পরিস্থিতিগুলির সম্পূর্ণ অন্যান্য শ্রেণি রয়েছে যেখানে এটি ব্যর্থ হয়)।

আপনি বলতে পারেন "এটি একটি একক, চরম, প্যাথলজিকাল কেস।" কিন্তু এটা না! উদাহরণস্বরূপ, আপনি বহিরাগত গোষ্ঠীকে একটি বৃত্তের পরিবর্তে একটি আধা-বৃত্ত তৈরি করতে পারেন এবং আপনি দেখতে পাবেন কে-মানে এখনও ভয়ঙ্করভাবে ঘটে (এবং শ্রেণিবদ্ধ ক্লাস্টারিং এখনও ভাল করে)। আমি সহজেই অন্যান্য সমস্যাযুক্ত পরিস্থিতি নিয়ে আসতে পারি এবং এটি কেবল দুটি মাত্রার মধ্যে। আপনি যখন 16-মাত্রিক ডেটা ক্লাস্টার করছেন, তখন এমন সমস্ত ধরণের প্যাথলজি দেখা দিতে পারে could

শেষ অবধি, আমার খেয়াল করা উচিত যে কে-মানেগুলি এখনও উদ্ধারযোগ্য! আপনি যদি আপনার ডেটারটিকে পোলার স্থানাঙ্কে রূপান্তরিত করে শুরু করেন তবে ক্লাস্টারিং এখন কাজ করে:

এ কারণেই কোনও পদ্ধতির অন্তর্নিহিত অনুমানগুলি বোঝা অপরিহার্য: কোনও পদ্ধতিতে যখন কোনও অসুবিধা হয় তা কেবল আপনাকে জানায় না, কীভাবে এটি সংশোধন করবেন তা আপনাকে জানায়।

ভাঙা অনুমান: অসমৰ আকারযুক্ত গুচ্ছ

যদি ক্লাস্টারগুলির একটি অসম সংখ্যার পয়েন্ট থাকে- তবে এটি কে-মানে ক্লাস্টারিংও ভেঙে দেয়? ঠিক আছে, 20, 100, 500 মাপের এই ক্লাস্টারগুলির সেটটি বিবেচনা করুন I've আমি প্রতিটি মাল্টিভারিয়েট গাউসিয়ান থেকে তৈরি করেছি:

এই দেখে মনে হচ্ছে কে-মানে সম্ভবত এই ক্লাস্টারগুলি খুঁজে পেতে পারে, তাই না? সবকিছু পরিষ্কার-পরিচ্ছন্ন গোষ্ঠীতে উত্পন্ন বলে মনে হচ্ছে। সুতরাং আসুন কে-মানে চেষ্টা করুন:

এখানে চিত্র বর্ণনা লিখুন

সেকি। এখানে যা ঘটেছিল তা কিছুটা সূক্ষ্ম। স্কোয়ারগুলির মধ্যে-ক্লাস্টারের যোগফলকে হ্রাস করার জন্য তার অনুসন্ধানে, কে-মানে অ্যালগরিদম বৃহত্তর ক্লাস্টারে আরও "ওজন" দেয়। অনুশীলনে, এর অর্থ এই ছোট ক্লাস্টারটি যে কোনও কেন্দ্র থেকে অনেক দূরে শেষ হতে দেওয়া খুশি, যখন এই কেন্দ্রগুলি আরও বড় ক্লাস্টারটিকে "বিভক্ত" করতে ব্যবহার করে।

আপনি যদি এই উদাহরণগুলি দিয়ে কিছুটা খেলেন ( আর কোড এখানে! ), আপনি দেখতে পাবেন যে আপনি আরও অনেক বেশি পরিস্থিতি তৈরি করতে পারেন যেখানে কে-মানে এটিকে বিব্রতকরভাবে ভুল করে ফেলে।

উপসংহার: নিখরচায় দুপুরের খাবার নয়

গাণিতিক লোককাহিনীগুলিতে একটি আকর্ষণীয় নির্মাণ রয়েছে, যা ওলপার্ট এবং ম্যাকডিয়ার দ্বারা আনুষ্ঠানিকভাবে "নো ফ্রি লাঞ্চ উপপাদ্য" নামে পরিচিত। এটি সম্ভবত মেশিন লার্নিং দর্শনে আমার প্রিয় উপপাদ্য, এবং আমি এটিকে সামনে আনার কোনও সুযোগ উপভোগ করি (আমি কি এই প্রশ্নটি পছন্দ করি?) প্রাথমিক ধারণাটি এই হিসাবে বর্ণনা করা হয় (অ-কঠোরভাবে): "যখন সমস্ত সম্ভাব্য পরিস্থিতিতে জুড়ে গড় হয়, প্রতিটি অ্যালগরিদম সমানভাবে ভাল সম্পাদন করে। "

শব্দ প্রতিরোধী? বিবেচনা করুন যে প্রতিটি ক্ষেত্রে যেখানে একটি অ্যালগরিদম কাজ করে সেখানে আমি এমন পরিস্থিতি তৈরি করতে পারি যেখানে এটি ভীষণভাবে ব্যর্থ হয়। লিনিয়ার রিগ্রেশন ধরে নেয় আপনার ডেটা একটি লাইন বরাবর পড়েছে - তবে যদি এটি সাইনোসয়েডাল ওয়েভ অনুসরণ করে? একটি টি-পরীক্ষা ধরে নেয় যে প্রতিটি নমুনা একটি সাধারণ বিতরণ থেকে আসে: আপনি যদি কোনও বহিরাগতকে ফেলে দেন তবে কী হবে? যে কোনও গ্রেডিয়েন্ট অ্যাসেন্ট অ্যালগরিদম স্থানীয় ম্যাক্সিমায় আটকা পড়তে পারে, এবং যে কোনও তদারকি করা শ্রেণিবিন্যাসকে ওভারফিটিংয়ে ঠকানো যায়।

এটার মানে কি? এর অর্থ হ'ল অনুমানগুলি যেখানে আপনার শক্তি আসে! নেটফ্লিক্স যখন আপনার কাছে চলচ্চিত্রের প্রস্তাব দেয় তখন ধরে নেওয়া হয় যে আপনি যদি একটি সিনেমা পছন্দ করেন তবে আপনার অনুরূপ (এবং বিপরীতে) পছন্দ হবে। এমন একটি বিশ্ব কল্পনা করুন যেখানে এটি সত্য ছিল না এবং আপনার স্বাদগুলি পুরো জেনার, অভিনেতা এবং পরিচালক জুড়ে এলোমেলোভাবে ছড়িয়ে ছিটিয়ে রয়েছে। তাদের সুপারিশ অ্যালগরিদম মারাত্মকভাবে ব্যর্থ হবে। "আচ্ছা, এটি এখনও কিছু প্রত্যাশিত স্কোয়ার ত্রুটিটি কমিয়ে দিচ্ছে, তাই কি অ্যালগরিদম এখনও কাজ করছে"? ব্যবহারকারীর স্বাদ সম্পর্কে কিছু অনুমান করা ছাড়া আপনি একটি সুপারিশ অ্যালগরিদম তৈরি করতে পারবেন না - ঠিক যেমন আপনি cl গুচ্ছগুলির প্রকৃতি সম্পর্কে কিছু অনুমান না করে কোনও ক্লাস্টারিং অ্যালগরিদম তৈরি করতে পারবেন না।

সুতরাং কেবল এই ত্রুটিগুলি গ্রহণ করবেন না। তাদের জানুন, যাতে তারা আপনার পছন্দের অ্যালগরিদমকে অবহিত করতে পারে। সেগুলি বোঝুন, যাতে আপনি আপনার অ্যালগোরিদমটিকে সামলান এবং এগুলি সমাধান করার জন্য আপনার ডেটা রুপান্তর করতে পারেন। এবং তাদের ভালবাসুন, কারণ যদি আপনার মডেলটি কখনও ভুল হতে না পারে তবে এর অর্থ এটি কখনই সঠিক হবে না।

— ডেভিড রবিনসন
সূত্র

50

এই উত্তেজনাপূর্ণ উত্তরের জন্য +1। আমি বিশেষত মেরু রূপান্তর উদাহরণটি উপভোগ করেছি, cle চালাক কৌশলগুলি কখনই আমার গাণিতিকভাবে অজ্ঞ মস্তিষ্ককে বিস্মিত করতে থামে না।

— মিগেন

20

+ 1, এটি একেবারে সুন্দর উত্তর যা বিশ্লেষণের বিশদ বিবরণে ঝাঁকুনি না দিয়ে অনুমানগুলি কীভাবে ভেঙে যায় তা দেখানোর দুর্দান্ত কাজ করে।

— লুই সিয়াদেলা

15

+1 লোকেরা আমার কাছে অভিযোগ করার একটি সাধারণ বিষয় হ'ল তাত্ত্বিক জিনিসগুলি অনুশীলনে কার্যকর হয় না। কিন্তু যখন আমি জিজ্ঞাসা করি "আপনার ডেটা কি মডেলের অনুমানগুলিতে ফিট করে?" আমি কেবল তাদের মুখ থেকে একটি ফাঁকা চেহারা পাই। আপনার উত্তর এবং বিশেষত চূড়ান্ত বিভাগ আমাকে সত্যিই খুশি করেছে।

— তেরালিরামান

9

+1 বাহ, আমি কিছুক্ষণের জন্য ছিলাম তবে আমার মনে হয় আমি একদিনে 50+ upvotes পাওয়ার কোনও উত্তর কখনও দেখিনি। এটি সত্যই একটি চিত্তাকর্ষক অর্জন।

— অ্যামিবা

7

মেরু রূপান্তর, যেমন আমি এটি দেখতে পাচ্ছি, এখানে প্রধানত কার্নেল ক্লাস্টারিং কৌশলগুলির দিকে প্রথম এবং জারগন মুক্ত উদাহরণ হিসাবে কার্যকর - যেখানে প্রাক-রূপান্তর এই ধরণের রূপান্তরটি কীভাবে লিনিয়ার লার্নিং পদ্ধতিগুলি কাজ করতে হয়।

— মিকায়েল ভেজেডেমো-জোহানসন

7

আমি কেবল @ ডেভিডরবিনসনের জবাবটি যোগ করতে চাই যে সর্বনিম্ন মোট ক্লাস্টার বৈকল্পিকের কাছে ক্লাস্টারিং করা আসলে একটি সংযোজক অপ্টিমাইজেশান সমস্যা - যার মধ্যে কে-মিয়ানস কেবল একটি কৌশল and এবং পরবর্তীটির "এক শট", স্থানীয় "খাড়া বংশোদ্ভূত" প্রকৃতি দেওয়া হয়েছে, খুব সুন্দর একটা। এছাড়াও, কোনওভাবে (তবে দ্রুত!) গুচ্ছ বীজগুলি কোথায় থাকা উচিত তা নির্ধারণ করে "নগ্ন হাড়" কে-ম্যানসকে যথেষ্ট উন্নত করার চেষ্টা করা শুরু থেকেই নষ্ট হয়ে গেছে: যেহেতু বীজগুলি প্রভাব ফেলে (মারাত্মকভাবে!) চূড়ান্ত গুচ্ছগুলি, এটি পরিমাণে সর্বোত্তমটি কী তা "জানা" আসলে এটি গণনার আগে ।

তবে সর্বাধিক অপ্টিমাইজেশান সমস্যা হিসাবে এটি তবুও কিছু গুরুতর অপ্টিমাইজেশান কৌশল কার্যকর হতে পারে । তাদের মধ্যে একটি সমস্যার কাঠামোর সাথে খুব ঘনিষ্ঠভাবে ফিট করে (যেমন এনএফএল প্রয়োজন!), এবং এটি অবশ্যই তার ফলাফলগুলিতে দেখায়। আমি এখানে কোনও বিজ্ঞাপন তৈরি করতে চাই না (এটি হবে - এবং যথাযথভাবে - শিষ্টাচারের বিরুদ্ধে), সুতরাং আপনার আগ্রহী হলে কেবল এটি এখানে পড়ুন এবং নিজের সিদ্ধান্তটি নিন।

বলা হচ্ছে, আমি @ttnphns এর সাথে একমত যে কে-মিনস অবশ্যই কোনও গাউসিয়ান মিশ্রণ সনাক্ত করতে পারে না - দুটি সমস্যার ব্যয় কার্যকারিতা সম্পূর্ণ আলাদা। দেখা যাচ্ছে যে সর্বোত্তম-ফিটিং (তথ্য প্রদত্ত মডেলের সম্ভাবনার শর্তে) গাউসিয়ান মিশ্রণটিও একটি সংযুক্তি অপ্টিমাইজেশন সমস্যা - এবং যার জন্য একটি গুরুতর অপ্টিমাইজেশান কৌশলও রয়েছে। আবার কোনও বিজ্ঞাপন নেই: আপনি এখানে নিজের সিদ্ধান্তে পৌঁছাতে পারবেন - আমি কেবল এটিই বলব যে সেখানে আলোচনা করা অ্যালগরিদম সত্যই @ ডেভিডরোবিনসনের পোস্টে সর্বশেষ চিত্রের মতো ক্লাস্টারগুলি সনাক্ত করতে পারে । এটি এমনকি সঠিকভাবে (যেমন, গাণিতিকভাবে ভালভাবে সংজ্ঞায়িত ভাবে) এর বহুবর্ষজীবী সমস্যা solves outliersউদাহরণস্বরূপ, ডেটা পয়েন্টগুলি যেগুলি কোনও ক্লাস্টারের অন্তর্গত নয় কারণ তারা কেবল সম্পূর্ণ এলোমেলো (কুখ্যাতভাবে, তারা উদাহরণস্বরূপ কে-মেনসকে পুরোপুরি লেনদেন করে )। এটি গৌসিয়ানদের সাথে এক অতিরিক্ত, অভিন্ন বিতরণ করে প্রতিযোগিতা করেই করা হয়েছে ... এবং দুর্দান্ত ফলাফলটি হল যে অভিন্ন বিতরণ করা তথ্যের উপর, এটি সত্যই জানায় যে সেখানে কিছুই নেই (আমি এটি অন্য কোথাও কখনও দেখিনি)।

স্পষ্টতই, এনএফএল অনুসারে, এবং আপনার যথাযথভাবে উল্লেখ করা হয়েছে , এমনকি বিশ্বব্যাপী অনুকূল গাউসিয়ান মিশ্রণগুলি আউটরিয়ার সনাক্তকরণ সহ পূর্বের অনুমানের উপর নির্ভর করে - যথা তথ্যটি সত্যই, সাধারণত বিতরণ করা হয়। সৌভাগ্যবশত যদিও, বৃহৎ সংখ্যক আইন ধন্যবাদ, অনেক প্রাকৃতিক শক্তি না যে ধৃষ্টতা মেনে চলি।

অস্বীকৃতি: আমার গভীর ক্ষমাপ্রার্থী করে আমি উপরের দুটি কাগজপত্র এবং তারা যে অ্যালগরিদমগুলি আলোচনা করেছি তা লিখেছি।

PS আমি ম্যাকড্রেডের সাথে একবার একটি সম্মেলনে দেখা করেছি - একটি অত্যন্ত উজ্জ্বল এবং সুন্দর লোক!

— ইমানুয়েল ফ্যালকনউয়ার
সূত্র

এটি প্রশ্নের উত্তর বলে মনে করা হয়।

— মাইকেল চেরনিক

3

এটি প্রকৃতপক্ষে একটি উত্তর, মাইকেল: কে-মিজ প্রিন্টেন্ডস আসলে একটি সংযুক্তি অপ্টিমাইজেশান সমস্যাটি কী তা সমাধান করার জন্য ... তবুও এটি অবশ্যই না (কোনওভাবেই গুরুত্ব দিয়ে নয়)! এছাড়াও, কে-মিনস অনুমান করে (নকশা করে) গোলাকার বিতরণগুলি, যা এত লম্বা হয় যা আপনাকে কাঁদিয়ে তুলবে (মাত্রাগুলির একটিকে দুটি দ্বারা গুণিত করবে এবং আপনার "স্মার্ট" বীজ যাই হোক না কেন সম্পূর্ণ আলাদা কিছু পাবে!) এবং বহিরাগতদের প্রশ্ন (আমি দেখেছি এমন কোনও বাস্তব-জগতের ডেটাতে উপস্থিত!) কেবল-কে-ইনগুলিতেও সম্বোধন করা হয়নি, যদিও কে-মিয়ানসের "মারাত্মক" ক্লাস্টারিংয়ের প্রেজেন্টেশনগুলি পুরোপুরি ধ্বংস করে দেয়।

— ইমানুয়েল ফ্যালকনউয়ার

1

ইমেনুয়েলফ্যালকনাউয়ার, সাইটে আপনাকে স্বাগতম। আমি আপনার উত্তরের জন্য ভোট দিচ্ছি (+1), তবে এটি কেবল সামান্য কিছু জঘন্য। কী-কে কীভাবে কোনও কিছুর জন্য ভান করতে পারে, এটি কোনও মানুষ নয়? এটি একটি সহজ / দ্রুত পদ্ধতির জন্য এটি যা করে তা করে এবং এটি খারাপ করে না।

— ttnphns

@ttnphns: স্বাগত জানার জন্য ধন্যবাদ, এবং উত্সাহ! অবশ্যই, যে কে-মিনস কিছু ভান করে না (এটি কেবল কোডের এক টুকরো - আমার খারাপ!), তবে ওপি যেমন খুঁজে পেয়েছে , লোকেরা এটি করে। আমি আপনার নির্দেশের সাথে একমত যে এটি একটি "সহজ / দ্রুত" পদ্ধতি - তবে সবচেয়ে বড় সমস্যা হ'ল যে কোনওটির আউটপুট উপর নির্ভর করা কিন্তু সর্বাধিক সরলতাযুক্ত ডেটা আত্মহত্যার কাছাকাছি: কেবল এটিই অনুমান করে না যে বেশিরভাগের সাথে সম্মতি হয় না are সময়ের, কিন্তু এমনকি তারা যখন, এটি একটি ভয়ানক কাজ করে। আপনি কেবল একটি খাড়া বংশোদ্ভূত সাথে একত্রিত সমস্যা সমাধান করবেন না। ;-)

— ইমানুয়েল ফ্যালকনউয়ার

6

যৌক্তিকভাবে বলতে গেলে, কে-মাধ্যমের ত্রুটিগুলি হ'ল:

গুচ্ছগুলির লিনিয়ার পৃথকীকরণ প্রয়োজন needs
ক্লাস্টারের সংখ্যা নির্দিষ্ট করা দরকার
অ্যালগরিদমিক্স: অনেক পয়েন্ট বা মাত্রা থাকলে লয়েডস পদ্ধতিটি একটি ভাল আরম্ভের পরেও সত্য গ্লোবাল সর্বাধিকতে রূপান্তরিত করে না

তবে কে-মানে আমরা সাধারণত ভাবি তার থেকে ভাল। আমি অন্যান্য ক্লাস্টারিং পদ্ধতির (বর্ণালী, ঘনত্ব ...) এবং এলডিএর বিরুদ্ধে দশ মিলিয়ন পাঠ্যর পাঠ্য শ্রেণিবিন্যাসের বিরুদ্ধে পরীক্ষার পরে এটি সম্পর্কে বেশ উত্সাহী হয়ে উঠছি: কে-মানে এলডিএর তুলনায় আরও ভাল যথার্থতা ছিল (88% বনাম) 59%)। কিছু অন্যান্য ক্লাস্টারিং পদ্ধতি ভাল ছিল, তবে কে-মানে শীর্ষগুলির কাছাকাছি ছিল ... এবং জটিলতার ক্ষেত্রে আরও সাশ্রয়ী মূল্যের।

আমি কোনও ক্লাস্টারিং পদ্ধতি সম্পর্কে কখনও পড়িনি যে বিস্তৃত সমস্যার ক্ষেত্রে সর্বজনীনভাবে সর্বোত্তম। কে-মানে না বলা সর্বজনীনভাবে ভাল, কেবলমাত্র যেখানে আমি জানি কোনও সার্বজনীন ক্লাস্টারিং সুপারহিরো নেই। অনেক নিবন্ধ, অনেক পদ্ধতি, সত্য বিপ্লব নয় (তাদের কয়েকটি পরীক্ষার ব্যক্তিগত সীমাবদ্ধ অভিজ্ঞতায়)।

কে-মাধ্যমের যৌক্তিক ত্রুটিগুলি প্রায়শই কেবল স্পষ্ট হওয়ার মূল কারণটি হ'ল 2 ডি প্লেনে ক্লাস্টারিং পয়েন্ট এমন কিছু যা আপনি খুব কমই মেশিন লার্নিংয়ে করেন। জ্যামিতিক অন্তর্নিহিত যা 2D, 3 ডি তে সত্য ... এর থেকে অনেক কিছুই উচ্চ মাত্রা বা বিমূর্ত ভেক্টর স্পেসগুলিতে অপ্রাসঙ্গিক (যেমন শব্দের ব্যাগ, ভেরিয়েবলের ভেক্টর ...)

লিনিয়ার বিচ্ছিন্নতা: বাস্তব জীবনের ডেটাতে আপনাকে খুব কমই বৃত্তাকার ক্লাস্টারগুলি মোকাবেলা করতে হবে। এই ক্ষেত্রে তাদের উপস্থিতি নেই বলে ধরে নেওয়া আরও ভাল। আপনার অ্যালগরিদমগুলি তাদের অনুসন্ধান করার অনুমতি দিলে এটি শব্দে অদ্ভুত বৃত্তাকার ক্লাস্টারগুলি সন্ধান করতে পারে। কে-মানেতে রৈখিক ধারণা এটি প্রায়শই আরও দৃust় করে তোলে।

ক্লাস্টারের সংখ্যা: প্রায়শই আপনি দেখতে ইচ্ছুক ক্লাস্টারগুলির আসল আদর্শ সংখ্যা নেই। উদাহরণস্বরূপ পাঠ্যের শ্রেণিবদ্ধকরণের জন্য, এখানে 100 টি বিভাগ, 105, 110 থাকতে পারে ... এটি সবই বরং বিষয়ভিত্তিক। ক্লাস্টারের সংখ্যা উল্লেখ করা বিশ্বব্যাপী গ্রানুলারিটি নির্দিষ্ট করার সমতুল্য হয়ে ওঠে। সমস্ত ক্লাস্টারিং পদ্ধতিতে যাইহোক একটি গ্রানুলারিটির স্পেসিফিকেশন প্রয়োজন।

$10^{\text{a lot}}$

তবে সমস্ত ক্লাস্টারিং অ্যালগরিদমে এরকম সীমাবদ্ধতা রয়েছে। স্পেকট্রাল ক্লাস্টারিংয়ের উদাহরণস্বরূপ: আপনি সত্যিকারের ইগেনভেেক্টরগুলি খুঁজে পাবেন না, কেবলমাত্র আনুমানিক।

একই গণনার সময়ের জন্য, একটি বেশ অনুকূলতর এলডিএ লাইব্রেরি আমাদের ঘরে তৈরি (পুরোপুরি অনুকূল নয়) কে-মানেগুলির চেয়ে কম ভাল করেছে। তার পর থেকে আমি কিছুটা আলাদা ভাবে ভাবি।

— বেনোইট সানচেজ
সূত্র

1

কে-মানেগুলির ত্রুটিগুলি বুঝতে, আমি এর পিছনে মডেলটি কী তা ভাবতে চাই।

$K$ $K$

$K$ $\sigma^2 \mathbf{I}$ $\sigma^2$ $K$ $\sigma^2 \rightarrow 0$

সুতরাং, এটি আমাদের কে-মানেগুলির ত্রুটিগুলি সম্পর্কে কী বলে?

কে-মানে এমন গুচ্ছগুলিতে নিয়ে যায় যা দেখায় বহুগামী গাউসিয়ান।
যেহেতু ভেরিয়েবলগুলির পার্থক্যগুলি একই রকম, কে-মেনসগুলি ক্লাস্টারগুলিতে নিয়ে যায় যা গোলাকার দেখতে।
$K$
কে-মানে সমান আকারের গ্রুপগুলির দিকে ঝোঁক।

কে-মানে আসলে বেশ সীমাবদ্ধ অ্যালগরিদম। উপরের অনুমানের সাথে সুবিধাটি হ'ল আপনি খুব দ্রুত অ্যালগরিদম সম্পাদন করতে পারেন। তবে যদি ক্লাস্টারিং পারফরম্যান্স আপনার শীর্ষ উদ্বেগ, কে-মানে সাধারণত বাস্তব পরিস্থিতিতে খুব সীমিত হয়।

— TrynnaDoStat
সূত্র

2

আমি পুরোপুরি একমত হতে পারি না। দাবি কে-মানে গাউসীয় মিশ্রণের একটি বিশেষ ক্ষেত্রে হওয়া অনেক দূরের প্রসারিত। কে-মানে কোনও নির্দিষ্ট প্রকারের বিতরণকে ধরে রাখে না, যেমন সাধারণ (তাই এটি সম্ভাব্য ক্ষেত্র নয়)। এটি ননওভারল্যাপিং ক্লাস্টারগুলি ধরে নেয় (যেমন কোনও "মিক্স" নয়)। এটি গোলাকার ক্লাস্টারগুলিকে ধরে নিয়েছে তবে আরও সুনির্দিষ্টভাবে বলার জন্য এটি ভোরোনাই কোষগুলির উত্তল বহুভুজকে ধরে নিয়েছে। হতে পারে এটি সঠিকভাবে বলা যায় যে কে-মানেগুলি কোনও কিছুকে "মডেল" করে না, এটি কোনও ডেটা উত্পন্ন প্রক্রিয়ার কোনও প্রত্যক্ষ উল্লেখ নেই। কে-মানে "সমান আকারের [পয়েন্ট সংখ্যা দ্বারা] গোষ্ঠীগুলির দিকে ঝোঁক" - অগত্যা নয়।

— ttnphns

4

: এটা দেখানো যেতে পারে @ttnphns যে K-মানে প্রকৃতপক্ষে GMM একটি বিশেষ ক্ষেত্রে দেখা যায় en.wikipedia.org/wiki/K-means_clustering#Gaussian_Mixture_Model

— TrynnaDoStat

It can be shown that। পর্যাপ্ত প্রসারিত দ্বারা, কোনও কারণকে ছাড়িয়ে আত্মীয়তা হিসাবে "দেখানো" যেতে পারে।

— ttnphns

2

@ttnphns না, সবকিছু গাণিতিকভাবে প্রদর্শিত হতে পারে না।

— ট্রায়নাডোস্ট্যাট