কে-এর অর্থ ব্যাখ্যা করার অর্থ আর-তে ক্লাস্টারিং


12

আমি kmeansঅ্যান্ডারসনের আইরিস ডেটাসেটে কে-মানে অ্যালগরিদম সম্পাদনের জন্য আর এর নির্দেশনাটি ব্যবহার করছিলাম । আমি পেয়েছি এমন কিছু পরামিতি সম্পর্কে আমার একটি প্রশ্ন রয়েছে। ফলাফলগুলি হ'ল:

Cluster means:
  Sepal.Length Sepal.Width Petal.Length Petal.Width
1     5.006000    3.428000     1.462000    0.246000

এই ক্ষেত্রে, "ক্লাস্টার মানে" এর অর্থ কী? এটি গুচ্ছের মধ্যে থাকা সমস্ত বস্তুর দূরত্বের মাধ্যম?

শেষ অংশেও আমার রয়েছে:

Within cluster sum of squares by cluster:
[1] 15.15100 39.82097 23.87947
 (between_SS / total_SS =  88.4 %)

৮৮.৪% এর মান, এর ব্যাখ্যা কী হতে পারে?


4
দয়া করে পোস্টটি ক্রস করবেন না ! stackoverflow.com/q/14524818/429846
গ্যাভিন সিম্পসন

না এটি প্রথম ক্লাস্টারের অভ্যন্তরে সমস্ত বস্তুর কেবলমাত্র গড় (মোট 3 টি)। আপনি iris.km দ্বারা 88.4% পেতে পারেন $ betweenss / iris.km $ totss
dfhgfh

কে-মানে সম্পর্কিত যে কোনও নিবন্ধ পড়ুন । তাহলে ক্লাস্টার মানে কী তা স্পষ্ট হওয়া উচিত ... কে-মানে দূরত্ব ভিত্তিক নয় । এটি ভেরিয়েন্সগুলি হ্রাস করে: "স্কোয়ার বিচ্যুতির সমষ্টি"।
কিউইট আছে - অ্যানি-মৌসে

ধরে নিন যে আপনার গড় 0 হয়। গণিত করুন। উপরের অনুমানটি কোনও পার্থক্য করে কিনা তা পরীক্ষা করে দেখুন। তারপরে সুখে থাকুন। লাভ!
মিয়া

উত্তর:


23

আপনি যদি প্রতিটি তথ্যের বর্গক্ষেত্রের দূরত্বের যোগফলকে বিশ্বব্যাপী নমুনাটির দিকে নির্দেশ করেন তবে আপনি পাবেন total_SS। যদি কোনও গ্লোবাল স্যাম্পল মানে (বা 'সেন্ট্রয়েড') গণনার পরিবর্তে, আপনি প্রতি গ্রুপে একটি করে গণনা করুন (এখানে, তিনটি গ্রুপ রয়েছে) এবং তারপরে এই তিনটি অর্থের বর্গক্ষেত্রের দূরত্বের যোগফলকে বিশ্বব্যাপী গড় হিসাবে গণনা করুন, আপনি পাবেন between_SS। (এটি গণনা করার সময়, আপনি প্রতিটি গড়ের বর্গক্ষেত্রের দূরত্বকে বৈশ্বিক গড়ের সাথে উপাত্তের উপস্থাপিত সংখ্যার দ্বারা গুণিত করেন।)

গুচ্ছকরণের কোনও বিবিধ প্যাটার্ন যদি না থাকে তবে তিনটি দলের তিনটি উপায় বৈশ্বিক গড়ের কাছাকাছি between_SSথাকত এবং এর একটি খুব ছোট ভগ্নাংশ হত total_SS। বিপরীতটি এখানে সত্য, যা দেখায় যে প্রজাতি অনুসারে চারটি মাত্রিক জায়গায় ডেটা পয়েন্ট ক্লাস্টারটি বেশ ঝরঝরে করে।


14

কে-মানে কোনও দূরত্ব ভিত্তিক ক্লাস্টারিং অ্যালগরিদম নয়

কে- এর অর্থ স্কোয়ার অ্যাসাইনমেন্টের ন্যূনতম যোগফলের জন্য অনুসন্ধান , অর্থাত্ এটি total_SSক্লাস্টার সেন্টারে পয়েন্ট নির্ধারিত করে অস্বাভাবিক বৈকল্পিক (= ) হ্রাস করে।

কে-মানে রূপান্তর করার জন্য, আপনার দুটি শর্ত প্রয়োজন:

  • পুনর্নির্দিষ্ট পয়েন্টগুলি স্কোয়ারের যোগফল হ্রাস করে
  • গড় পুনরায় গণনা করা স্কোয়ারের যোগফল হ্রাস করে

যেহেতু কেবলমাত্র সীমাবদ্ধ সংখ্যার সংমিশ্রণ রয়েছে, আপনি এই মানটি অসীমভাবে হ্রাস করতে পারবেন না এবং অ্যালগরিদমকে অবশ্যই কোনও একক স্থানে স্থানীয় সর্বোত্তম রূপান্তর করতে হবে ।

যখনই আপনি অ্যাসাইনমেন্ট ফাংশনগুলি পরিবর্তন করতে চান, আপনার নিজের কুকুরের মতো নিজের লেজ ধাওয়া করার মতো অ্যালগরিদমকে আর শেষ করে না দেওয়ার ঝুঁকি রয়েছে। মূলত উভয় পদক্ষেপের উদ্দেশ্যমূলক কার্যক্রমে একমত হতে হবে। আমরা জানি যে পাটিগণিত গড়টি বর্গক্ষেত্রের যোগফলের ক্ষেত্রে সর্বোত্তম পছন্দ । আর প্রথম পদক্ষেপ, আমরা শুধু কম্পিউট করতে প্রতিটি গড় জন্য এবং পছন্দ করে নিন যেটা সংক্ষিপ্ত। প্রযুক্তিগতভাবে, এখানে কোনও দূরত্বের গণনা নেই । গাণিতিকভাবে, স্কোয়ারের কমপক্ষে যোগফল নির্ধারণ করা স্কুয়ার্ড ইউক্লিডিয়ান দূরত্ব বন্ধ করে দেওয়ার সমান, যা (আপনি যদি কম্পিউটারের জন্য সিপিইউ চক্র নষ্ট করেন ) ন্যূনতম ইউক্লিডিয়ান দূরত্ব অ্যাসাইনমেন্ট সমান হয়। তাই অন্তর্দৃষ্টিi(xiμji)2jsqrt প্রতিটি পয়েন্টকে নিকটতম গড়তে নির্ধারণ করা সঠিক, তবে অপটিমাইজেশন সমস্যাটি কী তা নয়।

between_SS ক্লাস্টার কেন্দ্রগুলি কতটা পৃথক করা হয়েছে তা পরিমাপ করার জন্য সম্ভবত দুটি উপায়ের মধ্যে বর্গাকার ওজনের যোগফল (দ্রষ্টব্য: ক্লাস্টার কেন্দ্রগুলি, এটি প্রকৃত ক্লাস্টারগুলির সাথে তুলনা করে না - প্রযুক্তিগতভাবে, ক্লাস্টার ভোরোনাই সেল প্রতিবেশী ক্লাস্টার ভোরোনাই সেলকে স্পর্শ করে)।

নোট করুন যে কে-এর সাহায্যে আপনি কে কে বাড়িয়ে নিখরচু ক্লাস্টারিং মান উন্নত করতে পারেন। এখানে পরিমাপ করা গুণমানটি একটি গাণিতিক মান, যা ব্যবহারকারীদের প্রয়োজনীয়তার সাথে মেলে না । আইরিস আসলে একটি বেশ ভাল উদাহরণ, যেখানে কে-মানে প্রায়শই সন্তোষজনক ফলাফলের চেয়ে কম রূপান্তরিত হয়, এমনকি বাহ্যিক তথ্যও দেয় যেখানে ঠিক 3 টি ক্লাস্টার থাকতে হবে।

আপনি যদি কে-মানেগুলির দূরত্ব-ভিত্তিক বৈকল্পিকতা চান তবে কে-মেডোইডগুলি দেখুন । এখানে মধ্যস্থতার সাথে প্রতিস্থাপনের মাধ্যমে কনভার্সেশনটি নিশ্চিত করা হয়েছে:

  • প্রতিটি বস্তু নিকটতম ক্লাস্টারে নির্ধারিত হয় (একটি নির্বিচারে দূরত্ব পরিমাপের দ্বারা)
  • ক্লাস্টার কেন্দ্রটি ক্লাস্টারের সবচেয়ে কেন্দ্রিয় অবজেক্টে আপডেট করা হয়েছে, অর্থাত্ অন্য সকলের মধ্যে সবচেয়ে ছোট গড় দূরত্বের সাথে।

প্রতিটি পদক্ষেপে, দূরত্বের যোগফল হ্রাস পায়; এখানে সীমাবদ্ধ সংখ্যার সংমিশ্রণ রয়েছে, সুতরাং অ্যালগরিদমটি অবশ্যই কিছু স্থানীয় নূন্যতমে শেষ করতে হবে।


আকর্ষণীয় পয়েন্ট +1
ক্যাম.ড্যাভিডসন.পিলন

1
কেন এখানে (কম্মানে) দূরত্বের গণনা নেই? বৈকল্পিক গণনা করার জন্য প্রতিটি মৌলের মধ্যবর্তী দূরত্ব গণনা করা প্রয়োজন, সুতরাং স্পষ্টতই দূরত্বের গণনা জড়িত আছে, তাই না?
ফানকিউকার

বৈকল্পিক সাধারণত দূরত্বের ক্ষেত্রে সংজ্ঞায়িত হয় না, তবে "গড় থেকে স্কোয়ার বিচ্যুতির প্রত্যাশিত মান" হিসাবে রয়েছে।
কিট আছে - অ্যানি-মৌসে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.