কে-মানে (বা তার নিকটাত্মীয়) কেবলমাত্র একটি দূরত্বের ম্যাট্রিক্স দিয়ে ক্লাস্টারিং করুন, পয়েন্ট-বাই বৈশিষ্ট্যযুক্ত ডেটা নয়


22

আমি আমার থাকা বস্তুগুলিতে কে-মানে ক্লাস্টারিং করতে চাই, তবে বস্তুগুলিকে স্থানের বিন্দু হিসাবে বর্ণনা করা হয় না, যেমন objects x featuresডেটাসেট দ্বারা । যাইহোক, আমি যে কোনও দুটি বস্তুর মধ্যে দূরত্ব গণনা করতে সক্ষম (এটি একটি মিলের ফাংশনের উপর ভিত্তি করে)। সুতরাং, আমি দূরত্বের ম্যাট্রিক্স নিষ্পত্তি করি objects x objects

আমি এর আগে কে-মানে বাস্তবায়ন করেছি, তবে সেটি ছিল পয়েন্ট ডেটাসেট ইনপুট; এবং দূরত্বের ম্যাট্রিক্স ইনপুট সহ আমার কাছে এটি পরিষ্কার নয় যে কীভাবে ক্লাস্টারগুলিকে বিন্দু-উপস্থাপনা ছাড়াই ক্লাস্টারগুলি "কেন্দ্র" হতে আপডেট করা যায়। এটি সাধারণত কীভাবে করা হত? এর জন্য কি কে-মানে বা পদ্ধতিগুলির কাছাকাছি কোনও সংস্করণ রয়েছে?


পয়েন্ট হিসাবে বর্ণিত হয় না মানে কি?
কৌতুহল

আরও দেখুন stats.stackexchange.com/q/12495/3277
ttnphns

উত্তর:


24

স্পষ্টতই, কে-মানেগুলি গণনা মানে সক্ষম হতে হবে ।

তবে কে-মেডোইডস বা পিএএম (পার্টিশনিং এরাউন্ড মেডোইডস) নামে পরিচিত এর একটি সুপরিচিত প্রকরণ রয়েছে , যেখানে মিডোডইস ক্লাস্টারের সবচেয়ে কেন্দ্রস্থল বিদ্যমান বস্তু। কে-মেডোইডগুলির কেবল জোড়াযুক্ত দূরত্ব প্রয়োজন।


21

আপনি ঠিক কার্নেল মিন্সের সমস্যা নির্ধারণের বর্ণনা দিচ্ছেন; আপনি যখন ইউক্লিডিয়ান ভেক্টর হিসাবে ডেটা পয়েন্ট উপস্থাপন করতে পারবেন না, তবে আপনি যদি এখনও দুটি ডাটা পয়েন্টের মধ্যে অভ্যন্তরীণ পণ্যটি গণনা করতে (বা সংজ্ঞা দিতে পারেন) তবে আপনি অ্যালগরিদমকে কার্নেলাইজ করতে পারেন । নিম্নলিখিত ওয়েবপৃষ্ঠাটি অ্যালগরিদমের সংক্ষিপ্ত বিবরণ সরবরাহ করে:

কার্নেল মীন পৃষ্ঠা

এই কার্নেল ট্রিকটি পরিসংখ্যান এবং মেশিন লার্নিংয়ে একটি খুব জনপ্রিয় এবং মৌলিক ধারণা।

কার্নেলের কৌশলটিতে উইকি পৃষ্ঠা

আপনি যদি আগ্রহী হন তবে বার্নহার্ড শেলকোফ এবং আলেকজান্ডার জে স্মোলা র লেখা শিখুন উইথ কার্নেলস বইটি খুব সুন্দর একটি পরিচিতি হবে।

ম্যাক্স ওয়েলিংয়ের এই নোটটি খুব সুন্দর দেখাচ্ছে; এছাড়াও, আপনি যদি আর ব্যবহার করছেন তবে আপনি এই আর প্যাকেজটি একবার দেখে নিতে পারেন ।

এমডিএস আপনার সমস্যা সমাধানের এক উপায় হতে পারে তবে আপনি যে সমস্যার সমাধান করতে চান এটি সরাসরি আক্রমণ করে না; যখন কার্নেল কে-মানে করে।


আমি আরও লিঙ্কগুলি অন্তর্ভুক্ত করতে চেয়েছিলাম তবে স্বল্প খ্যাতির কারণে পারিনি। ম্যাক্স ওয়েলিং নোটের এই নোটটি খুব সুন্দর বলে মনে হচ্ছে; এছাড়াও, আপনি যদি আর ব্যবহার করে থাকেন তবে এই আর প্যাকেজটি
d_ijk_stra

(+1) সাইটে স্বাগতম। আমি আপনার মন্তব্যে লিঙ্কগুলি পোস্টের বডিতে পাশাপাশি স্কলকপফ এবং স্মোলা পাঠ্যের একটিতে যুক্ত করেছি।
কার্ডিনাল

9

@ গং হ'ল দূরত্বের ম্যাট্রিক্সের বাইরে ডেটা তৈরির প্রাথমিক সরঞ্জাম হিসাবে আপনাকে বহুমাত্রিক স্কেলিং (এমডিএস) পরামর্শ দেওয়ার জন্য একেবারে সঠিক points X dimensions। আমি মাত্র কয়েকটি স্ট্রোক যুক্ত করছি। কে মানে ক্লাস্টারিং ইক্যালিডিয়ান দূরত্ব বোঝায় । এমডিএস আপনাকে পয়েন্ট-ইন-ডাইমেনশন সমন্বয় দেয় যার মাধ্যমে আপনাকে ইউক্যালিডিয়ান দূরত্বের গ্যারান্টি দেয়। আপনার মেট্রিক এমডিএস ব্যবহার করা উচিত এবং যথাসম্ভব বৃহত্তর মাত্রাগুলির জন্য অনুরোধ করা উচিত কারণ আপনার উদ্দেশ্যটি 2D বা 3 ডি তে ম্যাপিং না করে ডেটা পুনর্গঠনের ত্রুটি হ্রাস করা।

যদি আপনার হাতে এমডিএস সফ্টওয়্যার না থাকে তবে কিছু ম্যাট্রিক্স ফাংশন থাকে যেমন ইগেনুয়ালু পচন বা একক-মান পচন? তারপরে আপনি নিজে সাধারণ মেট্রিক এমডিএস করতে পারবেন - টর্গারসন এমডিএস, যা প্রিন্সিপাল কোঅর্ডিনেটস অ্যানালাইসিস (পিসিওএ) নামেও পরিচিত। এটি কিছুটা "বাঁকা" মূল উপাদানগুলির বিশ্লেষণের পরিমাণ। আমি এখানে এটি বর্ণনা করব না, যদিও এটি বেশ সহজ। আপনি এটি সম্পর্কে অনেক জায়গায় পড়তে পারেন, যেমন এখানে

অবশেষে, পিসিওএ বা অন্য কোনও মেট্রিক এমডিএস করে ফাংশনগুলি কল করা বা লেখা না করেই সরাসরি "দূরত্বের ম্যাট্রিক্স ইনপুটটির জন্য কে-মানে" প্রোগ্রাম করা সম্ভব । আমরা জানি, (ক) সেন্ট্রয়েড থেকে স্কোয়ার বিচ্যুতির যোগফল পয়েন্ট সংখ্যা দ্বারা বিভক্ত জোড়যুক্ত ইউক্লিডিয়ান দূরত্বের যোগফলের সমান ; এবং (খ) দূরত্বের ম্যাট্রিক্সের বাইরে ক্লাস্টার সেন্ট্রয়েডের মধ্যে কীভাবে দূরত্বগুলি গণনা করতে হয় তা জানেন ; (গ) এবং আমরা আরও জানি যে কী পরিমাণে স্কোম-এর স্কোয়ারগুলি আন্তঃসংযোগযুক্ত। এটি সমস্ত একসাথে অ্যালগরিদমের লেখাকে আপনি একটি সরল এবং না কোনও জটিল উদ্যোগ গ্রহণ করতে চান। কারও মনে রাখা উচিত যে কে-মানে কেবল ইউক্লিডিয়ান দূরত্ব / ইউক্লিডিয়ান স্পেসের জন্য। ইউ-ইউক্লিডিয়ান দূরত্বের জন্য কে-মেডয়েড বা অন্যান্য পদ্ধতি ব্যবহার করুন।

একটি অনুরূপ প্রশ্ন


7

আমি অবশ্যই জানি না যে এটি "সাধারণত" কীভাবে করা হয়েছে, এবং রেকর্ডের জন্য, আমি ক্লাস্টার বিশ্লেষণ সম্পর্কে খুব বেশি জানি না। তবে আপনি কি বহুমাত্রিক স্কেলিংয়ের সাথে পরিচিত ? ( এখানে আরও একটি রেফারেন্স, উইকি এবং আপনি ট্যাগের অধীনে সিভি অনুসন্ধান করতে পারেন )) বহুমাত্রিক স্কেলিংটি জোড়া লাগা দূরত্বে একটি ম্যাট্রিক্সে নিয়ে যায় যা আপনার পরিস্থিতি মতো শোনাচ্ছে। এমডিএস থেকে, আপনি পর্যাপ্ত পরিমাণে যথাযথভাবে প্রতিনিধিত্ব করতে প্রয়োজনীয় নিম্ন-মাত্রিক স্থানের অবস্থানগুলি পেতে পারেন। আমি অনুমান করব যে আপনি এই অবস্থানগুলি কে-মানেগুলির মতো পরবর্তী ক্লাস্টার বিশ্লেষণ করতে ব্যবহার করতে পারেন; বিকল্প হিসাবে, একবার আপনি আউটপুট পরে, আপনার আর সিএ প্রয়োজন হতে পারে।

আপনি আর ব্যবহার করেন কিনা তা আমি জানি না, তবে এখানে সাইকোমেট্রিক্সের জন্য টাস্ক ভিউ রয়েছে, এতে এম এর এমডিএসের একটি অংশ অন্তর্ভুক্ত রয়েছে। আশা করি এটি সহায়তা করে।


4

আপনার ক্ষেত্রে, আপনার মূলত যা করা দরকার তা হ'ল:

  1. ডি
  2. ডিআমিডিআমি
  3. অর্জনের জন্য এটি (যেমন বিয়োগ সারি এবং কলাম মানে) কেন্দ্র করুনডি
  4. গণনা করুনএস=-12ডি
  5. এসএসএস~
  6. এস~=ভীΛভী
  7. এন-1এক্স=ভীΛ1/2

এন


বর্ণিত পদক্ষেপগুলি আমি আমার উত্তরে উল্লেখ করেছি যা মূল স্থানাঙ্ক বিশ্লেষণের চেয়ে কম নয়।
ttnphns

দয়া করে আপনার পদক্ষেপটি উদাহরণস্বরূপ করুন S এস ম্যাট্রিক্স উপাদানগুলি থেকে সর্বশেষ (নেতিবাচক) ইগেনভ্যালু (গুলি) বিয়োগ করা এসকে ইতিবাচক সেমাইডাইফিনেট তৈরি করতে সহায়তা করবে বলে মনে হচ্ছে না।
ttnphns

@ttnphns: এটি মূলত পিসিএ, হ্যাঁ, তবে এটির দূরত্বগুলি মেট্রিক হওয়ার দরকার নেই। 5 ধাপের বর্ণনাটি দুর্ভাগ্যজনক, এটি সন্ধানের জন্য ধন্যবাদ। এটা কি এখন পরিষ্কার?
blubb

সমস্ত ইগনাল্যুগুলি থেকে নেতিবাচক ইগনাল্যুজের যোগফল এবং তারপরে পুনরুদ্ধার এস ম্যাট্রিক্সকে এস এর তির্যক উপাদানগুলি থেকে যোগফলকে বিয়োগ করার সমতুল্য end এই শেষটি এসকে ইতিবাচক (আধা) নির্দিষ্ট করে তোলে, তবে ...
ttnphns

... তবে এই উপায়ে এই পদ্ধতিটি খুব খারাপ যে ফলস্বরূপ ইউক্লিডিয়ান ডেটা এক্স ইউক্যাইডিয়ান দূরত্ব D_new উত্পাদন করে যা মূল ভিন্নতা থেকে খুব দূরে থাকে। সুতরাং, আমি আপনার পদক্ষেপের 5 টি সুপারিশ করবো না negativeণাত্মক সেটাকে আরও সহজ বলে মনে হয় ইগেনভ্যালুগুলি 0-এ যান এবং step ধাপে যান Or বা, আরও কিছুটা সূক্ষ্ম পদ্ধতির: নেতিবাচক ইগেনালুয়ুগুলি 0 তে সেট করুন, ইতিবাচক ইগেনালুগুলি পুনরুদ্ধার করুন যাতে তারা মূল (= ট্রেস (এস)) হয় এবং তারপরে step ধাপে যান That's এভাবেই এটি প্রদর্শিত হয় আমাকে.
ttnphns

2

আপনার ডেটাটি নেটওয়ার্ক হিসাবেও দেখা যেতে পারে এবং আপনি উপলব্ধ অনেকগুলি ক্লাস্টারিং অ্যালগরিদমের মধ্যে একটি ব্যবহার করতে পারেন। এর জন্য আপনাকে সম্ভবত প্রান্তের ওজনের উপর একটি প্রান্তিক প্রয়োগ করতে হবে এবং দূরত্বকে সাদৃশ্যগুলিতে রূপান্তর করতে হবে। এটি কোনও কাজ করার 'পরিসংখ্যান' পদ্ধতি নয়, তবে ক্লাস্টার বিশ্লেষণ শুরু করা একটি অনির্বাচিত সমস্যা এবং অনুসন্ধানী সরঞ্জামগুলির নেটওয়ার্ক ক্লাস্টারিং অ্যালগরিদমগুলি খুব ভাল সম্পাদন করে।


2

আমি জানি না কেন এটি সাহিত্যে এতটা অস্বাভাবিক, তবে @ গং এবং @ এনটিএনফএনস প্রস্তাবিত সমাধানটি (প্রথমে আপনার যুগলভাবে দূরত্বকে ইউক্লিডিয়ান স্পেসে প্রিন্সিপাল কোঅর্ডিনেট অ্যানালাইসিস ব্যবহার করে প্রজেক্ট করে যেমন উদাহরণস্বরূপ এই প্যাকেজের মাধ্যমে যদি আপনি আর ব্যবহার করেন, এবং কে-মানে স্বাভাবিক উপায়ে করা) সহজ এবং বিশেষায়িত অ্যালগরিদমের প্রয়োজন হয় না। আমি ব্যক্তিগতভাবে এটি এখানে একটি অপ্টিমাইজেশনের কাঠামোর মধ্যে এম্বেড করে ব্যবহার করেছি এবং এটি মোটামুটি ভালভাবে কাজ করেছে।


1

ক্লাস্টারিং এবং এমডিএসের বিষয়ে আমি নিম্নলিখিত উত্সগুলি সুপারিশ করব:

  • সংখ্যাগত বাস্তুশাস্ত্র (পিয়েরে লেজেন্ড্রে এবং লুই লেজেন্ড্রে): http ://www.sज्ञानdirect.com/sज्ञान/bookseries/01678892 /20 বা http://tinyurl.com/cgrdfqk (গুগল বই) - 'পরিবেশগত সাদৃশ্য' শীর্ষক অধ্যায়
  • ক্লাস্টার বিশ্লেষণ (ব্রায়ান এস এভারিট, সাবাইন ল্যান্ডাউ, ​​মরভেন লিজ, ড্যানিয়েল স্টাহল): http://tinyurl.com/bld7k8h (গুগল বই) - 'নৈকট্য পরিমাপ' শীর্ষক অধ্যায়
  • ওহাইও বিশ্ববিদ্যালয়ের অধ্যাপক ব্রায়ান সি ম্যাকার্থারির 'বায়োস্ট্যাটিস্টিক্স -২, মাল্টিভারিয়ট পদ্ধতিগুলি' কোর্স: http://www.ohio.edu/plantbio/staff/mccarthy/multivariate/multivariate.htm

এই রেফারেন্সগুলি বাইনারি এবং অবিচ্ছিন্ন তথ্যের জন্য মিল এবং দূরত্ব ফাংশনগুলির (নৈকট্য ব্যবস্থা) বিষয়গুলি খুব সুন্দরভাবে কভার করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.