কে-মানে ইনপুটটিতে কাস্টম দূরত্বের ম্যাট্রিক্স সহ বাস্তবায়ন


14

কেও আমাকে কোনও কে-মানে বাস্তবায়নটি নির্দেশ করতে পারে (মাতলাব থাকলে এটি আরও ভাল হবে) যা ইনপুটটিতে দূরত্বের ম্যাট্রিক্স নিতে পারে? স্ট্যান্ডার্ড ম্যাটল্যাব বাস্তবায়নের জন্য ইনপুটটিতে পর্যবেক্ষণ ম্যাট্রিক্স প্রয়োজন এবং সাদৃশ্য পরিমাপটি কাস্টম পরিবর্তন করা সম্ভব নয়।


2
আপনি আপনার ইউক্যালিডিয়ান দূরত্বের ম্যাট্রিক্সের সাথে সম্পর্কিত কে-মিনগুলিতে কাঁচা ডেটা উত্পন্ন করার চেষ্টা করতে পারেন। বিকল্প সহজ পদ্ধতির ম্যাট্রিক্সের শ্রেণিবিন্যাসের ক্লাস্টারিংয়ের ওয়ার্ড পদ্ধতিটি ব্যবহার করা যেতে পারে: কে-মিনস এবং ওয়ার্ড একটি ক্লাস্টার কী তা নিয়ে একই মতাদর্শ ভাগ করে।
ttnphns


মতলব নয়, তবে পাইক-স্পেসিয়াল-এ-বিশদ মেট্রিকের যে কোনওটি ব্যবহার করতে পারবেন - স্কাইকিটস-লার্ন -কে-মানে-নিজের-নিজস্ব-দূরত্বের ফাংশন-দ্বারা-নির্দিষ্ট- এর নীচে অজগরটির পৃষ্ঠাটি রয়েছে possible দূরত্ব।
ডেনিস

উত্তর:


13

যেহেতু কে- মানেগুলির জন্য আপনি ক্লাস্টার করতে চান সেই পয়েন্টগুলির বিভিন্ন উপসর্গের মাধ্যমগুলি সন্ধান করতে সক্ষম হওয়া দরকার, তাই কে- মানেগুলির কোনও সংস্করণ জিজ্ঞাসা করা আসলেই বোধগম্য নয় যা ইনপুট হিসাবে দূরত্বের ম্যাট্রিক্স গ্রহণ করে।

পরিবর্তে আপনি কে-মেডোইড চেষ্টা করতে পারেন । আছে কিছু মতলব বাস্তবায়নের পাওয়া যায়।


1
হাই, উত্তরের জন্য ধন্যবাদ; সরাসরি দূরত্বের ম্যাট্রিক্স দেওয়ার পরিবর্তে ইনপুট হিসাবে কোনও কাস্টম দূরত্বের মেট্রিক দেওয়া সম্ভব হবে? মুল বক্তব্যটি হ'ল আমাকে দুটি ক্লাস্টারিং পদ্ধতির তুলনা করতে হবে এবং যেহেতু দ্বিতীয়টিতে আমি একটি কাস্টম সাদৃশ্য ম্যাট্রিক্স ব্যবহার করি, আমি ন্যায্য তুলনা পাওয়ার জন্য কামিয়ানদের সাথে একই পন্থাটি ব্যবহার করতে চাই।
ইউজিনিও

2
ELKI আপনাকে কে-মাধ্যমের সাথে স্বেচ্ছাসেবী দূরত্ব ফাংশন ব্যবহার করতে দেয়। নোট করুন যে অ্যালগরিদম তখন রূপান্তর করতে ব্যর্থ হতে পারে। কে- মেনসটি সত্যই স্কোয়ারড ইউক্লিডিয়ান দূরত্ব (স্কোয়ারের যোগফল) এর জন্য ডিজাইন করা হয়েছে। অন্যান্য দূরত্বের সঙ্গে, গড় আর may অপ্টিমাইজ করে তুলুন এবং গম্ভীর গর্জন আলগোরিদিম মিলিত না অবশেষে হবে। গুরুতরভাবে, কে-মেডোইডগুলি ব্যবহার করার বিষয়টি বিবেচনা করুন। এটি আরবিয়েরি দূরত্ব সহ কে-মানে আইডিয়া ব্যবহারের অনুমতি দেওয়ার জন্য লেখা হয়েছিল ।
কিউইট আছে - অ্যানি-মউসে

পাইথ্লসটারিং একটি অজগর / সি ++ গ্রন্থাগার রয়েছে যা আপনাকে একটি কাস্টম মেট্রিক ক্রিয়াকলাপ সরবরাহ করতে দেয়: github.com/annoviko/pyclustering/issues/417
সিপিআইএলএল

8

আপনি আপনার দূরত্বের ম্যাট্রিক্সকে কাঁচা ডেটাতে পরিণত করতে পারেন এবং এগুলি কে-মিনস ক্লাস্টারিংয়ে ইনপুট করতে পারেন। পদক্ষেপগুলি নিম্নরূপ হবে:

1) আপনার এন পয়েন্টের মধ্যে দূরত্ব অবশ্যই ইউক্লিডিয়ান স্কোয়ারযুক্ত হওয়া উচিত। ম্যাট্রিক্সের " ডাবল সেন্টারিং " সম্পাদন করুন : প্রতিটি উপাদান থেকে সাবস্ট্রাক্ট সারি অর্থ; ফলস্বরূপ, প্রতিটি উপাদান থেকে স্তর কলাম মানে; ফলস্বরূপ, প্রতিটি উপাদান ম্যাট্রিক্স গড় যোগ; বিয়োগ বিভক্ত করে বিভক্ত করুন ২. আপনার এখন যে ম্যাট্রিক্স রয়েছে সেটি হল আপনার পয়েন্টগুলির মধ্যে এসএসসিপি (যোগফলের সমষ্টি এবং ক্রস-প্রোডাক্ট) ম্যাট্রিক্স যেখানে এন পয়েন্টগুলির মেঘের জ্যামিতিক কেন্দ্রে উত্পন্ন হয়। ( এখানে ডাবল সেন্টারিংয়ের ব্যাখ্যা পড়ুন ))

২) সেই ম্যাট্রিক্সে পিসিএ (প্রধান উপাদান বিশ্লেষণ) সম্পাদন করুন এবং এনএক্সএন উপাদান লোডিং ম্যাট্রিক্স পান। এর সর্বশেষ কলামগুলির কয়েকটি সম্ভবত 0 টি হতে পারে - তাই এগুলি কেটে দিন। আপনি এখন যা থাকছেন তা আসলে মূল উপাদান স্কোরগুলি, আপনার মেঘের মাধ্যমে অক্ষের মতো পাস হওয়া মূল উপাদানগুলির দিকে আপনার এন পয়েন্টগুলির স্থানাঙ্ক। এই ডেটা কে-ইনস ইনপুট জন্য উপযুক্ত কাঁচা ডেটা হিসাবে বিবেচনা করা যেতে পারে।

পিএস যদি আপনার দূরত্বগুলি জ্যামিতিকভাবে স্কোয়ারড ইউক্লিডিয়ানগুলি সঠিক না হয় তবে আপনি সমস্যার মুখোমুখি হতে পারেন: এসএসসিপি ম্যাট্রিক্স ইতিবাচক (আধা) নির্দিষ্ট নাও হতে পারে। এই সমস্যাটি বিভিন্ন উপায়ে মোকাবেলা করা যেতে পারে তবে নির্ভুলতার ক্ষতিতে।


আপনার উত্তরের জন্য ধন্যবাদ! প্রকৃতপক্ষে আমার কাছে বস্তুর মধ্যে বাস্তব দূরত্বের ম্যাট্রিক্সের সাথে মিল নেই তবে মিল রয়েছে এবং ইউক্যালিডিয়ান দূরত্বগুলি ব্যবহার করে ঠিক একই কাস্টম অ্যালগরিদম ব্যবহার করা হয় না যা কাঁচা ডেটা বিবেচনা করে তবে না স্ট্যান্ডার্ড উপায়। আমার ধারণা এই ক্ষেত্রে আমি আপনার পদ্ধতি প্রয়োগ করতে পারি না, আমি ঠিক আছি?
ইউজিনিও

সাদৃশ্যগুলি দূরত্বগুলিতে রূপান্তরিত করার পরেও আপনি পারেন। পরবর্তীকরা সম্ভবত সত্য ইউক্লিডিয়ান হবে না (এবং তাই এসএসসিপিতে কিছু নেতিবাচক ইগ্যালভ্যালু থাকবে); তারপরে এসএসসিপি নেগ না হারানো পর্যন্ত দূরত্বে ছোট ধ্রুবক যুক্ত করার চেষ্টা করুন। EIG। সমস্যাটি নিয়ে কাজ করার জন্য অন্যান্য উপায়ও রয়েছে। এবং দয়া করে মনে রাখবেন যে আপনি স্কোয়ার দূরত্বের কেন্দ্রের ম্যাট্রিক্সকে দ্বিগুণ করেন ।
ttnphns

পিএস এবং উপায় দ্বারা। যদি আপনার ম্যাট্রিক্সের মিল হয় তবে ভাল, এটি আরও ভাল। আপনি কেবল এটির মতো আচরণ করুন যে আমি এসএসসিপি ম্যাট্রিক্সের বিষয়ে বলছিলাম এবং এটি দিয়ে পিসিএ করি। তবুও, সম্ভাব্য নেতিবাচক ইগন্যাল্যুয়েসের সমস্যা রয়ে গেছে।
ttnphns

@ttnphns, দুঃখিত আমি দূরত্ব ম্যাট্রিক্স পদক্ষেপ 1. আপনার ব্যাখ্যা অনুপস্থিত করছি X(আসুন বলতে এন * এন) প্রতিসম, তাই হতে যাচ্ছে colMeans(X) =rowMeans(X) এবং একবার আপনি বিয়োগ সারি বা কর্নেল মাধ্যম: Y=X-rowMeans(X), mean(Y)0.
Zhubarb

1
@ ঝুবার্ব, যখন আমি বলি You could turn your matrix of distances into raw data(পয়েন্ট 1 এবং 2) আমি মূলত টর্জারসনের বহুমাত্রিক স্কেলিং (এমডিএস) এর দিকে উল্লেখ করি , যেখানে ডাবল সেন্টারিং প্রাথমিক পদক্ষেপ। সেই পদ্ধতি সম্পর্কে দয়া করে এই সাইটটি (এবং গুগলও) অনুসন্ধান করুন। "ডাবল সেন্টারিং" হ'ল পয়েন্টগুলির মেঘের সেন্ট্রয়েডে স্থাপন করা মূলটির উপরে সংজ্ঞায়িত স্কেলার পণ্য ম্যাট্রিক্সের সাথে (স্কোয়ার) দূরত্বের রূপান্তর।
ttnphns

3

দয়া করে এই নিবন্ধটি দেখুন, আমার পরিচিত একজন লিখেছেন;)

http://arxiv.org/abs/1304.6899

এটি একটি সাধারণীকৃত কে-মানে বাস্তবায়ন সম্পর্কে, যা ইনপুট হিসাবে একটি স্বেচ্ছাসেবী দূরত্বের ম্যাট্রিক্স গ্রহণ করে। এটি শূন্যের তিরুধের সাথে যেকোন প্রতিসাম্যহীন ননেজিটিভ ম্যাট্রিক্স হতে পারে। দ্রষ্টব্য যে এটি অদ্ভুত দূরত্বের ম্যাট্রিকগুলির জন্য বুদ্ধিমান ফলাফল দিতে পারে না। প্রোগ্রামটি সি # তে লেখা আছে।

উপরের লিঙ্কটি দেখার পরে, অন্যান্য ফর্ম্যাটগুলিতে ক্লিক করে, পরে উত্স ডাউনলোড করুন ক্লিক করে উত্স কোড পাওয়া যাবে। তারপরে আপনি একটি .tar.gz পাবেন যা প্রোগ্রাম.স. বিকল্পভাবে, সোর্স কোডটি পিডিএফ থেকেও অনুলিপি করা যায়।


3

আপনি জাভা মেশিন লার্নিং লাইব্রেরি ব্যবহার করতে পারেন। তাদের কে-মায়ান্স বাস্তবায়ন রয়েছে। একজন কনস্ট্রাক্টর তিনটি আর্গুমেন্ট গ্রহণ করেন

  1. কে মান।
  2. যে একটি বস্তুর একটি দৃষ্টান্ত হল DistanceMeasure ক্লাস।
  3. পুনরাবৃত্তিও সংখ্যা.

পছন্দসই ফলাফল অর্জনের জন্য কেউ সহজেই দূরত্বমীমা ক্লাস বাড়িয়ে দিতে পারে। এই ক্লাসটির পরিমাপ (ইনস্ট্যান্স এক্স, ইনস্ট্যান্স y) পদ্ধতিতে একটি কাস্টম দূরত্বের ম্যাট্রিক্স থেকে মানগুলি প্রত্যাবর্তনের ধারণা idea

কে-মিনস দূরত্বের মেট্রিকের কয়েকটি বৈশিষ্ট্য ধরে নিয়ে রূপান্তর করতে গ্যারান্টিযুক্ত। ইউক্লিডিয়ান দূরত্ব, ম্যানহাটনের দূরত্ব বা অন্যান্য মানক মেট্রিক্স এই অনুমানগুলি সন্তুষ্ট করে। যেহেতু একটি কাস্টম দূরত্বের মেট্রিক এই অনুমানগুলি পূরণ করতে পারে না, তাই নির্মাণকারীর ক্লাস্টার তৈরির জন্য চালানোর জন্য পুনরাবৃত্তির সংখ্যা নির্দিষ্ট করে একটি তৃতীয় প্যারামিটার রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.