কেবলমাত্র একটি দূরত্বের ম্যাট্রিক্স দিয়ে পিসিএ সম্পাদন করছেন


12

আমি একটি বৃহদায়তন ডেটাসেট ক্লাস্টার করতে চাই যার জন্য আমার কাছে কেবল জোড়াযুক্ত দূরত্ব রয়েছে। আমি একটি কে-মেডয়েড অ্যালগরিদম প্রয়োগ করেছি, তবে এটি চালাতে খুব বেশি সময় লাগছে তাই আমি পিসিএ প্রয়োগ করে আমার সমস্যার মাত্রা হ্রাস করে শুরু করতে চাই। যাইহোক, এই পদ্ধতিটি সম্পাদন করতে আমি কেবল জানতে পারি তা হল কোভারিয়েন্স ম্যাট্রিক্স ব্যবহার করা যা আমার পরিস্থিতিতে নেই।

কেবল যুগলভাবে দূরত্বগুলি জেনে পিসিএ প্রয়োগ করার কোনও উপায় আছে কি?


1
সুতরাং, আপনি ক্লাস্টার করতে চান সেই পয়েন্টগুলির মধ্যে আপনার দূরত্বের একটি বৃহত বর্গ ম্যাট্রিক্স রয়েছে। (বিটিডব্লিউ কোন দূরত্ব? ইউক্লিডিয়ান?) আপনি কী মনে করেন যে এই পয়েন্টগুলি যে পরিমাণ মাত্রা বিভক্ত করেছে, এবং পয়েন্টগুলি তাদের (কার্ডিনালিটি) নয়, যা ক্লাস্টারিংয়ে বাধা সৃষ্টি করে?
ttnphns

1
পয়েন্টগুলির সংখ্যা "খুব বড়" নয় (কয়েক হাজার)। দূরত্ব আমি ব্যবহার করছি এই বিন্দুর মধ্যে পিয়ারসন কোরিলেশন
bigTree

2
তবে আমার প্রশ্নটি ছিল: আপনি কী মাত্রিক মাত্রা (এবং যদি হ্যাঁ, কেন?) বা কার্ডিনালিটি (পয়েন্টের সংখ্যা ) হ্রাস করতে চান ? কারণ আপনার প্রশ্নটি অস্পষ্ট
ttnphns

1
N×NNN

1
আমি মনে করি যে আপনার পক্ষে সবচেয়ে সহজ উপায় হ'ল (ক) ক্লাস্টারিং পদ্ধতি বা (খ) এর বাস্তবায়ন বা (গ) এমন শক্তিশালী (পর্যাপ্ত র‌্যাম) কম্পিউটার যা 6000 টি অবজেক্ট গ্রহণ করবে এবং শ্রেণিবদ্ধ করবে (আমি জানি না কেন আপনার মিডিয়াড প্রোগ্রামটিকে কঠিন মনে হয়েছে 6০০০০ টি বড় তবে খুব বড় নয়))। কিছু পদ্ধতি (যেমন কে-মানে )গুলিতে এক্স বৈশিষ্ট্যগুলির ডেটা প্রয়োজন। আপনি মেট্রিক এমডিএস এর মাধ্যমে বস্তুর দূরত্বের ম্যাট্রিক্সের বাইরে এই জাতীয় ডেটা তৈরি করতে পারেন (যদি আবার, আপনার কম্পিউটার / এমডিএস প্রোগ্রাম 6000 অবজেক্টের অনুমতি দেবে)।
ttnphns

উত্তর:


8

আপডেট: আমি সম্পূর্ণরূপে আমার মূল উত্তরটি সরিয়েছি, কারণ এটি ইউক্লিডিয়ান দূরত্ব এবং স্কেলার পণ্যগুলির মধ্যে একটি বিভ্রান্তির উপর ভিত্তি করে। এটি আমার উত্তরের একটি নতুন সংস্করণ। দুঃক্ষিত।

যদি যুগলভাবে দূরত্বের মাধ্যমে আপনি বোঝাচ্ছেন ইউক্লিডিয়ান দূরত্ব, তবে হ্যাঁ, পিসিএ করার এবং মূল উপাদানগুলি খুঁজে পাওয়ার একটি উপায় আছে। আমি নীচের প্রশ্নের আমার উত্তরে অ্যালগরিদম বর্ণনা: মূল উপাদান বিশ্লেষণ এবং বহুমাত্রিক স্কেলিং মধ্যে পার্থক্য কি?

খুব সংক্ষেপে, ইউক্লিডিয়ান দূরত্বের ম্যাট্রিক্সকে কেন্দ্রিক গ্রাম ম্যাট্রিক্সে রূপান্তর করা যায়, যা আইজেন্ডেকম্পোজিশনের মাধ্যমে পিসিএ করতে সরাসরি ব্যবহার করা যেতে পারে। এই পদ্ধতিটি [শাস্ত্রীয়] বহুমাত্রিক স্কেলিং (এমডিএস) হিসাবে পরিচিত ।

যদি আপনার যুগলভাবে দূরত্বগুলি ইউক্লিডিয়ান না হয়, তবে আপনি পিসিএ করতে পারবেন না, তবে এখনও এমডিএস করতে পারবেন, যা আর পিসিএর সমান হবে না। তবে এই পরিস্থিতিতে এমডিএস আপনার উদ্দেশ্যগুলির জন্য আরও উন্নত হতে পারে।


আমি যে দূরত্বটি ব্যবহার করছি এটি একটি পারস্পরিক সম্পর্ক (পিয়ারসন পারস্পরিক সম্পর্ক) এবং তাই ইউক্লিডিয়ান দূরত্ব নয়। এটি কি একইভাবে কাজ করবে?
বিগট্রি

1
@ বিগটি ট্রি: এটি ইউক্লিডিয়ান দূরত্ব না হলে আপনি পিসিএ চালানোর কোনও উপায় নেই। তবে, আপনি বহু-মাত্রিক স্কেলিং ব্যবহার করতে পারেন যা একটি মাত্রিক হ্রাস কৌশল যা সঠিকভাবে জোড়ওয়ালা দূরত্বের ম্যাট্রিক্স ব্যবহার করে (এটি কোনও দূরত্ব হতে পারে)। আরেকটি নোট: মূল ডেটা-পয়েন্ট সম্পর্কে নির্দিষ্ট অনুমানের অধীনে (যা আপনার নেই) পারস্পরিক সম্পর্কগুলি ইউক্যালিডীয় দূরত্বে রূপান্তরিত হতে পারে। অনুমানগুলি হ'ল: (১) শূন্য অর্থযুক্ত, (২) স্থির হওয়া, যেমন ইউনিট, দৈর্ঘ্য। এটি কি কোনও উপায়ে আপনার ডেটাটির জন্য সত্য?
অ্যামিবা

এগুলির
কোনওটিই

1
আপনি কার্নেল পিসিএ ব্যবহার করতে পারবেন না? আমি কল্পনা করেছিলাম যে কেবল জোড়াযুক্ত ডট পণ্যগুলির প্রয়োজন হবে, তবে আমি সমস্যাটি সম্পর্কে খুব বেশি জানি না, তাই আমি বুঝতে পারি না এটি বোধগম্য কিনা
rep_ho

4

একটি দূরত্বের ম্যাট্রিক্স সহ পিসিএ বিদ্যমান এবং এটিকে মাল্টি-ডাইমেনশনাল স্কেলিং (এমডিএস) বলা হয়। আপনি উইকিপিডিয়া বা এই বইতে আরও শিখতে পারেন ।

আপনি এটি Rএমডিএস ফাংশন সহ করতে পারেন cmdscale। নমুনার জন্য x, আপনি যে পরীক্ষা করতে পারবেন prcomp(x)এবং cmdscale(dist(x))একই ফলাফল দিতে (যেখানে prcompপিসিএ করে এবং distশুধু x উপাদান মধ্যে euclidian দূরত্বের গণনা)


3

এটি এমন একটি সমস্যার মতো দেখায় যা বর্ণালী ক্লাস্টারিং প্রয়োগ করা যেতে পারে। যেহেতু আপনার জোড়াবিশিষ্ট দূরত্বের ম্যাট্রিক্স রয়েছে তাই আপনি সম্পূর্ণ সংযুক্ত গ্রাফটি সংজ্ঞায়িত করতে পারেন যেখানে প্রতিটি নোডের এন সংযোগ রয়েছে যা গ্রাফের প্রতিটি নোডের সাথে তার দূরত্বের সাথে মিলে যায়। এটি থেকে আপনি গ্রাফ ল্যাপ্লেসিয়ানটি গণনা করতে পারেন (যদি এটি ভীতিজনক মনে হয় তবে চিন্তা করবেন না - এটি একটি সহজ গণনা) এবং তারপরে ক্ষুদ্রতম আইজেনভেেক্টর নিতে পারেনইগেনভ্যালু (এটি এটি পিসিএ থেকে পৃথক)। উদাহরণস্বরূপ, আপনি যদি 3 টি আইজেনভেেক্টর নেন তবে আপনার পরে একটি এনএক্স 3 ম্যাট্রিক্স থাকবে। এই স্পেসে পয়েন্টগুলি (আশাবাদী) ভালভাবে পৃথক করা উচিত কারণ কিছু ঝরঝরে গ্রাফ তত্ত্ব যা প্রস্তাব দেয় যে এটি ক্লাস্টারগুলির মধ্যে সর্বাধিক প্রবাহ (বা দূরত্ব, এই ক্ষেত্রে) সর্বাধিকতর করার জন্য অনুকূল কাট। সেখান থেকে আপনি 3-স্পেসে ক্লাস্টারে একটি কে-অর্থ বা অনুরূপ অ্যালগরিদম ব্যবহার করতে পারেন। আমি আরও অন্তর্দৃষ্টি জন্য এই দারুণ ওয়াকথ্রু পরীক্ষা করে দেখুন:

http://arxiv.org/abs/0711.0189


0

জুটিওয়ালা দূরত্বগুলিও কো-ভেরিয়েন্স ম্যাট্রিক্সের মতো একটি বর্গ ম্যাট্রিক্স গঠন করে। পিসিএ সহ-ভেরিয়েন্স ম্যাট্রিক্সে কেবল এসভিডি ( http://en.wikedia.org/wiki/Singular_value_decomposition ) প্রয়োগ করা হয়েছে। আপনার ডেটাতে এসভিডি ব্যবহার করে এখনও মাত্রা হ্রাস করতে সক্ষম হওয়া উচিত। আপনার আউটপুটকে কীভাবে ব্যাখ্যা করা যায় আমি ঠিক তা নিশ্চিত নই তবে এটি অবশ্যই চেষ্টা করার মতো। আপনি ক্লাস্টারিং পদ্ধতি যেমন কে-মানে বা হায়ারারিকিকাল ক্লাস্টারিং ব্যবহার করতে পারেন। বহুমাত্রিক স্কেলিংয়ের মতো অন্যান্য মাত্রা হ্রাস কৌশলগুলিও একবার দেখুন। আপনি আপনার ক্লাস্টারগুলি থেকে বেরিয়ে আসার জন্য কী চেষ্টা করছেন?


অ্যান্ড্রু ক্যাসিডির উত্তরটি আসলে বৈধ। যদি আপনার দূরত্বের পরিমাপটি পার্সন পারস্পরিক সম্পর্ক, তবে আপনি আসলে কোভারিয়েন্স ম্যাট্রিক্স থাকা থেকে "খুব দূরে" একটি মানক কারণ। সুতরাং, এসভিডি প্রয়োগ করা মূলত পিসিএ করার মতোই কাজ।
ম্যাথু অ্যান্টনি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.