কে-মানে ক্লাস্টারিং এবং পিসিএর মধ্যে কী সম্পর্ক?


60

ক্লাস্টারিং অ্যালগরিদমের (যেমন কে-মানে) আগে পিসিএ (মূল উপাদান বিশ্লেষণ) প্রয়োগ করা একটি সাধারণ অনুশীলন। এটি বিশ্বাস করা হয় যে এটি অনুশীলন (শব্দ হ্রাস) এর ক্লাস্টারিং ফলাফলগুলিতে উন্নতি করে।

তবে আমি পিসিএ এবং কে-মাধ্যমের মধ্যে সম্পর্কের তুলনামূলক এবং গভীর গভীর অধ্যয়নে আগ্রহী। উদাহরণস্বরূপ, ক্রিস ডিং এবং জিয়াওফেং তিনি, 2004, কে-মানে ক্লাস্টারিংয়ের মাধ্যমে প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস দেখিয়েছেন যে "মূল উপাদানগুলি হ'ল কে-মানে ক্লাস্টারিংয়ের জন্য পৃথক ক্লাস্টারের সদস্যতার সূচকের একটানা সমাধান"। তবে এই কাগজটি বোঝার জন্য আমার খুব কষ্ট হয়েছে, এবং উইকিপিডিয়া আসলে দাবি করেছে যে এটি ভুল

এছাড়াও, দুটি পদ্ধতির ফলাফল এই অর্থে কিছুটা পৃথক যে পিসিএ বৈকল্পিকতা সংরক্ষণের সময় "বৈশিষ্ট্যগুলি" সংখ্যা হ্রাস করতে সহায়তা করে, যেখানে ক্লাস্টারিং তাদের প্রত্যাশা / উপায়ে কয়েকটি পয়েন্ট সংক্ষিপ্ত করে "ডেটা-পয়েন্ট" সংখ্যা হ্রাস করে (কে-অর্থের ক্ষেত্রে)। সুতরাং যদি ডেটাসেট টি প্রতিটি টি বৈশিষ্ট্যযুক্ত N পয়েন্টগুলিতে থাকে তবে পিসিএ লক্ষ্য করে টি বৈশিষ্ট্যগুলি সংকুচিত করে যেখানে ক্লাস্টারিংয়ের লক্ষ্য এন ডাটা পয়েন্টগুলি সংকুচিত করা ।TTN

আমি এই দুটি কৌশলগুলির মধ্যে সম্পর্কের একটি সাধারণ লোকের সন্ধান করছি + দুটি কৌশল সম্পর্কিত আরও কয়েকটি প্রযুক্তিগত কাগজপত্র।


2
ক্লাস্টারিংকে বৈশিষ্ট্য হ্রাস হিসাবেও বিবেচনা করা যেতে পারে। আপনি কোথায় তার ক্লাস্টার নিয়োগ, বা বিক্ষিপ্ত তাদের সঙ্কেতাক্ষরে লিখা দ্বারা প্রতিটি নমুনা প্রকাশ (অতএব কমাতে করার k )। "বৈশিষ্ট্য" মাত্রা হ্রাস করার সময় এই উভয়ই পন্থা ডেটা পয়েন্টের সংখ্যা স্থির রাখে। Tk
জেফ

উত্তর:


72

এটি সত্য যে কে-মানে ক্লাস্টারিং এবং পিসিএর খুব আলাদা লক্ষ্য রয়েছে এবং প্রথম দর্শনে এটি সম্পর্কিত বলে মনে হয় না। যাইহোক, ডিং অ্যান্ড হিজ 2004 পেপারে কে-মানে ক্লাস্টারিংয়ের মাধ্যমে প্রিন্সিপাল কম্পোনেন্ট বিশ্লেষণের মাধ্যমে ব্যাখ্যা করা হয়েছে, তাদের মধ্যে গভীর সংযোগ রয়েছে।

স্বজ্ঞাততাটি হ'ল পিসিএ সমস্ত ডেটা ভেক্টরকে স্বল্প সংখ্যক ইগেনভেেক্টরগুলির রৈখিক সংমিশ্রণ হিসাবে উপস্থাপন করার চেষ্টা করে এবং এটি গড়-স্কোয়ার পুনর্গঠন ত্রুটি হ্রাস করতে পারে। বিপরীতে, কে-মানে ক্লাস্টার সেন্ট্রয়েডের সংখ্যক সংখ্যক মাধ্যমে সমস্ত এন ডেটা ভেক্টরকে উপস্থাপন করতে চায় , অর্থাত্ তাদের ক্লাস্টার সেন্ট্রয়েড ভেক্টরের একটি সংখ্যক সংখ্যক লিনিয়ার সংমিশ্রণ হিসাবে প্রতিনিধিত্ব করতে যেখানে একক 1 বাদে লিনিয়ার সংমিশ্রণ ওজন অবশ্যই সমস্ত শূন্য হতে হবে । গড় স্কোয়ার পুনর্গঠন ত্রুটি কমাতে এটিও করা হয়।nn1

সুতরাং কে-মানে একটি অতি-স্পার্স পিসিএ হিসাবে দেখা যেতে পারে।

এই সংযোগটি আরও সুনির্দিষ্ট করে তুলতে ডিং অ্যান্ড হি পেপার কী করেন।


দুর্ভাগ্যক্রমে, ডিং এন্ড হি পেপারে কিছু ঝাঁঝালো সূত্র রয়েছে (সেরা) এবং সহজেই ভুল বোঝাবুঝি হতে পারে। উদাহরণস্বরূপ মনে হতে পারে যে ডিং অ্যান্ড তিনি দাবি করেছেন যে কে-ক্লাস্টার সেন্ট্রয়েডস ক্লাস্টারিং সলিউশনটি -ডিমেন্টেশনাল পিসিএ সাবস্পেসে রয়েছে:(K1)

উপপাদ্য ৩.৩। ক্লাস্টার সেন্ট্রয়েড সাবস্পেসটি প্রথম মূল নির্দেশিকা দ্বারা প্রসারিত [...]।K1

জন্য এটি বোঝায় যে পিসি 1 অক্ষের অনুমানগুলি অবশ্যই একটি ক্লাস্টারের জন্য নেতিবাচক এবং অন্য ক্লাস্টারের জন্য ধনাত্মক হবে, অর্থাৎ পিসি 2 অক্ষগুলি ক্লাস্টারগুলি পুরোপুরি আলাদা করবে।K=2

এটি হয় ভুল বা কিছু ঝোঁক লেখা; আক্ষরিক অর্থে নেওয়া যাই হোক না কেন, এই বিশেষ দাবিটি মিথ্যা।

আসুন জন্য 2 ডি তে কিছু খেলনা উদাহরণ দেখে শুরু করি । আমি দুটি সাধারণ ডিস্ট্রিবিউশন থেকে একই কোভেরিয়েন্স ম্যাট্রিক্সের সাথে পরিবর্তিত হলেও কিছু উপকরণ তৈরি করেছি। আমি তখন কে-মানে এবং পিসিএ উভয়ই চালিয়েছি। নীচের চিত্রটি উপরের ডেটারগুলির বিক্ষিপ্ত প্লট এবং নীচের কে-ইস্যু সমাধান অনুসারে একই ডেটা বর্ণযুক্ত দেখায়। আমি কৃষ্ণ রেখা হিসাবে প্রথম মূল দিকটি এবং কালো ক্রস সহ কে-ইমেস দ্বারা পাওয়া শ্রেণীর সেন্ট্রয়েডগুলিও দেখাই। পিসি 2 অক্ষটি ড্যাশড ব্ল্যাক লাইনের সাথে দেখানো হয়েছে। বিশ্বব্যাপী সর্বোত্তমতায় রূপান্তর নিশ্চিত করতে কে-মানে 100 বার এলোমেলো বীজের সাথে পুনরাবৃত্তি হয়েছিল ।K=2100

পিসিএ বনাম কে-মানে

একটি পরিষ্কারভাবে দেখতে পাচ্ছে যে ক্লাস সেন্ট্রয়েডগুলি প্রথম পিসি দিকের খুব কাছাকাছি থাকার প্রবণতা সত্ত্বেও, তারা একেবারেই এটিকে পড়ে না । তবুও, যদিও পিসি 2 অক্ষগুলি সাবপ্লটগুলি 1 এবং 4 এ ক্লাস্টারগুলিকে পুরোপুরি পৃথক করে, সাবপ্লট 2 এবং 3 এ এর ​​ভুল দিকের কয়েকটি পয়েন্ট রয়েছে।

সুতরাং কে-মানে এবং পিসিএর মধ্যে চুক্তিটি বেশ ভাল, তবে এটি সঠিক নয়।

K=2n1n2n=n1+n2 qRnqi=n2/nn1iqi=n1/nn2q i = 0q=1qi=0

ডিং এবং তিনি দেখান যে কে-মানে ক্ষতি ফাংশন কে (যে কে-মানে অ্যালগরিদম মিনিমাইজ করা হয়েছে) হিসাবে সমানভাবে পুনরায় লেখা যেতে পারে - , যেখানে হয় গ্রাম সব বিন্দুর মধ্যে স্কালে পণ্য ম্যাট্রিক্স: , যেখানে হয় ডেটা ম্যাট্রিক্স এবং কেন্দ্রিক ডেটা ম্যাট্রিক্স।ki(xiμk)2qGqGn×nG=XcXcXn×2Xc

(দ্রষ্টব্য: আমি স্বরলিপি এবং পরিভাষা ব্যবহার করছি যা তাদের কাগজ থেকে সামান্য পৃথক হলেও আমি আরও স্পষ্ট মনে করি)।

সুতরাং কে-মানে সমাধান হ'ল একটি কেন্দ্রিক ইউনিট ভেক্টর সর্বোচ্চ । এটি সহজেই দেখানো যায় যে প্রথম প্রধান উপাদানটি (যখন বর্গক্ষেত্রের একক যোগফলকে স্বাভাবিক করা হয়) হ'ল গ্রাম ম্যাট্রিক্সের শীর্ষস্থানীয় ইগেনভেেক্টর, অর্থাত এটি একটি কেন্দ্রিক ইউনিট ভেক্টর সর্বাধিক । পার্থক্যটি হ'ল অতিরিক্ত মাত্র দুটি পৃথক মান থাকতে বাধ্য হয় যেখানে এই সীমাবদ্ধতা নেই।qqGqppGpqp

অন্য কথায়, কে-মানে এবং পিসিএ একই উদ্দেশ্য ফাংশনকে সর্বাধিক করে তোলে , কেবলমাত্র পার্থক্যটি হ'ল কে-মানেতে অতিরিক্ত "শ্রেণিবদ্ধ" সীমাবদ্ধতা রয়েছে।

এটি যুক্তিতে দাঁড়ায় যে বেশিরভাগ সময় কে-মানে (সীমাবদ্ধ) এবং পিসিএ (নিয়ন্ত্রণহীন) সমাধানগুলি একে অপরের নিকটবর্তী হওয়া বেশ সুন্দর হবে, যেমন আমরা উপরের সিমুলেশনে দেখেছি, তবে তাদের এক হিসাবে প্রত্যাশা করা উচিত নয়। টেকিং এবং এর সমস্ত নেতিবাচক উপাদান সেটিং সমান হতে এবং তার সব ইতিবাচক উপাদান সাধারণত হবে না ঠিক দিতে ।pn1/nn2n2/nn1q

ডিং এবং তিনি এটিকে ভালভাবে বুঝতে পেরেছেন কারণ তারা তাদের উপপাদ্যটি নিম্নরূপ রচনা করেছেন:

উপপাদ্য ২.২। কে-মানে ক্লাস্টারিংয়ের জন্য যেখানে , ক্লাস্টার সূচক ভেক্টরের ক্রমাগত সমাধান হ'ল [প্রথম] প্রধান উপাদানK=2

শব্দ "ধারাবাহিক সমাধান" নোট করুন। এই উপপাদ্য প্রমাণ পর অতিরিক্ত মন্তব্য পিসিএ আরম্ভ করতে পুনরাবৃত্তিও যা মোট ধারনা দেওয়া যে, আমরা আশা তোলে কে-মানে ব্যবহার করা যেতে পারে নিকটবর্তী হতে । তবে একটি এখনও পুনরাবৃত্তি সম্পাদন করা প্রয়োজন, কারণ তারা অভিন্ন নয়।qp

যাইহোক, ডিং অ্যান্ড হি তার পরে জন্য আরও সাধারণ চিকিত্সা বিকাশ করতে এবং থিয়োরামটি ৩.৩ হিসাবে তৈরি করে শেষ করেছেনK>2

উপপাদ্য ৩.৩। ক্লাস্টার সেন্ট্রয়েড সাবস্পেসটি প্রথম মূল নির্দেশাবলী দ্বারা প্রসারিত [...]।K1

আমি ধারা 3 এর গণিতের মধ্য দিয়ে যাই নি, তবে আমি বিশ্বাস করি যে এই উপপাদ্যটি আসলে কে-মানেগুলির "ক্রমাগত সমাধান" বোঝায়, তার বিবৃতিতে কে-মানেগুলির অবিচ্ছিন্ন সমাধানের ক্লাস্টার সেন্ট্রয়েড স্থানটি পড়তে হবে is বিস্তৃত [...] "।

ডিং এন্ড হি, তবে এই গুরুত্বপূর্ণ যোগ্যতাটি তৈরি করবেন না এবং তবুও তাদের বিমূর্তে এটি লিখুন write

এখানে আমরা প্রমাণ করি যে মূল উপাদানগুলি হ'ল কে-মানে ক্লাস্টারিংয়ের জন্য বিচ্ছিন্ন ক্লাস্টার সদস্যতার সূচকের একটানা সমাধান। সমানভাবে, আমরা দেখাই যে ক্লাস্টার সেন্ট্রয়েড দ্বারা বিস্তৃত উপসর্গটি পদগুলিতে কাটা ডেটা কোভারিয়েন্স ম্যাট্রিক্সের বর্ণালী সম্প্রসারণ দ্বারা দেওয়া হয়েছে ।K1

প্রথম বাক্যটি একেবারে সঠিক, তবে দ্বিতীয়টি নয়। এটি (খুব) slালু লেখা বা আসল ভুল কিনা তা আমার কাছে স্পষ্ট নয়। আমি উভয় লেখককে স্পষ্টতার জন্য জিজ্ঞাসা করে খুব নম্রভাবে ইমেল করেছি। (দুই মাস পরে আপডেট করুন: আমি তাদের কাছ থেকে আর কখনও শুনিনি))


মতলব সিমুলেশন কোড

figure('Position', [100 100 1200 600])

n = 50;
Sigma = [2 1.8; 1.8 2];

for i=1:4
    means = [0 0; i*2 0];

    rng(42)
    X = [bsxfun(@plus, means(1,:), randn(n,2) * chol(Sigma)); ...
         bsxfun(@plus, means(2,:), randn(n,2) * chol(Sigma))];
    X = bsxfun(@minus, X, mean(X));
    [U,S,V] = svd(X,0);
    [ind, centroids] = kmeans(X,2, 'Replicates', 100);

    subplot(2,4,i)
    scatter(X(:,1), X(:,2), [], [0 0 0])

    subplot(2,4,i+4)
    hold on
    scatter(X(ind==1,1), X(ind==1,2), [], [1 0 0])
    scatter(X(ind==2,1), X(ind==2,2), [], [0 0 1])
    plot([-1 1]*10*V(1,1), [-1 1]*10*V(2,1), 'k', 'LineWidth', 2)
    plot(centroids(1,1), centroids(1,2), 'w+', 'MarkerSize', 15, 'LineWidth', 4)
    plot(centroids(1,1), centroids(1,2), 'k+', 'MarkerSize', 10, 'LineWidth', 2)
    plot(centroids(2,1), centroids(2,2), 'w+', 'MarkerSize', 15, 'LineWidth', 4)
    plot(centroids(2,1), centroids(2,2), 'k+', 'MarkerSize', 10, 'LineWidth', 2)

    plot([-1 1]*5*V(1,2), [-1 1]*5*V(2,2), 'k--')
end

for i=1:8
    subplot(2,4,i)
    axis([-8 8 -8 8])
    axis square
    set(gca,'xtick',[],'ytick',[])
end    

2
আমি সবেমাত্র ডিং এন্ড হিজ পেপারের ভিতরে তাকিয়েছি। উপপাদ্য ২.২ এ তারা উল্লেখ করেছে যে আপনি যদি কিছু পি-মাত্রিক ডেটা ক্লাউডের কে-মানে (কে = ২ সহ) করেন এবং ডেটা পিসিএ (সমবায় ভিত্তিক) সম্পাদন করেন তবে ক্লাস্টার এ সম্পর্কিত সমস্ত পয়েন্টগুলি নেতিবাচক এবং সমস্ত হবে ক্লাস্টার বি এর সাথে সম্পর্কিত পয়েন্টগুলি পিসি 1 স্কোরগুলিতে ইতিবাচক হবে। আকর্ষণীয় বিবৃতি, - এটি অনুকরণে পরীক্ষা করা উচিত। তবে সমস্যাটি হ'ল এটি বিশ্বব্যাপী সর্বোত্তম কে-সমাধান সমাধান গ্রহণ করে; তবে আমরা কীভাবে জানব যে অর্জিত ক্লাস্টারিং অনুকূল ছিল কিনা?
ttnphns

1
@ttnphns, এই দাবিটি আরও স্পষ্টভাবে পরীক্ষা করতে আমি আমার সিমুলেশন এবং চিত্রটি আপডেট করেছি। যদি পিসি 1 এ অনুমানগুলি A এবং B ক্লাসগুলির জন্য ইতিবাচক এবং নেতিবাচক হওয়া উচিত তবে এর অর্থ পিসি 2 অক্ষটি তাদের মধ্যে একটি সীমানা হিসাবে পরিবেশন করা উচিত। এটি আমার 4 টি খেলনা সিমুলেশনের ক্ষেত্রে হওয়ার খুব কাছাকাছি, তবে উদাহরণ 2 এবং 3 তে পিসি 2 এর দু'দিকে রয়েছে দু'টি পয়েন্ট। রূপান্তর সম্পর্কে, আমি kmeans100 টি প্রতিলিপি নিয়ে কাজ করেছি: এটি প্রতিবার একটি পৃথক এলোমেলো সূচনা চয়ন করে এবং তারপরে সর্বোত্তম সমাধানটি নির্বাচন করে, তাই আশা করি এটি নিশ্চিত হওয়া উচিত যে বৈশ্বিক অনুকূলতা অর্জন হয়েছে।
অ্যামিবা 21

1
@ এনটিএনএফএনএস: আমার মনে হয় আমি কী ঘটছে তা বুঝতে পেরেছি, দয়া করে আমার আপডেট দেখুন।
অ্যামিবা বলছেন মনিকাকে

অ্যামিবা, আমাদের সবার কাছে আলোচিত নিবন্ধটি হজম করার জন্য এবং আপনার সিদ্ধান্তে পৌঁছানোর জন্য ধন্যবাদ (+২); এবং ব্যক্তিগতভাবে আমাকে জানানোর জন্য! আমি আপনার উত্তরটি পড়তে এবং তদন্ত করতে কয়েক দিনের মধ্যে ফিরে আসব। তবে ইতিমধ্যে এখন এটি প্রশংসা করছি।
ttnphns

অসামান্য পোস্ট। আপনি মাতলাব ব্যবহার করেছেন আর আর ব্যবহার করার কোন কারণ নেই? কেবল কৌতুহল কারণ আমি এমএল কোর্সেরা কোর্স নিচ্ছি এবং অ্যান্ড্রু এনজিও মতলব ব্যবহার করেছে, আর বা পাইথনের বিপরীতে। এটি কি সাধারণ এমএল পছন্দ?
আন্তনি পরল্লদা

10

পিসিএ এবং কে-মানে বিভিন্ন কাজ করে।

পিসিএটি মাত্রিকতা হ্রাস / বৈশিষ্ট্য নির্বাচন / উপস্থাপনা শেখার জন্য ব্যবহৃত হয় যেমন যখন বৈশিষ্ট্যের জায়গাতে অনেক বেশি অপ্রাসঙ্গিক বা অপ্রয়োজনীয় বৈশিষ্ট্য থাকে। উদ্দেশ্যটি হ'ল ডেটার অভ্যন্তরীণ মাত্রিকতা খুঁজে পাওয়া।

এখানে একটি দ্বিমাত্রিক উদাহরণ যা উচ্চ মাত্রিক স্থানগুলিতে সাধারণীকরণ করা যায়। ডেটাসেটের দুটি বৈশিষ্ট্য রয়েছে, এবং , প্রতিটি বৃত্ত একটি ডেটা পয়েন্ট।xy

এখানে চিত্র বর্ণনা লিখুন

ছবিতে এর এর চেয়ে বড় আকার রয়েছে । এগুলি আইজেনভেেক্টর। তথ্যের মাত্রা দুটি মাত্রা থেকে এক মাত্রায় কমানো হয় (এক্ষেত্রে খুব বেশি পছন্দ হয় না) এবং এটি ভেক্টরের দিকনির্দেশে প্রবর্তন করে করা হয় (একটি ঘূর্ণনের পরে যেখানে অক্ষের একটির সাথে সমান্তরাল বা লম্ব হয়ে যায়) । এটি কারণ বৃহত্তম বৈকল্পিকের দিকের অরথোগোনাল। এটি ভাবার একটি উপায়, তথ্যের সর্বনিম্ন ক্ষতি loss (একটি স্থানাঙ্ক অক্ষটি হারিয়ে যাওয়ার পরেও একটি ক্ষতি রয়েছে)।v1v2v2v2v2

কে-অর্থ হ'ল একটি ক্লাস্টারিং অ্যালগরিদম যা তাদের মিলের ভিত্তিতে ডেটা পয়েন্টগুলির প্রাকৃতিক গোষ্ঠীকরণ দেয় returns এটি গাউসিয়ান মিশ্রণ মডেলগুলির একটি বিশেষ ক্ষেত্রে

চিত্রের নীচে চিত্রটিতে তিনটি মাত্রা রয়েছে। বাম দিকে থ্রিডি প্লট থেকে দেখা যায় যে মাত্রা বেশি তথ্য হারাতে না পারলে 'ড্রপ' হতে পারে। পিসিএটি দুটি মাত্রায় ডেটা প্রজেক্ট করতে ব্যবহৃত হয়। বাম দিকে চিত্রে, প্রক্ষেপণ বিমানটিও দেখানো হয়েছে। তারপরে, কে-অর্থগুলি বিভিন্ন গ্রুপগুলিতে লেবেল করতে ডানদিকে চিত্রটিতে বিভিন্ন বর্ণের সাথে কোডেড, প্রজেক্ট করা ডেটা ব্যবহার করা যেতে পারে।X

এখানে চিত্র বর্ণনা লিখুন

পিসিএ বা অন্যান্য মাত্রিকতা হ্রাস কৌশলগুলি মেশিন লার্নিংয়ে উভয় অব্যবহৃত বা তদারকি পদ্ধতি ব্যবহার করার আগে ব্যবহার করা হয়। আপনি এবং আমি উপরে উল্লিখিতগুলির দ্বারা বর্ণিত কারণগুলি ছাড়াও, এটি ভিজ্যুয়ালাইজেশনের উদ্দেশ্যেও (উচ্চ মাত্রা থেকে 2 ডি বা 3 ডি প্রজেকশন) জন্য ব্যবহৃত হয়।

নিবন্ধ হিসাবে, আমি বিশ্বাস করি না যে কোনও সংযোগ আছে, পিসিএর উপাত্তগুলির প্রাকৃতিক গ্রুপিং সম্পর্কিত কোনও তথ্য নেই এবং পুরো ডেটাতে কাজ করে, উপগ্রহগুলি (গোষ্ঠীগুলি) নয়। যদি কিছু গোষ্ঠীগুলি একটি আইজেনভেেক্টর দ্বারা ব্যাখ্যা করা হতে পারে (কেবল কারণ সেই নির্দিষ্ট গোষ্ঠীটি সেই দিকের সাথে ছড়িয়ে পড়ে) কেবল একটি কাকতালীয় বিষয় এবং এটি সাধারণ নিয়ম হিসাবে গ্রহণ করা উচিত নয়।

"পিসিএটির লক্ষ্য টি বৈশিষ্ট্যগুলি সংকুচিত করা যেখানে ক্লাস্টারিংয়ের লক্ষ্য এন ডাটা পয়েন্টগুলি সংকুচিত করা" "

আসলে, কম্প্রেশন পিসিএ সম্পর্কে চিন্তা করার একটি স্বজ্ঞাত উপায়। যাইহোক, কে- এটির গোষ্ঠীর তুলনায় প্রতিটি পয়েন্ট বর্ণনা করতে আপনার এখনও কমপক্ষে একই পরিমাণের তথ্য (যেমন মাত্রা) , যেখানে দূরত্ব এবং সংরক্ষিত আছে পরিবর্তে । এবং সাথে কী তা জানতে করতে হবে। আপনি অবশ্যই সংরক্ষণ করতে পারেন এবং অবশ্য আপনি ডাটা প্রকৃত তথ্য পুনরুদ্ধার করতে পারবে না।xi=d(μi,δi)dδixiμidi

ক্লাস্টারিং সত্যিই তথ্য যুক্ত করে। আমি এটিকে প্রতিটি গ্রুপের লেবেলটির অর্থ (ভাল, যতক্ষণ না আপনি গ্রুপগুলির মধ্যে থাকা ডেটার দিকে নজর না দিয়েছেন) জেনে না করে প্রাকৃতিক গোষ্ঠীতে ডেটা বিভক্ত করা (যেগুলি অগত্যা বিচ্ছিন্ন হতে হবে না) হিসাবে মনে করি।


3
আপনার পিসিগুলিকে যেভাবে প্লটে লেবেল করা হয়েছে তা টেক্সটটিতে ডাব্লু / সংশ্লিষ্ট আলোচনার সাথে সঙ্গতিপূর্ণ নয় বলে মনে হচ্ছে। মনে রাখবেন, যদিও পিসিএ কলামগুলিতে সাধারণত প্রয়োগ করা হয়, & কে-মানে সারিগুলিতে, উভয়ই প্রয়োগ করা যেতে পারে either আমি কাগজটি পড়িনি, তবে আমি বাজি ধরছি যে তারা যা বলছে তা।
গুং - মনিকা পুনরায়

দুঃখিত, আমি পিসিগুলির জন্য শীর্ষ চিত্রটি যেমন v1 এবং v2 লেবেল বোঝাতে চেয়েছি।
গুং - মনিকা পুনরায়

ভাল পয়েন্ট, ডাটা পয়েন্টগুলির গোষ্ঠীগুলি সংকুচিত করার জন্য এটি কার্যকর (কীসের জন্য তা নির্ধারণ করতে পারে না) হতে পারে। কে-মানে ব্যবহার করে গোষ্ঠীগুলি সন্ধান করুন, কমপক্ষে পিসিএ ব্যবহার করে রেকর্ড সংকোচন করুন। বৈশিষ্ট্যগুলির গোষ্ঠীকরণের ক্ষেত্রে এটি সম্ভবত কার্যকর হতে পারে।
shuriken x নীল

2
সুতরাং আপনি মূলত বলছেন যে কাগজটি ভুল? এটি সুস্পষ্টভাবে জানিয়েছে (বিমূর্তে তৃতীয় এবং চতুর্থ বাক্য দেখুন) এবং গাণিতিকভাবে প্রমাণ করেছেন যে একটি নির্দিষ্ট সংযোগ রয়েছে, যেখানে আপনি বলে যে কোনও সংযোগ নেই।
অ্যামিবা

আমি এটি থেকে কী পেয়েছি: পিসিএ কে-মানে ক্লাস্টারিং সমাধানগুলিকে উন্নত করে। সংযোগটি হ'ল ক্লাস্টার কাঠামোটি প্রথম কে - 1 প্রধান উপাদানগুলিতে এম্বেড করা হয়। এটিই অবদান।
shuriken x নীল

7

কে-মাধ্যম ব্যবহারের আগে ডেটা সাদা করা সাধারণ । কারণটি হ'ল কে-মাধ্যমগুলি স্কেল সম্পর্কে অত্যন্ত সংবেদনশীল এবং আপনি যখন মিশ্র গুণাবলী রেখেছেন তখন আর কোনও "সত্য" স্কেল নেই। তারপরে আপনাকে আপনার ডেটা স্বাভাবিককরণ, মানককরণ বা সাদা করতে হবে। কোনওটিই নিখুঁত নয়, তবে শুভ্রকরণ বিশ্বব্যাপী পারস্পরিক সম্পর্ককে সরিয়ে ফেলবে যা কখনও কখনও ভাল ফলাফল দিতে পারে। আপনি কোভারিয়েন্স ম্যাট্রিক্স চালনা করার পরে পিসিএ / হোয়াইটেনিং হ'ল ।O(nd2+d3)

আমার বোঝার জন্য, পিসিএ-কে-কে-এর সম্পর্ক মূল ডেটাতে নয় । এটি পিসিএকে দূরত্বের ম্যাট্রিক্সে ব্যবহার করতে হবে (যার এন্ট্রি রয়েছে এবং সম্পূর্ণ পিসিএ করছে - অর্থাত্ নিষিদ্ধ ব্যয়, বিশেষত কে-মানেগুলির সাথে তুলনা করা যা যেখানে হল একমাত্র বৃহত শব্দ), এবং সম্ভবত কেবল । কে-মানে হল একটি সর্বনিম্ন-স্কোয়ার অপ্টিমাইজেশান সমস্যা, তেমনি পিসিএ। k-মানে ডেটাটির সর্বনিম্ন-স্কোয়ার বিভাজন সন্ধান করার চেষ্টা করে। পিসিএ সর্বনিম্ন-স্কোয়ার ক্লাস্টার সদস্যতা ভেক্টরকে সন্ধান করে।n2O(n2d+n3)O(knid)nk=2

প্রথম ইগেনভেেক্টরটির সর্বাধিক বৈকল্পিকতা রয়েছে, সুতরাং এই ভেক্টরের উপর বিভাজন (যা ক্লাস্টারের সদস্যতার সাথে সাদৃশ্যযুক্ত, ইনপুট ডেটা স্থানাঙ্কের মতো নয়!) এর অর্থ ক্লাস্টারের বৈচিত্রের মধ্যে সর্বাধিককরণ । ক্লাস্টারের বৈচিত্রের মধ্যে সর্বাধিকীকরণের মাধ্যমে আপনি-ক্লাস্টারের বৈচিত্রটিও ন্যূনতম করেন।

তবে বাস্তব সমস্যার জন্য এটি অকেজো। এটি কেবল তাত্ত্বিক আগ্রহের বিষয়।


2
ডিং অ্যান্ড হি পেপারের আরও কিছু সুনির্দিষ্ট ব্যাখ্যা / ওভারভিউ দেখতে ভাল লাগবে (যে ওপিতে লিঙ্ক করা হয়েছে)। আমি নিজে এটির সাথে পরিচিত (এখনও), তবে এটি যথেষ্ট কৌতূহলের জন্য যথেষ্ট সময় উল্লেখ করে দেখেছি।
অ্যামিবা বলছেন মনিকা

3
আপনি এই মানে ? হ্যাঁ, আমি এটিও পেরিয়ে এসেছি; আমি মনে করি এটি কেবল আমার বিভ্রান্তিকে বাড়িয়েছে। আমি আশা করছিলাম যে এটি আমার জন্য এটিই থ্রেড স্পষ্ট করে তুলতে পারে ... এখন যে আমি এটি সম্পর্কে চিন্তা করি, সম্ভবত আমার এটির উপর অনুগ্রহ করা উচিত। আমি মনে করি না যে এই বিষয়গুলি নিজেই অধ্যয়নের জন্য আমি পরের দিনগুলিতে সময় পাব।
অ্যামিবা বলছেন 22

3
এই উইকি অনুচ্ছেদটি খুব অদ্ভুত। এটি বলে যে ডিং এন্ড হি (2001/2004) উভয়ই ভুল ছিল এবং একটি নতুন ফলাফল নয়! এটি নতুন ছিল না তা প্রদর্শনের জন্য এটি একটি 2004 এর কাগজ (?!) উদ্ধৃত করে। এটি ভুল ছিল তা প্রমাণ করার জন্য এটি একটি নতুন 2014 এর কাগজ উদ্ধৃত করে যা ডিং এন্ড হিকেও উদ্ধৃত করে না। মেছো।
অ্যামিবা বলছেন মনিকা

3
আবার উদ্ধৃতি স্প্যাম। উইকিপিডিয়া স্ব-প্রচারে পূর্ণ।
অ্যানি-মৌসে

1
আমি মনে করি ডিং এন্ড হিজে কী চলছে তা আমি বুঝতে পেরেছি, দয়া করে আমার উত্তরটি দেখুন। তদন্য, আলগোরিদিমিক জটিলতা সম্পর্কে আপনার যুক্তি না সম্পূর্ণরূপে সঠিক, কারণ আপনি পূর্ণ eigenvector পচানি তুলনা হয় শুধুমাত্র আহরণের সঙ্গে ম্যাট্রিক্স কে-মানে হলো "উপাদান"। এটি ন্যায্য তুলনা নয়। আপনি যদি পিসিএর জন্য কিছু পুনরাবৃত্ত অ্যালগরিদম ব্যবহার করেন এবং কেবল উপাদানগুলি উত্তোলন করেন তবে আমি আশা করব এটি কে-মাধ্যমের মতো দ্রুত কাজ করবে। সুতরাং আমি নিশ্চিত না যে এটি বলা সঠিক যে এটি সত্যিকারের সমস্যা এবং কেবলমাত্র তাত্ত্বিক আগ্রহের জন্যই অকেজো। n×nkk
অ্যামিবা বলছেন মনিকাকে

4

এর ও (কে / এপসিলন) কে-ইস্যুগুলি কম র‌্যাঙ্কের প্রায়শ্চিত্তকরণ (যেমন, পিসিএ হিসাবে প্রথম বৃহত্তম একক ভেক্টরগুলির স্প্যানে প্রজেক্ট করা) গুণনের ত্রুটির মেয়াদে একটি (1 + এপসিলন) প্রায় অনুমান করবে।

বিশেষত, কে-বৃহত্তম ভেক্টরটিতে প্রজেক্টিং করলে 2-প্রায় অনুমান হবে।

প্রকৃতপক্ষে, কে কেন্দ্রগুলির যে কোনও সেটগুলির জন্য স্কোয়ার দূরত্বের যোগফল এই প্রক্ষেপণ দ্বারা প্রায় অনুমান করা যায়। তারপরে পলি (কে / ইপিএস) পয়েন্টগুলিতে ইনপুট হ্রাস করার জন্য আমরা হ্রাসকৃত ডেটাতে কোরসেট গণনা করতে পারি যা এই সমষ্টিটির সমান করে।

দেখুন: ড্যান ফিল্ডম্যান, মেলানিয়া শ্মিট, ক্রিশ্চিয়ান সোহলার: বড় তথ্যকে ছোট ছোট ডেটাতে পরিণত করা: কে-মানে, পিসিএ এবং প্রজেক্টিভ ক্লাস্টারিংয়ের জন্য ধ্রুব আকারের কোরসেট ts সোডা 2013: 1434-1453


3

পিসিএ এবং কে মিনের স্বজ্ঞাত সম্পর্ক

  1. তাত্ত্বিকভাবে পিসিএ মাত্রিক বিশ্লেষণ (প্রথম কে ডাইমেনশন ধরে রেখেছেন যে 90% বৈকল্পিক ... কে মিন্স ক্লাস্টারের সাথে সরাসরি সম্পর্ক রাখার দরকার নেই) তবে পিসিএ ব্যবহারের মানটি এসেছে a) বস্তুর প্রকৃতি প্রদত্ত ব্যবহারিক বিবেচনা যা আমরা বিশ্লেষণ করি যে প্রাকৃতিকভাবে তাদের মূল উপাদানগুলি (বয়স, লিঙ্গ ..) এর কাছাকাছি / বিবর্তিত হয়ে (কোনও নির্দিষ্ট বিভাগ) থেকে বিবর্তিত হয়েছে খ) পিসিএ সেই কম ভেরিয়েন্স ডাইমেনশন (গোলমাল) কে সরিয়ে দেয়, তাই নিজেই মান যুক্ত করে (এবং ক্লাস্টারিংয়ের অনুরূপ একটি ধারণা তৈরি করে) ) এই মূল মাত্রায় ফোকাস করে সহজ কথায়, XY অক্ষের মতো এটি আমাদের কোনও বিমূর্ত গাণিতিক ধারণা আয়ত্ত করতে সহায়তা করে তবে আরও অগ্রিম পদ্ধতিতে।

  2. কে অর্থ একটি প্রদত্ত কে এর জন্য একটি ক্লাস্টারের মধ্যে সামগ্রিক দূরত্ব হ্রাস করার চেষ্টা করে

  3. এন ডাইমেনশন প্যারামিটারযুক্ত সামগ্রীর জন্য, ডিফল্টরূপে অনুরূপ অবজেক্টের কয়েকটি মূল পার্থক্য বাদে সর্বাধিক পরামিতিগুলি "অনুরূপ" থাকবে (যেমন তরুণ আইটি শিক্ষার্থী, তরুণ নৃত্যশিল্পী, মানুষ ... এর কয়েকটি অত্যন্ত অনুরূপ বৈশিষ্ট্য থাকবে (কম বৈকল্পিক) তবে কয়েকটি মূল বৈশিষ্ট্য এখনও বেশ বৈচিত্র্যময় এবং সেই "কী প্রিন্সিপাল কম্পনেন্টস "গুলি মূলত বেশিরভাগ বৈচিত্রকে ধারণ করে, উদাহরণস্বরূপ রঙ, আবাসের ক্ষেত্র .... সুতরাং আমরা যদি ছোটখাটো পার্থক্যের বৈশিষ্ট্যগুলিকে অবহেলা করি বা রূপান্তর করি তবে কম বিকৃতি লোয়ার পিসি অনেক তথ্য হারাবে না
  4. এটি "খুব সম্ভবত" এবং "খুব স্বাভাবিক" যে তাদের একত্রিত করে পার্থক্যগুলি (বৈচিত্রগুলি) তা দেখার জন্য ডেটা মূল্যায়নের জন্য ধারণা দেয় (উদাহরণস্বরূপ, যদি আপনি মূল রাস্তায় এক সপ্তাহে ১,০০০ জরিপ করেন, নৃগোষ্ঠীর উপর ভিত্তি করে এগুলি গুচ্ছ করে তোলেন) , বয়স, বা পিসি হিসাবে শিক্ষাগত পটভূমিটি বোঝায়) কে মিশনের মিশনের আওতায় আমরা কে ন্যায্য সংখ্যার প্রতিষ্ঠা করার চেষ্টা করি যাতে সেই গ্রুপ উপাদানগুলি (একটি ক্লাস্টারে) সেন্ট্রয়েডের মধ্যে সামগ্রিক ক্ষুদ্রতম দূরত্ব (নূন্যতম) হয়ে যায় এবং ব্যয় ব্যয় করতে হবে কে ক্লাস্টার স্থাপন ও পরিচালনা করা সর্বোত্তম (ক্লাস্টার হিসাবে প্রতিটি সদস্য বুদ্ধিমান করে না যে এটি বজায় রাখা খুব ব্যয়বহুল এবং মূল্য নেই)
  5. কে মানে গ্রুপিং সহজেই সর্বোত্তম হতে পারে "দৃষ্টি দ্বারা পরিদর্শন" হতে পারে, যদি কে এইভাবে প্রধান উপাদানগুলির সাথে থাকে (যেমন, যদি বিভিন্ন বয়সের লোক, জাতিগত / ধার্মিক গোষ্ঠীগুলির জন্য তারা একই মতামত প্রকাশ করে থাকে তাই যদি আপনি এই জরিপের উপর ভিত্তি করে ক্লাস্টার করেন তবে PC পিসিগুলি, তারপরে এটি হ্রাসকরণ লক্ষ্য অর্জন করে (রেফ। 1) এছাড়াও সেই পিসিগুলি (জাতিগত, বয়স, ধর্ম ..) প্রায়শই অরথগোনাল হয়, সুতরাং পিসিএ দেখার ফলে দৃশ্যত পৃথক হয়
  6. তবে এই স্বজ্ঞাত কমানো একটি পর্যাপ্ত কিন্তু প্রয়োজনীয় শর্ত নয়। (রেফ ২): তবে, পিসিএ হ'ল কে-মানে ক্লাস্টারিংয়ের একটি দরকারী শিথিলকরণ কোনও নতুন ফলাফল ছিল না (দেখুন, উদাহরণস্বরূপ, [৩৫]), এবং ক্লাস্টার সেন্ট্রয়েড উপসীমাটি বিস্তৃত হয়েছে এমন বক্তব্যটির পাল্টাপাল্টি উদাহরণগুলি উদ্ঘাটন করা সোজা ward প্রধান নির্দেশাবলী দ্বারা। [36])

সিপিএসের উপর ভিত্তি করে / পাশাপাশি বেনিফিট ক্লাস্টারগুলি আরামদায়কভাবে বরাদ্দকরণের ব্যবস্থা করতে পারে

এক্সটি অক্ষের বরাবর যদি প্রথম পিসি হয় তবে এটি একটি উদাহরণ হতে পারে: (........... সিসি 1 ............... সিসি 2 ..... ....... সিসি 3 এক্স অক্ষর) যেখানে এক্স অক্ষগুলি 9X% এর বৈকল্পিকের ক্যাপচার বলে এবং কেবলমাত্র পিসি বলে

F. শেষ অবধি পিসিএ কে কেস সম্পন্ন হওয়ার পরে ভিজ্যুয়ালাইজ করতে ব্যবহৃত হয় (রেফ 4)

যদি পিসিএ আমাদের কে ক্লাস্টারিংয়ের ফলাফলটি অরথগোনাল বা তার কাছাকাছি প্রদর্শিত হয়, তবে এটি এমন একটি চিহ্ন যে আমাদের ক্লাস্টারিংটি শব্দদায়ক, যার প্রতিটি অনন্য বৈশিষ্ট্য প্রদর্শন করে

(* যেহেতু সংজ্ঞা অনুসারে পিসিএ সেই বড় মাত্রাগুলি (1 ডি থেকে থ্রি 3 ডি) খুঁজে বের করে / প্রদর্শন করে যেমন কে (পিসিএ) বলে যে সম্ভবত বিস্তৃততার বিশাল অংশকে ধরে ফেলবে।

সুতরাং পিসিএ একটি ভাল ক্লাস্টারিংয়ের ভিজ্যুয়ালাইজেশন এবং নিশ্চিতকরণ উভয়ই কার্যকর, পাশাপাশি কে ম্যাস্টার ক্লাস্টারিং নির্ধারণে একটি অন্তর্নিহিত কার্যকর উপাদান - কে অর্থের আগে ব্যবহার করার আগে।

রেফারেন্স:

  1. https://msdn.microsoft.com/en-us/library/azure/dn905944.aspx
  2. https://en.wikipedia.org/wiki/Principal_component_analysis
  3. প্রিন্টিকাল কম্পোনেন্ট অ্যানালাইসিস ব্যবহার করে: প্রবীণ লোকের স্বায়ত্তশক্তি-অক্ষমতা প্রয়োগ (সংযুক্তি ও আজিমা)
  4. http://cs229.stanford.edu/notes/cs229-notes10.pdf অ্যান্ড্রু এনজি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.