এসভিডি / পিসিএর জন্য "নরমালাইজিং" ভেরিয়েবল


17

ধরুন আমাদের কাছে N পরিমাপযোগ্য ভেরিয়েবল রয়েছে, (a1,a2,,aN) , আমরা পরিমাপের একটি M>N , এবং তারপরে ফলাফলটির জন্য একক মান পচনের জন্য উচ্চতর বৈকল্পের অক্ষগুলি খুঁজে পেতে ইচ্ছুক এন- ডাইমেনশনাল স্পেসে M পয়েন্টগুলি । ( নোট: অনুমান মাধ্যমে একটি আমি ইতিমধ্যে বিয়োগ করা হয়েছে, তাই একটি আমি= 0 সকলের জন্য আমি ।)Naiai=0আমি

এখন ধরুন যে ভেরিয়েবলগুলির মধ্যে একটি (বা আরও) এর চেয়ে বাকিগুলির চেয়ে আলাদা বৈশিষ্ট্যযুক্ত মাত্রা রয়েছে। উদাহরণস্বরূপ, a1 মান 10-100 মধ্যে থাকতে পারে এবং বাকিগুলি কাছাকাছি হতে পারে 0.1-1। এই দিকে সর্বোচ্চ ভ্যারিয়েন্সের অক্ষ তীর্যক হবে একটি1 এর অক্ষ খুব।

পরিমাপের পার্থক্যটি কেবলমাত্র পরিমাপের এককটির দুর্ভাগ্যজনক পছন্দের কারণে হতে পারে (যদি আমরা দৈহিক ডেটা, উদাহরণস্বরূপ কিলোমিটার বনাম মিটার) সম্পর্কে কথা বলি তবে বাস্তবে বিভিন্ন ভেরিয়েবলের সম্পূর্ণ ভিন্ন মাত্রা থাকতে পারে (যেমন ওজন বনাম ভলিউম), তাই তাদের জন্য "তুলনীয়" ইউনিট চয়ন করার কোনও সুস্পষ্ট উপায় নাও হতে পারে।

প্রশ্ন: আমি এই সমস্যাটি এড়াতে তথ্যকে স্বাভাবিক করার কোনও মানক / সাধারণ উপায় আছে কিনা তা জানতে চাই। আমি আরো মান কৌশল যে জন্য তুলনীয় মাত্রার উত্পাদন আগ্রহী একটি1-একটিএন নতুন কিছু নিয়ে আসছে বদলে এই কাজের জন্য।

সম্পাদনা: একটি সম্ভাবনা হ'ল প্রতিটি ভেরিয়েবলকে তার স্ট্যান্ডার্ড বিচ্যুতি বা অনুরূপ কিছু দ্বারা স্বাভাবিক করা। যাইহোক, নিম্নলিখিত সমস্যাটি এরপরে উপস্থিত হয়: আসুন N ডাইমেনশনাল স্পেসে পয়েন্ট ক্লাউড হিসাবে ডেটাটি ব্যাখ্যা করি । এই পয়েন্ট মেঘটি ঘোরানো যেতে পারে, এবং এই জাতীয়করণটি ঘূর্ণনের উপর নির্ভর করে বিভিন্ন চূড়ান্ত ফলাফল দেয় (এসভিডি পরে)। (উদাহরণস্বরূপ, চূড়ান্ত ক্ষেত্রে প্রধান অক্ষের সাথে মূল অক্ষগুলি সারিবদ্ধ করার জন্য ডেটাটি নির্দিষ্টভাবে ঘোরানো কল্পনা করুন))

আমি আশা করি এটি করার কোনও ঘূর্ণন-আক্রমণকারী উপায় থাকবে না, তবে আমি যদি কেউ সাহিত্যে এই বিষয়টির কিছুটা আলোচনার দিকে বিশেষত ফলাফলের ব্যাখ্যায় ক্যাভ্যাট সম্পর্কিত বিষয়ে আমাকে নির্দেশ করতে পারি তবে আমি প্রশংসা করব।


4
সমস্যাটি নিজেই সাধারণত ঘূর্ণন আক্রমণকারী নয়, কারণ প্রতিটি ভেরিয়েবলের পরিমাপের প্রচলিত ইউনিট দিয়ে রেকর্ড করা হয়। যেমন, ফুট হতে পারে, একটি 2 মাইক্রন এ, একটি 3 লিটার, ইত্যাদি এমনকি যখন সব ইউনিট, একই যদি ভেরিয়েবল জিনিষ বিভিন্ন ধরণের পরিমাপ পরিমাণে যা দিয়ে তারা পরিবর্তিত হতে সম্ভবত চরিত্রগত উপায়ে পৃথক হবে এই ভেরিয়েবলগুলির মধ্যে: আবারও এটি কোনও আবর্তনকারী নয়। সুতরাং আপনাকে গাইড নীতি বা বিবেচনা হিসাবে আবর্তন চালানটি ত্যাগ করা উচিত। a1a2a3
হোবার

উত্তর:


11

তিনটি সাধারণ সাধারণকরণগুলি কেন্দ্রিককরণ, স্কেলিং এবং মানককরণ।

একটি এলোমেলো পরিবর্তনশীল হতে দিন ।X

কেন্দ্রিককরণ হ'ল

xi=xix¯.

পরিসমাপ্তি থাকবে ¯ এক্স * = 0xx¯=0

স্কেলিংটি

xi=xi(ixi2).

পরিসমাপ্তি থাকবে Σ আমি এক্স *xixi2=1

মানককরণ হ'ল কেন্দ্রিক-তারপর-স্কেলিং। পরিসমাপ্তি থাকবে ¯ এক্স * = 0 এবং Σ আমি এক্স * আমিxx¯=0ixi2=1


আপনি "এসএস" সংজ্ঞায়িত করতে পারেন দয়া করে?
জাজাবলস

সারাংশ অফ স্কোয়ার। বর্গক্ষেত্র একাদশের যোগফল।
ttnphns

স্কোয়ারের যোগফল 1-এ স্থাপনের কারণ এবং বৈকল্পিকতা নয়, তবে তা কি একক মানগুলি মূল অক্ষগুলির সাথে মানক বিচ্যুতির সাথে মিলিত হবে (যদি না আমি ভুল করি)?
Szabolcs

প্রশ্নে আমার সম্পাদনা দেখুন।
Szabolcs

@ সাজাবল্যাকস, আমি আসলে আপনার সম্পাদনার একটি পয়েন্ট মিস করতে পারি। তবে পিসিএ (বা এসভিডি) নিজেই একটি ঘূর্ণন (অক্ষগুলির অরথোগোনাল ঘূর্ণনের একটি বিশেষ ক্ষেত্রে)। মেঘের যে কোনও অনুবাদ (কেন্দ্রের মতো) বা সঙ্কুচিত / বিচ্ছিন্নকরণ (স্কেলিংয়ের মতো) এর এই ঘূর্ণনের ফলাফলকে প্রভাবিত করা উচিত।
ttnphns

7

আপনি একদম ঠিক বলেছেন যে খুব আলাদা বৈকল্পিকের সাথে পৃথক ভেরিয়েবলগুলি পিসিএর জন্য সমস্যাযুক্ত হতে পারে, বিশেষত যদি এই ইউনিট বিভিন্ন ইউনিট বা বিভিন্ন শারীরিক মাত্রার কারণে হয়। সেই কারণে ভেরিয়েবলগুলি সমস্ত তুলনামূলক (একই শারীরিক পরিমাণ, একই ইউনিট) না হলে কোভারিয়েন্স ম্যাট্রিক্সের পরিবর্তে পারস্পরিক সম্পর্ক মেট্রিক্সে পিসিএ করার পরামর্শ দেওয়া হয়। এখানে দেখো:

পারস্পরিক সম্পর্ক মেট্রিক্সে পিসিএ করা সমান মান সব ভেরিয়েবল বিশ্লেষণ করার পূর্বে (এবং তারপর সহভেদাংক ম্যাট্রিক্স উপর পিসিএ করছেন)। মানককরণের অর্থ হ'ল কেন্দ্রীভূত করা এবং তারপরে প্রতিটি ভেরিয়েবলকে এর স্ট্যান্ডার্ড বিচ্যুতি দ্বারা ভাগ করা, যাতে সেগুলি সমস্ত একক বৈকল্পিক হয়ে যায়। এটি সমস্ত ইউনিটকে তুলনীয় করে তুলতে সুবিধাজনক "ইউনিটগুলির পরিবর্তন" হিসাবে দেখা যায়।

কেউ জিজ্ঞাসা করতে পারেন যে "ভেরিয়েবলগুলিকে" স্বাভাবিককরণের আরও ভাল উপায় হতে পারে; উদাহরণস্বরূপ, কাঁচা বৈকল্পিক পরিবর্তে পরিবর্তনের কিছু দৃ esti় প্রাক্কলন দ্বারা ভাগ করতে বেছে নেওয়া যায়। এটি নিম্নলিখিত থ্রেডে জিজ্ঞাসা করা হয়েছিল, এবং পরবর্তী আলোচনাটি দেখুন (যদিও সেখানে কোনও নির্দিষ্ট উত্তর দেওয়া হয়নি):

শেষ অবধি, আপনি চিন্তিত হয়েছিলেন যে স্ট্যান্ডার্ড বিচ্যুতির (বা এরকম কিছু) দ্বারা সাধারণীকরণ কোনও আবর্তনকারী নয়। ঠিক আছে, হ্যাঁ, এটা না। তবে, উপরোক্ত মন্তব্যে @ শুভর মন্তব্য হিসাবে, এটি করার কোনও আবর্তন অদম্য উপায় নেই: স্বতন্ত্র ভেরিয়েবলের ইউনিট পরিবর্তন করা কোনও আবর্তন আক্রমণকারী ক্রিয়াকলাপ নয় ! এখানে উদ্বিগ্ন হওয়ার কিছু নেই।


আমি এটি পিসিএর জন্য পেয়েছি। তবে কি একক মান পচানোর আগে কোনও ধরণের সাধারণীকরণের পরামর্শ দেওয়া হয়?
হিপোগ্লুসিডো

4

পিসিএ প্রয়োগ করার আগে একটি সাধারণ কৌশল হ'ল নমুনাগুলি থেকে গড় বিয়োগ করা। আপনি যদি এটি না করেন তবে প্রথম ইগেনভেেক্টরটি গড় হবে। আপনি এটি করেছেন কিনা তা সম্পর্কে আমি নিশ্চিত নই তবে আমাকে এটি সম্পর্কে কথা বলতে দিন। যদি আমরা ম্যাটল্যাব কোডে কথা বলি: এটি

clear, clf
clc
%% Let us draw a line
scale = 1;
x = scale .* (1:0.25:5);
y = 1/2*x + 1;

%% and add some noise
y = y + rand(size(y));

%% plot and see
subplot(1,2,1), plot(x, y, '*k')
axis equal

%% Put the data in columns and see what SVD gives
A = [x;y];
[U, S, V] = svd(A);

hold on
plot([mean(x)-U(1,1)*S(1,1) mean(x)+U(1,1)*S(1,1)], ...
     [mean(y)-U(2,1)*S(1,1) mean(y)+U(2,1)*S(1,1)], ...
     ':k');
plot([mean(x)-U(1,2)*S(2,2) mean(x)+U(1,2)*S(2,2)], ...
     [mean(y)-U(2,2)*S(2,2) mean(y)+U(2,2)*S(2,2)], ...
     '-.k');
title('The left singular vectors found directly')

%% Now, subtract the mean and see its effect
A(1,:) = A(1,:) - mean(A(1,:));
A(2,:) = A(2,:) - mean(A(2,:));

[U, S, V] = svd(A);

subplot(1,2,2)
plot(x, y, '*k')
axis equal
hold on
plot([mean(x)-U(1,1)*S(1,1) mean(x)+U(1,1)*S(1,1)], ...
     [mean(y)-U(2,1)*S(1,1) mean(y)+U(2,1)*S(1,1)], ...
     ':k');
plot([mean(x)-U(1,2)*S(2,2) mean(x)+U(1,2)*S(2,2)], ...
     [mean(y)-U(2,2)*S(2,2) mean(y)+U(2,2)*S(2,2)], ...
     '-.k');
title('The left singular vectors found after subtracting mean')

চিত্র থেকে দেখা যায়, আমি মনে করি আপনি যদি (কো) বৈকল্পিকাকে আরও ভাল করে বিশ্লেষণ করতে চান তবে আপনার ডেটা থেকে গড়টি বিয়োগ করা উচিত। তারপরে মানগুলি 10-100 এবং 0.1-1 এর মধ্যে হবে না তবে তাদের গড়গুলি সমস্ত শূন্য হবে। রূপগুলি ইগেনভ্যালু (বা একক মানগুলির বর্গ) হিসাবে পাওয়া যাবে। পাওয়া আইজেনভেেক্টরগুলি যখন আমরা না করি তখন কেসটির মতো গড়কে বিয়োগ করিবার ক্ষেত্রে মামলার মাত্রার স্কেল দ্বারা প্রভাবিত হয় না। উদাহরণস্বরূপ, আমি নিম্নলিখিতটি পরীক্ষা করেছি এবং পর্যবেক্ষণ করেছি যা জানিয়েছে যে গড়টি বিয়োগ করা আপনার ক্ষেত্রে গুরুত্বপূর্ণ matter সুতরাং সমস্যাটি ভিন্নতা থেকে নয় তবে অনুবাদ পার্থক্য থেকে হতে পারে।

% scale = 0.5, without subtracting mean
U =

-0.5504   -0.8349
-0.8349    0.5504


% scale = 0.5, with subtracting mean
U =

-0.8311   -0.5561
-0.5561    0.8311


% scale = 1, without subtracting mean
U =

-0.7327   -0.6806
-0.6806    0.7327

% scale = 1, with subtracting mean
U =

-0.8464   -0.5325
-0.5325    0.8464


% scale = 100, without subtracting mean
U =

-0.8930   -0.4501
-0.4501    0.8930


% scale = 100, with subtracting mean
U =

-0.8943   -0.4474
-0.4474    0.8943

এখানে চিত্র বর্ণনা লিখুন


1
আমার প্রশ্নটিতে উল্লেখ করা উচিত ছিল যে গড়টি ইতিমধ্যে বিয়োগ করা হয়েছে। আমি সে অনুযায়ী এটি সম্পাদনা করব।
জাজাবলস

1
Nএন

1
আমি বুঝতে পারি এটি করার কোনও ঘূর্ণন-আক্রমণকারী উপায় নাও থাকতে পারে তবে আমি কমপক্ষে এই বিষয়গুলির কিছু আলোচনা পড়তে চাই ... যে কোনও পয়েন্টার স্বাগত জানায়। দ্রষ্টব্য: আমার প্রয়োগকৃত স্ট্যাটাসের কোনও প্রশিক্ষণ নেই (কেবল গণিত, যেমন লিনালগ, প্রোব থিওরি), তাই আমি যাচ্ছি তাই এই জিনিসগুলি শিখছি।
জাজাবলস

1
আপনি যখন নমুনাগুলিকে কেন্দ্র করেন না (কলামগুলি থেকে উপায়গুলি বিয়োগ করুন), প্রথম ইগেনভেেক্টর সাধারণত উপায়গুলির ভেক্টর হয় না
whuber

-1 ডাউনভোটেড, কারণ এই উত্তরটি কেবল কেন্দ্রিকাগুলির বিষয়ে, যেখানে প্রশ্নটি স্কেলিং সম্পর্কে। এছাড়াও, প্রথম ইগেনভেেক্টরটি অবশ্যই প্রয়োজনের উপায়ের ভেক্টর বলে দাবি করা হয়েছে, যেমনটি @Wwer দ্বারা উল্লিখিত হয়েছে।
অ্যামিবা বলেছেন মনিকাকে

-5

পিসিএর জন্য ডেটা স্বাভাবিক করার জন্য, নিম্নলিখিত সূত্রটিও ব্যবহৃত হয়েছিল

এসসি=100এক্স-সর্বনিম্ন(এক্স)সর্বোচ্চ(এক্স)-সর্বনিম্ন(এক্স)

কোথায় এক্স দেশের জন্য এই সূচকটির কাঁচা মান বছরে টি, এবং এক্স সমস্ত বছর জুড়ে সমস্ত সূচকের জন্য সমস্ত দেশ জুড়ে সমস্ত কাঁচা মান বর্ণনা করে।


7
দেশ বা বছর সম্পর্কে কে কিছু বলেছে?
নিক স্টাওনার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.