এলোমেলো তথ্যের এসভিডি ফলাফলগুলিতে অদ্ভুত পারস্পরিক সম্পর্ক; তাদের গাণিতিক ব্যাখ্যা আছে বা এটি ল্যাপাক বাগ আছে?


21

আমি এলোমেলো উপাত্তের এসভিডি ফলাফলের একটি খুব অদ্ভুত আচরণ পর্যবেক্ষণ করি, যা আমি মাতলাব এবং আর উভয় ক্ষেত্রেই পুনরুত্পাদন করতে পারি It এটি ল্যাপাক লাইব্রেরিতে কিছু সংখ্যক ইস্যুর মতো দেখায়; তাই কি?

আমি শূন্য গড় এবং পরিচয় সমবায় সহ কে = 2 মাত্রিক গাউসিয়ান থেকে n=1000 নমুনা আঁক : এক্স এন ( 0 , আই ) । আমি তাদের 1000 × 2 ডেটা ম্যাট্রিক্স এক্স এ একত্রিত করি । (আমি ঐচ্ছিকরূপে কেন্দ্রীভূত করতে পারে এক্স বা না হয়, তাহলে নিম্নলিখিত প্রভাবিত করে না।) তারপর আমি একবচন মান পচানি (SVD) পেতে সঞ্চালন এক্স = ইউ এস ভিইউ এর দুটি বিশেষ উপাদান যেমন ইউ 11 এবং ইউ নেওয়া যাকk=2XN(0,I)1000×2XXX=USVUU11U22 , এবং বিভিন্ন অঙ্কন জুড়ে তাদের মধ্যে পারস্পরিক সম্পর্ক কী তা জিজ্ঞাসা করুনX। আমি প্রত্যাশা করব যে যদি অঙ্কনের সংখ্যাটিNrepযুক্তিসঙ্গতভাবে বড় হয় তবে এই জাতীয় সমস্ত পারস্পরিক সম্পর্কগুলি শূন্যের কাছাকাছি হওয়া উচিত (অর্থাত্ জনসংখ্যার পারস্পরিক সম্পর্ক শূন্য হওয়া উচিত, এবং নমুনা সম্পর্কগুলি ছোট হবে)।

যাইহোক, আমি কিছু weirdly শক্তিশালী সম্পর্কযুক্তরূপে (প্রায় পালন ±0.2 ) মধ্যে U11 , U12 , U21 , এবং U22 , এবং শুধুমাত্র এই উপাদান মধ্যে। প্রত্যাশার মতো অন্যান্য সমস্ত জোড়া উপাদানগুলির শূন্যের কাছাকাছি সম্পর্ক রয়েছে। এখানে কিভাবে জন্য পারস্পরিক সম্পর্ক ম্যাট্রিক্স 20 "উপরের" উপাদান U (প্রথম মত দেখাচ্ছে 10 প্রথম কলামটি উপাদান, তারপর প্রথম 10 দ্বিতীয় কলামে উপাদান):

এসভিডি অদ্ভুত পারস্পরিক সম্পর্ক

প্রতিটি কোয়াড্রেন্টের উপরের-বাম কোণগুলিতে আশ্চর্যজনকভাবে উচ্চ মানগুলি লক্ষ্য করুন।

এটিই হ'ল @ ভুবার মন্তব্য যা এই প্রভাবটিকে আমার নজরে এনেছে। @ শুভ যুক্তি দিয়েছিলেন যে পিসি 1 এবং পিসি 2 স্বতন্ত্র নয় এবং তার দৃ corre় সম্পর্কটিকে এর প্রমাণ হিসাবে প্রমাণ হিসাবে উপস্থাপন করেছে। তবে, আমার ধারণাটি হ'ল তিনি দুর্ঘটনাক্রমে ল্যাপ্যাক লাইব্রেরিতে একটি সংখ্যাসঙ্গক বাগ আবিষ্কার করেছেন। এখানে কি হচ্ছে?

এখানে @ whuber এর আর কোড রয়েছে:

stat <- function(x) {u <- svd(x)$u; c(u[1,1], u[2, 2])};
Sigma <- matrix(c(1,0,0,1), 2);
sim <- t(replicate(1e3, stat(MASS::mvrnorm(10, c(0,0), Sigma))));
cor.test(sim[,1], sim[,2]);

আমার মতলব কোডটি এখানে:

clear all
rng(7)

n = 1000;     %// Number of variables
k = 2;        %// Number of observations
Nrep = 1000;  %// Number of iterations (draws)

for rep = 1:Nrep
    X = randn(n,k);
    %// X = bsxfun(@minus, X, mean(X));
    [U,S,V] = svd(X,0);

    t(rep,:) = [U(1:10,1)' U(1:10,2)'];
end

figure
imagesc(corr(t), [-.5 .5])
axis square
hold on
plot(xlim, [10.5 10.5], 'k')
plot([10.5 10.5], ylim, 'k')

আপনি যদি এন = 4 এবং কে = 3 ব্যবহার করেন তবে আপনি সংযোগগুলিও দেখতে পাবেন।
আকসকল

@ আকসাল: হ্যাঁ, সত্যই, ধন্যবাদ আমি কে = 2 এবং কে = 3 এর মধ্যে দাবিযুক্ত পার্থক্যটি সরিয়ে সম্পাদনা করেছি।
অ্যামিবা বলছেন 22

উত্তর:


23

এটি একটি বাগ না।

আমরা মন্তব্যগুলিতে যেমন (ব্যাপকভাবে) অনুসন্ধান করেছি, তখন দুটি জিনিস ঘটছে। প্রথমটি হ'ল U কলামগুলি এসভিডি প্রয়োজনীয়তাগুলি পূরণ করতে বাধ্য হয়: প্রত্যেকটির অবশ্যই ইউনিটের দৈর্ঘ্য থাকতে হবে এবং অন্য সকলের কাছে অর্থেগোনাল হওয়া উচিত। দেখার U একটি র্যান্ডম ম্যাট্রিক্স থেকে তৈরি করা একটি দৈব চলক যেমন X একটি নির্দিষ্ট SVD অ্যালগরিদম মাধ্যমে, আমরা যার ফলে লক্ষ করুন যে, এই k(k+1)/2 বৈশিষ্ট্যগুলি স্বাধীন সীমাবদ্ধতার কলাম মধ্যে পরিসংখ্যানগত নির্ভরতা তৈরি U

এই নির্ভরতাগুলি U এর উপাদানগুলির মধ্যে পারস্পরিক সম্পর্কগুলি অধ্যয়ন করে আরও বা কম পরিমাণে প্রকাশিত হতে পারে , তবে একটি দ্বিতীয় ঘটনাটি উদ্ভূত হয় : এসভিডি সমাধানটি অনন্য নয়। সর্বনিম্ন, U প্রতিটি কলাম স্বতন্ত্রভাবে উপেক্ষিত হতে পারে, কমপক্ষে কে কলামগুলির সাথে 2 পৃথক সমাধান দেয় । স্ট্রং সম্পর্কযুক্তরূপে (মাত্রাধিক 1 / 2 ) উপযুক্তভাবে কলাম লক্ষণ পরিবর্তন দ্বারা প্রবর্তিত করা যেতে পারে। (এই কাজ করতে ওয়ান ওয়ে দেওয়া হয় অ্যামিবা এর উত্তর আমার প্রথম মন্তব্য এই থ্রেড: আমি জোর সব তোমার দর্শন লগ করা আমি আমি , আমি = 1 ,1/2uii,i=1,,k সমান সম্ভাবনার সাথে এগুলি সমস্ত নেতিবাচক বা সমস্ত ধনাত্মক করে তুলতে একই চিহ্ন থাকতে হবে)) অন্যদিকে, সমান সম্ভাবনা সহ এলোমেলোভাবে, স্বাধীনভাবে লক্ষণগুলি বেছে নিয়ে সমস্ত সম্পর্কগুলি নিখরচায় করা যেতে পারে। (আমি "সম্পাদনা" বিভাগে নীচে একটি উদাহরণ দিই))

যত্ন সহ, U এর উপাদানগুলির স্ক্যাটারপ্ল্লট ম্যাট্রিকগুলি পড়ার সময় আমরা এই দুটি ঘটনা আংশিকভাবে বুঝতে পারি । কিছু বৈশিষ্ট্য - যেমন পয়েন্টগুলির উপস্থিতি প্রায় একইভাবে সু-সংজ্ঞায়িত বৃত্তাকার অঞ্চলে বিতরণ করা হয় - স্বাধীনতার অভাবকে বিশ্বাস করে। অন্যরা যেমন স্প্রেটারপ্লটগুলি স্পষ্ট নানজারো পারস্পরিক সম্পর্ককে দেখায়, স্পষ্টতই অ্যালগরিদমে করা পছন্দগুলির উপর নির্ভর করে - তবে এই জাতীয় পছন্দগুলি কেবল প্রথম স্থানে স্বাধীনতার অভাবের কারণে সম্ভব।

এসভিডি (বা কোলেস্কি, এলআর, এলইউ, ইত্যাদি) এর মতো একটি পচা অ্যালগরিদমের চূড়ান্ত পরীক্ষাটি এটি যা দাবি করে তা করে কিনা। এই পরিস্থিতিতে এটা যখন SVD ম্যাট্রিক্সের ট্রিপল ফেরৎ যে চেক করতে যথেষ্ট (U,D,V) , যে X উদ্ধার করা হয়, আপ অপেক্ষিত ফ্লোটিং পয়েন্ট ত্রুটির, পণ্য দ্বারা UDV ; যে U এবং V এর কলামগুলি অরথনোরাল; এবং যে D তির্যক, তার তির্যক উপাদান অ নেতিবাচক হয়, এবং অবরোহী সাজানো থাকে। আমি svdঅ্যালগোরিদম এ জাতীয় পরীক্ষা প্রয়োগ করেছিRএবং এটি কখনও ভুল হিসাবে দেখা যায় নি। যদিও এটি কোনও আশ্বাস নয় যে এটি পুরোপুরি সঠিক, এই জাতীয় অভিজ্ঞতা - যা আমি বিশ্বাস করি যে অনেক লোক ভাগ করে নিয়েছে - পরামর্শ দেয় যে কোনও বাগের প্রকাশের জন্য কিছু অসাধারণ ধরণের ইনপুট প্রয়োজন।

নিম্নলিখিতটি কীভাবে উত্থাপিত প্রশ্নে উত্থিত নির্দিষ্ট পয়েন্টগুলির আরও বিশদ বিশ্লেষণ।


Rএর svdপদ্ধতিটি ব্যবহার করে প্রথমে আপনি পরীক্ষা করতে পারবেন যে k বাড়ার সাথে সাথে U এর সহগের মধ্যে পারস্পরিক সম্পর্ক দুর্বল হয়, তবে সেগুলি এখনও ননজারো। আপনি যদি কেবল বৃহত্তর সিমুলেশন সম্পাদন করেন তবে আপনি দেখতে পাবেন সেগুলি উল্লেখযোগ্য। (যখন k=3 , 50000 পুনরাবৃত্তিগুলি পর্যাপ্ত হওয়া উচিত)) প্রশ্নের উত্থানের বিপরীতে, সম্পর্কগুলি "সম্পূর্ণরূপে অদৃশ্য হয়ে যায়"।

দ্বিতীয়ত, এই ঘটনাটি অধ্যয়ন করার একটি ভাল উপায় হ'ল সহগতির স্বাধীনতার বুনিয়াদি প্রশ্নে ফিরে যাওয়া । যদিও পারস্পরিক সম্পর্কগুলি বেশিরভাগ ক্ষেত্রে শূন্যের কাছাকাছি থাকে, তবে স্বাধীনতার অভাব স্পষ্টভাবে স্পষ্ট is এটি U এর সহগের সম্পূর্ণ মাল্টিভারিয়েট বিতরণ অধ্যয়ন করে সর্বাধিক স্পষ্ট হয়ে উঠেছে । বিতরণের প্রকৃতি এমনকি ছোট সিমুলেশনেও উদ্ভাসিত হয় যেখানে ননজারো সম্পর্কিত সম্পর্ক (এখনও) সনাক্ত করা যায় না। উদাহরণস্বরূপ, সহগের একটি স্কেটরপ্লট ম্যাট্রিক্স পরীক্ষা করুন। এই কার্যকর করতে, আমি প্রতিটি কৃত্রিম ডেটাসেটের আকার নির্ধারণ করে 4 এবং রাখা k=2 ফলে অঙ্কন 10004×2 ম্যাট্রিক্স U এর উপলব্ধি, 1000×8 ম্যাট্রিক্স তৈরি করে । এখানে U মধ্যে তাদের অবস্থানের তালিকাভুক্ত ভেরিয়েবলগুলি সহ এখানে পূর্ণ স্ক্রেটারপ্ল্লট ম্যাট্রিক্স রয়েছে :

Figure

প্রথম কলামে নিচে স্ক্যান মধ্যে স্বাধীনতার একটা মজার অভাব প্রকাশ করে u11 এবং অন্যান্য uij : কিভাবে সঙ্গে scatterplot উপরের পাদ এ বর্ণন u21 প্রায় শূন্য হইলে, উদাহরণস্বরূপ; অথবা (u11,u22) সম্পর্ক এবং নীচের দিকে-opালু মেঘের (u21,u12) জোড়ার বর্ণনা দিয়ে উপবৃত্তাকার wardর্ধ্বমুখী cloudালু মেঘ পরীক্ষা করুন । একটি নিবিড় দৃষ্টিভঙ্গি এই সহগের প্রায় সকলের মধ্যেই স্বাধীনতার স্পষ্ট অভাব প্রকাশ করে: তাদের বেশিরভাগই দূরবর্তীভাবে স্বতন্ত্র দেখায়, যদিও তাদের বেশিরভাগই শূন্যের পারস্পরিক সম্পর্কের প্রদর্শন করে।

(এনবি: বেশিরভাগ বৃত্তাকার মেঘগুলি প্রতিটি কলামের সমস্ত উপাদানগুলির স্কোয়ারের যোগফলকে unityক্যবদ্ধ করতে বাধ্য করে নরমালাইজেশন অবস্থার দ্বারা তৈরি হাইপারস্পিয়ার থেকে অনুমান হয়))

k=3 এবং k=4 সাথে স্ক্যাটারপ্ল্লট ম্যাট্রিকগুলি একই ধরণের নিদর্শন প্রদর্শন করে: এই ঘটনাগুলি k=2 তে সীমাবদ্ধ নয় বা তারা প্রতিটি সিমুলেটেড ডেটাসেটের আকারের উপর নির্ভর করে না: এগুলি কেবল উত্পন্ন এবং পরীক্ষা করা আরও কঠিন হয়ে যায়।

এই নিদর্শনগুলির জন্য ব্যাখ্যাগুলি একক মান পচনায় U প্রাপ্ত করতে ব্যবহৃত অ্যালগরিদমগুলিতে যায় তবে আমরা জানি স্বাধীনতার এই ধরণগুলি অবশ্যই U এর খুব সংজ্ঞায়িত বৈশিষ্ট্যের দ্বারা উপস্থিত থাকতে হবে : যেহেতু প্রতিটি ধারাবাহিক কলাম পূর্ববর্তীটির (জ্যামিতিকভাবে) অরথোগোনাল এই orthogonality শর্তগুলি সহগের মধ্যে কার্যকরী নির্ভরতা আরোপ করে, যার ফলে এটি সম্পর্কিত র্যান্ডম ভেরিয়েবলের মধ্যে পরিসংখ্যানিক নির্ভরতাতে অনুবাদ করে।


সম্পাদন করা

মন্তব্যের প্রতিক্রিয়া হিসাবে, এই নির্ভরশীলতা ঘটনাটি যে পরিমাণে অন্তর্নিহিত অ্যালগরিদমকে প্রতিবিম্বিত করে (কোনও এসভিডি গণনা করতে) এবং প্রক্রিয়াটির প্রকৃতিতে তারা কতটা অন্তর্নিহিত সে বিষয়ে মন্তব্য করা মূল্যবান হতে পারে।

নির্দিষ্ট কোফিসিয়েন্টস মধ্যে সম্পর্কযুক্তরূপে নিদর্শন SVD অ্যালগরিদম দ্বারা তৈরি নির্বিচারে পছন্দের উপর একটি মহান চুক্তি, নির্ভর কারণ সমাধান অনন্য নয়: কলাম U সবসময় স্বাধীনভাবে দ্বারা গুন করা যেতে পারে 1 বা 1 । সাইনটি বেছে নেওয়ার কোনও অভ্যন্তরীণ উপায় নেই। সুতরাং, দুই SVD আলগোরিদিম চিহ্নের পৃথক (নির্বিচারে অথবা সম্ভবত এমনকি র্যান্ডম) পছন্দ করতে, তখন তারা এর scatterplots বিভিন্ন নিদর্শন হতে পারে (uij,uij) মান। আপনি যদি এটি দেখতে চান statতবে নীচের কোডটিতে ফাংশনটি প্রতিস্থাপন করুন

stat <- function(x) {
  i <- sample.int(dim(x)[1]) # Make a random permutation of the rows of x
  u <- svd(x[i, ])$u         # Perform SVD
  as.vector(u[order(i), ])   # Unpermute the rows of u
}

এটি প্রথমে এলোমেলোভাবে পর্যবেক্ষণগুলি পুনরায় অর্ডার করে x, এসভিডি সম্পাদন করে, তারপরে uমূল পর্যবেক্ষণের ক্রমটি মেলানোর জন্য বিপরীত ক্রম প্রয়োগ করে । যেহেতু প্রভাবটি মূল স্ক্রেটারপ্লটগুলির প্রতিবিম্বিত এবং ঘোরানো সংস্করণগুলির মিশ্রণ গঠন করে, তাই ম্যাট্রিক্সের স্ক্যাটারপ্লটগুলি আরও বেশি ইউনিফর্ম দেখাবে। সমস্ত নমুনা পারস্পরিক সম্পর্কগুলি শূন্যের খুব কাছাকাছি থাকবে (নির্মাণের দ্বারা: অন্তর্নিহিত সম্পর্কগুলি একেবারে শূন্য)। তা সত্ত্বেও, স্বাধীনতার অভাব এখনও সুস্পষ্ট হতে হবে (যে প্রদর্শিত অভিন্ন বিজ্ঞপ্তি আকার বিশেষ করে মধ্যবর্তী ui,j এবং ui,j)।

মূল স্ক্র্যাটারপ্লটগুলির (কিছু উপরের চিত্রে দেখানো হয়েছে) কিছু অংশের কোয়াড্রেন্টে তথ্যের অভাব কীভাবে Rএসভিডি অ্যালগরিদম কলামগুলির জন্য চিহ্নগুলি নির্বাচন করে তা থেকে উদ্ভূত হয়েছিল ।

সিদ্ধান্ত সম্পর্কে কিছুই পরিবর্তন। যেহেতু U এর দ্বিতীয় কলামটি প্রথমটির দিকে অর্থোগোনাল, এটি (মাল্টিভারিয়েট এলোমেলো ভেরিয়েবল হিসাবে বিবেচিত) প্রথমটির উপর নির্ভরশীল (এটি মাল্টিভারিয়েট এলোমেলো পরিবর্তনশীল হিসাবেও বিবেচিত)। আপনার কাছে একটি কলামের সমস্ত উপাদান অপরের সমস্ত উপাদান থেকে পৃথক থাকতে পারে না; আপনি যা করতে পারেন তা হ'ল ডেটাগুলি এমন উপায়ে দেখা উচিত যা নির্ভরতাগুলি অস্পষ্ট করে - তবে নির্ভরতা অব্যাহত থাকবে।


কে > 2R কেসগুলি পরিচালনা করতে এবং স্ক্যাটারপ্ল্লট ম্যাট্রিক্সের একটি অংশ আঁকতে এখানে কোড আপডেট করা হয়েছে ।k>2

k <- 2    # Number of variables
p <- 4    # Number of observations
n <- 1e3  # Number of iterations
stat <- function(x) as.vector(svd(x)$u)
Sigma <- diag(1, k, k); Mu <- rep(0, k)
set.seed(17)
sim <- t(replicate(n, stat(MASS::mvrnorm(p, Mu, Sigma))))
colnames(sim) <- as.vector(outer(1:p, 1:k, function(i,j) paste0(i,",",j)))
pairs(sim[, 1:min(11, p*k)], pch=".")

3
পারস্পরিক সম্পর্কটি কলামগুলির প্রথম উপাদানগুলির মধ্যে ঘটে কারণ এসভিডি অ্যালগরিদম এভাবে কাজ করে। এক্স এর সারিগুলি গাউসিয়ান হ'ল অবিচ্ছিন্ন: আমি নিশ্চিত যে আপনি লক্ষ্য করেছেন যে ইউ এর গুণাগুণগুলি গাউসিয়ান নয়UXU
হোবার

2
যাইহোক, আমি সবেমাত্র আবিষ্কার করেছি যে কেবল আমার মতলব কোডের svd(X,0)মাধ্যমে প্রতিস্থাপন svds(X)করলে প্রভাবটি অদৃশ্য হয়ে যায়! যতদূর আমি জানি, এই দুটি ফাংশন বিভিন্ন এসভিডি অ্যালগরিদম ব্যবহার করে (উভয়ই ল্যাপাক রুটিন, তবে দৃশ্যত পৃথক পৃথক)। আমি জানি না যে আর এর মত মতলব এর মতো কোনও ফাংশন আছে কিনা svdsতবে আমি ভাবছি আপনি এখনও এটি বজায় রাখতে চলেছেন যে এটি একটি "আসল" প্রভাব এবং সংখ্যাসূচক সমস্যা নয়।
অ্যামিবা বলেছেন মোনিকা

4
ভদ্রলোক, এক মিনিট অপেক্ষা করুন। কেন আপনি সাইন কথা বলছেন না? একটি ইগেনভেেক্টরের চিহ্নটি মূলত স্বেচ্ছাচারিতা। তবে এসভিডি প্রোগ্রামটি এলোমেলোভাবে বরাদ্দ করে না, সাইনটি এসভিডি বাস্তবায়নের উপর এবং ডেটার উপর নির্ভর করে। যদি, Uআপনি এটি বের করার পরে এলোমেলোভাবে সিদ্ধান্ত নেন যে এর প্রত্যেকটি কলামই যেমন রয়েছে তেমন রয়েছে বা তার চিহ্নটি পরিবর্তন করতে হবে, তবে আপনি যে সম্পর্কগুলি বলছেন সেগুলি কি বিলুপ্ত হবে না?
ttnphns

2
@ttnphns এটি সঠিক, আমার সম্পাদনা অনুসারে যদিও এর সাথে সম্পর্কগুলি বিলুপ্ত হয়ে যায়, তবুও ইউ কলামগুলির মধ্যে নির্ভরতা এর ফলে যায় না। ( আমার সরবরাহিত বর্ধিত সংস্করণটি এলোমেলোভাবে কলামগুলির লক্ষণগুলি পরিবর্তনের সমতুল্য))Ustat
শুশ

2
একটি ছোটখাটো বিন্দু (এই দুর্দান্ত থ্রেডের জন্য!) এসভিডি প্রয়োজন হয় না যে এর তির্যকগুলির উপাদানগুলি Sএকটি নির্দিষ্ট ক্রমে থাকে; এটা সুবিধার বিষয়। অন্যান্য রুটিনগুলি এটির গ্যারান্টি দেয় (উদাঃ ম্যাটল্যাবের svds) তবে এটি সাধারণ প্রয়োজন নয়। @ অ্যামিবা: দেখছি svds(যা এই সমস্যাযুক্ত আচরণ থেকে মুক্ত বলে মনে হচ্ছে) গণনাটি বাস্তবে প্রথমে ইগেনভ্যালুগুলি গণনা করার উপর ভিত্তি করে তৈরি করা হয় (সুতরাং এটি স্ট্যান্ডার্ড dgesdd/ dgesvdল্যাপাক রুটিন ব্যবহার করে না - আমি দৃ strongly়ভাবে সন্দেহ করি যে এটি প্রথমে dsyevr/ dsyevxপ্রথমে ব্যবহার করে )।
usεr11852 বলছে পুনরায় ইনস্টল করুন মনিক

11

এই উত্তরটি মাতলাবে @ হুইবারের ফলাফলগুলির একটি প্রতিলিপি উপস্থাপন করে এবং এসভিডি বাস্তবায়ন উপাদানগুলির জন্য কীভাবে চিহ্ন নির্বাচন করে তার একটি "শৈল্পিক" যা প্রত্যক্ষভাবে প্রদর্শন করে।

সম্ভাব্য বিভ্রান্তিমূলক মন্তব্যগুলির দীর্ঘ শৃঙ্খলা প্রদত্ত, আমি ভবিষ্যতের পাঠকদের জন্য চাপ দিতে চাই যে আমি নিম্নলিখিতগুলির সাথে পুরোপুরি একমত:

  1. এই আলোচনার প্রসঙ্গে, অবশ্যই হয় একটি এলোপাতাড়ি ভেরিয়েবলের।U
  2. কলামগুলির দৈর্ঘ্য 1 হতে হবে । এর অর্থ হ'ল প্রতিটি কলামের অভ্যন্তর উপাদানগুলি স্বতন্ত্র নয়; তাদের স্কোয়ার এক যোগ। যাইহোক, এটি I j এর জন্য U i 1 এবং U J 1 এর মধ্যে কোনও সম্পর্ককে বোঝায় না , এবং এলোমেলো অঙ্কনের বৃহত সংখ্যক N r e p এর জন্য নমুনা সম্পর্কটি ছোট হওয়া উচিত ।U1Ui1Uj1ijNrep
  3. কলামগুলিকে অরথোগোনাল হতে হবে। এর অর্থ হ'ল বিভিন্ন কলামের উপাদানগুলি স্বতন্ত্র নয়; তাদের বিন্দু পণ্য শূন্য। আবার, এটি ইউ আই 1 এবং ইউ জে 2 এর মধ্যে কোনও সম্পর্ককে বোঝায় না এবং নমুনা পারস্পরিক সম্পর্কটি ছোট হওয়া উচিত।UUi1Uj2

আমার প্রশ্ন ছিল: কেন আমরা উচ্চ সম্পর্কযুক্তরূপে দেখতে পাচ্ছ এমনকি আঁকে র্যান্ডম বৃহৎ সংখ্যার জন্য এন R পি = 1000 ?0.2Nrep=1000

মাতলাব-এ , কে = 2 এবং এন আর পি = 1000 সহ @ হোবারের উদাহরণটির একটি প্রতিলিপি এখানে দেওয়া হয়েছে:n=4k=2Nrep=1000

SVD

বামদিকে পারস্পরিক সম্পর্ক ম্যাট্রিক্স, ডানদিকে - স্ক্যাটার প্লটগুলি @ হুইবারের মতো। আমাদের সিমুলেশনগুলির মধ্যে চুক্তিটি নিখুঁত বলে মনে হচ্ছে।

এখন, @ttnphns এর একটি জ্ঞানসম্মত পরামর্শ অনুসরণ করে, আমি কলামগুলিতে এলোমেলো চিহ্নগুলি নির্ধারণ করি , এই রেখার পরে:U

[U,S,V] = svd(X,0);

আমি নিম্নলিখিত দুটি লাইন যুক্ত করছি:

U(:,1) = U(:,1) * sign(randn(1));
U(:,2) = U(:,2) * sign(randn(1));

ফলাফল এখানে:

SVD with random signs

সমস্ত পারস্পরিক সম্পর্ক নিখুঁত হয়ে গেছে, ঠিক যেমনটি আমি প্রথম থেকেই প্রত্যাশা করি !

@ হুবার যেমনটি বলেছেন, স্বাধীনতার অভাবকে কিছু বিচ্ছুরকৃত প্লটের নিখুঁত বৃত্তাকার আকারে দেখা যায় (কারণ প্রতিটি স্তম্ভের দৈর্ঘ্য সমান হতে হবে , যে কোনও দুটি উপাদানের স্কোয়ারের যোগফল 1 ছাড়িয়ে যাবে না )। তবে পারস্পরিক সম্পর্ক বিলুপ্ত হয়।11

পুরো ইস্যুটির সংক্ষিপ্তসার হিসাবে, আমরা দেখতে পাই যে দৃ strong় সম্পর্ক রয়েছে কারণ ল্যাপাক একটি নির্দিষ্ট উপায়ে কলামগুলির জন্য চিহ্নগুলি বেছে নিয়েছে যা মনে হয় প্রথম দুটি ডাটা পয়েন্টের উপর নির্ভর করে। Uএটি অবশ্যই কোনও বাগ নয় কারণ পচন সঠিক। তবে ল্যাপাক মূলত লক্ষণ নির্ধারণের স্বাধীনতাকে কাজে লাগিয়ে এই "আর্টিক্টাক্ট" পারস্পরিক সম্পর্ক তৈরি করে। এই পারস্পরিক সম্পর্কগুলি এর উপাদানগুলির নির্ভরতা প্রতিফলিত করে না ; পরিবর্তে, তারা এসভিডি সমাধানে স্বাধীনতা এবং এটি সমাধানের জন্য একটি নির্দিষ্ট ল্যাপাকের সম্মেলনে প্রতিফলিত করে।U

পুনশ্চ. আজ 100k খ্যাতি উত্তীর্ণের জন্য @ শুভেচ্ছা অভিনন্দন!


statstat <- function(x) { u <- svd(x)$u; as.vector(sign(runif(1) - 1/2)*u %*% diag(sign(diag(u)))) }U(u11,u22,,ukk)UU

svdssvdUU

R±2/30.2

1
U

1
স্বজ্ঞাতভাবে, এটি ফর্সা। যত তাড়াতাড়ি প্রথম প্রধান অক্ষটি স্পেসে সংজ্ঞায়িত করা হবে বাকি জনসংযোগ অক্ষ কমেছে স্বাধীনতা। 2 ডি ডেটার ক্ষেত্রে দ্বিতীয় (শেষ) পিসিটি সম্পূর্ণরূপে বাঁধা থাকে, চিহ্ন ব্যতীত। আমি বরং এটিকে বাধা বলব, পরিসংখ্যানগত দিক থেকে নির্ভরতা নয় not
ttnphns

0

xy

x2+y2=1

Cov[x,y]=Var[xy]=E[x2y2]E[xy]2

xy


Although this observation is pertinent, it addresses only interdependencies among the individual components of each column (and as such is included within the k(k+1)/2 independent constraints on U). The question that got all this started concerned dependencies between different columns of U: that's why so little attention has been paid to correlations within each column. Another (perhaps fruitful) way to look at this is to roll D into U and analyze the columns of UD, which are no longer normalized, but are still subject to k(k1)/2 constraints.
whuber

It's the columns of U that have length 1, not the rows (in case when U is not square, but has n rows and k columns with n>k). The columns of U have n elements, and we have been discussing two particular cases in this thread: in my question I suggested to consider n=1000, and in his answer @whuber chose to consider n=4. Your example with x2+y2=1 includes only two random variables, so it does not fit to the rest of the discussion here. If you could make a statement about what should be the correlation between two elements of one column of U, that would be interesting.
amoeba says Reinstate Monica

@ আমোবা আমরা আসসাকালের উদাহরণ গ্রহণের মাধ্যমে প্রাসঙ্গিক করে তুলতে পারি এক্স এর একটি কলামের প্রথম উপাদান হতে ইউ এবং Yবাকী উপাদানগুলির আদর্শ হতে বা উদাহরণকে ইনডাকটিভলি আরও ভেরিয়েবলগুলিতে প্রসারিত করে। দুর্ভাগ্যক্রমে, উপসংহারটি ভুল: এটি পুরোপুরি সম্ভব isএক্স2+ +Y2=1, প্রতিটি শূন্য সহ, এখনও জন্য Cov(এক্স,Y)=0। উদাহরণস্বরূপ, ধরুনএক্স=কোসাইন্(θ) এবং Y=পাপ(θ) জন্য θ অভিন্ন বিতরণ [0,2π)
whuber

@whuber, yes, I agree. The mistake in Aksakal's argument is that individual elements of U are definitely not standard normal! If the sign of each column is randomized, then (in my simulation) the mean of each Uij is around 0 and the variance is around 1/n, which makes total sense -- add up n variances in one column and you will get n1/n=1, as required by the constraint. This is assuming the elements are uncorrelateed, which they seem to be.
amoeba says Reinstate Monica

1
@Aksakal, I invite you to run a simulation and see for yourself that they are indeed uncorrelated; just be sure to randomize the sign of each column of U on each iteration. If you want an intuitive proof, observe that there is nothing "special" about any particular row of X, meaning that if correlation between U11 and U21 is ρ, then it must be the same for any other pair. So we have n random variables with correlation matrix having all off-diagonal elements equal to ρ. Now, is ρ positive or negative? The problem doesn't seem to offer a choice, hence ρ=0.
amoeba says Reinstate Monica
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.