প্রদত্ত নমুনা কোভেরিয়েন্স ম্যাট্রিক্স সহ ডেটা তৈরি করা


22

একটি কোভেরিয়েন্স ম্যাট্রিক্স Σs , কীভাবে এমন ডেটা তৈরি করা যায় যাতে এতে নমুনা কোভারিয়েন্স ম্যাট্রিক্স Σ^=Σs ?


আরও সাধারণভাবে: আমরা প্রায়শই ঘনত্বের ফ (x \ উল্ট \ বোল্ডসিম্বল \ থিতা) থেকে ডেটা উত্পন্ন করতে আগ্রহী f(x|θ), সাথে ডেটা x দিয়ে কিছু প্যারামিটার ভেক্টর given θ । একটি নমুনা, যা থেকে আমরা তারপর আবার একটি মান অনুমান করতে পারে এই ফলাফল θ^ । আমি যা আগ্রহী তা হ'ল বিপরীত সমস্যা: কী আমাদের যদি প্যারামিটারগুলির একটি সেট দেওয়া হয় θs , এবং আমরা একটি নমুনা x উত্পন্ন করতে চাই x, যে \ বোল্ডসিম্বল \ \ টুপি ta থিতা } = \ বোল্ডসাইম্বল \ theta_ {গুলি}θ^=θs

এই সমস্যাটা কি জ্ঞাত? এই জাতীয় পদ্ধতি কি কার্যকর? অ্যালগরিদম পাওয়া যায়?


একটি স্কেলযোগ্য সমাধান অ্যাটিলিও মেউচি সরবরাহ করেছেন। এই ঝুঁকিপূর্ণ নিবন্ধ এবং ম্যাটলব কোডটি দেখুন
পিটার কটন

উত্তর:


16

এই ধরণের সমস্যার জন্য দুটি ভিন্ন সাধারণ পরিস্থিতি রয়েছে:

i) আপনি প্রদত্ত বিতরণ থেকে একটি নমুনা তৈরি করতে চান যার জনসংখ্যার বৈশিষ্ট্য নির্দিষ্ট বর্ণিতগুলির সাথে মেলে (তবে নমুনা পরিবর্তনের কারণে আপনার নমুনার বৈশিষ্ট্যগুলি ঠিক মেলে না) matching

ii) আপনি একটি নমুনা তৈরি করতে চান যার নমুনা বৈশিষ্ট্যগুলি নির্দিষ্ট বর্ণিতগুলির সাথে মেলে (তবে, মানগুলির একটি পূর্বনির্ধারিত সংখ্যার সাথে নমুনার পরিমাণের সাথে সামঞ্জস্য করার সীমাবদ্ধতার কারণে, আপনি চান এমন বিতরণটি আসলে আসবেন না)।

আপনি দ্বিতীয় কেসটি চান - তবে অতিরিক্ত মানীকরণের পদক্ষেপ সহ প্রথম কেসের মতো একই পদ্ধতির অনুসরণ করে আপনি এটি পেয়েছেন।

সুতরাং বহুবিধ স্বাভাবিকের জন্য, হয় মোটামুটি সোজা পদ্ধতিতে করা যেতে পারে:

প্রথম ক্ষেত্রে আপনি জনসংখ্যার কাঠামো ছাড়াই এলোমেলো স্বাভাবিক ব্যবহার করতে পারেন (যেমন আইড স্ট্যান্ডার্ড নরমাল যার প্রত্যাশা 0 এবং সনাক্তকরণ কোভরিয়েন্স ম্যাট্রিক্স) এবং তারপরে এটি আরোপ করা যায় - কোভেরিয়েন্স ম্যাট্রিক্স পেতে রূপান্তর করতে এবং আপনি চান তার মানে। তাহলে এবং জনসংখ্যা গড় এবং সহভেদাংক আপনার প্রয়োজনীয় এবং IID আদর্শ স্বাভাবিক, আপনি নিরূপণ , কিছু জন্য যেখানে (যেমন উপযুক্ত Cholesky পচানি মাধ্যমে প্রাপ্ত হতে পারে) । তারপরে এর পছন্দসই জনসংখ্যার বৈশিষ্ট্য রয়েছে।Σ z y = L z + μ L L L = Σ L yμΣzy=Lz+μLLL=ΣLy

দ্বিতীয়টির সাথে, আপনাকে শূন্য গড় এবং সনাক্তকরণের সমান্তরাল (স্যাম্পলটির অর্থ শূন্য এবং নমুনা কোভেরিয়েন্স ) থেকে দূরে রাখতে এমনকি এলোমেলো নরমালগুলিকে রূপান্তর করতে হবে, তারপরে আগের মত এগিয়ে যেতে হবে। কিন্তু সঠিক গড় থেকে নমুনা বিচ্যুতি সরানোর যে প্রাথমিক পদক্ষেপ , ভ্যারিয়েন্স ডিস্ট্রিবিউশনের সাথে হস্তক্ষেপ করে। (ছোট নমুনায় এটি বেশ তীব্র হতে পারে)) 0 IIn0I

এই নমুনা গড় যতবার কাজ করা যেতে পারে ( ) এবং এর Cholesky পচানি গণক । যদি বাম কোলেস্কি ফ্যাক্টর হয় তবে নমুনাটির অর্থ 0 এবং পরিচয়ের নমুনা কোভেরিয়েন্স হওয়া উচিত। তারপরে আপনি গণনা করতে পারেন এবং পছন্দসই নমুনা মুহুর্তগুলির সাথে একটি নমুনা রাখতে পারেন। (আপনার নমুনার পরিমাণগুলি কীভাবে সংজ্ঞায়িত করা হয়েছে তার উপর নির্ভর করে small like এর মতো গুণাবলী দ্বারা গুণিত / বিভাজনের সাথে জড়িত একটি অতিরিক্ত ছোট ছোট মাপসই থাকতে পারে , তবে সেই প্রয়োজনটি সনাক্ত করা যথেষ্ট সহজ))z = z - ˉ z z zz=zz¯zz- র ( 0 ) = ( এল * ) - 1 z- র * Y = এল z- র ( 0 ) + + μ Lz(0)=(L)1zy=Lz(0)+μn1n


1
+1 টি। অন্য দিন, আমাকে একটি প্রদত্ত নমুনা কোভেরিয়েন্স ম্যাট্রিক্স সহ কিছু ডেটা উত্পন্ন করার দরকার ছিল, কীভাবে এটি করতে হয় তা জানতাম না এবং কোনও কারণে আপনার উত্তর খুঁজতে আমাকে অনেক সময় নিয়েছিল। এই থ্রেডের দৃশ্যমানতা বাড়াতে এবং আপনার পরামর্শগুলি চিত্রিত করার জন্য, আমি কিছু মতলব কোড সহ এখানে আরও একটি উত্তর পোস্ট করেছি।
অ্যামিবা বলছেন মনিকা পুনরায়

@ আমেবা আমি অবাক করে দিয়েছি যে আপনি এখানে ব্যবহৃত অনুসন্ধান শব্দের মধ্যে একটি যুক্ত করার সম্ভাবনা রয়েছে যা প্রশ্নাবদ্ধার মধ্যে এখানে ইতিমধ্যে উপস্থিত নেই (অথবা সম্ভবত প্রশ্নের লেখায় একটি ছোট সম্পাদনায় বেশ কয়েকটি সন্নিবেশ করানো হয়েছে, এটি এখনও খুঁজে পেতে সহায়তা করবে) )। আমি এখন ভাবছি যে আর-তেও আমার একই জিনিস করা উচিত ... তবে তারপরে কি আমার উত্তর, বা আপনার যোগ হিসাবে আরও ভাল হয়?
গ্লেন_বি -রিনস্টেট মনিকা

1
আমি ইতিমধ্যে প্রশ্নটি সম্পাদনা করার জন্য স্বাধীনতা নিয়েছি এবং আমার উত্তরটি এমনভাবে তৈরি করার চেষ্টা করেছি যাতে এটি যতটা সম্ভব কীওয়ার্ড অন্তর্ভুক্ত করে। আশা করি এটি সাহায্য করবে। আমি আশ্চর্য হয়ে গেলাম, এই সহজ টিপটি (প্রয়োজনীয় সমবায় রূপান্তর করার আগে উত্পন্ন ডেটা হোয়াইট করা) গুগল করা এত কঠিন ছিল; অবশেষে আপনার উত্তরটি না পাওয়া পর্যন্ত (সিভিতে বা অন্য কোথাও) কিছুই খুঁজে পেলাম না।
অ্যামিবা বলেছেন মোনিকা

1
ওগো, ওহ, ঠিক আছে, ধন্যবাদ হ্যাঁ, আসলে, আমি বলতে পারি না যে আমি কখনও কখনও এটি মাল্টিভারিয়েট মামলার জন্য উল্লিখিত দেখেছি (সন্দেহ নেই যে এটি হয়েছে, যেহেতু এটি মোটামুটি সুস্পষ্ট ধারণা, বিশেষত যদি আপনি অবিবাহিত মামলার জন্য ইতিমধ্যে এটি ভেবেছিলেন বা আছে ইতিমধ্যে এটি অবিচ্ছিন্ন ক্ষেত্রে দেখা হয়েছে)।
গ্লেন_বি -রিনস্টেট মনিকা

@ গ্লেন_বি আপনি যেমনটি বলেছেন, এই "পরিষ্কার" নমুনাগুলির ফলাফল বিতরণ স্বাভাবিক হতে পারে না। ফলাফল বিতরণ কি হতে পারে আপনার কোনও ধারণা আছে? বা শর্তসাপেক্ষ বিতরণে এটি সমান / সমান কিনাজেড|z- র¯=μ,সিবনাম(z- র)=Σ
জিজি

17

@ Glen_b একটি ভাল উত্তর দিয়েছে (+1), যা আমি কিছু কোড দিয়ে চিত্রিত করতে চাই।

কিভাবে জেনারেট করতে A থেকে নমুনা -dimensional বহুচলকীয় গসিয়ান একটি প্রদত্ত সহভেদাংক ম্যাট্রিক্স সঙ্গে বন্টন Σ ? এটি একটি আদর্শ গাউসিয়ান থেকে নমুনা উত্পন্ন করে এবং কোভেরিয়েন্স ম্যাট্রিক্সের বর্গমূলের দ্বারা গুণিত করা সহজ, যেমন সি এইচ এল ( Σ ) দ্বারা । এটি সিভিতে অনেকগুলি থ্রেডে আচ্ছাদিত, যেমন এখানে: আমি কীভাবে একটি পূর্বনির্ধারিত পারস্পরিক সম্পর্ক মেট্রিক্স দিয়ে ডেটা তৈরি করতে পারি? এখানে একটি সহজ মতলব বাস্তবায়ন:এনΣ(Σ)

n = 100;
d = 2;
Sigma = [ 1    0.7  ; ...
          0.7   1   ];
rng(42)
X = randn(n, d) * chol(Sigma);

ফলাফলের ডেটার নমুনা কোভারিয়েন্স ম্যাট্রিক্স অবশ্যই ঠিক হবে না ; উপরোক্ত উদাহরণে যেমন আয়Σcov(X)

1.0690    0.7296
0.7296    1.0720

একটি পূর্বনির্ধারিত নমুনা পারস্পরিক সম্পর্ক বা কোভারিয়েন্স ম্যাট্রিক্সের সাথে ডেটা কীভাবে তৈরি করা যায় ?

যেমন @ গ্লেন_বি লিখেছেন, একটি স্ট্যান্ডার্ড গাউসিয়ান থেকে ডেটা উত্পন্ন করার পরে, কেন্দ্র থেকে সাদা করে মানিক করে নিন, যাতে এতে নমুনা কোভারিয়েন্স ম্যাট্রিক্স ; শুধুমাত্র তারপর সংখ্যাবৃদ্ধি এটা দিয়ে ( Σ )আমি(Σ)

এখানে আমার মতলব উদাহরণের ধারাবাহিকতা রয়েছে:

X = randn(n, d);
X = bsxfun(@minus, X, mean(X));
X = X * inv(chol(cov(X)));
X = X * chol(Sigma);

এখন cov(X), প্রয়োজন হিসাবে, ফেরত

1.0000    0.7000
0.7000    1.0000

+1 টি। এই প্রশ্নটি কোনওভাবেই সিভিতে বিভিন্ন স্থানে রয়েছে। মাল্টিভারিয়েট বিতরণ নন-গাউশীয় তা আমরা যদি সচেতন থাকি তবে কি এগিয়ে যাওয়ার কোনও উপায় আছে?
rgk

যদি আপনি মাল্টিভারিয়েট বিতরণের ফর্মটি জানেন তবে আপনি এটি দেখতে দেখতে চান, সম্ভবত কিছু ক্ষেত্রে।
গ্লেন_বি -রিনস্টেট মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.