বাচ্চারা কীভাবে একটি জিডাব্লুএএস ডেটা সেটের পিসিএ অভিক্ষেপে তাদের পিতামাতাকে একসাথে টানতে পারে?


9

প্রতিটি সমন্বিত আইডির সাথে 10,000 টি-মাত্রিক জায়গাতে 20 এলোমেলো পয়েন্ট নিন N(0,1)। এগুলিকে 10 জোড়া ("দম্পতিরা") বিভক্ত করুন এবং প্রতিটি জোড়ের গড় ("একটি শিশু") ডেটাসেটে যুক্ত করুন। তারপরে 30 টি পয়েন্ট এবং প্লট PC1 বনাম PC2 তে পিসিএ করুন।

একটি লক্ষণীয় জিনিস ঘটে: প্রতিটি "পরিবার" পয়েন্টগুলির একটি ট্রিপলেট তৈরি করে যা সমস্ত এক সাথে কাছাকাছি থাকে। অবশ্যই প্রতিটি শিশু মূল 10,000-মাত্রিক জায়গাতে তার প্রতিটি পিতামাতার কাছাকাছি থাকে তাই পিসিএ স্পেসেও এটি বাবা-মায়ের কাছাকাছি থাকার আশা করতে পারে। তবে, পিসিএ স্পেসে পিতা-মাতার প্রতিটি জুটি পাশাপাশি একত্রে রয়েছে, যদিও মূল জায়গাতে তারা কেবল এলোমেলো পয়েন্ট!

বাচ্চারা কীভাবে পিসিএ প্রক্ষেপণে পিতামাতাকে একসাথে টানতে পারে?

এখানে চিত্র বর্ণনা লিখুন

কেউ চিন্তিত হতে পারেন যে এটি কোনওভাবে এই কারণে প্রভাবিত হয় যে বাচ্চাদের মা-বাবার চেয়ে কম আদর্শ রয়েছে। এটি মনে হয় না: আমি যদি শিশুদের উত্পাদন করি(x+y)/2 কোথায় x এবং yপিতামাতার পয়েন্টগুলি হয় তবে তাদের পিতামাতার মতো গড় নিয়ম থাকবে। তবে আমি পিসিএ স্পেসে গুণগতভাবে একই ঘটনাটি পর্যবেক্ষণ করি:

এখানে চিত্র বর্ণনা লিখুন

এই প্রশ্নটি একটি খেলনা ডেটা সেট ব্যবহার করছে তবে এটি জিনোম-ওয়াইড অ্যাসোসিয়েশন স্টাডি (জিডাব্লুএএস) থেকে যেখানে রিয়েল-ওয়ার্ল্ড ডেটা সেট করে দেখেছি তা থেকে অনুপ্রাণিত হয় যেখানে মাত্রাগুলি একক নিউক্লিওটাইড পলিমॉर्ফিজম (এসএনপি)। এই ডেটা সেটটিতে মা-বাবা-সন্তানের ট্রাইস রয়েছে।


কোড

%matplotlib notebook

import numpy as np
import matplotlib.pyplot as plt
np.random.seed(1)

def generate_families(n = 10, p = 10000, divide_by = 2):
    X1 = np.random.randn(n,p)    # mothers
    X2 = np.random.randn(n,p)    # fathers
    X3 = (X1+X2)/divide_by       # children
    X = []
    for i in range(X1.shape[0]):
        X.extend((X1[i], X2[i], X3[i]))
    X = np.array(X)

    X = X - np.mean(X, axis=0)
    U,s,V = np.linalg.svd(X, full_matrices=False)
    X = U @ np.diag(s)
    return X

n = 10
plt.figure(figsize=(4,4))
X = generate_families(n, divide_by = 2)
for i in range(n):
    plt.scatter(X[i*3:(i+1)*3,0], X[i*3:(i+1)*3,1])
plt.tight_layout()
plt.savefig('families1.png')

plt.figure(figsize=(4,4))
X = generate_families(n, divide_by = np.sqrt(2))
for i in range(n):
    plt.scatter(X[i*3:(i+1)*3,0], X[i*3:(i+1)*3,1])
plt.tight_layout()
plt.savefig('families2.png')

1
এত উচ্চ মাত্রায় একটি এলোমেলোভাবে সম্পর্কিত সম্পর্কহীন ডেটাগুলির সমস্ত ডেটা পয়েন্টগুলি স্থানের কোণে অবস্থিত এবং পয়েন্টগুলির মধ্যে দূরত্ব প্রায় একই। আপনি যদি একটি বিন্দুটি নির্বাচন করেন এবং তাদের মধ্যে অর্ধ-পথ বিন্দু (গড়) তৈরির মাধ্যমে এটি একটি পয়েন্টের সাথে অন্য একটিটির সাথে বেঁধে রাখেন তবে আপনি একটি ক্লাস্টার তৈরি করেছেন: আপনি পূর্ব বর্ণিত দূরত্বের চেয়ে স্বচ্ছভাবে দূরত্বগুলি প্রবর্তন করেছেন।
ttnphns

1
হ্যাঁ, আমি বুঝতে পেরেছি যে ২০ টি মূল পয়েন্টগুলি একে অপরের থেকে কম বা বেশি সামঞ্জস্যপূর্ণ। এবং এটি স্পষ্ট যে উভয় বাবা-মা একে অপরের সাথে সন্তানের তুলনায় তাদের বাবা-মায়ের খুব কাছাকাছি রয়েছে। যদিও আমি এখনও পাই না, পিসিএ প্রক্ষেপণে বাবা - মা কাছাকাছি হয়ে যায় ...
amoeba

আপনি কোনও দুটি এলোমেলো মাত্রায় প্রজেক্ট করার চেষ্টা করেছিলেন? তুমি কি পেলে?
ttnphns

1
আমার স্বজ্ঞাততাটি হ'ল: পয়েন্টগুলির ট্রিপলগুলি পিসি 1-2 উপস্থানের প্রায় লম্ব করে পাইলস হিসাবে প্রত্যাশিত। এই প্লেনের অবস্থানটি কীভাবে বৈকল্পিকতা সর্বাধিকতর সংজ্ঞায়িত করা হয় । আপনি দেখুন, আপনি বেশিরভাগ কেন্দ্র থেকে দূরে মোডগুলির সাথে মাল্টিমোডাল ডেটা পেয়েছেন (কারণ পয়েন্টগুলি 10K মিম্বরে সমস্ত পেরিফেরাল হয়), যেমন একটি মেঘ, একটি ডাম্বেলের মতো মূল পিসিগুলিকে টানতে পারে যাতে এইগুলি ভারী অঞ্চলগুলিকে বিদ্ধ করে দেয় , এবং ত্রিভুজগুলির জন্য লম্ব।
ttnphns

1
সন্ধান, বিটিডব্লিউ এমডিএস হিসাবে পিসিএ (পিসিওএ) খুব একটা ভাল নয় কারণ এটি পয়েন্ট প্রজেক্ট করে এবং সরাসরি দূরত্বকে মডেল করে না। একটি পুনরাবৃত্ত এমডিএস আশা করবে যে এই "ক্লাস্টারগুলি" অনেক কম ডিগ্রীতে তৈরি হবে।
ttnphns

উত্তর:


8

উপরের মন্তব্যগুলিতে @ttnphns এর সাথে আলোচনার সময়, আমি বুঝতে পেরেছিলাম যে 10 টিরও কম পরিবারের সাথে একই ঘটনাটি লক্ষ্য করা যায়। তিনটি পরিবার ( n=3আমার কোড স্নিপেটে) একটি সমতুল্য ত্রিভুজটির কোণে মোটামুটিভাবে উপস্থিত হয়। প্রকৃতপক্ষে, কেবলমাত্র দুটি পরিবার বিবেচনা করার জন্য এটি যথেষ্ট ( n=2): তারা পিসি 1 জুড়ে পৃথক হয়ে যায় এবং প্রতিটি পরিবার মোটামুটি এক পয়েন্টে প্রত্যাশা করে।

দুটি পরিবারের ক্ষেত্রে সরাসরি কল্পনা করা যায়। 10,000-মাত্রিক স্থানের মূল চারটি পয়েন্টগুলি প্রায় অর্থেগোনাল এবং 4-মাত্রিক উপ-স্পেসে থাকে। সুতরাং তারা 4-সিমপ্লেক্স গঠন করে। কেন্দ্রবিন্দু করার পরে, তারা একটি নিয়মিত টেট্রহেড্রন গঠন করবে যা 3 ডি আকারে একটি আকার। এটি দেখতে কেমন দেখাচ্ছে:

* চিত্রের বিবরণ এখানে লিখুন *

বাচ্চাদের যুক্ত হওয়ার আগে, পিসি 1 যে কোনও জায়গায় নির্দেশ করতে পারে; কোনও পছন্দসই দিকনির্দেশ নেই। যাইহোক, দুটি বিপরীত প্রান্তের কেন্দ্রে দুটি শিশু অবস্থানের পরে, পিসি 1 তাদের মাধ্যমে সরাসরি যাবে! ছয় দফার এই বিন্যাসটি @ttnphns একটি "ডাম্বেল" হিসাবে বর্ণনা করেছেন:

যেমন একটি মেঘ, একটি ডাম্বেলের মতো, প্রধান পিসিগুলিকে টানতে প্রবণতা রাখে যাতে এইগুলি ভারী অঞ্চলগুলিকে বিদ্ধ করে

মনে রাখবেন যে নিয়মিত টেট্রহেড্রনের বিপরীত প্রান্তগুলি একে অপরের সাথে অরথোগোনাল এবং তাদের কেন্দ্রগুলি সংযোগকারী রেখার সাথেও অরথোগোনাল। এর অর্থ হ'ল প্রতিটি পরিবার পিসি 1-তে একটি একক পয়েন্টে প্রত্যাশিত হবে।

সম্ভবত আরও স্বজ্ঞাতভাবে, যদি দু'টি শিশুকে দ্বারা স্কেল করা হয় 2তাদের পিতামাতার মতো একই আদর্শ দেওয়ার ফ্যাক্টর, তারপরে তারা টেটারহেড্রনকে "আটকে" রাখবেন, ফলস্বরূপ পিসি 1 প্রজেকশন উভয় পিতা-মাতার একসাথে ভেঙে পড়বে এবং শিশু আরও দূরে থাকবে। এটি আমার প্রশ্নের দ্বিতীয় চিত্রটিতে দেখা যেতে পারে: প্রতিটি পরিবারের পিসি 1 / পিসি 2 বিমানের বাবা-মা সত্যিই খুব কাছাকাছি থাকে (যদিও তারা নিরবচ্ছিন্ন!) এবং তাদের শিশুটি কিছুটা দূরে রয়েছে।


3
দুর্দান্ত দর্শন! মোম 1-চাইল্ড 1-ড্যাড 1 হ'ল ডিস্ক বা প্যানকেক এবং মম 2-চাইল্ড 2-ড্যাড 2 হ'ল বিমোডাল ক্লাউডের। "পিসি 1" আকর্ষণ করে প্রক্ষেপণের বৈচিত্রটি সর্বাধিকতর করার জন্য, উভয় "পরিবার "কে orthogonally তাদের মা-সন্তানের বাবা লাইনে বিদ্ধ করার জন্য। ফলস্বরূপ, প্রতিটি পরিবার একটি পয়েন্টে প্রকল্প করে (একটি শিশু, এই উদাহরণস্বরূপ) এবং আমাদের দুটি পরিবার ভিতরে খুব দু'জন আঁকড়ে থাকে, একে অপরের ক্লাস্টার থেকে দূরে থাকে।
ttnphns

1
আপনি ছবিটি আঁকতে কোন প্রোগ্রাম ব্যবহার করেছেন?
ttnphns

4
হোয়াইটবোর্ড, হোয়াইটবোর্ড চিহ্নিতকারী এবং একটি স্মার্টফোন ক্যামেরা :-)
অ্যামিবা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.