অ-গাওসিয়ান ডেটার পিসিএ


20

আমার পিসিএ সম্পর্কে কয়েকটি দ্রুত প্রশ্ন রয়েছে:

  • পিসিএ কি ধরে নিয়েছে যে ডেটাসেট গাউসিয়ান?
  • আমি যখন অন্তর্নিহিত অ-রৈখিক ডেটাতে পিসিএ প্রয়োগ করি তখন কী হয়?

একটি ডেটাসেট দেওয়া, প্রক্রিয়াটি প্রথমে গড়-স্বাভাবিক হওয়া, ভেরিয়েন্সটি 1 এ সেট করা, একটি এসভিডি নেওয়া, র‌্যাঙ্ক হ্রাস করা এবং অবশেষে ডেটাসেটকে নতুন হ্রাস-র‌্যাঙ্কের জায়গাতে মানচিত্র করা হয়। নতুন স্থানটিতে, প্রতিটি মাত্রা সর্বাধিক বৈকল্পিকের একটি "দিকনির্দেশের" সাথে মিলে যায়।

  • তবে নতুন স্থানের সেই ডেটাসেটের পারস্পরিক সম্পর্ক কি সর্বদা শূন্য, বা মূলগতভাবে গাউসিয়ান এমন ডেটার ক্ষেত্রেই এটি সত্য?

ধরুন আমার কাছে দুটি এ্যাট্যাসেট রয়েছে, "এ" এবং "বি", যেখানে "এ" গাউসিয়ান থেকে নেওয়া এলোমেলোভাবে নমুনাযুক্ত পয়েন্টগুলির সাথে সামঞ্জস্যপূর্ণ, যখন "বি" অন্য বিতরণ থেকে এলোমেলোভাবে নমুনাযুক্ত পয়েন্টগুলির সাথে সামঞ্জস্যপূর্ণ (পইসন বলুন)।

  • পিসিএ (এ) পিসিএ (বি) এর সাথে কীভাবে তুলনা করে?
  • নতুন স্থানের পয়েন্টগুলি পর্যালোচনা করে, আমি কীভাবে নির্ধারণ করব যে পিসিএ (এ) কোনও গাউসির নমুনাযুক্ত পয়েন্টগুলির সাথে সামঞ্জস্য করে, যখন পিসিএ (বি) কোনও পোইসন থেকে প্রাপ্ত নমুনার সাথে সামঞ্জস্য করে?
  • "এ" 0-তে পয়েন্টের পারস্পরিক সম্পর্ক?
  • "বি" তে পয়েন্টের পারস্পরিক সম্পর্কও 0?
  • আরও গুরুত্বপূর্ণ বিষয়, আমি কি "সঠিক" প্রশ্ন জিজ্ঞাসা করছি?
  • পারস্পরিক সম্পর্কের দিকে নজর দেওয়া উচিত, বা অন্য কোনও মেট্রিক আছে যা আমার বিবেচনা করা উচিত?

2
এই গবেষণাপত্রে পিসিএর অনুমান সম্পর্কে পরিশিষ্ট দেখুন ।
অনুমানগতভাবে

উত্তর:


17

আপনার ইতিমধ্যে এখানে বেশ কয়েকটি ভাল উত্তর রয়েছে (@ ক্যাম.ড্যাভিডসন.পিলন এবং @ মিশেল চের্নিক উভয়কেই +1)। আমাকে কয়েকটি বিষয় উল্লেখ করতে দিন যা আমাকে এই সমস্যাটি সম্পর্কে ভাবতে সহায়তা করে।

প্রথমত, পিসিএ পারস্পরিক সম্পর্ক মেট্রিক্সের উপর পরিচালনা করে। সুতরাং, এটি আমার কাছে গুরুত্বপূর্ণ প্রশ্নটি মনে হচ্ছে এটি আপনার ডেটা সম্পর্কে ভাবতে সহায়তা করার জন্য কোনও পারস্পরিক সম্পর্ক ম্যাট্রিক্স ব্যবহার করা বিবেচনা করে কিনা। উদাহরণস্বরূপ, পিয়ারসন পণ্য-মুহুর্তের পারস্পরিক সম্পর্ক দুটি ভেরিয়েবলের মধ্যে লিনিয়ার সম্পর্ককে মূল্যায়ন করে ; যদি আপনার ভেরিয়েবলগুলি সম্পর্কিত হয় তবে লিনিয়ারের সাথে নয়, পারস্পরিক সম্পর্কটি সম্পর্কের শক্তি সূচক করার জন্য একটি আদর্শ মেট্রিক নয়। ( পারস্পরিক সম্পর্ক এবং নন-নরমাল ডেটা সম্পর্কে এখানে সিভিতে একটি দুর্দান্ত আলোচনা)

দ্বিতীয়ত, আমি মনে করি পিসিএ দিয়ে কী চলছে তা বোঝার সবচেয়ে সহজ উপায় হ'ল আপনি কেবল নিজের অক্ষটি ঘুরিয়ে নিচ্ছেন। আপনি অবশ্যই আরও কিছু করতে পারেন, এবং দুর্ভাগ্যক্রমে পিসিএ ফ্যাক্টর বিশ্লেষণে বিভ্রান্ত হয়ে পড়ে (যা অবশ্যই আরও বেশি চলছে)। তবুও, ঘণ্টা এবং হুইসেলবিহীন সরল পুরাতন পিসিএ, নিম্নলিখিত হিসাবে ভাবা যেতে পারে:

  • গ্রাফ পেপারের শীটে আপনার কয়েকটি পয়েন্ট দুটি মাত্রায় প্লট করা হয়েছে;
  • অরথোগোনাল অক্ষগুলির সাথে এটি আঁকা এবং উত্সের একটি পিনহোলের সাথে আপনার স্বচ্ছতা রয়েছে;
  • আপনি স্বচ্ছতার উত্সকে কেন্দ্র করে (অর্থাত্, পিনহোল) ওভার এবং পেনসিলের ডগাটি স্থানে ধরে রাখার জন্য পিনহোল দিয়ে রেখেছেন; (এক্স¯,Y¯)
  • তারপরে আপনি স্বচ্ছতাটি ঘোরান যতক্ষণ না পয়েন্টগুলি (যখন মূল স্বত্বের পরিবর্তে স্বচ্ছতার অক্ষ অনুসারে সূচিযুক্ত) অসম্পর্কিত না হয়।

এটি পিসিএর জন্য নিখুঁত রূপক নয় (যেমন, আমরা রূপগুলি 1-এ পুনরুদ্ধার করি নি)। কিন্তু মানুষকে প্রাথমিক ধারণা দেয় না। পয়েন্টটি এখন সেই চিত্রটি ব্যবহার করে ফলাফলটি দেখতে কেমন তা ভেবে ভেবে দেখলে যদি ডেটা শুরু হয় না গাউসিয়ান; এই প্রক্রিয়াটি করার মতো কি না তা আপনাকে সিদ্ধান্ত নিতে সহায়তা করবে। আশা করি এইটি কাজ করবে.


2
+1 (অনেক দিন আগে) আমি মনে করি এটি এই থ্রেডের সেরা উত্তর, আশা করি এটিও সবচেয়ে বেশি উত্সাহিত হয়ে উঠতে আরও একটি উত্সাহ সংগ্রহ করবে। আমি আপনার স্বচ্ছতার সাথে পিসিএ ব্যাখ্যা করার পদ্ধতিটি পছন্দ করি, এটি দুর্দান্ত।
অ্যামিবা বলেছেন মোনিকা

যাইহোক, আপনার এই উত্তরটি আমার সাম্প্রতিক উত্তরটি আমাদের বিশাল সাধারণ পিসিএ থ্রেডে অনুপ্রাণিত করেছে: আমি আপনার স্বচ্ছতার সাদৃশ্য মাথায় রেখে সেই অ্যানিমেটেড জিআইএফগুলি তৈরি করেছি।
অ্যামিবা বলেছেন মনিকাকে

এটি একটি দুর্দান্ত উত্তর, @ অ্যামিবা। এটি এর চেয়ে অনেক ভাল।
গুং - মনিকা পুনরায়

13

আমি একটি আংশিক সমাধান দিতে এবং আপনার জন্য একটি উত্তর দেখাতে পারেন দ্বিতীয় অনুচ্ছেদতৃতীয় প্রশ্ন, নতুন তথ্য সম্পর্কিত কিনা তা সম্পর্কিত। সংক্ষিপ্ত উত্তরটি হ'ল না, নতুন স্থানের ডেটাটি পারস্পরিক সম্পর্কযুক্ত নয়। দেখতে, এবং w 2 কে দুটি অনন্য নীতি উপাদান হিসাবে বিবেচনা করুন । তারপরে এক্স ডাব্লু 1 এবং এক্স ডাব্লু 2 ডাটাগুলির নতুন স্থানের দুটি মাত্রা, এক্সW1W2এক্সW1এক্সW2এক্স

সিবনাম(এক্সW1,এক্সW2)=[(এক্সW1)টি(এক্সW2)]-[এক্সW1]টি[এক্সW2]
Wআমিএক্স
W1টি[এক্সটিএক্স]W2=ভীএকটিR(এক্স)W1টিW2=0
WআমিভীএকটিR(এক্স)

এক্সএক্সWএক্সএক্সW

α


7

পিসিএতে কোনও রৈখিকতা বা স্বাভাবিকতা ধরে নেওয়া হয় না। ধারণাটি কেবলমাত্র পি-ডাইমেনশনাল ডেটাসেটের অরথোগোনাল উপাদানগুলিতে বিভ্রান্তির পরিমাণকে ব্যাখ্যা করা হয়েছে যা ব্যাখ্যা করা হয়েছে তার পরিমাণ অনুসারে অর্ডার করা হয়েছে।


2
সত্য তবে "অরথোগোনাল উপাদানগুলিতে পি-ডাইমেনশনাল ডেটাসেটের প্রকরণটি বিভক্ত করা খুব কার্যকর নয় " যখন অরথোগোনালাইজেশন সাধারণত সম্পন্ন হওয়ার পরে যখন ভেরিয়েবলগুলির মধ্যে অ-রৈখিক নির্ভরতা থাকে তখন আপনি যুক্তি দিতে পারেন যে মাত্রাগুলি সম্পর্কযুক্ত নয় (যা এছাড়াও প্রশ্নের গাওসিয়ান অংশের সাথে সম্পর্কিত)। আপনি যখন পিসিএ করছেন এবং ফলাফলগুলি স্বাভাবিক উপায়ে ব্যাখ্যা করার পরিকল্পনা করছেন, তখন একটি অন্তর্নিহিত ধারণা রয়েছে যে ডেটা একটি নিম্ন মাত্রিক লিনিয়ার উপ-স্পেসে বাস করে।
ম্যাক্রো

2
@ ম্যাক্রো ঠিক নেই আমি বলব যে অন্তর্নিহিত অনুমানটি হ'ল কমপক্ষে বেশিরভাগ পরিবর্তনশীলতা এবং তাই তথ্যের প্যাটার্নটি কিছু নিম্ন মাত্রিক জায়গাতে কেন্দ্রীভূত হয়। অরথোগোনাল উপাদানগুলির সাথে 2-মাত্রিক জায়গায় আমি খুব ভালভাবে একটি প্যারোবোলাকে দেখতে পারি। আমি মনে করি ননলাইনার আকারগুলি দুটি বা তিন মাত্রায় দেখা যায়। যদি ডেটাটি মাল্টিভারিয়েট গাউসিয়ান ডিসব্রিশন থেকে আসে তবে কিছু উপস্থানে পয়েন্টগুলি উপবৃত্তাকার মেঘের মতো হওয়া উচিত। আকর্ষণীয় হওয়ার জন্য উচ্চ পিসিগুলির উপস্থানে এটি দেখার জন্য বিতরণটি একটি উপবৃত্তাকার মতো দেখতে হবে না।
মাইকেল আর চেরনিক

4
আমি এই সামান্য যোগ্যতা হবে। ক্লাসিকাল পিসিএ বা এসভিডি দ্বারা পিসিএতে কোনও স্বাভাবিকতা অনুমান নেই। যাইহোক, অনুপস্থিত ডেটা সহ পিসিএ গণনা করার জন্য ইএম অ্যালগরিদমগুলি স্বাভাবিকতা এবং রৈখিকতা গ্রহণ করবে।
জন

যদিও পিসিএ-তে ক্লাসিকাল রাস্তাটির কোনও অনুমানের প্রয়োজন নেই, এর সমাধানের আরও একটি রাস্তা রয়েছে যা করে: 0 পরিমাপের গোলমাল সহ সম্ভাব্য পিসিএ।
বায়ারজ

3

পৃষ্ঠা 7 এখানে পড়া:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

তারা নোট করে যে পিসিএ ধরে নিয়েছে যে আমরা যা কিছু ব্যাখ্যা করছি তার বন্টনকে একক (শূন্যের) দ্বারা ব্যাখ্যা করা যেতে পারে এবং কেবলমাত্র তারা বলে যে সাধারণ বিতরণ হতে পারে only

(মূলত ক্যামের উত্তর ছাড়াও, তবে মন্তব্য করার মতো যথেষ্ট খ্যাতি আমার নেই:)


1
শ্লেন্সের টিউটোরিয়ালে আপনি যে লিঙ্কটি সরবরাহ করেছেন সেটি টিউটোরিয়ালটির 1 সংস্করণে রয়েছে, তবে সংস্করণ 3.02 (চূড়ান্ত সংস্করণ?) এখন উপলভ্য, এবং এই নির্দিষ্ট পয়েন্টটি সরিয়ে ফেলা হয়েছে। এছাড়াও, এই প্রশ্নটি সম্পর্কে ঠিক জিজ্ঞাসা করেছিল।
ওরেেন মিলম্যান

0

যতদূর আমি জানি, পিসিএ ডেটার স্বাভাবিকতা ধরে না। তবে যদি এটি সাধারণত বিতরণ করা হয় (আরও সাধারণ অর্থে, প্রতিসমভাবে বিতরণ করা হয়), তবে ফলাফলটি আরও দৃust় হয়। অন্য লোকেরা যেমন বলেছে, মূলটি হ'ল পিসিএ পিয়ারসন পারস্পরিক সম্পর্ক সহগ ম্যাট্রিক্সের উপর ভিত্তি করে, যার অনুমান বহিরাগত এবং স্কিউ বিতরণ দ্বারা প্রভাবিত হয়। সুতরাং জড়িত কিছু বিশ্লেষণে, যেমন পরিসংখ্যান পরীক্ষা বা পি-মান হিসাবে, তখন আপনার স্বাভাবিকতা সন্তুষ্ট কিনা সে বিষয়ে আপনার আরও যত্ন নেওয়া উচিত; তবে অন্বেষণ বিশ্লেষণের মতো অন্যান্য অ্যাপ্লিকেশনগুলিতে আপনি এটি ব্যবহার করতে পারেন তবে ব্যাখ্যার সময় কেবল যত্ন নিতে পারেন।


-1

অন্যদের সাথে একমত হয়েছেন যারা বলেছেন যে "সাধারণভাবে" বিতরণ করা উচিত। কোনও বিতরণ আপনি যদি এটি রূপান্তর করেন তবে সাধারণ বিতরণ দিয়ে ওভারল্যাপ হবে। যদি আপনার বিতরণটি স্বাভাবিক না হয়, তবে ফলাফলগুলি স্বাভাবিক হওয়ার ক্ষেত্রে এটির তুলনায় নিকৃষ্ট হবে, কিছু এখানে যেমন বলেছেন ...

  • আপনার প্রয়োজন হলে আপনি আপনার বিতরণকে রূপান্তর করতে পারেন।
  • আপনি পিসিএ বেছে নিতে পারেন এবং পরিবর্তে স্বতন্ত্র উপাদান বিশ্লেষণ (আইসিএ) ব্যবহার করতে পারেন।

আপনি যদি প্রথম উত্তরে রেফারেন্সটি পড়েন, পরিশিষ্ট অংশে এটি সূচিত করে যে অনুমানটি একটি সাধারণ বিতরণ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.