মাত্রা হ্রাস সর্বদা কিছু তথ্য হারাতে পারে?


10

শিরোনামের মত বলে, মাত্রা হ্রাস সবসময় কিছু তথ্য হারাতে পারে? উদাহরণস্বরূপ পিসিএ বিবেচনা করুন। আমার কাছে থাকা ডেটা যদি খুব কম হয় তবে আমি ধরে নিই যে একটি "আরও ভাল এনকোডিং" পাওয়া যেতে পারে (এটি কি কোনওভাবে ডেটা র‌্যাঙ্কের সাথে সম্পর্কিত?), এবং কিছুই হারাবে না।


7
না, অবশ্যই তা নয়: পিসিএ-তে কিছু একক মান সত্যিকারের শূন্য হতে পারে। এটি তথ্যের "স্বল্পতা" এর সাথে সম্পর্কিত যা তারা রেকর্ড করার জন্য ব্যবহৃত মাত্রাগুলি "পূরণ" করে কিনা তার চেয়ে কম less
হোবার

1
আচ্ছা আমি দেখি. আপনি কি নিজের মন্তব্যটি একটি সংক্ষিপ্ত উত্তর হিসাবে লিখতে পারেন (আপনার যদি সময় থাকে তবে এটি একটি ছোট উদাহরণ দিয়েও হতে পারে)?
অবাক

1
আপনার যেখানে দুটি মাত্রিক তথ্য রয়েছে সেই ক্ষেত্রে বিবেচনা করুন, যেখানে প্রতিটি বিন্দুর জন্য y- মান '0'। আপনার প্রথম নীতি উপাদানটি এক্স অক্ষ হবে এবং আপনি আপনার ডেটাটিকে একক মাত্রায় প্রজেক্ট করে কোনও কিছু হারাবেন না কারণ এটি কার্যকরভাবে ইতিমধ্যে এক মাত্রিক।
ডেভিড মার্কস

উত্তর:


9

মাত্রা হ্রাস সর্বদা তথ্য হারাবে না । কিছু ক্ষেত্রে, কোনও তথ্য বর্জন না করে নিম্ন-মাত্রিক জায়গাগুলিতে ডেটাটিকে পুনরায় উপস্থাপন করা সম্ভব।

ধরুন আপনার কাছে এমন কিছু ডেটা রয়েছে যেখানে প্রতিটি মাপা মান দুটি অর্ডারযুক্ত কোভেরিয়ের সাথে যুক্ত। উদাহরণস্বরূপ, ধরুন আপনি কিছু ইমিটারের সাথে সম্পর্কিত x এবং y পজিশনের ঘন গ্রিডে সিগন্যালের গুণমান (রঙ সাদা = ভাল, কালো = খারাপ) দ্বারা পরিমাপ করেছেন । সেক্ষেত্রে আপনার ডেটা বাম-হাতের প্লট [* 1] এর মতো দেখতে লাগবে:Qxy

রেডিয়াল গড় ডেমো

এটি, অন্তত পৃষ্ঠের দিক থেকে, একটি দ্বি মাত্রিক তথ্য: । তবে, আমরা কোনও প্রাইরি জানতে পারি (অন্তর্নিহিত পদার্থবিজ্ঞানের উপর ভিত্তি করে) বা ধরে নিতে পারি যে এটি কেবলমাত্র উত্স থেকে দূরত্বের উপর নির্ভর করে: r = Q(x,y) । (কিছু গবেষণামূলক বিশ্লেষণ আপনাকে অন্তর্নিহিত ঘটনাটি ভালভাবে না বোঝার পরেও এই সিদ্ধান্তে নিয়ে যেতে পারে)। এরপরে আমরাQ(x,y)এর পরিবর্তেআমাদের ডেটাQ(r)হিসাবে পুনরায় লিখতে পারি, যা কার্যকরভাবে মাত্রাটিকে একক মাত্রায় হ্রাস করে। স্পষ্টতই, এটি কেবলমাত্র নিঃসংশয় যদি ডেটা রেডিয়ালি সংশ্লেষিত হয় তবে এটি অনেকগুলি শারীরিক ঘটনার জন্য যুক্তিসঙ্গত ধারণা।x2+y2Q(r)Q(x,y)

এই রূপান্তর অ-রৈখিক (এখানে একটি বর্গমূল এবং দুটি স্কোয়ার রয়েছে!), সুতরাং এটি পিসিএ দ্বারা সম্পাদিত মাত্রিকতা হ্রাসের ধরণের থেকে কিছুটা আলাদা, তবে আমি মনে করি এটি একটি দুর্দান্ত উদাহরণ think কোনও তথ্য না হারিয়ে আপনি কীভাবে মাঝে মাঝে একটি মাত্রা সরিয়ে ফেলতে পারেন ofQ(x,y)Q(r)

অন্য উদাহরণের জন্য, ধরুন আপনি কিছু ডেটাতে একক মান ভলন সম্পাদন করেন (এসভিডি একটি ঘনিষ্ঠ কাজিন - এবং প্রায়শই - মূল উপাদানগুলির বিশ্লেষণের অন্তর্নিহিত সাহস)। এসভিডি আপনার ডেটা ম্যাট্রিক্স এবং এটি এম = ইউ এস ভি টি- তে তিনটি ম্যাট্রিকগুলিতে ফ্যাক্টর করে । ইউ এবং ভি এর কলামগুলি যথাক্রমে বাম এবং ডান একক ভেক্টর যা এম এর জন্য orthonormal বেসগুলির একটি সেট গঠন করে । তির্যক উপাদান এস (অর্থাত, S আমি , আমি ) একবচন মূল্যবোধ, যা কার্যকরভাবে উপর ওজন হয় আমি তম ভিত্তি সংশ্লিষ্ট কলাম দ্বারা গঠিত সেট ইউ এবংMM=USVTMSSi,i)iU ( এস এর বাকিঅংশগুলি শূন্য) os নিজেই, এটি আপনাকে কোনও মাত্রিক হ্রাস দেয় না (প্রকৃতপক্ষে, আপনি যেএকক এন এক্স এন ম্যাট্রিক্স দিয়ে শুরু করেছেনতার পরিবর্তেএখন 3 এন এক্স এন ম্যাট্রিকরয়েছে)। তবে, কখনও কখনও এস এরকিছু তির্যক উপাদানশূন্য হয়। এর অর্থ হ'ল ইউ এবং ভি এরসাথে সম্পর্কিত ঘাঁটিগুলি এম পুনর্গঠনের প্রয়োজন হয় নাএবং তাই সেগুলি ফেলে দেওয়া যেতে পারে। উদাহরণস্বরূপ, ধরুন Q ( x , y )VSNxNNxNSUVMQ(x,y)উপরের ম্যাট্রিক্সে 10,000 টি উপাদান রয়েছে (যেমন এটি 100x100)। আমরা যখন এটিতে একটি এসভিডি সঞ্চালন করি তখন আমরা দেখতে পাই যে কেবলমাত্র একজোড়া একক ভেক্টরের একটি শূন্য-বিনা [* 2] রয়েছে, সুতরাং আমরা দুটি 100 এলিমেন্ট ভেক্টর (200 সহগের গুণফল) হিসাবে মূল ম্যাট্রিক্সটিকে পুনরায় উপস্থাপন করতে পারি but আপনি আসলে কিছুটা ভাল করতে পারেন [* 3])।

কিছু অ্যাপ্লিকেশনগুলির জন্য, আমরা জানি (বা কমপক্ষে ধরে নেওয়া) যে দরকারী তথ্য উচ্চ একবচনীয় মান (এসভিডি) বা লোডিংস (পিসিএ) সহ মূল উপাদানগুলি দ্বারা ক্যাপচার করা হয়। এই ক্ষেত্রে, আমরা একক ভেক্টর / ঘাঁটি / মূল উপাদানগুলি ছোট লোডিং সহ বাতিল করতে পারি যদিও তারা তাত্ত্বিকভাবে কোনও কার্যকর সংকেত না দিয়ে বিরক্তিকর শব্দ করে non আমি মাঝেমধ্যে দেখেছি লোকে লোড নির্বিশেষে লোকেরা তাদের আকারের উপর ভিত্তি করে নির্দিষ্ট উপাদানগুলি প্রত্যাখ্যান করে (যেমন, এটি অ্যাডিটিভ শোরের একটি পরিচিত উত্সের অনুরূপ)। আপনি এটিকে তথ্যের ক্ষতি হিসাবে বিবেচনা করবেন কিনা তা আমি নিশ্চিত নই।

পিসিএ-এর তথ্য-তাত্ত্বিক অনুকূলতা সম্পর্কে কিছু ঝরঝরে ফলাফল রয়েছে। যদি আপনার সিগন্যাল গাউসিয়ান হয় এবং অ্যাডিটিভ গাউসিয়ান শব্দের সাথে দূষিত হয়, তবে পিসিএ সিগন্যাল এবং এর মাত্রিকতা-হ্রাস সংস্করণের মধ্যে পারস্পরিক তথ্য সর্বাধিকতর করতে পারে (ধরে নেওয়া শব্দের একটি পরিচয়ের মতো সমবায় কাঠামো রয়েছে)।


পাদটিকা:

  1. এটি একটি চটকদার এবং সম্পূর্ণ অ-শারীরিক মডেল model দুঃখিত!
  2. ভাসমান পয়েন্ট অবজ্ঞানের কারণে, এর মধ্যে কয়েকটি মান পরিবর্তে বেশিরভাগ শূন্য হবে না।
  3. US

I(r)

r=(x2+y2)

1
ম্যাট, আমার প্রশ্নের সত্যিই এটির পরিমাণ: আপনি কোনও বিবরণ বা রেফারেন্স ছাড়াই আমাদের একটি ছবি দেখান এবং এটি "ডেটা" হিসাবে উল্লেখ করেন: আমি কীভাবে আপনি এটি ডেটা হিসাবে ভাবছেন তা জানতে চাই। আপনার মন্তব্যটি এই বিষয়টিকে বিভ্রান্ত করে, কারণ "তাপের মানচিত্র" উপস্থাপনাটি সাধারণত ডেটা হয় না তবে এটি ডেটা থেকে তৈরির কিছু। উদাহরণস্বরূপ, যদি সেগুলি অনিয়মিত 2 ডি পয়েন্টের ডেটা ছিল এবং আপনি যদি তাদের পক্ষে একটি মূলতর প্রতিসম ঘনত্ব মাপসই করেন, তবে আপনার যুক্তি অনুসারে ছবিটি দ্বি-মাত্রিক হিসাবে বিবেচনা করা যেতে পারে, তবে এটি ডেটার অবিরাম মাত্রিক হ্রাস হবে না ।
হোবল

1
সম্ভবত আমার পরিবর্তে 'গ্রিডড' বা 'রাস্টার' বলা উচিত ছিল। আমি এমন একটি পরিস্থিতিটি কল্পনা করছিলাম যেখানে গ্রিডে ডেটা সংগ্রহ করা হয় এবং প্রতিটি গ্রিড পয়েন্ট একটি (স্কেলার) মানের সাথে যুক্ত হয়, তবে মানগুলি কোনও (ফোটোগ্রাফিক) চিত্রের মতো হালকা তীব্রতা নয়। এটি বলেছিল, আমি স্পষ্টভাবে এই উত্তরটি দুলছি না - আমাকে আরও সুসংগত কিছুতে এটি সম্পাদনা করার চেষ্টা করুন!
ম্যাট ক্রাউস

2
+1: সম্পাদনাগুলি আপনার পয়েন্টগুলি আরও পরিষ্কার করে তোলে। অতিরিক্ত প্রচেষ্টা করার জন্য ধন্যবাদ!
শুক্র

4

আমি মনে করি আপনার প্রশ্নের পিছনে প্রশ্নটি "তথ্য কী করে?" এটি একটি ভাল প্রশ্ন।

ব্যাকরণ প্রযুক্তি:

পিসিএ সবসময় তথ্য হারিয়ে যায়? নাঃ। এটি কি কখনও কখনও তথ্য হারাতে পারে? Youbetcha। আপনি উপাদানগুলি থেকে মূল ডেটা পুনর্গঠন করতে পারেন। যদি এটি সর্বদা তথ্য হারিয়ে ফেলে তবে এটি সম্ভব হবে না।

এটি দরকারী কারণ আপনি যখন আপনার ডেটার মাত্রা হ্রাস করতে এটি ব্যবহার করেন তখন প্রায়শই গুরুত্বপূর্ণ তথ্য হারাবেন না। আপনি যখন ডেটা হারান এটি প্রায়শই উচ্চতর ফ্রিকোয়েন্সি ডেটা এবং প্রায়শই এটি কম গুরুত্বপূর্ণ। বড় আকারের, সাধারণ প্রবণতাগুলি বৃহত্তর ইগেনভ্যালুগুলির সাথে যুক্ত উপাদানগুলিতে ক্যাপচার করা হয়।


4

n×p

সর্বাধিক সরল ক্ষেত্রে, যদি একটি মাত্রা অন্যের রৈখিক সংমিশ্রণ হয়, কোনও তথ্য হারানো ছাড়াই একের সাহায্যে মাত্রা হ্রাস করা যায় - কারণ বাদ পড়া মাত্রাটি যদি প্রয়োজন থেকে থাকে তবে পুনরায় তৈরি করা যেতে পারে what

এই ত্রিমাত্রিক ক্ষেত্রে বিবেচনা করুন যেখানে x3 হল x1 এবং x2 এর সঠিক লিনিয়ার সংমিশ্রণ। মূল ডেটা চোখের সামনে থেকে স্পষ্ট নয়, যদিও এটি পরিষ্কার যে এক্স 3 অন্য দুটির সাথে সম্পর্কিত:

এখানে চিত্র বর্ণনা লিখুন

তবে যদি আমরা মূল উপাদানগুলি দেখি তবে তৃতীয়টি শূন্য (সংখ্যার ত্রুটির মধ্যে)।

এখানে চিত্র বর্ণনা লিখুন

প্রথম দুটি মূল উপাদানগুলির প্লটটি x2 এর বিপরীতে x1 এর প্লটের সমান, কেবল ঘোরানো (ঠিক আছে, আমি যেমন বোঝাতে চেয়েছি ঠিক তেমন নয়, আমি পরে আরও ভাল করে ব্যাখ্যা করার চেষ্টা করব) :

এখানে চিত্র বর্ণনা লিখুন

আমরা মাত্রাতিরিক্ত হারকে হ্রাস করেছি এখনও কোনও যুক্তিসঙ্গত সংজ্ঞা দিয়ে, সমস্ত তথ্য রেখেছি।

এটি লিনিয়ার মাত্রা-হ্রাস ছাড়িয়েও প্রসারিত হয়, যদিও স্বাভাবিকভাবে চিত্রিত করার জন্য আরও জটিল হয়। মুল বক্তব্যটি হ'ল সামগ্রিক উত্তরটি "না", যখন কিছু মাত্রা অন্যগুলির সংমিশ্রণের ফাংশন নয়।

আর কোড:

library(GGally)


n <- 10^3
dat <- data.frame(x1=runif(n, 0, 3), x2=rnorm(n))
dat$x3 <- with(dat, x1 + x2)

ggpairs(dat)

pc <- princomp(dat)
plot(pc)

par(mfrow=c(1,2))
with(dat, plot(dat$x1, dat$x2, col="red", main="Original data", bty="l"))
with(pc, plot(scores[,1], scores[,2], col="blue", main="Scores from principal components(\n(rotated)", bty="l"))
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.