মাত্রা হ্রাস সর্বদা তথ্য হারাবে না । কিছু ক্ষেত্রে, কোনও তথ্য বর্জন না করে নিম্ন-মাত্রিক জায়গাগুলিতে ডেটাটিকে পুনরায় উপস্থাপন করা সম্ভব।
ধরুন আপনার কাছে এমন কিছু ডেটা রয়েছে যেখানে প্রতিটি মাপা মান দুটি অর্ডারযুক্ত কোভেরিয়ের সাথে যুক্ত। উদাহরণস্বরূপ, ধরুন আপনি কিছু ইমিটারের সাথে সম্পর্কিত x এবং y পজিশনের ঘন গ্রিডে সিগন্যালের গুণমান (রঙ সাদা = ভাল, কালো = খারাপ) দ্বারা পরিমাপ করেছেন । সেক্ষেত্রে আপনার ডেটা বাম-হাতের প্লট [* 1] এর মতো দেখতে লাগবে:প্রশ্নঃএক্সY
এটি, অন্তত পৃষ্ঠের দিক থেকে, একটি দ্বি মাত্রিক তথ্য: । তবে, আমরা কোনও প্রাইরি জানতে পারি (অন্তর্নিহিত পদার্থবিজ্ঞানের উপর ভিত্তি করে) বা ধরে নিতে পারি যে এটি কেবলমাত্র উত্স থেকে দূরত্বের উপর নির্ভর করে: r = √প্রশ্ন ( x , y)) । (কিছু গবেষণামূলক বিশ্লেষণ আপনাকে অন্তর্নিহিত ঘটনাটি ভালভাবে না বোঝার পরেও এই সিদ্ধান্তে নিয়ে যেতে পারে)। এরপরে আমরাQ(x,y)এর পরিবর্তেআমাদের ডেটাQ(r)হিসাবে পুনরায় লিখতে পারি, যা কার্যকরভাবে মাত্রাটিকে একক মাত্রায় হ্রাস করে। স্পষ্টতই, এটি কেবলমাত্র নিঃসংশয় যদি ডেটা রেডিয়ালি সংশ্লেষিত হয় তবে এটি অনেকগুলি শারীরিক ঘটনার জন্য যুক্তিসঙ্গত ধারণা।এক্স2+ y2------√প্রশ্ন ( আর )প্রশ্ন ( x , y))
এই রূপান্তর অ-রৈখিক (এখানে একটি বর্গমূল এবং দুটি স্কোয়ার রয়েছে!), সুতরাং এটি পিসিএ দ্বারা সম্পাদিত মাত্রিকতা হ্রাসের ধরণের থেকে কিছুটা আলাদা, তবে আমি মনে করি এটি একটি দুর্দান্ত উদাহরণ think কোনও তথ্য না হারিয়ে আপনি কীভাবে মাঝে মাঝে একটি মাত্রা সরিয়ে ফেলতে পারেন ofপ্রশ্ন ( x , y)) → প্রশ্ন ( আর )
অন্য উদাহরণের জন্য, ধরুন আপনি কিছু ডেটাতে একক মান ভলন সম্পাদন করেন (এসভিডি একটি ঘনিষ্ঠ কাজিন - এবং প্রায়শই - মূল উপাদানগুলির বিশ্লেষণের অন্তর্নিহিত সাহস)। এসভিডি আপনার ডেটা ম্যাট্রিক্স এবং এটি এম = ইউ এস ভি টি- তে তিনটি ম্যাট্রিকগুলিতে ফ্যাক্টর করে । ইউ এবং ভি এর কলামগুলি যথাক্রমে বাম এবং ডান একক ভেক্টর যা এম এর জন্য orthonormal বেসগুলির একটি সেট গঠন করে । তির্যক উপাদান এস (অর্থাত, S আমি , আমি ) একবচন মূল্যবোধ, যা কার্যকরভাবে উপর ওজন হয় আমি তম ভিত্তি সংশ্লিষ্ট কলাম দ্বারা গঠিত সেট ইউ এবংএমএম= ইউএসভীটিএমএসএসi , i)আমিইউ ( এস এর বাকিঅংশগুলি শূন্য) os নিজেই, এটি আপনাকে কোনও মাত্রিক হ্রাস দেয় না (প্রকৃতপক্ষে, আপনি যেএকক এন এক্স এন ম্যাট্রিক্স দিয়ে শুরু করেছেনতার পরিবর্তেএখন 3 এন এক্স এন ম্যাট্রিকরয়েছে)। তবে, কখনও কখনও এস এরকিছু তির্যক উপাদানশূন্য হয়। এর অর্থ হ'ল ইউ এবং ভি এরসাথে সম্পর্কিত ঘাঁটিগুলি এম পুনর্গঠনের প্রয়োজন হয় নাএবং তাই সেগুলি ফেলে দেওয়া যেতে পারে। উদাহরণস্বরূপ, ধরুন Q ( x , y )ভীএসএনx এনএনx এনএসইউভীএমপ্রশ্ন ( x , y))উপরের ম্যাট্রিক্সে 10,000 টি উপাদান রয়েছে (যেমন এটি 100x100)। আমরা যখন এটিতে একটি এসভিডি সঞ্চালন করি তখন আমরা দেখতে পাই যে কেবলমাত্র একজোড়া একক ভেক্টরের একটি শূন্য-বিনা [* 2] রয়েছে, সুতরাং আমরা দুটি 100 এলিমেন্ট ভেক্টর (200 সহগের গুণফল) হিসাবে মূল ম্যাট্রিক্সটিকে পুনরায় উপস্থাপন করতে পারি but আপনি আসলে কিছুটা ভাল করতে পারেন [* 3])।
কিছু অ্যাপ্লিকেশনগুলির জন্য, আমরা জানি (বা কমপক্ষে ধরে নেওয়া) যে দরকারী তথ্য উচ্চ একবচনীয় মান (এসভিডি) বা লোডিংস (পিসিএ) সহ মূল উপাদানগুলি দ্বারা ক্যাপচার করা হয়। এই ক্ষেত্রে, আমরা একক ভেক্টর / ঘাঁটি / মূল উপাদানগুলি ছোট লোডিং সহ বাতিল করতে পারি যদিও তারা তাত্ত্বিকভাবে কোনও কার্যকর সংকেত না দিয়ে বিরক্তিকর শব্দ করে non আমি মাঝেমধ্যে দেখেছি লোকে লোড নির্বিশেষে লোকেরা তাদের আকারের উপর ভিত্তি করে নির্দিষ্ট উপাদানগুলি প্রত্যাখ্যান করে (যেমন, এটি অ্যাডিটিভ শোরের একটি পরিচিত উত্সের অনুরূপ)। আপনি এটিকে তথ্যের ক্ষতি হিসাবে বিবেচনা করবেন কিনা তা আমি নিশ্চিত নই।
পিসিএ-এর তথ্য-তাত্ত্বিক অনুকূলতা সম্পর্কে কিছু ঝরঝরে ফলাফল রয়েছে। যদি আপনার সিগন্যাল গাউসিয়ান হয় এবং অ্যাডিটিভ গাউসিয়ান শব্দের সাথে দূষিত হয়, তবে পিসিএ সিগন্যাল এবং এর মাত্রিকতা-হ্রাস সংস্করণের মধ্যে পারস্পরিক তথ্য সর্বাধিকতর করতে পারে (ধরে নেওয়া শব্দের একটি পরিচয়ের মতো সমবায় কাঠামো রয়েছে)।
পাদটিকা:
- এটি একটি চটকদার এবং সম্পূর্ণ অ-শারীরিক মডেল model দুঃখিত!
- ভাসমান পয়েন্ট অবজ্ঞানের কারণে, এর মধ্যে কয়েকটি মান পরিবর্তে বেশিরভাগ শূন্য হবে না।
- ইউএস