প্রথমত, আমি মনে করি যে ডি-সংযুক্তি এবং সাদা করা দুটি পৃথক প্রক্রিয়া।
ডেটা-সম্পর্কিত করতে, আমাদের এটিকে রূপান্তর করতে হবে যাতে রূপান্তরিত ডেটার একটি তির্যক সমবায় ম্যাট্রিক্স থাকে ri এই রূপান্তরটি ইগেনুয়ালু সমস্যা সমাধানের মাধ্যমে পাওয়া যাবে। আমরা eigenvectors এবং যুক্ত eigenvalues এটি সহভেদাংক ম্যাট্রিক্স সমাধান করেΣ = এক্স এক্স'
Σ Φ = Φ Λ
কোথায় হ'ল একটি তির্যক ম্যাট্রিক্স যার সাথে ইগেনভ্যালুগুলি তার তির্যক উপাদান হিসাবে রয়েছে।Λ
ম্যাট্রিক্স এভাবে এক্সের কোভেরিয়েন্স ম্যাট্রিক্সকে তির্যক করে । এর কলামগুলিΦX সহভেদাংক ম্যাট্রিক্স eigenvectors হয়।Φ
আমরা ত্রিভুজযুক্ত সমবায়ু লিখতে পারি:
Φ′ΣΦ=Λ(1)
সুতরাং একটি একক ভেক্টর ডি-কোলেক্টেট করতে xi , আমরা একটি করুন:
x∗i=Φ′xi(2)
Dia মধ্যে তির্যক উপাদান (ইগেনভ্যালু) Λ একই বা ভিন্ন হতে পারে। যদি আমরা সেগুলি একই করে রাখি, তবে এটিকে ডেটা হোয়াইটেনিং বলা হয়। যেহেতু প্রতিটি ইগেনভ্যালু তার সম্পর্কিত ইয়েগেনেক্টরের দৈর্ঘ্য নির্ধারণ করে, তাই ডেটা সাদা করার সময় কোভারিয়েন্স একটি উপবৃত্তির সাথে এবং যখন গোলাকৃত হয় তখন একটি গোলকের সাথে (সমস্ত মাত্রা একই দৈর্ঘ্য, বা ইউনিফর্মের সাথে) মিলিত হয় the হোয়াইটেনিং নিম্নলিখিত হিসাবে সম্পাদিত হয়:
Λ−1/2ΛΛ−1/2=I
সমানভাবে, ( 1 ) এ প্রতিস্থাপন(1) আমরা লিখি:
Λ−1/2Φ′ΣΦΛ−1/2=I
সুতরাং, আবেদন করতে এই সাদা করার রুপান্তর কেবল সংখ্যাবৃদ্ধি এটা আমরা এই স্কেল ফ্যাক্টর দ্বারা, সাদা ডাটা পয়েন্ট প্রাপ্তির এক্স † আমি :x∗ix†i
x†i=Λ−1/2x∗i=Λ−1/2Φ′xi(3)
এখন কোভ্যারিয়েন্স না শুধুমাত্র তির্যক, কিন্তু অভিন্ন (সাদা), যেহেতু কোভ্যারিয়েন্স এক্স † আমি , ই ( এক্স † আমি এক্স † আমি ' ) = আমি ।x†ix†iE(x†ix†i′)=I
এর থেকে অনুসরণ করে, আমি দুটি ক্ষেত্রে দেখতে পাচ্ছি যেখানে এটি কার্যকর নাও হতে পারে। প্রথমটি বরং তুচ্ছ, এটি ঘটতে পারে যে ডেটা উদাহরণগুলির স্কেলিং আপনি যে অনুমিতি সমস্যাটি দেখছেন তাতে কোনওভাবে গুরুত্বপূর্ণ। অবশ্যই আপনি এই চারপাশের পেতে অতিরিক্ত বৈশিষ্ট্যগুলির সেট হিসাবে ইগেনভ্যালুগুলি করতে পারেন। দ্বিতীয়টি একটি গণনামূলক সমস্যা: প্রথমত আপনাকে কোভারিয়েন্স ম্যাট্রিক্স গণনা করতে হবে, যা মেমরির সাথে ফিট করার জন্য খুব বড় হতে পারে (যদি আপনার কয়েক হাজার বৈশিষ্ট্য থাকে) বা গণনা করতে খুব বেশি সময় নিতে পারে; দ্বিতীয়ত, ইগেনুয়ালু পচন হ'ল ও (এন ^ 3) অনুশীলনে, যা আবার বিশাল সংখ্যক বৈশিষ্ট্য সহ বেশ ভয়ঙ্কর।Σ
এবং অবশেষে, একটি সাধারণ "গোটচা" রয়েছে যা লোকদের যত্নবান হওয়া উচিত। আপনাকে অবশ্যই প্রশিক্ষণের ডেটাতে স্কেলিংয়ের কারণগুলি গণনা করার বিষয়ে সতর্ক হতে হবে এবং তারপরে আপনি পরীক্ষার ডেটাতে একই স্কেলিং উপাদান প্রয়োগ করতে সমীকরণ (2) এবং (3) ব্যবহার করেন, অন্যথায় আপনি অতিরিক্ত ফিট হওয়ার ঝুঁকিতে আছেন (আপনি ব্যবহার করছেন প্রশিক্ষণ প্রক্রিয়া পরীক্ষার সেট থেকে তথ্য)।
সূত্র: http://courses.media.mit.edu/2010fall/mas622j/ whiten.pdf