ঝকঝকে সবসময় কি ভাল?


27

মেশিন লার্নিং অ্যালগরিদমগুলির জন্য একটি সাধারণ প্রাক প্রসেসিং পদক্ষেপ হ'ল ডেটা সাদা করা ening

দেখে মনে হচ্ছে হোয়াইটিং করা সবসময় ভাল কারণ এটি ডেটা-সংযুক্ত করে মডেলটিকে সহজ করে তোলে।

হোয়াইটেনিং করার প্রস্তাব কখন দেওয়া হয় না?

দ্রষ্টব্য: আমি ডেটার ডি-পারস্পরিক সম্পর্ক উল্লেখ করছি।


1
আপনি সাদা করার জন্য রেফারেন্স দিতে পারেন?
আতিলা ওজগুর

2
আমি মনে করি এই থ্রেডটি একটি স্টাব। এটি সত্যই প্রসারিত করা উচিত। - - বর্তমানে গৃহীত উত্তরের তথ্যের এত সামান্য অংশ রয়েছে। - - আমি এটি গ্রহণ না করে এখানে একটি অনুগ্রহ খুলব।
লিও লোপোল্ড হার্টজ 준영

আপনার প্রশ্নটি সেখানে "সর্বদা" থাকার কারণে পক্ষপাতদুষ্ট। অবশ্যই, সাদা করা সবসময় ভাল হয় না। এছাড়াও, ধবধবে প্রকারের সংজ্ঞা দিন। আমি মনে করি এটি এখানে এতটা গঠনমূলক উত্তর নয় itself - - ব্যবহার করতে হবে ধরণের ডেটা সংজ্ঞায়িত করুন। - - আমি মনে করি আরও ভাল প্রশ্ন হতে পারে আপনি এই সুন্দর যথেষ্ট ডেটাতে এই সাদা রঙের প্রয়োগকে কীভাবে উন্নত করতে পারেন? । - - @AtillaOzgur এক উৎস en.wikipedia.org/wiki/Whitening_transformation যদি দাঁত মৌলিক রূপান্তর বিবেচনা করা হয়।
লিও লোপল্ড হার্টজ 준영

উত্তর:


13

প্রাক-হোয়াইটেনিং হ'ল বৈশিষ্ট্য স্বাভাবিককরণের একটি সাধারণীকরণ, যা রূপান্তরিত ইনপুট কোভারিয়েন্স ম্যাট্রিক্সের বিপরীতে রূপান্তর করে ইনপুটটিকে স্বাধীন করে তোলে। কেন এটি খারাপ জিনিস হতে পারে তা আমি দেখতে পাচ্ছি না।

যাইহোক, একটি দ্রুত অনুসন্ধানে "আবহাওয়ার রাডার এর পারফরম্যান্স উন্নত করার জন্য ডেটা হোয়াইটেনিংয়ের সম্ভাব্যতা" প্রকাশিত হয়েছে ( পিডিএফ ) যা লেখা হয়েছে:

বিশেষত, শুভ্রকরণ ক্ষয়কারী এসিএফের ক্ষেত্রে ভাল কাজ করেছে (যা মোনাকভের ফলাফলের সাথে একমত) তবে গাউসির ক্ষেত্রে এর চেয়ে কম ফল হয়েছে। সংখ্যাসূচক পরীক্ষার পরে, আমরা দেখতে পেলাম যে গাউসি মামলাটি সংখ্যার দিক থেকে অসুস্থ এই অর্থে যে কন্ডিশন সংখ্যা (সর্বাধিকের সাথে ন্যূনতম ইজেনভ্যালু অনুপাত) গাউসিয়ান কোভারিয়েন্স ম্যাট্রিক্সের জন্য অত্যন্ত বড় is

আমি এ বিষয়ে মন্তব্য করার মতো যথেষ্ট শিক্ষিত নই। হতে পারে আপনার প্রশ্নের উত্তর হ'ল হোয়াইটেনিং সবসময় ভাল তবে কিছু গ্যাটাচ রয়েছে (উদাহরণস্বরূপ, এলোমেলো ডেটা সহ গাউসিয়ান অটোকোরেলিকেশন ফাংশনের মাধ্যমে করা ভাল হয় না)।


2
যেমনটা আমি বুঝতে পেরেছি, কোভেরিয়েন্স ম্যাট্রিক্সটি যদি ভালভাবে অনুমান করা হয় তবে এটি ভাল কাজ করে। কেউ এই সম্পর্কে মন্তব্য করতে পারেন? ধন্যবাদ।
রান

3
উপরের উদ্ধৃতিটি খুব খারাপভাবে অনুমান করা কোভেরিয়েন্স ম্যাট্রিক্সের কথা উল্লেখ করছে না (যদিও এটি সমস্যাযুক্তও হবে)। এটি বলছে যে নিখুঁতভাবে নির্দিষ্ট কোভারিয়েন্স ম্যাট্রিক্সের জন্য প্রয়োজনীয় ফ্যাক্টরিয়েশন (এবং সম্পর্কিত ডেটা ট্রান্সফর্মেশন) সঠিকভাবে সম্পাদন করা এখনও কঠিন হতে পারে। এটি সংখ্যার অসুস্থ-কন্ডিশনার কারণে , যার অর্থ সসীম-নির্ভুলতা রাউন্ডঅফ ত্রুটিগুলি গণনাগুলিকে দূষিত করে।
GeoMatt22

2
এটি অপর্যাপ্ত উত্তর। এটি বেশিরভাগ ক্ষেত্রে সম্পর্কিত নয় এমন কপিরাইট করেছে। - - এই উত্তরটি সত্যই প্রসারিত করা উচিত। এটি একগুঁয়ে
লিও লোপোল্ড হার্টজ 준영

20

প্রথমত, আমি মনে করি যে ডি-সংযুক্তি এবং সাদা করা দুটি পৃথক প্রক্রিয়া।

ডেটা-সম্পর্কিত করতে, আমাদের এটিকে রূপান্তর করতে হবে যাতে রূপান্তরিত ডেটার একটি তির্যক সমবায় ম্যাট্রিক্স থাকে ri এই রূপান্তরটি ইগেনুয়ালু সমস্যা সমাধানের মাধ্যমে পাওয়া যাবে। আমরা eigenvectors এবং যুক্ত eigenvalues এটি সহভেদাংক ম্যাট্রিক্স সমাধান করেΣ=এক্সএক্স'

ΣΦ=ΦΛ

কোথায় হ'ল একটি তির্যক ম্যাট্রিক্স যার সাথে ইগেনভ্যালুগুলি তার তির্যক উপাদান হিসাবে রয়েছে।Λ

ম্যাট্রিক্স এভাবে এক্সের কোভেরিয়েন্স ম্যাট্রিক্সকে তির্যক করে । এর কলামগুলিΦX সহভেদাংক ম্যাট্রিক্স eigenvectors হয়।Φ

আমরা ত্রিভুজযুক্ত সমবায়ু লিখতে পারি:

(1)ΦΣΦ=Λ

সুতরাং একটি একক ভেক্টর ডি-কোলেক্টেট করতে xi , আমরা একটি করুন:

(2)xi=Φxi

Dia মধ্যে তির্যক উপাদান (ইগেনভ্যালু) Λ একই বা ভিন্ন হতে পারে। যদি আমরা সেগুলি একই করে রাখি, তবে এটিকে ডেটা হোয়াইটেনিং বলা হয়। যেহেতু প্রতিটি ইগেনভ্যালু তার সম্পর্কিত ইয়েগেনেক্টরের দৈর্ঘ্য নির্ধারণ করে, তাই ডেটা সাদা করার সময় কোভারিয়েন্স একটি উপবৃত্তির সাথে এবং যখন গোলাকৃত হয় তখন একটি গোলকের সাথে (সমস্ত মাত্রা একই দৈর্ঘ্য, বা ইউনিফর্মের সাথে) মিলিত হয় the হোয়াইটেনিং নিম্নলিখিত হিসাবে সম্পাদিত হয়:

Λ1/2ΛΛ1/2=আমি

সমানভাবে, ( 1 ) এ প্রতিস্থাপন(1) আমরা লিখি:

Λ1/2ΦΣΦΛ1/2=I

সুতরাং, আবেদন করতে এই সাদা করার রুপান্তর কেবল সংখ্যাবৃদ্ধি এটা আমরা এই স্কেল ফ্যাক্টর দ্বারা, সাদা ডাটা পয়েন্ট প্রাপ্তির এক্স আমি :xixi

(3)xi=Λ1/2xi=Λ1/2Φxi

এখন কোভ্যারিয়েন্স না শুধুমাত্র তির্যক, কিন্তু অভিন্ন (সাদা), যেহেতু কোভ্যারিয়েন্স এক্স আমি , ( এক্স আমি এক্স আমি ' ) = আমিxixiE(xixi)=I

এর থেকে অনুসরণ করে, আমি দুটি ক্ষেত্রে দেখতে পাচ্ছি যেখানে এটি কার্যকর নাও হতে পারে। প্রথমটি বরং তুচ্ছ, এটি ঘটতে পারে যে ডেটা উদাহরণগুলির স্কেলিং আপনি যে অনুমিতি সমস্যাটি দেখছেন তাতে কোনওভাবে গুরুত্বপূর্ণ। অবশ্যই আপনি এই চারপাশের পেতে অতিরিক্ত বৈশিষ্ট্যগুলির সেট হিসাবে ইগেনভ্যালুগুলি করতে পারেন। দ্বিতীয়টি একটি গণনামূলক সমস্যা: প্রথমত আপনাকে কোভারিয়েন্স ম্যাট্রিক্স গণনা করতে হবে, যা মেমরির সাথে ফিট করার জন্য খুব বড় হতে পারে (যদি আপনার কয়েক হাজার বৈশিষ্ট্য থাকে) বা গণনা করতে খুব বেশি সময় নিতে পারে; দ্বিতীয়ত, ইগেনুয়ালু পচন হ'ল ও (এন ^ 3) অনুশীলনে, যা আবার বিশাল সংখ্যক বৈশিষ্ট্য সহ বেশ ভয়ঙ্কর।Σ

এবং অবশেষে, একটি সাধারণ "গোটচা" রয়েছে যা লোকদের যত্নবান হওয়া উচিত। আপনাকে অবশ্যই প্রশিক্ষণের ডেটাতে স্কেলিংয়ের কারণগুলি গণনা করার বিষয়ে সতর্ক হতে হবে এবং তারপরে আপনি পরীক্ষার ডেটাতে একই স্কেলিং উপাদান প্রয়োগ করতে সমীকরণ (2) এবং (3) ব্যবহার করেন, অন্যথায় আপনি অতিরিক্ত ফিট হওয়ার ঝুঁকিতে আছেন (আপনি ব্যবহার করছেন প্রশিক্ষণ প্রক্রিয়া পরীক্ষার সেট থেকে তথ্য)।

সূত্র: http://courses.media.mit.edu/2010fall/mas622j/ whiten.pdf


2
স্পষ্টতার জন্য ধন্যবাদ, আপনি ঠিক বলেছেন। আমি ডি-সংযুক্তি উল্লেখ করছি। বিটিডাব্লু: শেষে আপনি লিখবেন যে সাদা রঙের কাজটি কেবল প্রশিক্ষণের ডেটাতে করা হয়। যতদূর আমি জানি, আপনি প্রশিক্ষণের ডেটা থেকে ম্যাট্রিক্সটি গণনা করেন তবে আপনি এটি প্রশিক্ষণ এবং পরীক্ষার ডেটা উভয় ক্ষেত্রেই সম্পাদন করেন।
রান

@ রান হ্যাঁ এটাই আমার অর্থ ... আমি উত্তরটি আপডেট করব
tdc

আপনার উত্তরের অংশগুলিও অফার করতে পারলে ভাল লাগবে। একটি ভূমিকা, একটি সংক্ষিপ্তসার এবং গণিত জিনিস আছে। - - আমি মনে করি আপনি আপনার উত্তরের গভীরভাবে যান না। - - আপনার উত্তরটি বেশিরভাগ ক্ষেত্রে তুচ্ছ প্রস্তাবগুলি কভার করে তবে বিষয়টিতে গভীরভাবে যায় না। বক্তৃতা নোটগুলি থেকে আপনার কাছে কেবলমাত্র অনুলিপি-পেস্ট করা উপাদান রয়েছে তবে বিষয়টির জন্য খুব কম নিজস্ব কাজ রয়েছে।
লিও লোপোল্ড হার্টজ 준영

সুতরাং সহজ কথায়, ডি-কোলেস্টেড বৈশিষ্ট্যগুলি পাওয়ার জন্য পিসিএ করুন এবং তারপরে সাদা বৈশিষ্ট্যগুলি পাওয়ার জন্য বৈকল্পিক দ্বারা ভাগ করে নতুন বৈশিষ্ট্যটি পূর্বাভাস করুন।
অ্যাভোকাডো

1

Http://cs231n.github.io/neura-networks-2/ থেকে

এই রূপান্তরটির একটি দুর্বলতা হ'ল এটি উপাত্তে গোলমালকে অত্যুক্তি করতে পারে, যেহেতু এটি ইনপুটটিতে সমান আকারের হওয়ার জন্য সমস্ত মাত্রা (ছোট আকারের অপ্রাসঙ্গিক মাত্রা যা বেশিরভাগ শব্দ) সহ প্রসারিত করে। এটি কার্যকরভাবে শক্তিশালী স্মুথিং দ্বারা প্রশমিত করা যেতে পারে ...

দুর্ভাগ্যক্রমে আমি এ বিষয়ে আরও মন্তব্য করার মতো পর্যাপ্ত শিক্ষিত নই।


দয়া করে শোনান কোন ধরণের অতিরঞ্জিত তা উল্লেখ করুন। আপনার রেফারেন্স কঠোর। এটি বিষয় সম্পর্কে কেবল প্রাথমিক কম্পিউটার বিজ্ঞান, যেমন একটি প্রাচীন স্নায়বিক নেটওয়ার্ক পদ্ধতির সাথে সাদা গোলমাল। - - কাজের অত্যুক্তি সংজ্ঞায়িত করা উচিত।
লিও লোপোল্ড হার্টজ 준영

আমার কাছে মনে হচ্ছে এটি ঠিক একই বৈশিষ্ট্যটির জন্য সমস্ত বৈশিষ্ট্যের স্কেলিংয়ের সাথে সম্পর্কিত? সুতরাং যদি এমন কোনও বৈশিষ্ট্য থাকে যার প্রশিক্ষণের সেটটির বৈকল্পিক শব্দ ছিল, তবে আমরা আশা করতে পারি যে এই বৈশিষ্ট্যের সামগ্রিক বৈকল্পিকতা অন্য বৈশিষ্ট্যের তুলনায় অনেক ছোট হবে; এই রূপান্তরটি "শব্দ" বৈশিষ্ট্য এবং অন্যান্য বৈশিষ্ট্য উভয়েরই একই রকমের হতে পারে এবং এটি "প্রশস্তকরণ শব্দ" হিসাবে দেখা যেতে পারে।
আইজোসেফ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.