প্রাক প্রসেসিং পদক্ষেপ হিসাবে এলডিএ ব্যবহার করার সময় বৈশিষ্ট্যগুলিকে মানক করা


9

যদি একটি বহু-শ্রেণীর লিনিয়ার বৈষম্য বিশ্লেষণ (বা আমি মাঝে মাঝে একাধিক বৈষম্য বিশ্লেষণও পড়ে থাকি) মাত্রা হ্রাস (বা পিসিএ মাধ্যমে মাত্রা হ্রাসের পরে রূপান্তর) ব্যবহার করা হয় তবে আমি বুঝতে পারি যে সাধারণভাবে একটি "জেড-স্কোর নরমালাইজেশন" (বা মানককরণ) বৈশিষ্ট্যগুলি প্রয়োজনীয় হবে না, এমনকি যদি সেগুলি সম্পূর্ণ ভিন্ন স্কেলের উপর পরিমাপ করা হয় তবে সঠিক? যেহেতু এলডিএতে মহালানোবিস দূরত্বের অনুরূপ একটি শব্দ রয়েছে যা ইতিমধ্যে স্বাভাবিক ইউক্লিডিয়ান দূরত্বকে বোঝায়?

সুতরাং এটি কেবল প্রয়োজনীয় হবে না, তবে মানসম্মত এবং মানহীন বৈশিষ্ট্যযুক্ত এলডিএর পরে ফলাফলগুলি একই রকম হওয়া উচিত !?


1
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scalesনা, এই বিবৃতিটি ভুল। এলডিএর সাথে মানককরণের বিষয়টি যে কোনও মাল্টিভারিয়েট পদ্ধতিতে একই। উদাহরণস্বরূপ, পিসিএ। সেই বিষয়টির সাথে মহালানোবিসের দূরত্বের কোনও যোগসূত্র নেই।
ttnphns

ধন্যবাদ, উদাহরণস্বরূপ, আপনি সম্ভবত পিসিএতে এই "প্রমিতকরণ সমস্যা" সম্পর্কে মন্তব্য করতে পারলে দুর্দান্ত হবে great যদি বৈশিষ্ট্যগুলি পিসিএর জন্য মানক না করা হয়, তবে কিছু বৈশিষ্ট্যগুলি যদি অন্য স্কেলকে পরিমাপ করা হয় এবং আমাকে সম্পূর্ণ আলাদা উপাদান অক্ষ দেয় তবে আরও বেশি অবদান রাখার (ওজনযুক্ত) কী না? এবং এলডিএর জন্য, এটি কেন প্রয়োজন হবে না? ফলাফল (লৈখিক বৈষম্যমূলক) আলাদা, যদি না হয় তবে কেন?

2
আপনি যখন মানক করবেন (অর্থাত্ কেন্দ্র, তারপর স্কেল) আপনি আসলে পারস্পরিক সম্পর্ক বিশ্লেষণ করবেন। আপনি যদি মানক না করেন তবে কেবলমাত্র কেন্দ্র, আপনি আসলে সমবায়ীয়দের বিশ্লেষণ করবেন। ফলাফলগুলি পৃথক হবে, যা স্বাভাবিক, কারণ এটি আপনার মত বিভিন্ন ডেটা নিয়ে কাজ করে। এই সত্য আপনাকে চিন্তিত করা উচিত নয়। আপনি থ্রেড stats.stackexchange.com/q/62677/3277 পড়তে উপভোগ করতে পারেন ।
ttnphns

2
@ সেবাস্তিয়ান রাশকা, অ্যামিবা: আমাকে অবশ্যই আমার মন্তব্যটি পুনর্বিবেচনা করতে হবে The issue of standardization with LDA is the same as in any multivariate method। প্রকৃতপক্ষে, এলডিএর সাথে (যেমন পিসিএর বিপরীতে) ফলাফলগুলি কেবলমাত্র কেন্দ্রিকভাবে হয়নি (এলডিএ অভ্যন্তরীণভাবে সর্বদা ভেরিয়েবলগুলি কেন্দ্র করে, বৈষম্যগুলি নিষ্কাশনের জন্য) বা ডেটা জেড-স্ট্যান্ডার্ড করা হয়েছে কিনা তা পৃথক হওয়া উচিত ।
ttnphns

2
(ধারাবাহিক) ইগেনভ্যালু, মানক সহগ, কাঠামোর পারস্পরিক সম্পর্ক, বৈষম্যমূলক স্কোর - সবকিছু একই হবে। শুধুমাত্র ইগেনভেেক্টর পৃথক হবে। এলডিএ-র মূল ফলাফলগুলিতে মানীকরণের কোনও প্রভাব না থাকার কারণটি হ'ল এলডিএ বিভেন -টু-ইনওয়ার-এর কোভেরিয়েন্সগুলির অনুপাতকে পচে যায় , এবং covariance নিজেই এর বিশালত্ব (পিসিএ যেমন করে না) করে না।
ttnphns

উত্তর:


13

এই উত্তরের কৃতিত্ব @ttnphns এর কাছে যায় যারা উপরের মন্তব্যে সমস্ত কিছু ব্যাখ্যা করেছেন। তবুও, আমি একটি বর্ধিত উত্তর দিতে চাই।

আপনার প্রশ্নের কাছে: মানক এবং অ-মানক বৈশিষ্ট্যগুলিতে এলডিএ ফলাফলগুলি কি ঠিক একই রকম হতে চলেছে? --- উত্তর হ্যাঁ । আমি প্রথমে একটি অনানুষ্ঠানিক যুক্তি দেব এবং তারপরে কিছু গণিত নিয়ে এগিয়ে যাব।

একটি বেলুনের একপাশে স্ক্র্যাটার প্লট হিসাবে দেখানো একটি 2 ডি ডেটাसेट কল্পনা করুন ( এখান থেকে তোলা আসল বেলুনের চিত্র ): একটি বালুনে এলডিএ

এখানে লাল বিন্দুগুলি একটি শ্রেণি, সবুজ বিন্দু অন্য শ্রেণি, এবং কালো রেখাটি এলডিএ শ্রেণির সীমানা। এখন বা অক্ষের উদ্ধার আনুভূমিক বা উল্লম্বভাবে বেলুনটিকে প্রসারিত করার সাথে মিলে যায়। এটি স্বজ্ঞাতভাবে পরিষ্কার যে যদিও কালো প্রান্তের slালু এ জাতীয় প্রসারিত হওয়ার পরে পরিবর্তিত হবে, ক্লাসগুলি আগের মতো ঠিক পৃথক হবে, এবং কালো রেখার আপেক্ষিক অবস্থান পরিবর্তন হবে না। প্রতিটি পরীক্ষার পর্যবেক্ষণ স্ট্রেচিংয়ের আগে একই ক্লাসে বরাদ্দ করা হবে। সুতরাং যে কেউ বলতে পারেন যে প্রসারিত করা এলডিএর ফলাফলগুলিকে প্রভাবিত করে না।xy


এখন, গাণিতিকভাবে, এলডিএ th of , যেখানে এবং এর মধ্যে-এবং শ্রেণির মধ্যে রয়েছে তার গণনা করে বৈষম্যমূলক অক্ষের একটি সেট খুঁজে পেয়েছে স্ক্যাটার ম্যাট্রিক্স। সমতুল্যভাবে, এই সাধারণ eigenvalue সমস্যার eigenvectors সাধারণ করছে ।W1BWBBv=λWv

একটি কেন্দ্রিক তথ্য ম্যাট্রিক্স বিবেচনা করুন কলাম এবং সারি ডাটা পয়েন্ট ভেরিয়েবল সঙ্গে, যাতে মোট ছিটান ম্যাট্রিক্স দেওয়া হয় । Standard of এর প্রতিটি কলামকে একটি নির্দিষ্ট সংখ্যার মাধ্যমে স্কেল করার সমান ডেটা অর্থ, it যেখানে স্কেলিং সহগের (প্রতিটি কলামের স্ট্যান্ডার্ড বিচ্যুতিগুলির বিপরীতমুখী) সহ তির্যক ম্যাট্রিক্স। এই জাতীয় পুনরুদ্ধারের পরে স্ক্যাটার ম্যাট্রিক্স নীচে পরিবর্তিত হবে: এবং একই রূপান্তর ঘটবেXT=XXXXnew=XΛΛTnew=ΛTΛWnew এবং ।Bnew

আসুন problem the আসল সমস্যার আইজেনভেেক্টর হয়ে যাক ,যদি আমরা এই সমীকরণটি বাম দিকে দিয়ে গুন করি এবং before এর আগে উভয় পক্ষের সন্নিবেশ করি, আমরা ie যার অর্থv

Bv=λWv.
ΛΛΛ1v
ΛBΛΛ1v=λΛWΛΛ1v,
BnewΛ1v=λWnewΛ1v,
Λ1vআগের মতো ঠিক একই ইগন্যালভ ল্যাম্বদা দিয়ে উদ্ধার করার পরে একটি আইজেনভেেক্টর ।λ

সুতরাং বৈষম্যমূলক অক্ষগুলি (আইজেনভেেক্টর দ্বারা প্রদত্ত) পরিবর্তিত হবে, তবে এর ইগেনুয়ালুও, এটি দেখায় যে ক্লাসগুলি কতটা পৃথক করা হয়েছে, ঠিক একই থাকবে। তদুপরি, এই অক্ষটি সম্পর্কে প্রক্ষেপণ, যা মূলত by দিয়েছিল, এখন given দ্বারা দেওয়া হবে) , ঠিক একই থাকবে (সম্ভবত কোনও স্কেলিং ফ্যাক্টর পর্যন্ত)।XvXΛ(Λ1v)=Xv


2
+1 টি। পুরো গল্পটির "নৈতিক" হ'ল একমাত্র কেন্দ্রিক ডেটা এবং মানকযুক্ত ডেটা বিএফ মধ্যে পার্থক্য পুরোপুরি ইগেনভেেক্টরগুলিতে বিভ্রান্ত হয়। সুতরাং বৈষম্যমূলক স্কোর তৈরি করতে যখন ডেটাটি সম্পর্কিত ইগেনভেেক্টরগুলি দ্বারা গুণিত হয়, তখন মানককরণের প্রভাবটি বাতিল হয়ে যায়। XXΛΛ
ttnphns
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.