এটি পিসিএ এবং এলডিএকে একত্রিত করার জন্য কি বোধগম্য?


25

ধরুন আমার কাছে তত্ত্বাবধানের পরিসংখ্যান শ্রেণিবদ্ধকরণের জন্য একটি ডেটাসেট রয়েছে, যেমন, কোনও বয়েসের শ্রেণিবদ্ধের মাধ্যমে। এই ডেটাসেটে 20 টি বৈশিষ্ট্য রয়েছে এবং আমি প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস (পিসিএ) এবং / অথবা লিনিয়ার ডিসক্রিমেন্ট্যান্ট অ্যানালাইসিস (এলডিএ) এর মতো মাত্রিক হ্রাস কৌশলগুলির মাধ্যমে এটি 2 টি বৈশিষ্ট্যে সিদ্ধ করতে চাই।

উভয় কৌশলই ডেটাটিকে একটি ছোট বৈশিষ্ট্য উপস্থানে প্রজেক্ট করছে: পিসিএ দিয়ে আমি সেই দিকনির্দেশগুলি (উপাদানগুলি) খুঁজে পাই যা ডেটাসেটের (শ্রেণীর লেবেলগুলি বিবেচনা না করে) সর্বাধিকতর করে রাখে, এবং এলডিএর সাথে আমার এমন উপাদানগুলি থাকে যেগুলি মধ্যে সর্বাধিকতর করে দেয় ক্লাস বিচ্ছেদ।

এখন, আমি ভাবছি যে, কীভাবে, এবং কেন এই কৌশলগুলি একত্রিত করা যায় এবং যদি তা বোঝা যায়।

উদাহরণ স্বরূপ:

  1. পিসিএর মাধ্যমে ডেটাसेटকে রূপান্তর করা এবং এটি একটি নতুন 2 ডি সাবসপেসে প্রজেক্ট করা
  2. সর্বাধিকের জন্য এলডিএর মাধ্যমে ডেটাসেট রূপান্তর (ইতিমধ্যে পিসিএ-রূপান্তরিত) ক্লাস বিচ্ছেদ

অথবা

  1. পিসিএ পদক্ষেপ এড়ানো এবং একটি এলডিএ থেকে শীর্ষ 2 উপাদান ব্যবহার করা।

বা অন্য যে কোনও সংমিশ্রণটি বোধগম্য হয়।


2
কোন সর্বজনীন হতে পারে best practice। পিসিএ এবং এলডিএ, মাত্রিকতা হ্রাস কৌশল হিসাবে খুব আলাদা। কখনও কখনও লোকেরা এলডিএর পূর্বে পিসিএ করে তবে এটির (ঝুঁকিপূর্ণ পিসিগুলির সাথে) গুরুত্বপূর্ণ বৈষম্যমূলক দিকগুলি ফেলে দেওয়ার ঝুঁকি রয়েছে। আপনি যে প্রশ্নটি জিজ্ঞাসা করছেন তা আসলে এই সাইটে বেশ কয়েকটি রূপে জিজ্ঞাসা করা হয়েছে। লোকেরা এতে কী বলেছে তা জানতে দয়া করে "পিসিএ এলডিএ" অনুসন্ধান করুন।
ttnphns

@ সেবাস্তিয়ানআরশকা: আমি ভাবছি যে আমার উত্তরটি এখানে কার্যকর ছিল কিনা, বা এই বিষয়গুলি নিয়ে আপনার আরও কোনও প্রশ্ন রয়েছে?
অ্যামিবা বলেছেন মনিকাকে

@ অ্যামিবা দুঃখিত, এখন অবধি উত্তরটি দেখতে পেলেন না - কোনওরকমে এটি অবশ্যই ফাটলের মধ্য দিয়ে পিছলে গেছে, আপনাকে ধন্যবাদ!

উত্তর:


44

সংক্ষিপ্তসার: সমস্যা নিয়মিত করতে এবং অতিরিক্ত-ফিটিং এড়াতে এলডিএর আগে পিসিএ করা যায়।

স্মরণ করুন যে এলডিএ অনুমানগুলি সিগমা_বি এর ইজেনডিকোপজিশনের মাধ্যমে গণনা করা হয় , যেখানে এবং এর মধ্যে এবং শ্রেণির কোভেরিয়েন্সের মধ্যে রয়েছে। যদি চেয়ে কম ডাটা পয়েন্ট থাকে (যেখানে আপনার স্পেসের মাত্রিকতা, যেমন বৈশিষ্ট্যগুলি / ভেরিয়েবলের সংখ্যা হয়), তবে একবচন হবে এবং তাই উল্টানো যাবে না। এই ক্ষেত্রে সরাসরি এলডিএ করার কোনও উপায় নেই, তবে যদি কেউ প্রথমে পিসিএ প্রয়োগ করে তবে তা কার্যকর হবে। অ্যারন তার উত্তরের মন্তব্যে এই মন্তব্য করেছেন এবং আমি এর সাথে একমত হই (তবে সাধারণভাবে তার উত্তরটির সাথে একমত নই, আপনি এখনই দেখতে পাবেন)।Σ ডাব্লু Σ বি এন এন Σ ডাব্লুΣওয়াট-1ΣবিΣওয়াটΣবিএনএনΣওয়াট

তবে এটি সমস্যার একাংশ। বড় চিত্রটি হ'ল এলডিএ খুব সহজেই ডেটাগুলিকে অতিরিক্ত মানায়। নোট করুন যে শ্রেণির কোভেরিয়েন্সের ম্যাট্রিক্স এলডিএ গণনায় উল্টে যায়; হাই-ডাইমেনশনাল ম্যাট্রিক্সের জন্য বিপরীতটি একটি সংবেদনশীল অপারেশন যা কেবলমাত্র নির্ভরযোগ্যতার সাথে সম্পন্ন করা যেতে পারে যদি এর অনুমান সত্যিই ভাল হয়। তবে উচ্চ মাত্রায় , সম্পর্কে একটি সুনির্দিষ্ট প্রাক্কলন পাওয়া সত্যিই কঠিন , এবং অনুশীলন হিসাবে প্রায়শই একটি প্রাক্কলনটি ভাল বলে আশা করা শুরু করতে ডাটা পয়েন্টগুলির চেয়ে অনেক বেশি কিছু থাকতে হয়। অন্যথায় এন 1 Σ ডব্লু এন Σ ডাব্লুΣওয়াটএন»1Σওয়াটএনΣওয়াট প্রায় একবচনের (অর্থাত্ কিছু আইগন্যালিউস খুব কম হবে) হয়ে যাবে এবং এর ফলে অতিরিক্ত মানানসই হবে, যেমন পরীক্ষার ডেটাতে সুযোগের পারফরম্যান্স সহ প্রশিক্ষণের ডেটাতে নিখুঁত-নিখুঁত শ্রেণির বিচ্ছেদ ঘটবে।

এই সমস্যাটি মোকাবেলা করার জন্য, সমস্যাটি নিয়মিত করা দরকার । এটি করার একটি উপায় হ'ল প্রথমে মাত্রিকতা হ্রাস করার জন্য পিসিএ ব্যবহার করা। আরও রয়েছে, তর্কযোগ্যভাবে আরও ভাল, উদাহরণস্বরূপ নিয়মিত এলডিএ (আরএলডিএ) পদ্ধতি যা ব্যবহার করে ছোট পরিবর্তে (এটি সংকোচনের প্রাক্কলনকারী বলা হয়) ), তবে প্রথমে পিসিএ করা আদর্শিকভাবে সহজ পদ্ধতির এবং প্রায়শই ঠিকঠাক কাজ করে।λ Σ ওয়াট(1-λ)Σওয়াট+ +λআমিλΣওয়াট

চিত্রণ

এখানে ওভার-ফিটিং সমস্যার উদাহরণ রয়েছে। আমি 10-, 50-, 100-, এবং 150-মাত্রিক স্থানগুলিতে স্ট্যান্ডার্ড গাউসীয় বিতরণ (মানে শূন্য, ইউনিট ভেরিয়েন্স) থেকে 3 শ্রেণিতে 60 টি ক্লাসে 60 টি নমুনা তৈরি করেছি এবং 2 ডি তে ডেটা প্রজেক্ট করতে এলডিএ প্রয়োগ করেছি:

এলডিএতে ওভারফিটিং

ডাইমেনটিভিটি বাড়ার সাথে সাথে ক্লাসগুলি আরও ভাল এবং আরও পৃথক হয়ে ওঠে, যেখানে বাস্তবে শ্রেণীর মধ্যে কোনও পার্থক্য নেই Note

আমরা দেখতে পাচ্ছি যে আমরা ক্লাসগুলি কিছুটা আলাদা করে দিলে পিসিএ কীভাবে ওভারফিটিং প্রতিরোধে সহায়তা করে। আমি প্রথম শ্রেণির প্রথম স্থানাঙ্কে 1 জন, দ্বিতীয় শ্রেণির প্রথম স্থানাঙ্কে 2 এবং তৃতীয় শ্রেণির প্রথম স্থানাঙ্কে 3 যুক্ত করেছি। এখন তারা কিছুটা পৃথক হয়ে গেছে, উপরের বাম সাবপ্ল্লটটি দেখুন:

এলডিএর ওভারফিটিং এবং পিসিএ দিয়ে নিয়মিতকরণ

ওভারফিটিং (শীর্ষ সারি) এখনও স্পষ্ট। তবে আমি যদি পিসিএর সাথে ডেটা প্রাক-প্রসেস করি তবে সর্বদা 10 টি মাত্রা (নীচের সারি) রেখে, ক্লাসগুলি কাছাকাছি-সর্বোত্তমভাবে পৃথক থাকা অবস্থায় অতিমাত্রায় অদৃশ্য হয়ে যায়।

গীত। ভুল বোঝাবুঝি রোধে: আমি দাবি করছি না যে পিসিএ + এলডিএ একটি ভাল নিয়মিতকরণ কৌশল (বিপরীতে, আমি আরএলডিএ ব্যবহারের পরামর্শ দেব), আমি কেবল প্রমাণ করছি যে এটি একটি সম্ভাব্য কৌশল।


হালনাগাদ. খুব অনুরূপ বিষয় পূর্বে নিম্নলিখিত থ্রেডগুলিতে @cbeleites দ্বারা সরবরাহ করা আকর্ষণীয় এবং ব্যাপক উত্তরগুলির সাথে আলোচনা করা হয়েছে:

কিছু ভাল উত্তরের সাথে এই প্রশ্নটি দেখুন:


সিরিয়াসলি এটি দুর্দান্ত উত্তর! এবং অন্তর্নিহিত তত্ত্বটি ব্যাখ্যা করার সময় আপনারও খুব সুন্দর ব্যবহারিক ব্যাখ্যা রয়েছে, আমার রেফারেন্স সংগ্রহের জন্য আরও একটি দুর্দান্ত উত্তর। অনেক ধন্যবাদ!

আমি দ্বিতীয় চক্রান্ত বুঝতে পারি না, আমার কাছে মনে হচ্ছে এলডিএ (নীচের সারি) এর আগে পিসিএ দিয়ে ক্লাসগুলি আলাদা করা হয়নি
পিয়ারি

@ পিয়ারে, দ্বিতীয় প্লটে ক্লাসগুলি এমনভাবে তৈরি করা হয়েছে যেগুলি প্রায় পৃথক করা হয়নি। বিচ্ছেদ ক্ষুদ্র। নীচের সারিতে আপনি এই সামান্য বিভাজনটি দেখতে পাচ্ছেন, তবে আপনাকে নিবিড়ভাবে দেখতে হবে: নীল এবং লাল শ্রেণিতে মনোনিবেশ করুন এবং আপনি দেখতে পাবেন যে একটি বাম দিকে এবং অন্যটি ডানে সরে গেছে।
অ্যামিবা বলছেন রিনিস্টেট মনিকা

আচ্ছা আমি দেখি. আমি ভুলে গিয়েছিলাম যে আমরা শীর্ষ সারিতে দেখি ক্লাসগুলির বিভাজনটি আসলে অত্যধিক মানানসই। ধন্যবাদ
পিয়েরি

1

আপনার যদি দ্বি শ্রেণির সমস্যা হয় তবে এলডিএ আপনাকে 1 মাত্রায় নিয়ে যাবে। প্রথমে পিসিএ করার কোনও কারণ নেই।


1
হুঁ, আমি এখানে আপনার যুক্তি অনুসরণ করি না: আমি যথেষ্ট নিশ্চিত যে এলডিএ আপনাকে 1-মাত্রায় নামিয়ে আনবে না আপনি যদি না চান। এটি নির্ভর করে আপনি কয়টি ইগেনভেেক্টরকে মান হ্রাস করে ইগেনভ্যালুগুলি বাছাই করার পরে ধরে রাখতে চান তার উপর নির্ভর করে। হয়তো আমি এখানে কিছু মিস করছি ... তবে আমি ক্লাসের সংখ্যা উল্লেখ করিনি। ধরে নেওয়া যাক আমাদের প্রতিটিতে 20 টি বৈশিষ্ট্যযুক্ত 3 টি ক্লাস রয়েছে এবং আমি তাদের 3D সাবস্পেসে প্রজেক্ট করতে চাই।

1
পিসিএ করার আগে একমাত্র কারণ হ'ল যদি শ্রেণির কোভেরিয়েন্স ম্যাট্রিক্স একক হয়। আপনার যদি 20 টি বৈশিষ্ট্য এবং তিনটি ক্লাস থাকে তবে এটি একা হবে না তাই প্রথমে পিসিএ করবেন না।
হারুন

4
assume we have 3 classes। @ সেবাস্তিয়ানআরশকা: তারপরে এলডিএ আপনাকে সর্বোচ্চ 2 বৈষম্যমূলক কাজ করতে অনুমতি দেবে। মধ্যে eigenvalues সংখ্যা Lda বিভাগ মিনিটের জন্য (NUM_GROUPS -1, num_features) হয়।
ttnphns

@ সেবাস্তিয়ান আপনি এলডিএ থেকে যে বৈষম্যমূলক কাজগুলি বেছে নেবেন তার উপর নির্ভর করে আপনি এটি দিয়ে কী করতে চান। একটি স্থান রূপান্তর হিসাবে এটি বেশ অনেকটা "তদারকি" পিসিএর মতো এবং আপনি যতটা চান বেছে নিন। একটি হিসাবে hyperplane বিচ্ছেদ শ্রেণীবিন্যাস পদ্ধতি, hyperplane, সংজ্ঞা দ্বারা, মাত্রা এন -1 হল। আমি অতিরিক্ত তথ্যের জন্য যদিও এই বিষয়ে একটি প্রশ্ন জিজ্ঞাসা করতে পারি, কারণ আমি এখনও বুঝতে পারি না min(num_groups-1,num_features)কোথা থেকে আসে ...
ম্যাথিউ

1
@ ম্যাথিউ আমি বিশ্বাস করি এটি এন্টার-ক্লাস স্ক্রেটার ম্যাট্রিক্সের কারণে, আপনি সি (সি = ক্লাসের সংখ্যা) ম্যাট্রিক্স যুক্ত করে তৈরি করেছেন যা 1 বা তার কম রেঙ্ক রয়েছে। সুতরাং আপনি কেবল সর্বোচ্চ-সি -1 নন-শূন্য ইগেনুয়ালুগুলি রাখতে পারেন।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.