এলডিএ, শ্রেণিবদ্ধকরণ কৌশল কীভাবে পিসিএর মতো মাত্রিকতা হ্রাস কৌশল হিসাবে কাজ করে


20

এই নিবন্ধে , লেখক রৈখিক বৈষম্যমূলক বিশ্লেষণকে (এলডিএ) প্রধান উপাদান বিশ্লেষণের (পিসিএ) সাথে সংযুক্ত করেছেন। আমার সীমিত জ্ঞানের সাথে, আমি কীভাবে এলডিএ পিসিএর সাথে কিছুটা মিল হতে পারে তা অনুসরণ করতে পারছি না।

আমি সবসময়ই ভেবে এসেছি যে এলডিএ হ'ল লজিস্টিক রিগ্রেশনের অনুরূপ শ্রেণিবদ্ধকরণ অ্যালগরিদমের একটি রূপ। আমি কীভাবে এলডিএ পিসিএর সাথে সমান, তা কীভাবে এটি একটি মাত্রিকতা হ্রাস কৌশলটি বোঝার জন্য কিছুটা সাহায্যের প্রশংসা করব।


2
এলডিএকে কেবল শ্রেণিবদ্ধের কৌশল বলা ঠিক নয় not এটি একটি সমন্বিত, 2-পর্যায়ের কৌশল: প্রথমে মাত্রিকতা হ্রাস করুন, তারপরে শ্রেণিবদ্ধ করুন। মাত্রিকতা হ্রাস হিসাবে, এটি তদারকি করা হয়, পিসিএর বিপরীতে। শ্রেণিবিন্যাস হিসাবে, এটি লজিস্টিক রিগ্রেশন থেকে পৃথক, প্রান্তিক সম্ভাবনা বিবেচনা করে।
ttnphns

'মাত্রিকতা হ্রাস' শব্দটি ব্যবহার করা পরিষ্কার নয় কেবলমাত্র নিষ্ক্রিয় শেখার পদ্ধতিগুলি যেমন ক্লাস্টারিং এবং অপ্রয়োজনীয় বিশ্লেষণের সাথে মোকাবিলা করতে। এলডিএ কঠোরভাবে শিক্ষণ তদারকি করা হয় যাতে ডেটা হ্রাসের প্রথম ধাপে এটি ব্যবহার করা গেলে একটি অত্যধিক পক্ষপাতিত্ব তৈরি করা হত।
ফ্র্যাঙ্ক হ্যারেল

একটি পুরানো খুব অনুরূপ প্রশ্ন: stats.stackexchange.com/q/22884/3277
ttnphns

1
ফ্র্যাঙ্ক, উদাহরণস্বরূপ, বৈশিষ্ট্য নির্বাচনের বিভিন্ন কৌশল, এলডিএর 1 ম পর্যায়ে প্রয়োগ করা যেতে পারে (আপনার সাথে ধাপে ধাপে এগিয়ে যাওয়ার পদ্ধতির :-)।
ttnphns

উত্তর:


23

আমি আপনার প্রশ্নের মন্তব্যে যেমন উল্লেখ করেছি, বৈষম্যমূলক বিশ্লেষণ দুটি স্বতন্ত্র পর্যায়ে সমন্বিত পদ্ধতি - মাত্রা হ্রাস (তদারকি) এবং শ্রেণিবিন্যাসের স্তর। মাত্রা হ্রাস এ আমরা বৈষম্যমূলক ফাংশনগুলি বের করি যা মূল ব্যাখ্যামূলক ভেরিয়েবলগুলি প্রতিস্থাপন করে। তারপরে আমরা সেই ফাংশনগুলি ব্যবহার করে ক্লাসগুলিতে পর্যবেক্ষণগুলি (সাধারণত বায়েসের পদ্ধতির দ্বারা) শ্রেণিবদ্ধ করি।

কিছু লোক এলডিএর এই পরিষ্কার-দ্বি-দ্বি-প্রকৃতির স্বীকৃতি দিতে ব্যর্থ হয় যেহেতু তারা কেবল এলডিএর সাথে 2 শ্রেণীর সাথে পরিচিত হয়েছিল (যাকে ফিশারের বৈষম্যমূলক বিশ্লেষণ বলা হয় )। এই জাতীয় বিশ্লেষণে, কেবলমাত্র একটি বৈষম্যমূলক ফাংশন বিদ্যমান এবং শ্রেণিবিন্যাস সোজা, এবং তাই স্থান হ্রাস এবং বেয়েস শ্রেণিবিন্যাসের ধারণাগুলিকে আমন্ত্রণ না করে একটি পাঠ্যপুস্তকে একটি "পাস" তে সমস্ত কিছু ব্যাখ্যা করা যেতে পারে।

এলডিএ মনোভার সাথে নিবিড়ভাবে সম্পর্কিত । দ্বিতীয়টি (মাল্টিভারিয়েট) লিনিয়ার মডেলের একটি "পৃষ্ঠ এবং বিস্তৃত" দিক যেখানে এর "গভীরতা ও দৃষ্টি নিবদ্ধ" চিত্রটি হ'ল ক্যানোনিকাল পারস্পরিক সম্পর্ক বিশ্লেষণ (সিসিএ)। বিষয়টি হ'ল দুটি ভেরিয়েটিভেটের সেটগুলির মধ্যে পারস্পরিক সম্পর্কটি দ্বি-মাত্রিক নয় এবং এটি "সুপ্ত" ভেরিয়েবলের কয়েক জোড়া ব্যাখ্যা করে যা ক্যানোনিকাল ভেরিয়েট বলে।

মাত্রিকতা হ্রাস হিসাবে , এলডিএ হ'ল তাত্ত্বিকভাবে দুটি সেট ভেরিয়েবল সহ একটি সিসিএ, একটি সেট সংযুক্ত "বর্ণনামূলক" ইন্টারভাল ভেরিয়েবল এবং অন্য সেটটি ডামি (বা অন্য কনট্রাস্ট কোডযুক্ত) ভেরিয়েবলগুলি গ্রুপগুলিতে প্রতিনিধিত্ব করে , শ্রেণিগুলি পর্যবেক্ষণ।কেk1k

সিসিএ, আমরা দুটি পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবল সেট এক্স এবং ওয়াইটিকে অধিকার হিসাবে সমান হিসাবে বিবেচনা করি। অতএব আমরা উভয় পক্ষ থেকে ক্যানোনিকাল বৈচিত্রগুলি নিষ্কাশন করি এবং সেগুলি জোড় গঠন করে: সেট এক্স থেকে 1 এবং অন্যটির মধ্যে সর্বাধিক পারস্পরিক সম্পর্কের সাথে সেট ওয়াই থেকে 1 পরিবর্তন করুন; তারপরে সেট এক্স থেকে 2 এবং একটি ছোট ক্যানোনিকাল পারস্পরিক সম্পর্ক ইত্যাদির সাথে সেট ওয়াইয়ের 2 থেকে 2 পৃথক করুন, এলডিএতে আমরা সাধারণত শ্রেণীর সেট দিক থেকে ক্যানোনিকাল পরিবর্তনে সংখ্যায় আগ্রহী না; আমরা তবে ব্যাখ্যামূলক সেট দিক থেকে ক্যানোনিকাল পরিবর্তনে আগ্রহী। এগুলিকে আধ্যাত্মিক বৈষম্যমূলক কার্য বা বৈষম্যমূলক বলা হয়

বৈষম্যবাদীরা হ'ল গ্রুপগুলির মধ্যে বিচ্ছিন্নতার "লাইন "গুলির সাথে সর্বাধিক সম্পর্কযুক্ত। বিভেদযুক্ত 1 বিচ্ছিন্নতার প্রধান অংশটি ব্যাখ্যা করে; বৈষম্যমূলক 2 পূর্ববর্তী বিচ্ছিন্নতার জন্য অরথোগোনালটির কারণে অবহেলিত কিছু পৃথক পৃথকত্ব বেছে নেয়; ডিসক্রিমিনেট ৩ টি পূর্ববর্তী দুটি সম্পর্কিত পৃথকত্বের কিছু অংশের ব্যাখ্যা দেয়, ইত্যাদি। এলডিএতে ইনপুট ভেরিয়েবল (মাত্রা) এবং শ্রেণিতে সম্ভাব্য বৈষম্যমূলক সংখ্যা (হ্রাস মাত্রা) এবং যখন অনুমানগুলি হয় এলডিএর এই সংখ্যাটি তাদের মধ্যে ক্লাসের মধ্যে সম্পূর্ণ বৈষম্য রাখে এবং ক্লাসগুলিতে ডেটা সম্পূর্ণরূপে শ্রেণিবদ্ধ করতে সক্ষম হয় ( দেখুন )।কে এম আই এন ( কে - 1 , পি )pkmin(k1,p)

পুনরাবৃত্তি করা, এটি প্রকৃতির প্রকৃতপক্ষে এটি সিসিএ। 3+ ক্লাস সহ এলডিএকে এমনকি "ক্যানোনিকাল এলডিএ" বলা হয়। যে সত্ত্বেও CCA এবং Lda বিভাগ সাধারণত আলগোরিদিমিক্যালি প্রোগ্রাম দক্ষতা মতামত কিছুটা ভিন্নভাবে প্রয়োগ করা হয়, তাদের "একই" যথেষ্ট যাতে এটি ফলাফল পুনঃগণনা করা সম্ভব (কোফিসিয়েন্টস ইত্যাদি) অন্যান্য প্রাপ্ত ঐ সম্মুখের এক পদ্ধতির মধ্যে প্রাপ্ত হয়। এলডিএর বেশিরভাগ বৈশিষ্ট্য গোষ্ঠীগুলির প্রতিনিধিত্বকারী শ্রেণিবদ্ধ ভেরিয়েবলগুলি কোডিংয়ের ডোমেনে অন্তর্ভুক্ত। এটিই একই সংশয় যা (এম) আনোভাতে লক্ষ্য করা যায়। বিভিন্ন কোডিং স্কিম সহগের ব্যাখ্যা করার বিভিন্ন উপায়ে নিয়ে যায়।

যেহেতু এলডিএ (মাত্রিক হ্রাস হিসাবে) সিসিএর একটি বিশেষ কেস হিসাবে বোঝা যায়, তাই আপনাকে অবশ্যই এই উত্তরটি পিসিএ এবং রিগ্রেশনের সাথে সিসিএর তুলনা করে অন্বেষণ করতে হবে । মূল বক্তব্যটি হ'ল সিসিএ এক অর্থে পিসিএর তুলনায় রিগ্রেশনের কাছাকাছি কারণ সিসিএ একটি তদারকি কৌশল (একটি সুপ্ত লিনিয়ার সংমিশ্রণটি বাহ্যিক কোনও কিছুর সাথে সম্পর্কযুক্ত করার জন্য আঁকা হয়) এবং পিসিএ হয় না (একটি সুপ্ত লিনিয়ার সংমিশ্রণ আঁকা হয়) অভ্যন্তরীণ সংক্ষিপ্তসার)। এটি মাত্রিকতা হ্রাসের দুটি শাখা।

যখন এটি গণিতের ক্ষেত্রে আসে আপনি যখন দেখতে পেলেন যে মূল উপাদানগুলির বৈকল্পগুলি ডেটা ক্লাউডের সাথে সম্পর্কিত (ভেরিয়েবলের মধ্যে কোভেরিয়েন্স ম্যাট্রিক্স), তখন বৈষম্যমূলক বৈসাদাগুলি এতটা স্পষ্টভাবে সম্পর্কিত হয় না যেগুলিতে উত্পন্ন হয় igen Lda বিভাগ। কারণটি হ'ল এলডিএতে, ইগেনভ্যালুগুলি ডেটা মেঘের আকারের সংক্ষিপ্তসার দেয় না; পরিবর্তে, তারা মেঘের মধ্যে শ্রেণীর মধ্যে-শ্রেণীর পরিবর্তনের মধ্যবর্তী শ্রেণির অনুপাতের বিমূর্ত পরিমাণের সাথে সম্পর্কিত ।

সুতরাং, প্রধান উপাদানগুলি বৈষম্যকে সর্বাধিক করে তোলে এবং বৈষম্যবাদীরা শ্রেণিবোধকে সর্বাধিক করে তোলে; একটি সাধারণ ক্ষেত্রে যেখানে কোনও পিসি ক্লাসের মধ্যে যথেষ্ট পার্থক্য করতে ব্যর্থ হয় তবে বৈষম্যমূলক এই ছবিগুলি। মূল বৈশিষ্ট্যটিতে রেখা হিসাবে আঁকা যখন স্থান বৈষম্য সাধারণত orthogonal প্রদর্শিত হয় না (তবুও নিরবচ্ছিন্ন হয়ে থাকছে), তবে পিসিগুলি তা করে।


সাবধানী জন্য পাদটীকাকীভাবে, তাদের ফলাফলগুলিতে, এলডিএ হুবহু সিসিএ সম্পর্কিত । পুনরাবৃত্তি: আপনি যদি pভেরিয়েবল এবং kক্লাস দিয়ে এলডিএ করেন এবং আপনি সেট 1 এর সাথে সেই pভেরিয়েবল হিসাবে সিটিএ করেন এবং সেট 2 k-1সূচক ডামি ভেরিয়েবল হিসাবে প্রতিনিধিত্বকারী গোষ্ঠী হিসাবে (আসলে, অগত্যা নির্দেশক ভেরিয়েবল নয় - অন্যান্য ধরণের বিপরীতে ভেরিয়েবল যেমন বিচ্যুতি বা হেলমার্ট) করবে ), তারপরে ফলাফলগুলি সেট 1 এর জন্য প্রাপ্ত ক্যানোনিকাল পরিবর্তনের সাথে সমান - তারা সরাসরি এলডিএতে প্রাপ্ত বৈষম্যমূলক কাজের সাথে মিল রাখে। তবে সঠিক সম্পর্ক কী?

এলডিএর বীজগণিত এবং পরিভাষা এখানে ব্যাখ্যা করা হয়েছে , এবং সিসিএর বীজগণিত এবং পরিভাষা এখানে ব্যাখ্যা করা হয়েছে । ক্যানোনিকাল পারস্পরিক সম্পর্ক একই হবে। তবে সহগ এবং "ল্যাটেন্টস" এর মানগুলি (স্কোর) কী? একটি তম বৈষম্যমূলক এবং সংবাদদাতা ( ম) ক্যানোনিকাল প্রকরণ বিবেচনা করুন। তাদের জন্য,জেjj

CCA standardized coefficientLDA raw coefficient=CCA canonical variate valueLDA discriminant value=pooled within class variance in the variate pooled within class variance in the discriminant

"শ্রেণীর বৈকল্পের মধ্যে পুল করা" হ'ল n-1একটি গ্রুপের ওজন সহ গ্রুপের বৈকল্পিকগুলির ওজন গড়ে । বৈষম্যমূলকভাবে, এই পরিমাণটি (এলডিএ বীজগণিত লিঙ্কে পড়ুন), এবং তাই এলডিএ ফলাফল থেকে সিসিএ ফলাফলগুলিতে স্যুইচ করার আনুপাতিকতার সহগ কেবল 1

pooled within class variance in the variate
st. deviation of the discriminantσ

সিসিএ এবং এলডিএর মধ্যে পার্থক্য সেই কারণে এলডিএ "জানে" যে ক্লাস (গ্রুপ) রয়েছে: আপনি স্ক্রেটার ম্যাট্রিক্সের মধ্যে এবং এর মধ্যে গণনা করার জন্য সরাসরি গ্রুপগুলি নির্দেশ করেন। এটি উভয়ই দ্রুতগতিতে কম্পিউটার তৈরি করে এবং বৈষম্যমূলক দ্বারা পরবর্তী শ্রেণিবিন্যাসের জন্য আরও সুবিধাজনক ফলাফল করে। অন্যদিকে, সিসিএ ক্লাস সম্পর্কে অবগত নয় এবং ডেটা প্রক্রিয়াকরণ করে না যেন তারা সবাই ক্রমাগত পরিবর্তনশীল - যা আরও সাধারণ তবে গণনার ধীর পথ। তবে ফলাফলগুলি সমান এবং আমি কীভাবে দেখিয়েছি।

এখনও অবধি বোঝা গিয়েছিল যে k-1ডামিগুলি সাধারণত সিসিএতে প্রবেশ করে, যেমন কেন্দ্রিক (সেট 1 এর ভেরিয়েবলগুলির মতো)। কেউ জিজ্ঞাসা করতে পারেন, সমস্ত kডমি প্রবেশ করা এবং সেগুলি কেন্দ্র করে না (এককতা থেকে বাঁচতে) কি সম্ভব? হ্যাঁ, এটি সম্ভব, সম্ভবত কম সুবিধাজনক হলেও। একটি শূন্য-ইগেনভ্যালু অতিরিক্ত ক্যানোনিকাল ভেরিয়েট উপস্থিত হবে, এর জন্য সহগগুলি এটি ফেলে দেওয়া উচিত। অন্যান্য ফলাফল বৈধ থাকবে। ক্যানোনিকাল পারস্পরিক সম্পর্কের তাত্পর্য পরীক্ষা করতে df গুলি ব্যতীত । 1 তম সম্পর্কের জন্য p*kডিএফ হবে যা ভুল এবং সত্য ডিএফ, যেমন এলডিএ-তে রয়েছে p*(k-1)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.