বৈশিষ্ট্য নির্বাচনের জন্য প্রধান উপাদান বিশ্লেষণ (পিসিএ) ব্যবহার করা


54

আমি বৈশিষ্ট্য নির্বাচনের ক্ষেত্রে নতুন এবং আমি ভাবছিলাম যে আপনি কীভাবে বৈশিষ্ট্য নির্বাচন সম্পাদনের জন্য পিসিএ ব্যবহার করবেন। পিসিএ প্রতিটি ইনপুট ভেরিয়েবলের জন্য আপেক্ষিক স্কোর গণনা করে যা আপনি নন-ইনফরমটিভ ইনপুট ভেরিয়েবলগুলি ফিল্টার করতে ব্যবহার করতে পারেন? মূলত, আমি বৈকল্পিকতা বা উপস্থিত তথ্যের পরিমাণের দ্বারা ডেটাতে মূল বৈশিষ্ট্যগুলি অর্ডার করতে সক্ষম হতে চাই।

উত্তর:


75

বৈশিষ্ট্য নির্বাচনের জন্য পিসিএকে একটি সরঞ্জাম হিসাবে ব্যবহার করার সময় মূল ধারণাটি হ'ল তাদের সহগের ( লোডিং ) এর দৈর্ঘ্য (বৃহত্তর থেকে পরম মানগুলিতে ক্ষুদ্রতম) অনুযায়ী পরিবর্তনশীল নির্বাচন করা । আপনি স্মরণ করতে পারেন যে পিসিএ মূল ভেরিয়েবলের আনসিরিলেটেড লিনিয়ার কম্বিনেশন (প্রজেকশন) দ্বারা (আরও বা কম সংযুক্ত) ভেরিয়েবলগুলি প্রতিস্থাপন করতে চায় । আসুন সমস্যাটি হাতে পাওয়ার জন্য কীভাবে অনুকূল বেছে নেওয়া যায় তা এড়ানো যাক । এই মূল উপাদানগুলি তাদের ব্যাখ্যাযোগ্য পরিবর্তনের মাধ্যমে গুরুত্ব অনুসারে স্থান পেয়েছে এবং প্রতিটি ভেরিয়েবল প্রতিটি উপাদানকে বিভিন্ন ডিগ্রি দিয়ে অবদান রাখে। বৃহত্তম বৈকল্পিক মানদণ্ড ব্যবহার নিষ্কাশন বৈশিষ্ট্য অনুরূপ হবেpk<pkk , যেখানে মূল উপাদানগুলির পরিবর্তে মূল বৈশিষ্ট্যগুলি নতুন বৈশিষ্ট্য হিসাবে ব্যবহৃত হয়। তবে, আমরা কেবলমাত্র প্রথম উপাদান রাখার সিদ্ধান্ত নিতে পারি এবং ভেরিয়েবলগুলি নির্বাচন করতে পারি যেখানে সর্বোচ্চ পরম সহগ আছে; সংখ্যা ভেরিয়েবলের সংখ্যার অনুপাতের উপর ভিত্তি করে হতে পারে (উদাহরণস্বরূপ, ভেরিয়েবলের কেবল শীর্ষ 10% রাখুন ), বা একটি নির্দিষ্ট কাটঅফ (উদাহরণস্বরূপ, সাধারণ মানের সহগের উপর একটি প্রান্তিক বিবেচনা করে)। এই পদ্ধতির দণ্ডিত রিগ্রেশন (বা পিএলএস রিগ্রেশন) এ লাসো অপারেটরের সাথে কিছুটা সাদৃশ্য রয়েছে । , মান , বা উপাদানগুলির সংখ্যা ধরে রাখার পক্ষে স্পষ্ট পছন্দ নয় arej<pjpj

পিসিএ ব্যবহার করে সমস্যাটি হ'ল (১) সমস্ত মূল ভেরিয়েবলের পরিমাপ নিম্ন মাত্রিক স্থানের প্রক্ষেপণে ব্যবহৃত হয়, (২) কেবল লিনিয়ার সম্পর্ক বিবেচনা করা হয়, এবং (3) পিসিএ বা এসভিডি-ভিত্তিক পদ্ধতিগুলিও অবিচ্ছিন্ন স্ক্রিনিং পদ্ধতি হিসাবে (টি-টেস্ট, পারস্পরিক সম্পর্ক ইত্যাদি), ডেটা স্ট্রাকচারের সম্ভাব্য মাল্টিভারিয়েট প্রকৃতিটিকে (যেমন, ভেরিয়েবলের মধ্যে উচ্চতর অর্ডার ইন্টারঅ্যাকশন) বিবেচনা করবেন না।

পয়েন্ট 1 সম্পর্কে, আরও কিছু বিস্তৃত স্ক্রিনিংয়ের পদ্ধতি প্রস্তাব করা হয়েছে, উদাহরণস্বরূপ মূল বৈশিষ্ট্য বিশ্লেষণ বা স্টেপওয়াইজ পদ্ধতি যেমন জিনের এক্সপ্রেশন স্টাডিতে ' জিন শেভিং ' ব্যবহার করা হয় like এছাড়াও, বিচ্ছিন্ন পিসিএ ফলাফল পরিবর্তনশীল লোডিংয়ের উপর ভিত্তি করে মাত্রা হ্রাস এবং পরিবর্তনশীল নির্বাচন সম্পাদন করতে ব্যবহৃত হতে পারে। পয়েন্ট ২ সম্পর্কে, কার্নেল পিসিএ ( কার্নেল ট্রিক ব্যবহার করে ) ব্যবহার করা সম্ভব যদি কোনওরকমকে নিম্ন মাত্রিক স্থানে অলৈখিক সম্পর্কগুলি এম্বেড করা প্রয়োজন। সিদ্ধান্ত গাছ , বা আরও ভাল এলোমেলো বন অ্যালগরিদম সম্ভবত পয়েন্ট 3 সমাধান করতে আরও ভাল সক্ষম হয় পরেরটি গিনি- বা পরিবর্তনশীল গুরুত্বের ক্রম-ভিত্তিক ব্যবস্থা গ্রহণ করতে দেয় ।

একটি শেষ পয়েন্ট: আপনি যদি কোনও শ্রেণিবদ্ধকরণ বা রিগ্রেশন মডেল প্রয়োগ করার আগে বৈশিষ্ট্য নির্বাচন সম্পাদন করতে চান তবে পুরো প্রক্রিয়াটি অবিশ্বাস্য করে নিশ্চিত করুন ( পরিসংখ্যান শিক্ষার উপাদানসমূহের §7.10.2 , বা এমব্রয়েস এবং ম্যাকল্যাচলান, 2002 )।


আপনি যেহেতু আর সমাধানে আগ্রহী বলে মনে হচ্ছে, আমি ক্যারেট প্যাকেজটি একবার দেখে নেওয়ার পরামর্শ দিচ্ছি যার মধ্যে একটি শ্রেণিবদ্ধকরণ বা রিগ্রেশন প্রসঙ্গে ডেটা প্রিপ্রোসেসিং এবং ভেরিয়েবল নির্বাচনের জন্য প্রচুর সহজ কাজ রয়েছে।


1
এখানে প্রচুর ভাল তথ্য রয়েছে তবে আমি আশ্চর্য হয়েছি যে এএফএর কোনও উল্লেখ নেই। আমি ফ্যাক্টর বিশ্লেষণটিকে বৈশিষ্ট্য নির্বাচন / মাত্রিকতা হ্রাস, এবং পিসিএ হিসাবে আপনার ডেটা পুনরায় উপস্থাপনের জন্য যথাযথ হিসাবে উপযুক্ত হিসাবে ভেরিয়েবলগুলি অসংরক্ষিত বলে মনে করি appropriate আমার ধারণা আপনি একমত না?
গুং - মনিকা পুনরায়

3
আমরা কী ধরণের ডেটা নিয়ে কাজ করছি তা না জেনে আমি এফএর সুপারিশ করতে নারাজ: ত্রুটিগুলির জন্য একটি মডেল প্রবর্তন করা (যা পিসিএ দেয় না) লক্ষ্যযুক্ত সুপ্ত ভেরিয়েবলগুলির সাথে ডিল করার সময় অবশ্যই এর সুবিধা হয়, বা আরও সাধারণভাবে সুপ্ত উদঘাটন করার চেষ্টা করার সময় স্ট্রাকচারগুলি, তবে পিসিএ (এর ক্যাভ্যাটস সহ) বেশিরভাগ ক্ষেত্রে মাত্রা হ্রাস, বা বড় মাত্রায়, এএফএসিটি বৈশিষ্ট্য নির্বাচন করতে ব্যবহৃত হয়। ইন মামলা, ইএফএ যখন পরিবর্তনশীল নির্বাচনের জন্য উন্নত পদ্ধতি রয়েছে অনুপযুক্ত হবে। আমি ওপি-র ক্ষেত্রে জানি না, তাই আমি আরও বলতে পারি না, তবে এটি একটি ভাল মন্তব্য। np
chl

এটি স্পষ্টতই একটি কঠিন, অযৌক্তিক সমস্যা। আপনি যেহেতু আমার চেয়ে অনেক বেশি জানেন তাই আপনার মতামত নিয়ে আমি আগ্রহী। +1, বিটিডব্লিউ
গুং - মনিকা পুনরায়

2
দুটি মন্তব্য। প্রথমত, আপনি কেপিসিএটিকে আপনার পয়েন্ট ২ এর একটি সম্ভাব্য সমাধান হিসাবে উল্লেখ করেছেন তবে কেপিসিএ বৈশিষ্ট্য নির্বাচনের জন্য কীভাবে ব্যবহার করা যেতে পারে, যখন ইগানভেেক্টর / লোডিং সেখানে পাওয়া যায় না? এটি সম্পর্কে একটি অতিরিক্ত প্রশ্ন রয়েছে, এবং আমি সেখানে যুক্তি দিয়েছিলাম যে এটি পারে না । দ্বিতীয়ত, শেষ অনুচ্ছেদের আগের আপনার দ্বিতীয়টি অনেক উন্নতি করতে পারে যদি আপনি ল্যাশোকে উল্লেখ করেছেন, রিগ্রেশনে বৈশিষ্ট্য নির্বাচন করার পছন্দসই (?) উপায় হিসাবে। এই থ্রেডটি খুব জনপ্রিয় রয়েছে এবং অনেকগুলি প্রশ্ন এর নকল হিসাবে বন্ধ রয়েছে, সুতরাং আপনার উত্তরটি যথাসম্ভব দুর্দান্ত হওয়া গুরুত্বপূর্ণ!
অ্যামিবা বলছেন মনিকা পুনরায়

@ সিএল, আপনার তথ্যবহুল উত্তরের জন্য ধন্যবাদ। আপনি "শুধুমাত্র প্রথম উপাদান রাখার সিদ্ধান্ত নিন" সম্পর্কে কথা বলছেন। কেন শুধুমাত্র প্রথম উপাদান? একটি উপাদান সহ বৈশিষ্ট্য / ভেরিয়েবলগুলি র‌্যাঙ্ক করা সহজ। আপনি কীভাবে একাধিক উপাদান দিয়ে এটি করবেন, 3 বলুন? আপনি উপাদানগুলির মধ্যে ভেরিয়েবলকে কীভাবে রেঙ্ক করবেন? আমি মনে করি আপনি প্রতিটি প্রধান উপাদান দিয়ে যেতে পারেন, এবং ইতিমধ্যে বাছাই করা হয়নি এমন বৈশিষ্ট্যগুলির সেট থেকে সেই প্রধান উপাদানটি থেকে সবচেয়ে বড় লোডিং সহ বৈশিষ্ট্যটি বেছে নিতে পারেন। এগুলি আবার কোনও সংখ্যা (জে) বা সাধারণ মানের সহগগুলির একটি থ্রেশহোল্ড দ্বারা বাছাই করা যেতে পারে। তুমি কি একমত?
সোডা

6

এন এর বৈশিষ্ট্যগুলির একটি সেট দেওয়া একটি পিসিএ বিশ্লেষণ সর্বাধিক বৈকল্পিক (প্রথম পিসিএ উপাদান) সহ বৈশিষ্ট্যগুলির রৈখিক সংমিশ্রণ উত্পন্ন করবে, (২) প্রথম পিসিএ উপাদান সংশ্লেষের উপ-স্থান অরথোগোনালের সর্বোচ্চ পরিবর্তনের সাথে রৈখিক সংমিশ্রণ (সংমিশ্রণের সহগগুলি ইউনিট আদর্শের সাথে ভেক্টর গঠন করে যে সীমাবদ্ধতার অধীনে) সর্বাধিক বৈকল্পিকের সাথে রৈখিক সংমিশ্রণটি "ভাল" বৈশিষ্ট্য কিনা তা আপনি ভবিষ্যদ্বাণী করার চেষ্টা করছেন তার উপর নির্ভর করে। এই কারণে আমি বলব যে পিসিএ উপাদান হওয়া এবং "ভাল" বৈশিষ্ট্য হওয়া (সাধারণভাবে) দুটি সম্পর্কিত নয় ions


(-1) আমি দেখতে পাচ্ছি না কীভাবে এটি আসল প্রশ্নের জবাব দেয়।
অ্যামিবা

-1

আপনি তাদের বৈকল্পিক অনুযায়ী বৈশিষ্ট্যগুলি অর্ডার করতে পারবেন না, কারণ পিসিএতে ব্যবহৃত বৈকল্পিকটি মূলত একটি বহুমাত্রিক সত্তা। আপনি কেবলমাত্র নির্দিষ্ট দিকটি বেছে নেওয়ার জন্য বৈকল্পিকের প্রক্ষেপণ দ্বারা বৈশিষ্ট্যগুলি অর্ডার করতে পারেন (যা সাধারণত প্রথম প্রধান কম্পোনেট হয়)) সুতরাং, অন্য কথায়, কোনও বৈশিষ্ট্য অ্যান্থারের চেয়ে বেশি তারতম্য রয়েছে কিনা তা নির্ভর করে আপনি কীভাবে আপনার প্রজেকশন দিকটি চয়ন করেন তার উপর নির্ভর করে।


2
আমি বুঝতে পারি না: প্রতিটি মূল বৈশিষ্ট্যের একটি বৈকল্পিকতা রয়েছে এবং তাই অবশ্যই একটি "তাদের বৈচিত্র্য অনুসারে বৈশিষ্ট্যগুলি অর্ডার করতে পারে"। তদুপরি, আমি বুঝতে পারি না যে কীভাবে কেউ আপনার "নির্দিষ্ট দিকনির্দেশের বৈকল্পিকতার প্রক্ষেপণ দ্বারা" অর্ডার করতে পারেন। এর মানে কি বোঝাতে চাচ্ছো?
অ্যামিবা বলছেন 19-18 তে পুনরায় ইনস্টল করুন মনিকা

আপনি বৈশিষ্ট্যগুলি অর্ডার করতে প্রকৃতপক্ষে বৈকল্পিকতা ব্যবহার করতে পারেন, ঠিক এরপরে পিসিএর সাথে কিছু করার আছে, যা সমস্ত বৈশিষ্ট্য একসাথে আচরণ করে।
জেমস এলআই

অভিক্ষেপ সম্পর্কে: আপনার যদি এন বৈশিষ্ট্য থাকে তবে একটি দিক ভেক্টর এন-ডাইমেনশনাল স্পেসে কেবল একটি ইউনিট ভেক্টর; আপনার এম ইনসেন্ট ভেক্টরগুলির প্রজেকশন হ'ল ইউনিট ভেক্টরের সাথে ইনস্ট্যান্স ভেক্টরের স্কেল প্রোডাক্ট, যার ফলস্বরূপ দ্বিমাত্রিক ভেক্টর হয়। এবং এই এম-ডাইমেনশনাল ভেক্টরের বৈকল্পিকতাটি বেছে নেওয়া দিকের ডেটাসেটের বৈকল্পিকের "প্রক্ষেপণ"।
জেমস এলআই

1
-1। আমি মনে করি আপনার উত্তরে তিনটি বাক্যগুলির প্রতিটি একটিই ভুল বা এতই অস্পষ্ট যে এটি বিভ্রান্তিকর। আপনি মন্তব্যগুলিতে যা লিখেছিলেন তার সাথে আমি একমত, তবে আপনার উত্তরটির অর্থ কীভাবে ব্যাখ্যা করা যায় তা আমার কোনও ধারণা নেই। "আপনি তাদের বৈচিত্র্য অনুযায়ী বৈশিষ্ট্যগুলি অর্ডার করতে পারবেন না" - ?? "আপনি কেবল নির্দিষ্ট দিকের বৈকল্পিকের অভিক্ষেপ দ্বারা বৈশিষ্ট্যগুলি অর্ডার করতে পারেন" - ?? "কোনও বৈশিষ্ট্যের আরও বৈচিত্র রয়েছে কিনা ... নির্ভর করে ..." - ?? সব ভুল।
অ্যামিবা বলেছেন

2
এতক্ষণ আগে এই প্রশ্ন জিজ্ঞাসা করা হয়েছিল তা আমি অবগত ছিলাম না; এবং আমি এই প্রতিক্রিয়াগুলির সাথে বেশিরভাগের সাথে একমত। আমার বক্তব্যটি: পিসিএ বৈশিষ্ট্য নির্বাচনের জন্য উপযুক্ত নয়। কেবল এখানে কেউ সরাসরি এটি বলতে চান না।
জেমস এলআই
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.