বৈশিষ্ট্য নির্বাচনের জন্য পিসিএকে একটি সরঞ্জাম হিসাবে ব্যবহার করার সময় মূল ধারণাটি হ'ল তাদের সহগের ( লোডিং ) এর দৈর্ঘ্য (বৃহত্তর থেকে পরম মানগুলিতে ক্ষুদ্রতম) অনুযায়ী পরিবর্তনশীল নির্বাচন করা । আপনি স্মরণ করতে পারেন যে পিসিএ মূল ভেরিয়েবলের আনসিরিলেটেড লিনিয়ার কম্বিনেশন (প্রজেকশন) দ্বারা (আরও বা কম সংযুক্ত) ভেরিয়েবলগুলি প্রতিস্থাপন করতে চায় । আসুন সমস্যাটি হাতে পাওয়ার জন্য কীভাবে অনুকূল বেছে নেওয়া যায় তা এড়ানো যাক । এই মূল উপাদানগুলি তাদের ব্যাখ্যাযোগ্য পরিবর্তনের মাধ্যমে গুরুত্ব অনুসারে স্থান পেয়েছে এবং প্রতিটি ভেরিয়েবল প্রতিটি উপাদানকে বিভিন্ন ডিগ্রি দিয়ে অবদান রাখে। বৃহত্তম বৈকল্পিক মানদণ্ড ব্যবহার নিষ্কাশন বৈশিষ্ট্য অনুরূপ হবেpk<pkk , যেখানে মূল উপাদানগুলির পরিবর্তে মূল বৈশিষ্ট্যগুলি নতুন বৈশিষ্ট্য হিসাবে ব্যবহৃত হয়। তবে, আমরা কেবলমাত্র প্রথম উপাদান রাখার সিদ্ধান্ত নিতে পারি এবং ভেরিয়েবলগুলি নির্বাচন করতে পারি যেখানে সর্বোচ্চ পরম সহগ আছে; সংখ্যা ভেরিয়েবলের সংখ্যার অনুপাতের উপর ভিত্তি করে হতে পারে (উদাহরণস্বরূপ, ভেরিয়েবলের কেবল শীর্ষ 10% রাখুন ), বা একটি নির্দিষ্ট কাটঅফ (উদাহরণস্বরূপ, সাধারণ মানের সহগের উপর একটি প্রান্তিক বিবেচনা করে)। এই পদ্ধতির দণ্ডিত রিগ্রেশন (বা পিএলএস রিগ্রেশন) এ লাসো অপারেটরের সাথে কিছুটা সাদৃশ্য রয়েছে । , মান , বা উপাদানগুলির সংখ্যা ধরে রাখার পক্ষে স্পষ্ট পছন্দ নয় arej<pjpj
পিসিএ ব্যবহার করে সমস্যাটি হ'ল (১) সমস্ত মূল ভেরিয়েবলের পরিমাপ নিম্ন মাত্রিক স্থানের প্রক্ষেপণে ব্যবহৃত হয়, (২) কেবল লিনিয়ার সম্পর্ক বিবেচনা করা হয়, এবং (3) পিসিএ বা এসভিডি-ভিত্তিক পদ্ধতিগুলিও অবিচ্ছিন্ন স্ক্রিনিং পদ্ধতি হিসাবে (টি-টেস্ট, পারস্পরিক সম্পর্ক ইত্যাদি), ডেটা স্ট্রাকচারের সম্ভাব্য মাল্টিভারিয়েট প্রকৃতিটিকে (যেমন, ভেরিয়েবলের মধ্যে উচ্চতর অর্ডার ইন্টারঅ্যাকশন) বিবেচনা করবেন না।
পয়েন্ট 1 সম্পর্কে, আরও কিছু বিস্তৃত স্ক্রিনিংয়ের পদ্ধতি প্রস্তাব করা হয়েছে, উদাহরণস্বরূপ মূল বৈশিষ্ট্য বিশ্লেষণ বা স্টেপওয়াইজ পদ্ধতি যেমন জিনের এক্সপ্রেশন স্টাডিতে ' জিন শেভিং ' ব্যবহার করা হয় like এছাড়াও, বিচ্ছিন্ন পিসিএ ফলাফল পরিবর্তনশীল লোডিংয়ের উপর ভিত্তি করে মাত্রা হ্রাস এবং পরিবর্তনশীল নির্বাচন সম্পাদন করতে ব্যবহৃত হতে পারে। পয়েন্ট ২ সম্পর্কে, কার্নেল পিসিএ ( কার্নেল ট্রিক ব্যবহার করে ) ব্যবহার করা সম্ভব যদি কোনওরকমকে নিম্ন মাত্রিক স্থানে অলৈখিক সম্পর্কগুলি এম্বেড করা প্রয়োজন। সিদ্ধান্ত গাছ , বা আরও ভাল এলোমেলো বন অ্যালগরিদম সম্ভবত পয়েন্ট 3 সমাধান করতে আরও ভাল সক্ষম হয় পরেরটি গিনি- বা পরিবর্তনশীল গুরুত্বের ক্রম-ভিত্তিক ব্যবস্থা গ্রহণ করতে দেয় ।
একটি শেষ পয়েন্ট: আপনি যদি কোনও শ্রেণিবদ্ধকরণ বা রিগ্রেশন মডেল প্রয়োগ করার আগে বৈশিষ্ট্য নির্বাচন সম্পাদন করতে চান তবে পুরো প্রক্রিয়াটি অবিশ্বাস্য করে নিশ্চিত করুন ( পরিসংখ্যান শিক্ষার উপাদানসমূহের §7.10.2 , বা এমব্রয়েস এবং ম্যাকল্যাচলান, 2002 )।
আপনি যেহেতু আর সমাধানে আগ্রহী বলে মনে হচ্ছে, আমি ক্যারেট প্যাকেজটি একবার দেখে নেওয়ার পরামর্শ দিচ্ছি যার মধ্যে একটি শ্রেণিবদ্ধকরণ বা রিগ্রেশন প্রসঙ্গে ডেটা প্রিপ্রোসেসিং এবং ভেরিয়েবল নির্বাচনের জন্য প্রচুর সহজ কাজ রয়েছে।