আমরা কেবলমাত্র বৈশিষ্ট্য সংখ্যা হ্রাস করতে পারলে আমরা কেন অ্যালগরিদম শেখার গতি বাড়ানোর জন্য পিসিএ ব্যবহার করব?


12

একটি মেশিন লার্নিং কোর্সে, আমি শিখেছি যে পিসিএ ( অধ্যক্ষ উপাদান উপাদান বিশ্লেষণ ) এর একটি সাধারণ ব্যবহার হ'ল অন্যান্য মেশিন লার্নিং অ্যালগরিদমগুলিকে গতিময় করা speed উদাহরণস্বরূপ, কল্পনা করুন আপনি একটি লজিস্টিক রিগ্রেশন মডেল প্রশিক্ষণ দিচ্ছেন। আপনার যদি 1 থেকে n এর জন্য একটি প্রশিক্ষণ সেট এবং এটি আপনার ভেক্টরের মাত্রাটি খুব বড় হয় (আসুন আমরা একটি মাত্রা বলি), আপনি একটি ছোট মাত্রা (আসুন কে ডাইমেনশন) বৈশিষ্ট্য ভেক্টর z পেতে পিসিএ ব্যবহার করতে পারেন। তারপরে আপনি আপনার লজিস্টিক রিগ্রেশন মডেলটি 1 থেকে n এর জন্য প্রশিক্ষণ সংস্থায় প্রশিক্ষণ দিতে পারেন। এই মডেলটির প্রশিক্ষণ দ্রুত হবে কারণ আপনার বৈশিষ্ট্য ভেক্টরের কম মাত্রা রয়েছে।( z ( i ) , y ( i ) )(x(i),y(i))(z(i),y(i))

তবে, আমি বুঝতে পারছি না কেন আপনি কেবল আপনার বৈশিষ্ট্যগুলির কে কে এলোমেলো করে এবং বাকিগুলি মুছে ফেলার মাধ্যমে কেন আপনার বৈশিষ্ট্য ভেক্টরের মাত্রাকে কে মাত্রায় কমাতে পারবেন না।

Z ভেক্টরগুলি আপনার বৈশিষ্ট্য ভেক্টরগুলির লিনিয়ার সংমিশ্রণ। যেহেতু z ভেক্টরগুলি কে-মাত্রিক পৃষ্ঠের মধ্যে সীমাবদ্ধ, আপনি কে-র বৈশিষ্ট্য মানগুলির একটি রৈখিক ক্রিয়াকলাপ হিসাবে একে বর্ধিত বৈশিষ্ট্য মান লিখতে পারেন, এবং এইভাবে সমস্ত জেড আপনার কে বৈশিষ্ট্যগুলির রৈখিক সংমিশ্রণ দ্বারা গঠিত হতে পারে। সুতরাং মুছে ফেলা বৈশিষ্ট্যযুক্ত একটি প্রশিক্ষণ সংস্থায় প্রশিক্ষিত কোনও মডেলটির ট্রেনিং সেটে প্রশিক্ষিত কোনও মডেলের মতো ক্ষমতা থাকতে হবে না যার পিসিএ দ্বারা মাত্রা হ্রাস পেয়েছিল? এটি কি কেবল মডেলের ধরণের উপর নির্ভর করে এবং এটি কোনও রৈখিক সংমিশ্রণের উপর নির্ভর করে কিনা?


1
ড্রপ কলামগুলি পিসিএ
হাইটাও ডু

2
পলিমারেজ চেইন প্রতিক্রিয়াটি এর সাথে কী করতে পারে? :-) --- সমস্ত গুরুত্বের সাথে আপনার সংক্ষিপ্তসারটি ব্যবহারের আগে সর্বদা একটি শব্দ বানান করা উচিত।
কার্ল উইথফট

আপনি পিসিএ দ্বারা প্রাপ্ত ইগেনভেেক্টরগুলিকে নতুন বৈশিষ্ট্য হিসাবে দেখতে পারেন, সুতরাং পিসিএ বৈশিষ্ট্যগুলি হ্রাস করতে দেয় - আমরা যেগুলি শুরু করেছি তার চেয়ে বেশি বৈকল্পিকতা ক্যাপচার করার ক্ষেত্রে আমাদের যেগুলি রয়েছে তা পুনরায় সংযুক্ত করে।
গণিত পাঠক

উত্তর:


26

ধরা যাক আপনার প্রাথমিকভাবে বৈশিষ্ট্য রয়েছে তবে এটি অনেক বেশি তাই আপনি আসলে আপনার মডেলকে বৈশিষ্ট্যগুলিতে ফিট করতে চান । আপনি আপনার বৈশিষ্ট্যগুলির মধ্যে চয়ন করতে পারেন এবং বাকীগুলি বাদ দিতে পারেন। যদি আমাদের বৈশিষ্ট্য ম্যাট্রিক্স হয় তবে এটি ব্যবহারের সাথে মিলে যায় যেখানে মধ্যে কলামগুলি সঠিকভাবে খুঁজে বের করে যা আমরা অন্তর্ভুক্ত করতে চাই। তবে এটি অন্যান্য কলামগুলির সমস্ত তথ্য উপেক্ষা করে, তাই কেন আরও সাধারণ মাত্রা হ্রাস বিবেচনা করবেন না যেখানে ? এটি হ'ল পিসিএ যা করে: আমরা ম্যাট্রিক্স এমন খুঁজে পাইডি < পি ডি এক্স এক্স ডি ডি { 0 , 1 } পি × ডি এক্স এক্স ভি ভি আর পি × ডি ভি এক্স ভি এক্স এক্স ডি পি পিpd<pdXXDD{0,1}p×dXXVVRp×dVXV হিসাবে যতটা সম্ভব তথ্য রয়েছে । সমস্ত লিনিয়ার সংমিশ্রণ সমানভাবে তৈরি হয় না। যদি না আমাদের ম্যাট্রিক্স এত কম র‌্যাঙ্ক হয় যে কলামগুলির একটি এলোমেলো সেট (উচ্চ সম্ভাব্যতার সাথে) সমস্ত কলামের কলামের স্থান ছড়িয়ে দিতে পারে তবে আমরা অবশ্যই সমস্ত বৈশিষ্ট্যগুলি পাশাপাশি করতে সক্ষম হব না । কিছু তথ্য হারিয়ে যাবে এবং তাই আমাদের যতটা সম্ভব অল্প তথ্য হারাতে হবে। পিসিএর সাহায্যে, "তথ্য" যা আমরা হারাতে এড়াতে চাইছি তা হ'ল ডেটাতে ভিন্নতা।XXdpp

কেন আমরা ভবিষ্যদ্বাণীকারীদের রৈখিক রূপান্তরের মধ্যে কেন নিজেকে সীমাবদ্ধ রাখি, এই ব্যবহারের ক্ষেত্রে পুরো বিষয়টি গণনার সময়। যদি আমরা -তে অভিনব-লিনিয়ার মাত্রা হ্রাস করতে পারি তবে আমরা সম্ভবত এর মডেলটিকে ফিট করতে পারি। সুতরাং পিসিএ দ্রুত-গণনা এবং কার্যকরের ছেদ এ পুরোপুরি বসেছে।এক্সXX


2
+1 টি। এটি এখনও জিজ্ঞাসা করার জন্য বুদ্ধিমান হয় যে X এর প্রকরণ (যে পিসিএ ধরে রাখার চেষ্টা করে) ওয়াইয়ের পূর্বাভাস দেওয়ার ক্ষেত্রে প্রাসঙ্গিক হওয়া উচিত ... এটি সম্পর্কিত থ্রেড: stats.stackexchange.com/questions/141864
অ্যামিবা বলেছেন

4

মূল ডেটাতে বৈকল্পিক / তথ্য সংরক্ষণ করার সময় পিসিএ বৈশিষ্ট্যগুলি হ্রাস করে। এটি বাস্তবতার সাথে ডেটার সাদৃশ্য হারাতে না পারায় গণনা সক্ষম করতে সহায়তা করে।


2

পিসিএ সমাধান

প্রথমে, এই উদ্দেশ্যে পিসিএ ব্যবহার করার সময় সাবধান থাকুন। যেহেতু আমি কোনও সম্পর্কিত প্রশ্নের জবাবে লিখেছি পিসিএ প্রয়োজনীয় বৈশিষ্ট্যগুলির নির্বাচনের দিকে পরিচালিত করে না যেগুলি আপনি যে রিগ্রেশনটি করতে চান তার জন্য তথ্যবহুল ( জোলিফ 1988 দেখুন )।

ওপি প্রস্তাবিত সমাধান

এখন প্রস্তাবিত বিকল্প ব্যবস্থাটি বিবেচনা করুন: reduce the dimension of your feature vector to k dimensions by just choosing k of your features at random and eliminating the rest.এখন সমস্যার বিবৃতিতে আমাদের এটি অনুমান করতে বলা হয়েছিল dimension of your vector x is very large। আসুন এই মাত্রা কল করুনp

আছে চয়ন করার উপায় একদল থেকে ভবিষ্যতবক্তা । উদাহরণস্বরূপ, যদি এবং আমরা ডেটাसेट থেকে ভবিষ্যদ্বাণী বেছে নিই বিভিন্ন মডেলের আমাদের মাপসই করতে হবে। এবং ধরে নেওয়া যায় যে আমরা জানি যে , এবং ইত্যাদি ইত্যাদি সহজভাবে বলুন, এটি কোনও সমস্যা নয় যে আপনি একটি বড় সেটিংয়ে বল প্রয়োগ করতে চান ।পি পি = 1000 = 5 8.25 × 10 12= 5 = 6 পিpCkkpp=1000k=58.25×1012k=5k=6p

প্রস্তাবিত সমাধান

বড় হবার জায়গাগুলি মোকাবেলা করার জন্য বেশ কয়েকটি দণ্ডিত রিগ্রেশন কৌশল প্রস্তাব করা হয়েছে। বিশেষত লাসো পদ্ধতিটি মডেলটির পক্ষে যথেষ্ট অবদান রাখে না এমন ভবিষ্যদ্বাণীকারীদের অবদানকে শূন্য করে একটি রিগ্রেশন মডেল তৈরি করার সময় মাত্রা হ্রাস করবে । মডেলটির দক্ষতার সাথে ফিট করার জন্য খুব চালাক অ্যালগ্রোথিম (LARS) রয়েছে isp

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.