পরিসংখ্যানগত শিক্ষার উপাদানগুলির ৩.৩.২ অনুচ্ছেদটি কার্যকর কারণ এটি পিএলএস রিগ্রেশনকে সঠিক প্রসঙ্গে (অন্যান্য নিয়মিতকরণের পদ্ধতিতে) রাখে তবে এটি খুব সংক্ষিপ্ত এবং ব্যায়াম হিসাবে কিছু গুরুত্বপূর্ণ বক্তব্য রেখে যায়। তদতিরিক্ত, এটি কেবল অবিবাহিত নির্ভরশীল পরিবর্তনশীল ক্ষেত্রে বিবেচনা করে ।y
পিএলএস উপর সাহিত্য সুবিশাল, কিন্তু বেশ বিভ্রান্তিকর হতে পারে, কারণ বিভিন্ন পিএলএস এর "স্বাদে" আছেন: সঙ্গে একটি একক ডিভি univariate সংস্করণ (PLS1) এবং বেশ কিছু DVS সঙ্গে বহুচলকীয় সংস্করণ ওয়াই (PLS2), প্রতিসম সংস্করণ চিকিত্সা এক্স এবং ওয়াই এক্সকে স্বতন্ত্র এবং ওয়াই হিসাবে নির্ভরশীল ভেরিয়েবল হিসাবে আচরণ করে সমান এবং অসমিত সংস্করণ ("পিএলএস রিগ্রেশন") , এমন সংস্করণ যা এসভিডি এর মাধ্যমে একটি বিশ্বব্যাপী সমাধান দেয় এবং সংস্করণগুলির ক্ষেত্রে পিএলএস নির্দেশের প্রতিটি যুগল ইত্যাদি পুনরুত্পাদনকারী ডিফ্ল্যাশনের প্রয়োজন হয় ইত্যাদি।yYXYXY
এগুলি সবই কেমোমেট্রিক্সের ক্ষেত্রে বিকশিত হয়েছে এবং "মূলধারার" স্ট্যাটিস্টিকাল বা মেশিন লার্নিং সাহিত্য থেকে কিছুটা সংযুক্ত থাকে।
ওভারভিউ পেপার যা আমি সবচেয়ে দরকারী বলে মনে করি (এবং এতে আরও অনেকগুলি উল্লেখ রয়েছে):
আরও তাত্ত্বিক আলোচনার জন্য আমি আরও সুপারিশ করতে পারি:
অবিবাহী ( পিএলএস 1, ওরফে সিমপিলএস) এর সাথে পিএলএস রিগ্রেশন সম্পর্কিত একটি সংক্ষিপ্ত প্রাইমারy
রিগ্রেশন লক্ষ্য অনুমান হয় একটি রৈখিক মডেল Y = এক্স β + + ε । OLS ঔজ্জ্বল্যের প্রেক্ষাপটে সমাধান β = ( এক্স ⊤ এক্স ) - 1 এক্স ⊤ Y অনেক optimality বৈশিষ্ট্য ভোগ কিন্তু overfitting ভোগা পারবেন না। নিশ্চয় জন্য OLS ঔজ্জ্বল্যের প্রেক্ষাপটে সৌন্দর্য β যে উৎপাদনের সম্ভাব্য সর্বোচ্চ পারস্পরিক সম্পর্ক এক্স β সঙ্গে Y । যদি অনেক পূর্বাভাসক থাকে তবে সর্বদা কিছু লিনিয়ার সংমিশ্রণ খুঁজে পাওয়া সম্ভব যা এর সাথে y এর সাথে উচ্চ সম্পর্ক স্থাপন করে । এটি একটি উত্সাহী সম্পর্ক এবং এই জাতীয় হবেβy=Xβ+ϵβ=(X⊤X)−1X⊤yβXβyy সাধারণত কোনও দিকে এক্সে খুব সামান্য প্রকরণের ব্যাখ্যা দিয়ে থাকে। খুব অল্প প্রকরণের দিকনির্দেশগুলি প্রায়ই খুব "গোলমাল" দিকনির্দেশ হয় directions যদি তা হয়, তবে যদিও প্রশিক্ষণের ডেটাতে ওএলএস সমাধানটি দুর্দান্ত কার্য সম্পাদন করে, তথ্যের পরীক্ষার ক্ষেত্রে এটি আরও খারাপ সম্পাদন করবে।βX
অর্ডার overfitting প্রতিরোধ করার জন্য, একটি ব্যবহার পদ্ধতি মূলত জোর নিয়মিতকরণ উচ্চ ভ্যারিয়েন্সের দিকনির্দেশ মধ্যে বিন্দু এক্স (এই এছাড়াও "সংকোচন" বলা হয় β কিন্তু দেখ কেন সংকোচন কাজ করে? )। এ জাতীয় একটি পদ্ধতি হ'ল মূল উপাদানগুলির রিগ্রেশন (পিসিআর) যা সমস্ত নিম্ন-বৈকল্পিক দিকগুলি কেবল অস্বীকার করে। আর একটি (আরও ভাল) পদ্ধতি হ'ল রিজ রিগ্রেশন যা স্বাচ্ছন্দ্যে কম-বৈকল্পিক দিকগুলিকে শাস্তি দেয়। তবুও আরেকটি পদ্ধতি হ'ল পিএলএস 1।βXβ
PLS1 খুঁজে বের করার OLS ঔজ্জ্বল্যের প্রেক্ষাপটে লক্ষ্য প্রতিস্থাপন যে পারস্পরিক সম্পর্ক maximizes Corr ( এক্স β , Y ) খুঁজে বের করার একটি বিকল্প লক্ষ্যে β দৈর্ঘ্য সঙ্গে ‖ β ‖ = 1 পূর্ণবিস্তার সহভেদাংক cov ( এক্স β , Y ) ~ Corr ( এক্স β , Y ) ⋅ √βcorr(Xβ,y)β∥β∥=1যা আবার কার্যকরভাবে কম বৈকল্পিকের দিকনির্দেশকে শাস্তি দেয়।
cov(Xβ,y)∼corr(Xβ,y)⋅var(Xβ)−−−−−−−√,
যেমন খোঁজা (এটা কল দিন β 1 ) উৎপাদ প্রথম পিএলএস উপাদান z- র 1 = এক্স β 1 । পূর্বের সমস্ত উপাদানগুলির সাথে অসম্পর্কিত হওয়ার সীমাবদ্ধতার সাথে y এর সাথে সর্বাধিক সম্ভাব্য সমবায় যে পিএলএস উপাদান রয়েছে তার জন্য দ্বিতীয়টি (এবং তারপরে তৃতীয় ইত্যাদি) সন্ধান করতে পারে । এটি পুনরাবৃত্তিমূলকভাবে সমাধান করতে হবে, কারণ সমস্ত উপাদানগুলির জন্য কোনও বদ্ধ-ফর্ম সমাধান নেই (প্রথম উপাদান β 1 এর দিকটি কেবল এক্স ⊤ ওয়াই দ্বারা দেওয়া হয়েছেββ1z1=Xβ1yβ1X⊤yইউনিট দৈর্ঘ্যে স্বাভাবিক করা)। যখন পছন্দসই সংখ্যক উপাদান বের করা হয়, পিএলএস রিগ্রেশন মূল ভবিষ্যদ্বাণীকারীদের ত্যাগ করে এবং পিএলএস উপাদানগুলিকে নতুন ভবিষ্যদ্বাণী হিসাবে ব্যবহার করে; এই উৎপাদনের তাদের কিছু রৈখিক সমন্বয় যে সমস্ত সঙ্গে মিলিত হতে পারে β আমি চূড়ান্ত গঠনের β পি এল এস ।βzβiβPLS
মনে রাখবেন যে:
- যদি সমস্ত পিএলএস 1 উপাদান ব্যবহার করা হয়, তবে পিএলএস ওএলএস এর সমতুল্য হবে। সুতরাং উপাদানগুলির সংখ্যা নিয়মিতকরণের প্যারামিটার হিসাবে কাজ করে: সংখ্যাটি যত কম, নিয়মিতকরণ তত শক্ত।
- যদি ভবিষ্যদ্বাণীকারী এর সম্পর্কযুক্ত না হয় এবং সকলের একই বৈচিত্র হয় (যেমন এক্স সাদা করা হয়েছে ) তবে কেবল একটি পিএলএস 1 উপাদান রয়েছে এবং এটি ওএলএস এর সমতুল্য।XX
- ওজন ভেক্টর এবং β ঞ জন্য আমি ≠ ঞ লম্ব করা যাচ্ছে না, কিন্তু সম্পর্কহীন উপাদান সমর্পণ করা হবে z- র আমি = এক্স β আমি এবং z- র ঞ = এক্স β ঞ ।βiβji≠jzi=Xβizj=Xβj
যা যা বলা হচ্ছে, আমি পিএলএস 1 রিগ্রেশনের রিজ রিগ্রেশনের তুলনায় কোনও ব্যবহারিক সুবিধা সম্পর্কে অবগত নই (যদিও পরবর্তীটির অনেকগুলি সুবিধা রয়েছে: এটি ধারাবাহিক এবং পৃথক নয়, বিশ্লেষণাত্মক সমাধান রয়েছে, আরও অনেক স্ট্যান্ডার্ড, কার্নেল প্রসারিত এবং বিশ্লেষণীকরণের অনুমতি দেয় লিভ-ওয়ান-আউট ক্রস-বৈধতা ত্রুটি ইত্যাদির সূত্রগুলি))।
ফ্রাঙ্ক এবং ফ্রেডম্যানের উদ্ধৃতি:
আরআর, পিসিআর এবং পিএলএস একই ধরণের কাজ করতে বিভাগ 3 এ দেখা যায়। তাদের মূল লক্ষ্যটি হল বৃহত্তর নমুনা বিস্তারের প্রেডিক্টর-ভেরিয়েবল স্পেসের দিকে দিকের দিকে ওএলএস সমাধান থেকে সমাধান সহগ ভেক্টরকে সঙ্কুচিত করা। পিসিআর এবং পিএলএসকে আরআর এর চেয়ে কম স্প্রেড দিক থেকে খুব বেশি সংকুচিত হতে দেখা যায়, যা পূর্বে একটি সামঞ্জস্যের জন্য অনুকূল সঙ্কুচিত (লিনিয়ার অনুমানকারীগুলির মধ্যে) সরবরাহ করে। সুতরাং পিসিআর এবং পিএলএস অনুমান করে যে সত্যটি ভবিষ্যদ্বাণী-পরিবর্তনশীল (নমুনা) বিতরণের উচ্চ প্রসারিত দিকগুলির সাথে নির্দিষ্ট বিশেষ পছন্দসই প্রান্তিককরণের সম্ভাবনা রয়েছে। একটি কিছুটা বিস্ময়কর ফলে পিএলএস স্থান (অতিরিক্ত দায়িত্বে) সঙ্গে সত্য সহগ ভেক্টর সমতলতা উপর সম্ভাব্যতা ভর বৃদ্ধি হয় তম প্রধান উপাদান দিক, যেখানে কেKK আসলে পিএলএস উপাদানগুলির সংখ্যা হ'ল প্রকৃতপক্ষে সেই দিকে ওএলএস দ্রবণটি প্রসারিত করা।
তারা একটি বিস্তৃত সিমুলেশন অধ্যয়ন পরিচালনা করে এবং উপসংহারটি দেয় (জোর দেওয়া খনি):
এই সিমুলেশন অধ্যয়ন দ্বারা আচ্ছাদিত পরিস্থিতির জন্য, কেউ সিদ্ধান্তে পৌঁছতে পারে যে পক্ষপাতদুষ্ট সমস্ত পদ্ধতি (আরআর, পিসিআর, পিএলএস, এবং ভিএসএস) ওএলএসের তুলনায় যথেষ্ট উন্নতি করে। [...] সমস্ত পরিস্থিতিতে, আরআর অধ্যয়ন করা অন্যান্য সমস্ত পদ্ধতির উপর আধিপত্য বিস্তার করে। পিএলএস সাধারণত প্রায় পাশাপাশি আরআর করে এবং সাধারণত পিসিআরকে ছাড়িয়ে যায়, তবে খুব বেশি করে না।
আপডেট: মন্তব্যগুলিতে @ কেবেলাইটস (কেমোমেট্রিক্সে কাজ করেন) আরআর এর চেয়ে পিএলএসের দুটি সম্ভাব্য সুবিধা সম্পর্কে পরামর্শ দিয়েছেন:
λ
βRRβiyyβ1,β2,βPLS