আংশিক সর্বনিম্ন স্কোয়ার রিগ্রেশন পিছনে থিওরি


33

যে কেউ এসভিডি এবং পিসিএ বোঝে এমন ব্যক্তির জন্য আংশিক ন্যূনতম স্কোয়ার রিগ্রেশন (অনলাইনে উপলব্ধ) এর পিছনে তত্ত্বটির ভাল প্রদর্শনের প্রস্তাব দিতে পারে? আমি অনলাইনে অনেক উত্সের দিকে নজর রেখেছি এবং এমন কোনও কিছুই খুঁজে পাইনি যার মধ্যে কঠোরতা এবং অ্যাক্সেসযোগ্যতার সঠিক সংমিশ্রণ ছিল।

আমি স্ট্যাটিস্টিকাল লার্নিংয়ের এলিমেন্টগুলিতে নজর রেখেছি , যা ক্রস ভ্যালিডেটেড সম্পর্কে জিজ্ঞাসা করা প্রশ্নের একটি মন্তব্যে প্রস্তাবিত হয়েছিল , আংশিক ন্যূনতম স্কোয়্যার (পিএলএস) রিগ্রেশন কী এবং এটি কীভাবে ওএলএস থেকে আলাদা? , তবে আমি মনে করি না যে এই রেফারেন্সটি বিষয়টি ন্যায়বিচার করে (এটি করা খুব সংক্ষিপ্ত, এবং বিষয়টিতে খুব বেশি তত্ত্ব সরবরাহ করে না)। আমি যা পড়েছি, সেগুলি থেকে, পিএলএস প্রেডিক্টর ভেরিয়েবলের লিনিয়ার সংমিশ্রণগুলি ব্যবহার করে, z- রআমি=এক্সφআমি যা সর্ব্বোচ্চ Yটিz- রআমি সীমাবদ্ধতার সাপেক্ষে φআমি=1 এবংz- রআমিটিz- র=0 যদি , যেখানে the পুনরাবৃত্তভাবে বেছে নেওয়া হয়, যাতে তারা হয়। তবে আমি যা কিছু পড়েছি তার পরেও আমি এখনও অনিশ্চিত যে এটি সত্য কিনা এবং যদি তা হয় তবে কীভাবে পদ্ধতিটি কার্যকর করা হয়।আমিφআমি

উত্তর:


38

পরিসংখ্যানগত শিক্ষার উপাদানগুলির ৩.৩.২ অনুচ্ছেদটি কার্যকর কারণ এটি পিএলএস রিগ্রেশনকে সঠিক প্রসঙ্গে (অন্যান্য নিয়মিতকরণের পদ্ধতিতে) রাখে তবে এটি খুব সংক্ষিপ্ত এবং ব্যায়াম হিসাবে কিছু গুরুত্বপূর্ণ বক্তব্য রেখে যায়। তদতিরিক্ত, এটি কেবল অবিবাহিত নির্ভরশীল পরিবর্তনশীল ক্ষেত্রে বিবেচনা করে ।y

পিএলএস উপর সাহিত্য সুবিশাল, কিন্তু বেশ বিভ্রান্তিকর হতে পারে, কারণ বিভিন্ন পিএলএস এর "স্বাদে" আছেন: সঙ্গে একটি একক ডিভি univariate সংস্করণ (PLS1) এবং বেশ কিছু DVS সঙ্গে বহুচলকীয় সংস্করণ ওয়াই (PLS2), প্রতিসম সংস্করণ চিকিত্সা এক্স এবং ওয়াই এক্সকে স্বতন্ত্র এবং ওয়াই হিসাবে নির্ভরশীল ভেরিয়েবল হিসাবে আচরণ করে সমান এবং অসমিত সংস্করণ ("পিএলএস রিগ্রেশন") , এমন সংস্করণ যা এসভিডি এর মাধ্যমে একটি বিশ্বব্যাপী সমাধান দেয় এবং সংস্করণগুলির ক্ষেত্রে পিএলএস নির্দেশের প্রতিটি যুগল ইত্যাদি পুনরুত্পাদনকারী ডিফ্ল্যাশনের প্রয়োজন হয় ইত্যাদি।yYXYXY

এগুলি সবই কেমোমেট্রিক্সের ক্ষেত্রে বিকশিত হয়েছে এবং "মূলধারার" স্ট্যাটিস্টিকাল বা মেশিন লার্নিং সাহিত্য থেকে কিছুটা সংযুক্ত থাকে।

ওভারভিউ পেপার যা আমি সবচেয়ে দরকারী বলে মনে করি (এবং এতে আরও অনেকগুলি উল্লেখ রয়েছে):

আরও তাত্ত্বিক আলোচনার জন্য আমি আরও সুপারিশ করতে পারি:


অবিবাহী ( পিএলএস 1, ওরফে সিমপিলএস) এর সাথে পিএলএস রিগ্রেশন সম্পর্কিত একটি সংক্ষিপ্ত প্রাইমারy

রিগ্রেশন লক্ষ্য অনুমান হয় একটি রৈখিক মডেল Y = এক্স β + + ε । OLS ঔজ্জ্বল্যের প্রেক্ষাপটে সমাধান β = ( এক্সএক্স ) - 1 এক্সY অনেক optimality বৈশিষ্ট্য ভোগ কিন্তু overfitting ভোগা পারবেন না। নিশ্চয় জন্য OLS ঔজ্জ্বল্যের প্রেক্ষাপটে সৌন্দর্য β যে উৎপাদনের সম্ভাব্য সর্বোচ্চ পারস্পরিক সম্পর্ক এক্স β সঙ্গে Y । যদি অনেক পূর্বাভাসক থাকে তবে সর্বদা কিছু লিনিয়ার সংমিশ্রণ খুঁজে পাওয়া সম্ভব যা এর সাথে y এর সাথে উচ্চ সম্পর্ক স্থাপন করে । এটি একটি উত্সাহী সম্পর্ক এবং এই জাতীয় হবেβy=Xβ+ϵβ=(XX)1XyβXβyy সাধারণত কোনও দিকে এক্সে খুব সামান্য প্রকরণের ব্যাখ্যা দিয়ে থাকে। খুব অল্প প্রকরণের দিকনির্দেশগুলি প্রায়ই খুব "গোলমাল" দিকনির্দেশ হয় directions যদি তা হয়, তবে যদিও প্রশিক্ষণের ডেটাতে ওএলএস সমাধানটি দুর্দান্ত কার্য সম্পাদন করে, তথ্যের পরীক্ষার ক্ষেত্রে এটি আরও খারাপ সম্পাদন করবে।βX

অর্ডার overfitting প্রতিরোধ করার জন্য, একটি ব্যবহার পদ্ধতি মূলত জোর নিয়মিতকরণ উচ্চ ভ্যারিয়েন্সের দিকনির্দেশ মধ্যে বিন্দু এক্স (এই এছাড়াও "সংকোচন" বলা হয় β কিন্তু দেখ কেন সংকোচন কাজ করে? )। এ জাতীয় একটি পদ্ধতি হ'ল মূল উপাদানগুলির রিগ্রেশন (পিসিআর) যা সমস্ত নিম্ন-বৈকল্পিক দিকগুলি কেবল অস্বীকার করে। আর একটি (আরও ভাল) পদ্ধতি হ'ল রিজ রিগ্রেশন যা স্বাচ্ছন্দ্যে কম-বৈকল্পিক দিকগুলিকে শাস্তি দেয়। তবুও আরেকটি পদ্ধতি হ'ল পিএলএস 1।βXβ

PLS1 খুঁজে বের করার OLS ঔজ্জ্বল্যের প্রেক্ষাপটে লক্ষ্য প্রতিস্থাপন যে পারস্পরিক সম্পর্ক maximizes Corr ( এক্স β , Y ) খুঁজে বের করার একটি বিকল্প লক্ষ্যে β দৈর্ঘ্য সঙ্গে β = 1 পূর্ণবিস্তার সহভেদাংক cov ( এক্স β , Y ) ~ Corr ( এক্স β , Y ) βcorr(Xβ,y)ββ=1যা আবার কার্যকরভাবে কম বৈকল্পিকের দিকনির্দেশকে শাস্তি দেয়।

cov(Xβ,y)corr(Xβ,y)var(Xβ),

যেমন খোঁজা (এটা কল দিন β 1 ) উৎপাদ প্রথম পিএলএস উপাদান z- র 1 = এক্স β 1 । পূর্বের সমস্ত উপাদানগুলির সাথে অসম্পর্কিত হওয়ার সীমাবদ্ধতার সাথে y এর সাথে সর্বাধিক সম্ভাব্য সমবায় যে পিএলএস উপাদান রয়েছে তার জন্য দ্বিতীয়টি (এবং তারপরে তৃতীয় ইত্যাদি) সন্ধান করতে পারে । এটি পুনরাবৃত্তিমূলকভাবে সমাধান করতে হবে, কারণ সমস্ত উপাদানগুলির জন্য কোনও বদ্ধ-ফর্ম সমাধান নেই (প্রথম উপাদান β 1 এর দিকটি কেবল এক্সওয়াই দ্বারা দেওয়া হয়েছেββ1z1=Xβ1yβ1Xyইউনিট দৈর্ঘ্যে স্বাভাবিক করা)। যখন পছন্দসই সংখ্যক উপাদান বের করা হয়, পিএলএস রিগ্রেশন মূল ভবিষ্যদ্বাণীকারীদের ত্যাগ করে এবং পিএলএস উপাদানগুলিকে নতুন ভবিষ্যদ্বাণী হিসাবে ব্যবহার করে; এই উৎপাদনের তাদের কিছু রৈখিক সমন্বয় যে সমস্ত সঙ্গে মিলিত হতে পারে β আমি চূড়ান্ত গঠনের β পি এল এসβzβiβPLS

মনে রাখবেন যে:

  1. যদি সমস্ত পিএলএস 1 উপাদান ব্যবহার করা হয়, তবে পিএলএস ওএলএস এর সমতুল্য হবে। সুতরাং উপাদানগুলির সংখ্যা নিয়মিতকরণের প্যারামিটার হিসাবে কাজ করে: সংখ্যাটি যত কম, নিয়মিতকরণ তত শক্ত।
  2. যদি ভবিষ্যদ্বাণীকারী এর সম্পর্কযুক্ত না হয় এবং সকলের একই বৈচিত্র হয় (যেমন এক্স সাদা করা হয়েছে ) তবে কেবল একটি পিএলএস 1 উপাদান রয়েছে এবং এটি ওএলএস এর সমতুল্য।XX
  3. ওজন ভেক্টর এবং β জন্য আমি লম্ব করা যাচ্ছে না, কিন্তু সম্পর্কহীন উপাদান সমর্পণ করা হবে z- র আমি = এক্স β আমি এবং z- র = এক্স β βiβjijzi=Xβizj=Xβj

যা যা বলা হচ্ছে, আমি পিএলএস 1 রিগ্রেশনের রিজ রিগ্রেশনের তুলনায় কোনও ব্যবহারিক সুবিধা সম্পর্কে অবগত নই (যদিও পরবর্তীটির অনেকগুলি সুবিধা রয়েছে: এটি ধারাবাহিক এবং পৃথক নয়, বিশ্লেষণাত্মক সমাধান রয়েছে, আরও অনেক স্ট্যান্ডার্ড, কার্নেল প্রসারিত এবং বিশ্লেষণীকরণের অনুমতি দেয় লিভ-ওয়ান-আউট ক্রস-বৈধতা ত্রুটি ইত্যাদির সূত্রগুলি))।


ফ্রাঙ্ক এবং ফ্রেডম্যানের উদ্ধৃতি:

আরআর, পিসিআর এবং পিএলএস একই ধরণের কাজ করতে বিভাগ 3 এ দেখা যায়। তাদের মূল লক্ষ্যটি হল বৃহত্তর নমুনা বিস্তারের প্রেডিক্টর-ভেরিয়েবল স্পেসের দিকে দিকের দিকে ওএলএস সমাধান থেকে সমাধান সহগ ভেক্টরকে সঙ্কুচিত করা। পিসিআর এবং পিএলএসকে আরআর এর চেয়ে কম স্প্রেড দিক থেকে খুব বেশি সংকুচিত হতে দেখা যায়, যা পূর্বে একটি সামঞ্জস্যের জন্য অনুকূল সঙ্কুচিত (লিনিয়ার অনুমানকারীগুলির মধ্যে) সরবরাহ করে। সুতরাং পিসিআর এবং পিএলএস অনুমান করে যে সত্যটি ভবিষ্যদ্বাণী-পরিবর্তনশীল (নমুনা) বিতরণের উচ্চ প্রসারিত দিকগুলির সাথে নির্দিষ্ট বিশেষ পছন্দসই প্রান্তিককরণের সম্ভাবনা রয়েছে। একটি কিছুটা বিস্ময়কর ফলে পিএলএস স্থান (অতিরিক্ত দায়িত্বে) সঙ্গে সত্য সহগ ভেক্টর সমতলতা উপর সম্ভাব্যতা ভর বৃদ্ধি হয় তম প্রধান উপাদান দিক, যেখানে কেKK আসলে পিএলএস উপাদানগুলির সংখ্যা হ'ল প্রকৃতপক্ষে সেই দিকে ওএলএস দ্রবণটি প্রসারিত করা।

তারা একটি বিস্তৃত সিমুলেশন অধ্যয়ন পরিচালনা করে এবং উপসংহারটি দেয় (জোর দেওয়া খনি):

এই সিমুলেশন অধ্যয়ন দ্বারা আচ্ছাদিত পরিস্থিতির জন্য, কেউ সিদ্ধান্তে পৌঁছতে পারে যে পক্ষপাতদুষ্ট সমস্ত পদ্ধতি (আরআর, পিসিআর, পিএলএস, এবং ভিএসএস) ওএলএসের তুলনায় যথেষ্ট উন্নতি করে। [...] সমস্ত পরিস্থিতিতে, আরআর অধ্যয়ন করা অন্যান্য সমস্ত পদ্ধতির উপর আধিপত্য বিস্তার করে। পিএলএস সাধারণত প্রায় পাশাপাশি আরআর করে এবং সাধারণত পিসিআরকে ছাড়িয়ে যায়, তবে খুব বেশি করে না।


আপডেট: মন্তব্যগুলিতে @ কেবেলাইটস (কেমোমেট্রিক্সে কাজ করেন) আরআর এর চেয়ে পিএলএসের দুটি সম্ভাব্য সুবিধা সম্পর্কে পরামর্শ দিয়েছেন:

  1. λ

  2. βRRβiyyβ1,β2,βPLS


1
যে কাগজ দরকারী মনে হচ্ছে। আমি মনে করি না এটি পিএলএস দ্বারা কতটা বেশি ফিটের কারণ হতে পারে তা সম্বোধন করে।
ফ্র্যাঙ্ক হ্যারেল

3
XY

3
আমার অভিজ্ঞতা হ'ল রিজ (চতুর্ভুজযুক্ত শাস্তিযুক্ত সর্বোচ্চ সম্ভাবনার প্রাক্কলন) উচ্চতর পূর্বাভাস দেয়। আমি মনে করি যে কিছু বিশ্লেষকরা মনে করেন যে পিএলএস হ'ল অতিরিক্ত সাফল্য এড়ানোর দিক থেকে একটি মাত্রিক হ্রাস কৌশল but তবে আমি জড় করি যে এটি হয়নি।
ফ্র্যাঙ্ক হ্যারেল 16

2
খ) আপনি যদি মডেলটি কী করে তার জন্য বর্ণনামূলক ব্যাখ্যাটির জন্য যাচ্ছেন তবে আমি পিএলএস লোডিংগুলিতে কি ধরণের পদার্থ পরিমাপ করা হয় তা দেখতে সহজ মনে করি। আপনি সেখানে এক বা দুটি পদার্থ / পদার্থের ক্লাস দেখতে পাচ্ছেন, যেখানে সহগের সমস্ত সুপ্ত ভেরিয়েবল যুক্ত রয়েছে তা ব্যাখ্যা করা শক্ত কারণ আরও বেশি পদার্থের বর্ণালী অবদান একত্রিত করা হয়েছে। এটি আরও সুস্পষ্ট কারণ কারণ সমস্ত বর্ণালী বর্ণনামূলক বিধিগুলি প্রয়োগ হয় না: পিএলএস মডেল অন্যকে উপেক্ষা করার সময় কোনও পদার্থের কিছু ব্যান্ড বেছে নিতে পারে। "সাধারণ" বর্ণালির ব্যাখ্যায় এই ব্যান্ডটি প্রচুর পরিমাণে ব্যবহার করতে পারে ...
ক্যাবলাইটস মনিকা

2
... এই বা যে পদার্থ থেকে আসা। যদি এটি এই পদার্থ হয় তবে অবশ্যই এই অন্যান্য ব্যান্ডটি থাকতে হবে। যেহেতু সুপ্ত ভেরিয়েবল / লোডিং / সহগের সাথে পদার্থের যাচাইকরণের এই পরবর্তী সম্ভাবনাটি সম্ভব নয়, একসাথে পরিবর্তিত জিনিসগুলির ব্যাখ্যা করা এবং তাই একই সুপ্ত ভেরিয়েবলের সমাপ্তিটি ইতিমধ্যে সমস্ত প্রকারের সংক্ষিপ্ত সংখ্যার সহগগুলি ব্যাখ্যা করার চেয়ে অনেক সহজ "ইঙ্গিতগুলি "যে মডেল দ্বারা পরিচিত হয়।
ক্যাবিলাইটস মনিকা

4

হ্যাঁ। হারমান ওল্ডের বই তাত্ত্বিক অভিজ্ঞতাবাদ: বৈজ্ঞানিক মডেল-গঠনের একটি সাধারণ যুক্তি হল পিএলএসের একমাত্র সেরা প্রদর্শন যা আমি সচেতন, বিশেষত প্রদত্ত যে ভোলড পদ্ধতির প্রবর্তক। এটি পড়ার এবং এটি সম্পর্কে জানতে কেবল একটি আকর্ষণীয় বই অ্যামাজনে একটি অনুসন্ধানের উপর ভিত্তি করে, জার্মান ভাষায় লিখিত পিএলএসে বইয়ের উল্লেখের সংখ্যা অবাক করার মতো তবে এটিও হতে পারে যে ওল্ডের বইয়ের সাবটাইটেলটি তার কারণটির একটি অংশ।


1
এই amazon.com/Towards-Unified-Scientific-Models-Methods/dp/... সম্পর্কযুক্ত কিন্তু কভার অনেক বেশি পিএলএস
kjetil খ halvorsen

এটি সত্য তবে বইটির প্রাথমিক দৃষ্টিভঙ্গি পিএলএসের তত্ত্ব এবং প্রয়োগের বিষয়ে ওল্ডের বিকাশ।
মাইক হান্টার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.