রিজ রিগ্রেশন কি উচ্চ মাত্রায় ( ) অকার্যকর ? ওএলএস কীভাবে অতিরিক্ত সাফল্য পেতে ব্যর্থ হতে পারে?


50

পূর্বাভাসকারী এবং নমুনা আকার সহ একটি ভাল পুরানো রিগ্রেশন সমস্যা বিবেচনা করুন । সাধারন জ্ঞান হ'ল ওএলএসের অনুমানকারী বেশি পরিমাণে আসবে এবং সাধারণত রিজ রিগ্রেশন অনুমানকারীকে ছাড়িয়ে যাবে:এটা তোলে ক্রস বৈধতা ব্যবহার করার জন্য একটি অনুকূল নিয়মিতকরণ প্যারামিটার এটি মান । এখানে আমি 10-গুণ সিভি ব্যবহার করি। স্পেসিফিকেশন আপডেট: যখন , "ওলএস অনুমানকারী" দ্বারা আমি "ন্যূনতম-আদর্শ ওএলএস অনুমানকারী" বুঝতে পারিpβ = ( এক্স এক্স + + λ আমি ) - 1 এক্স Y λ এন < পি β OLS ঔজ্জ্বল্যের প্রেক্ষাপটে = ( এক্স এক্স ) + + এক্স Y = এক্স + + Y n

β^=(XX+λI)1Xy.
λn<p
β^OLS=(XX)+Xy=X+y.

আমার কাছে এবং সহ একটি ডেটাসেট রয়েছে । সমস্ত ভবিষ্যদ্বাণীকারী মানসম্পন্ন, এবং বেশ কয়েকটি আছে যা (একা) ভবিষ্যদ্বাণী করার ক্ষেত্রে ভাল কাজ করতে পারে । যদি আমি এলোমেলোভাবে একটি ছোট-ইশ নির্বাচন করি , বলুন , ভবিষ্যদ্বাণীকারীদের সংখ্যা, আমি একটি যুক্তিসঙ্গত সিভি বক্ররেখা পাই: বৃহত্তর মান শূন্য আর স্কোয়ার হয়, ক্ষুদ্রতর মান negative আর-স্কোয়ার (কারণ) ওভারফিটিংয়ের) এবং এর মধ্যে কিছুটা সর্বাধিক রয়েছে। জন্য বক্ররেখা সেটির মতো। তবে এর চেয়ে বড় জন্য , যেমন , আমি মোটামুটি কোনওটিই পাই না: বক্রাকার মালভূমি, যার অর্থ ওএলএসn=80p>1000পি = 50 < এন λ λ পি = 100 > এন পি পি = 1000 λ 0 λyp=50<nλλp=100>npp=1000λ0 সর্বোত্তম সহ রিজ রিগ্রেশন হিসাবে ভাল অভিনয় করে ।λ

এখানে চিত্র বর্ণনা লিখুন

এটি কীভাবে সম্ভব এবং এটি আমার ডেটাসেট সম্পর্কে কী বলে? আমি কি স্পষ্ট কিছু অনুপস্থিত বা এটি প্রকৃতপক্ষে স্বজ্ঞাত? উভয় চেয়ে বড় যে দেওয়া যায় তাতে এবং মধ্যে কোনও গুণগত পার্থক্য কীভাবে থাকতে পারে ?p=100p=1000n

কোন অবস্থার অধীনে ন্যূনতম -ও- এল-এর জন্য সর্বনিম্ন-আদর্শ ওএলএস দ্রবণটি অত্যধিক মানানসই নয় ?n<p


আপডেট: মন্তব্যগুলিতে কিছু অবিশ্বাস ছিল, সুতরাং এটি ব্যবহার করে একটি পুনরুত্পাদনযোগ্য উদাহরণ glmnet। আমি পাইথন ব্যবহার করি তবে আর ব্যবহারকারীরা সহজেই কোডটি মানিয়ে নেবেন।

%matplotlib notebook

import numpy as np
import pylab as plt
import seaborn as sns; sns.set()

import glmnet_python    # from https://web.stanford.edu/~hastie/glmnet_python/
from cvglmnet import cvglmnet; from cvglmnetPlot import cvglmnetPlot

# 80x1112 data table; first column is y, rest is X. All variables are standardized
mydata = np.loadtxt('../q328630.txt')   # file is here https://pastebin.com/raw/p1cCCYBR
y = mydata[:,:1]
X = mydata[:,1:]

# select p here (try 1000 and 100)
p = 1000

# randomly selecting p variables out of 1111
np.random.seed(42)
X = X[:, np.random.permutation(X.shape[1])[:p]]

fit = cvglmnet(x = X.copy(), y = y.copy(), alpha = 0, standardize = False, intr = False, 
               lambdau=np.array([.0001, .001, .01, .1, 1, 10, 100, 1000, 10000, 100000]))
cvglmnetPlot(fit)
plt.gcf().set_size_inches(6,3)
plt.tight_layout()

এখানে চিত্র বর্ণনা লিখুন এখানে চিত্র বর্ণনা লিখুন


2
@ ডি জনসন @ মজা করছেন না সাধারন 10-ভাড়ার সিভি, যার অর্থ প্রতিটি প্রশিক্ষণের সেটটিতে n = 72 থাকে এবং প্রতিটি পরীক্ষার সেটটিতে n = 8 থাকে।
অ্যামিবা বলছেন মনিকা পুনরায় ইনস্টল করুন

2
এটি একটি সাধারণ সিভি থেকে অনেক দূরে । প্রদত্ত যে একটি সনাক্তকারী ফলাফল মত কিছু আশা করতে পারে?
মাইক হান্টার

3
@ ডি জনসন আমি বুঝতে পারছি না আপনি কেন এটিকে স্বাভাবিকের থেকে অনেক দূরে বলছেন। এটিই হ'ল 10-ভাণ্ডার সিভি।
অ্যামিবা বলেছেন মনিকাকে

2
@ Seanv507 আমি দেখছি ভাল, আমি "ল্যাম্বদা = 0" সাথে "ল্যাম্বদা = 0 সহ ন্যূনতম-আদর্শ সমাধান" হিসাবে সংজ্ঞা দেওয়ার পরামর্শ দিই। আমি অনুমান করি যে আমার প্রশ্নটি নিম্নরূপে সংশোধন করা যেতে পারে: কোন অবস্থার অধীনে ন্যূনতম পি-ওভারফিট বনাম বেশি পরিমাণে ন্যূনতম-আদর্শ মানের ওএলএস দ্রবণটি হবে?
অ্যামিবা বলছেন মনিকাকে

3
@ অ্যামিবা: এই প্রশ্নের জন্য আপনাকে ধন্যবাদ। এটি এখনও পর্যন্ত অত্যন্ত শিক্ষামূলক এবং আকর্ষণীয় হয়েছে।
usεr11852 বলেছেন মনিক

উত্তর:


23

তাত্ত্বিক পিসিএতে অনেকগুলি ছোট উপাদান উপস্থিতির কারণে একটি প্রাকৃতিক নিয়মিতকরণ ঘটে । এই ছোট উপাদানগুলি স্পষ্টতই ছোট সহগগুলি ব্যবহার করে শব্দটি ফিট করতে ব্যবহৃত হয়। সর্বনিম্ন আদর্শ ওএলএস ব্যবহার করার সময়, আপনি অনেকগুলি স্বতন্ত্র স্বতন্ত্র উপাদানগুলির সাথে শব্দটি ফিট করে এবং এটি একটি নিয়মিত প্রভাব রিজকে নিয়মিতকরণের সমান করে। এই নিয়মিতকরণ প্রায়শই খুব শক্তিশালী এবং এটি "অ্যান্টি-রেগুলারাইজেশন" ব্যবহার করে নেতিবাচক রিজ হিসাবে এটির ক্ষতিপূরণ দেওয়া সম্ভব । সেক্ষেত্রে, আপনি দেখতে পাবেন যে মানগুলির জন্য সর্বনিম্ন এমএসই বক্ররেখা প্রদর্শিত হয় λxλ

তাত্ত্বিক পিসিএ দ্বারা, আমি বলতে চাই:

যাক একটি বহুচলকীয় স্বাভাবিক বন্টন। এখানে একটি লিনিয়ার আইসোমেট্রি যেমন যেখানে তির্যক: এর উপাদানগুলি স্বতন্ত্র। সহজেই তির্যক দ্বারা প্রাপ্ত হয় ।তোমার দর্শন লগ করা = ( এক্স ) ~ এন ( 0 , ডি ) ডি ইউ ডি ΣxN(0,Σ)fu=f(x)N(0,D)DuDΣ

এখন মডেল লেখা যেতে পারে (ক রৈখিক isometry ডট পণ্য অপরিবর্তিত)। আপনি যদি লিখেন তবে মডেলটি লেখা যেতে পারে । তদতিরিক্তরিজ বা ন্যূনতম আদর্শ OLS ঔজ্জ্বল্যের প্রেক্ষাপটে মত অত: পর ফিটিং পদ্ধতি পুরোপুরি isomorphic আছেন: এর মূল্নির্ধারক দ্বারা ইমেজ এর মূল্নির্ধারক এর ।y=β.x+ϵy=f(β).f(x)+ϵγ=f(β)y=γ.u+ϵβ=γy=γ.u+ϵfy=β.x+ϵ

তাত্ত্বিক পিসিএ অ স্বতন্ত্র ভবিষ্যদ্বাণীকারীদেরকে স্বাধীন ভবিষ্যদ্বাণীতে রূপান্তরিত করে। এটি কেবলমাত্র ইমিরিকাল পিসিএর সাথে সম্পর্কিত যেখানে আপনি ইমিরিকাল কোভারিয়েন্স ম্যাট্রিক্স ব্যবহার করেন (এটি ছোট নমুনার আকারের তাত্ত্বিকের চেয়ে অনেক বেশি পৃথক)। তাত্ত্বিক পিসিএ ব্যবহারিকভাবে গণনাযোগ্য নয় তবে কেবলমাত্র একটি অর্থোোনাল পূর্বাভাসকারী স্পেসে মডেলটির ব্যাখ্যা করতে এখানে ব্যবহৃত হয়।

আসুন দেখি যখন আমরা কোনও মডেলের সাথে অনেকগুলি ছোট ছোট ভেরিয়েন্স স্বতন্ত্র ভবিষ্যদ্বাণী যুক্ত করি:

উপপাদ্য

গুণফলক mb সহ রিজ নিয়মিতকরণ সমান (যখন ):λp

  • যোগ জাল স্বাধীন ভবিষ্যতবক্তা (কেন্দ্রিক এবং অভিন্নরুপে বিতরণ) ভ্যারিয়েন্স সঙ্গে প্রতিটিpλp
  • সর্বনিম্ন আদর্শ ওএলএস অনুমানের সাথে সমৃদ্ধ মডেলটিকে ফিটিং করা
  • সত্য ভবিষ্যদ্বাণীকারীদের জন্য কেবল পরামিতি রাখা

(স্কেচ) প্রুফ

আমরা প্রমাণ করতে যাচ্ছি যে ব্যয়ের কাজগুলি সংক্ষিপ্তভাবে সমান। আসুন মডেলটিকে আসল এবং নকল ভবিষ্যদ্বাণীগুলিতে বিভক্ত করুন: । রিজের ব্যয় ফাংশন (সত্য ভবিষ্যদ্বাণীকারীদের জন্য) লেখা যেতে পারে:y=βx+βx+ϵ

costλ=β2+1λyXβ2

সর্বনিম্ন আদর্শ ওএলএস ব্যবহার করার সময়, প্রতিক্রিয়াটি পুরোপুরি ফিট করা হয়: ত্রুটির শব্দটি 0 হয় The ব্যয়টির কাজটি কেবলমাত্র পরামিতিগুলির আদর্শ সম্পর্কে। এটি সত্য পরামিতিগুলিতে এবং নকলগুলিতে বিভক্ত হতে পারে:

costλ,p=β2+inf{β2Xβ=yXβ}

সঠিক অভিব্যক্তিতে, সর্বনিম্ন আদর্শ সমাধানটি প্রদান করেছেন:

β=X+(yXβ)

জন্য এখন এসভিডি ব্যবহার করছে :X

X=UΣV

X+=VΣ+U

আমরা দেখি যে আদর্শ মূলত এর একবচন মান উপর নির্ভর করে যে একবচন মান বিপরীতকের হয় । এর সাধারণ সংস্করণ হয় । আমি সাহিত্যের দিকে তাকিয়েছি এবং বড় এলোমেলো ম্যাট্রিকগুলির একক মানগুলি সুপরিচিত। যথেষ্ট পরিমাণে এবং জন্য , সর্বনিম্ন এবং সর্বাধিক একক মানগুলি এর দ্বারা প্রায় অনুমান করা হয় ( উপপাদ্য ১.১ দেখুন ):βX+XXp/λXpnsminsmax

smin(p/λX)p(1n/p)
smax(p/λX)p(1+n/p)

যেহেতু, বড় , 0 0 এর দিকে ঝুঁকছে, আমরা কেবল এটিই বলতে পারি যে সমস্ত একক মানগুলি দ্বারা । এভাবে:pn/pp

β1λyXβ

অবশেষে:

costλ,pβ2+1λyXβ2=costλ

দ্রষ্টব্য : আপনি যদি আপনার মডেলটিতে ভুয়া ভবিষ্যদ্বাণীদের সহগগুলি রাখেন তা বিবেচ্য নয়। ভ্যারিয়েন্স চালু হয় । সুতরাং আপনি কেবল আপনার এমএসইকে একটি ফ্যাক্টর দ্বারা বাড়িয়েছেন যা যাইহোক 1 এর দিকে ঝোঁক। কোনওভাবে আপনাকে জাল ভবিষ্যদ্বাণীদের আসল চিত্রগুলির চেয়ে আলাদা আচরণ করার দরকার নেই।βxλpβ21pyXβ2npMSE(β)1+n/p

এখন, অ্যামিবার ডেটাতে ফিরে যান। তাত্ত্বিক পিসিএ প্রয়োগের পরে (স্বাভাবিক গণ্য করা), একটি পরিবর্তনশীল মধ্যে একটি রৈখিক isometry দ্বারা রুপান্তরিত করা হয় যার উপাদান স্বাধীন এবং ভ্যারিয়েন্স অর্ডার কমে সাজানো। সমস্যা সমতুল্য রুপান্তরিত সমস্যা ।xxuy=βx+ϵy=γu+ϵ

এখন উপাদানগুলির বিভিন্নতা দেখতে কল্পনা করুন:

এখানে চিত্র বর্ণনা লিখুন

শেষের উপাদানগুলির অনেক বিবেচনা করুন , তাদের বৈকল্পিকের যোগফলকে কল করুন । এগুলির প্রত্যেকেরই প্রায় সমান এবং পৃথক পৃথক রয়েছে। তারা উপপাদ্যে ভুয়া ভবিষ্যদ্বাণীদের ভূমিকা পালন করে।pλλ/p

@ জোনির মডেলে এই ঘটনাটি আরও স্পষ্ট: কেবলমাত্র তাত্ত্বিক পিসিএর প্রথম উপাদানটি (এটি আনুপাতিক ) এবং এর বিশাল বৈচিত্র রয়েছে। অন্যান্য সমস্ত উপাদান ( সমানুপাতিক ) তুলনামূলকভাবে খুব সামান্য ভিন্নতা রয়েছে (এটি দেখতে কোভেরিয়েন্স ম্যাট্রিক্স লিখুন এবং তির্যক করুন) এবং জাল ভবিষ্যদ্বাণীকারীদের ভূমিকা পালন করুন। আমি পূর্বে হিসাব যে নিয়মিতকরণ এখানে অনুরূপ (প্রায়।) উপর যখন সত্য । এটি অবশ্যই অতিরিক্ত সঙ্কুচিত হয়। এটি চূড়ান্ত এমএসই আদর্শ এমএসইয়ের চেয়ে অনেক বড় যে সত্য দ্বারা দৃশ্যমান। নিয়ন্ত্রণ প্রভাব খুব শক্তিশালী।yx¯xix¯N(0,1p2)γ1γ12=1p

রিজ দ্বারা এই প্রাকৃতিক নিয়মিতকরণের উন্নতি করা কখনও কখনও সম্ভব। প্রথমে আপনার মাঝে মাঝে প্রপঞ্চে প্রয়োজন খুব সত্যই বড় (1000, 10000 ...) গুরুতরভাবে প্রতিদ্বন্দ্বিতা করার জন্য এবং এর সূক্ষ্মতা একটি অনর্থক মত হয়। তবে এটি আরও দেখায় যে প্রাকৃতিকভাবে বিদ্যমান অন্তর্নিহিত নিয়মিতকরণের উপর রিজ একটি অতিরিক্ত নিয়মিতকরণ এবং এইভাবে কেবল খুব সামান্য প্রভাব ফেলতে পারে। কখনও কখনও এই প্রাকৃতিক নিয়ন্ত্রণ ইতিমধ্যে খুব শক্তিশালী এবং রিজ এমনকি উন্নতি হতে পারে না। এর চেয়ে আরও বেশি, অ্যান্টি-রেগুলেশনাইজেশন ব্যবহার করা ভাল: নেতিবাচক সহগ সহ রিজ। এটি @ জনি মডেল ( ) এর জন্য এমএসই দেখায় , using ব্যবহার করে :ppp=1000λR

এখানে চিত্র বর্ণনা লিখুন


2
+1 খুব সুন্দর, এটি লেখার জন্য ধন্যবাদ। আমি মনে করি এটি স্পষ্ট করে দেওয়া জরুরী যে আপনি যখন "নিয়মিতকরণ" বলবেন তখন আপনি (অর্থাত্‍ রিজ) নিয়মিতকরণ বলতে । কেউ আশা করবে যে লাসো বা ইলাস্টিক নেট আরও ভাল আচরণ করতে পারে এবং প্রকৃতপক্ষে লোকেরা পরিস্থিতিতে এটি ব্যবহার করছে । কেউ এ জাতীয় সেটিংয়ে খাঁটি রিজ ব্যবহার করেন না এবং স্ট্যান্ডার্ড পরামর্শটি স্পার্সিটি প্রয়োগের জন্য নিয়মিতকরণগুলি ব্যবহার করা হয়; তাই খাঁটি রিজের আচরণে কেবলমাত্র একাডেমিক আগ্রহ থাকতে পারে। তবুও, এটি বেশ আশ্চর্যজনক যে আমরা এটি এখানে আবিষ্কার করব বলে মনে হচ্ছে। কেন এটি সুপরিচিত নয় ?? L2np
অ্যামিবা বলেছেন মনিকাকে

1
দুর্বলভাবে হার্ড-কোডড আনুপাতিক । দুঃখিত আমি সঠিক কিছু জন্য সময় না। আমার মূল ফোকাসটি ন্যূনতম আদর্শ ওএলএসের আচরণ ছিল, এটি দেখার জন্য যে এটি আপনার উদাহরণ থেকে পৃথক এবং 40 টি ফার্স্টে "কিছু খুব খারাপ নিয়মিতকরণ" হিংসাত্মকভাবে আরও ভাল ছিল। λσ2
বেনোইট সানচেজ

3
আমি মনে করি আমি রহস্যটি বুঝতে পেরেছি: সহগ সহ রিজ নিয়মিতকরণ হ'ল ন্যূনতম আদর্শ ওএলএস এর সমপরিমাণ জাল প্রেডিক্টরগুলির প্রত্যেককে বৈকল্পিক (সংক্ষিপ্ত আকারে বড় ) যুক্ত করে। আপনার ডেটা এবং জনির মডেলটিতে এটি পিসিএ থেকে সর্বনিম্ন বৈকল্পিক উপাদানগুলির জন্য ধন্যবাদ না করেই ঘটে। এটিকে পরিষ্কারভাবে ব্যাখ্যা করার জন্য আমার এখনই সময় প্রয়োজন ...λpλ/pp
বেনোইট সানচেজ

1
আমি একটি ছোট বিষয় পরিষ্কার করেছি: ভুয়া ভবিষ্যদ্বাণীকারীদের সহগগুলি ত্রুটিটি খুব বেশি বাড়ায় না (প্রমাণের শেষে নোট দেখুন)। এটি গুরুত্বপূর্ণ কারণ আপনার ডেটা / জনিতে এগুলি অবশ্যম্ভাবীভাবে ধরে রাখা যায়।
বেনোইট সানচেজ

3
আমি নেগেটিভ রিজ চেষ্টা করেছি। আমি বিশ্বাস করতে পারি না তবে এটি কাজ করে !!! (এবং কেবল জোনির মডেলটিতে নয় ...)
বেনোইট সানচেজ ২

16

দুর্দান্ত চলমান আলোচনার জন্য সবাইকে ধন্যবাদ। বিষয়টির কর্কটটি মনে হয় যে সর্বনিম্ন-আদর্শ ওএলএস কার্যকরভাবে সংকোচনের কাজ করছে যা রিজ রিগ্রেশনের অনুরূপ। এটি যখনই দেখা যাচ্ছে বলে মনে হচ্ছে । হাস্যকরভাবে, খাঁটি শব্দের পূর্বাভাসকারীদের যুক্ত করা এমনকি খুব অদ্ভুত ফর্ম বা নিয়ন্ত্রণ হিসাবেও ব্যবহার করা যেতে পারে।pn


পর্ব I. কৃত্রিম ডেটা এবং বিশ্লেষণী সিভি সহ বিক্ষোভ

@ জনি (+1) সত্যিই একটি সাধারণ কৃত্রিম উদাহরণ নিয়ে এসেছেন যা আমি এখানে সামান্য মানিয়ে নেব। এর আকার এবং এর উত্পন্ন হয় যে সমস্ত ভেরিয়েবলগুলি ইউনিট বৈকল্পিক সহ গাউসিয়ান এবং প্রতিটি ভবিষ্যদ্বাণীকের মধ্যে পারস্পরিক সম্পর্ক এবং প্রতিক্রিয়াটি । আমি ঠিক করব ।Xn×pyρρ=.2

আমি লেভ-ওয়ান-আউট সিভি ব্যবহার করব কারণ স্কোয়ার ত্রুটির জন্য বিশ্লেষণাত্মক প্রকাশ রয়েছে: এটি প্রেস হিসাবে পরিচিত , "বর্গাকার পূর্বাভাসের যোগ"। যেখানে অবশিষ্টাংশ হয় এবং হয় টুপি ম্যাট্রিক্স এসভিডির ক্ষেত্রে । এটি @ জোনির ফলাফলগুলি ব্যবহার না করে এবং ক্রস-বৈধতা না করেই প্রতিফলিত করতে দেয় (আমি এর স্কোয়ারের যোগফলের জন্য প্রেসের অনুপাতের প্লট করছি ):

PRESS=i(ei1Hii)2,
ei
e=yy^=yHy,
H
H=X(XX+λI)1X=US2S2+λU
X=USVglmnety

এখানে চিত্র বর্ণনা লিখুন

এই বিশ্লেষণাত্মক পদ্ধতির সীমাটি তে গণনা করতে দেয় । কেবলমাত্র প্রেসের সূত্রে এ প্লাগ করা কার্যকর হয় না: যখন এবং , তখন অবশিষ্টাংশগুলি সমস্ত শূন্য হয় এবং হ্যাট ম্যাট্রিক্স হ'ল তির্যকটির সাথে পরিচয় ম্যাট্রিক্স হয়, যার অর্থ প্রেসের মধ্যে ভগ্নাংশ that সমীকরণ অপরিবর্তিত তবে আমরা যদি সীমাটি তে গণনা করি , তবে এটি minimum ল্যাম্বদা সাথে সর্বনিম্ন-আদর্শ ওএলএস সমাধানের সাথে মিলবে ।λ0λ=0n<pλ=0λ0λ=0

কৌতুকটি হ্যাট ম্যাট্রিক্সের টেলর সম্প্রসারণ করা যখন : এখানে আমি গ্রাম ম্যাট্রিক্স ।λ0

H=U11+λ/S2UU(1λ/S2)U=IλUS2U=IλG1.
G=XX=US2U

আমরা প্রায় সম্পন্ন করেছি:লাম্বদা বাতিল হয়ে গেছে, সুতরাং এখানে আমাদের সীমাবদ্ধ মান রয়েছে। আমি উপরের চিত্রটিতে একটি বড় কালো বিন্দু দিয়ে এটি প্লট করেছি (প্যানেলগুলিতে যেখানে ), এবং এটি পুরোপুরি মেলে।

PRESS=i(λ[G1y]iλGii1)2=i([G1y]iGii1)2.
p>n

21 ফেব্রুয়ারী আপডেট করুন । উপরের সূত্রটি সঠিক, তবে আমরা আরও অনুমানের মাধ্যমে কিছুটা অন্তর্দৃষ্টি অর্জন করতে পারি। এটা দেখে মনে হচ্ছে এমনকি যদি তির্যক আনুমানিক সমান মান আছে খুব অসম মান আছে (সম্ভবত কারণ সব eigenvalues চমত্কার আপ দ্রবণ)। সুতরাং প্রত্যেকটি ক্ষেত্রে আমাদের কাছে যেখানে কৌনিক বন্ধনীগুলি বোঝায়। এই ব্যবহার করে, আমরা আবার লিখতে পারি:এই আনুষাঙ্গিকটি লাল খোলার চেনাশোনাগুলির সাথে উপরের চিত্রটিতে প্রদর্শিত হবে।G1SUiGii1S2

PRESSS2S2Uy2.

এটি চেয়ে বড় বা ছোট হবে কিনা তা একক মানসমূহ উপর নির্ভর করে । এই সিমুলেশনে এর প্রথম পিসির সাথে সম্পর্কিত হয় তাই বড় এবং অন্য সমস্ত শর্ত ছোট। (আমার আসল তথ্যগুলিতে, নেতৃস্থানীয় পিসিগুলি দ্বারা এরও পূর্বাভাস দেওয়া হয়েছে Now) এখন, ক্ষেত্রে, যদি কলামগুলি পর্যাপ্ত পরিমাণে এলোমেলো হয়, তবে সমস্ত একক মানগুলি একে অপরের নিকটেই থাকবে (সারিগুলি প্রায় আনুমানিক) লম্ব)। "প্রধান" শব্দটিy2=Uy2SyXU1yypnXU1y১ এর চেয়ে কম গুণক দ্বারা গুণিত হবে the শেষের দিকে পদগুলি 1 এর চেয়ে বড় তবে বেশি বড় নয় গুণন করে। সামগ্রিকভাবে আদর্শ হ্রাস পায়। বিপরীতে, ক্ষেত্রে, কিছু খুব ছোট একক মান হবে। বিপর্যয়ের পরে তারা বৃহত্তর উপাদান হয়ে উঠবে যা সামগ্রিক আদর্শকে বাড়িয়ে তুলবে।pn

[এই যুক্তিটি খুব হাতের avyেউয়ের; আমি এটি আরও সুনির্দিষ্ট করা যেতে পারে আশা করি।]

স্যানিটি চেক হিসাবে, যদি আমি ততক্ষণে একক মানগুলির ক্রমটি অদলবদল করে S = diag(flipud(diag(S)));তবে ভবিষ্যদ্বাণী করা এমএসই ২ য় এবং তৃতীয় প্যানেলে সর্বত্র উপরে ।1

figure('Position', [100 100 1000 300])
ps = [10, 100, 1000];

for pnum = 1:length(ps)
    rng(42)
    n = 80;
    p = ps(pnum);
    rho = .2;
    y = randn(n,1);
    X = repmat(y, [1 p])*rho + randn(n,p)*sqrt(1-rho^2);

    lambdas = exp(-10:.1:20);
    press = zeros(size(lambdas));
    [U,S,V] = svd(X, 'econ');
    % S = diag(flipud(diag(S)));   % sanity check

    for i = 1:length(lambdas)
        H = U * diag(diag(S).^2./(diag(S).^2 + lambdas(i))) * U';
        e = y - H*y;
        press(i) = sum((e ./ (1-diag(H))).^2);
    end

    subplot(1, length(ps), pnum)
    plot(log(lambdas), press/sum(y.^2))
    hold on
    title(['p = ' num2str(p)])
    plot(xlim, [1 1], 'k--')

    if p > n
        Ginv = U * diag(diag(S).^-2) * U';
        press0 = sum((Ginv*y ./ diag(Ginv)).^2);
        plot(log(lambdas(1)), press0/sum(y.^2), 'ko', 'MarkerFaceColor', [0,0,0]);

        press0approx = sum((diag(diag(S).^-2/mean(diag(S).^-2)) * U' * y).^2);
        plot(log(lambdas(1)), press0approx/sum(y.^2), 'ro');
    end
end

দ্বিতীয় খণ্ড। নিয়মিতকরণের একটি ফর্ম হিসাবে খাঁটি শব্দের ভবিষ্যদ্বাণী যুক্ত করা

@ জনি, @ বেনোইট, @ পাউল, @ ডিক্রান এবং অন্যরা ভাল যুক্তি দিয়েছিলেন যে ভবিষ্যদ্বাণীকারীদের সংখ্যা বাড়ানো সর্বনিম্ন-আদর্শ ওএলএস সমাধান সঙ্কুচিত করবে। প্রকৃতপক্ষে, একবার গেলে যে কোনও নতুন ভবিষ্যদ্বাণীকারী সর্বনিম্ন-আদর্শ সমাধানের আদর্শকে হ্রাস করতে পারে। সুতরাং ভবিষ্যদ্বাণীকারীদের যুক্ত করা নিয়মটিকে নীচে নামিয়ে দেবে, কিছুটা অনুরূপ যে রিজ রিগ্রেশন কীভাবে আদর্শকে শাস্তি দিচ্ছে।p>n

সুতরাং এটি কি নিয়মিতকরণ কৌশল হিসাবে ব্যবহার করা যেতে পারে? আমরা এবং দিয়ে শুরু করি এবং তারপরে নিয়মিতকরণের প্রচেষ্টা হিসাবে খাঁটি শব্দের পূর্বাভাসকারী যুক্ত করতে থাকি । আমি এলইউসিভি করব এবং এটিকে রিজের জন্য এলওইসিভির সাথে তুলনা করব (উপরের মতো গণনা করা)। মনে রাখবেন যে, প্রাপ্তির পর উপর ভবিষ্যতবক্তা, আমি এ "ছিন্ন" করছি এটা কারণ আমি শুধুমাত্র মূল ভবিষ্যতবক্তা আগ্রহী।n=80p=40qβ^p+qp

এখানে চিত্র বর্ণনা লিখুন

আইটি কাজ করে !!!

আসলে, বিটা কে "কাটা" করার দরকার নেই; এমনকি যদি আমি সম্পূর্ণ বিটা এবং সম্পূর্ণ পূর্বাভাস ব্যবহার করি তবে আমি ভাল পারফরম্যান্স পেতে পারি (ডান সাবপ্লটটিতে ড্যাশড লাইন)। এটি আমার মনে হয় যে প্রশ্নে আমার আসল তথ্য নকল করে: খুব কম ভবিষ্যদ্বাণীকারীরা সত্যই পূর্বাভাস দিচ্ছেন , তাদের বেশিরভাগ খাঁটি শব্দ, এবং এগুলি নিয়মিতকরণ হিসাবে কাজ করে। এই শাসন ব্যবস্থায় অতিরিক্ত রিজ নিয়মিতকরণ মোটেই সহায়তা করে না।p+qy

rng(42)
n = 80;
p = 40;
rho = .2;
y = randn(n,1);
X = repmat(y, [1 p])*rho + randn(n,p)*sqrt(1-rho^2);

lambdas = exp(-10:.1:20);
press = zeros(size(lambdas));
[U,S,V] = svd(X, 'econ');

for i = 1:length(lambdas)
    H = U * diag(diag(S).^2./(diag(S).^2 + lambdas(i))) * U';
    e = y - H*y;
    press(i) = sum((e ./ (1-diag(H))).^2);
end

figure('Position', [100 100 1000 300])
subplot(121)
plot(log(lambdas), press/sum(y.^2))
hold on
xlabel('Ridge penalty (log)')
plot(xlim, [1 1], 'k--')
title('Ridge regression (n=80, p=40)')
ylim([0 2])

ps = [0 20 40 60 80 100 200 300 400 500 1000];
error = zeros(n, length(ps));
error_trunc = zeros(n, length(ps));
for fold = 1:n
    indtrain = setdiff(1:n, fold);
    for pi = 1:length(ps)
        XX = [X randn(n,ps(pi))];
        if size(XX,2) < size(XX,1)
            beta = XX(indtrain,:) \ y(indtrain,:);
        else
            beta = pinv(XX(indtrain,:)) * y(indtrain,:);
        end
        error(fold, pi) = y(fold) - XX(fold,:) * beta;
        error_trunc(fold, pi) = y(fold) - XX(fold,1:size(X,2)) * beta(1:size(X,2));
    end
end

subplot(122)
hold on
plot(ps, sum(error.^2)/sum(y.^2), 'k.--')
plot(ps, sum(error_trunc.^2)/sum(y.^2), '.-')
legend({'Entire beta', 'Truncated beta'}, 'AutoUpdate','off')
legend boxoff
xlabel('Number of extra predictors')
title('Extra pure noise predictors')
plot(xlim, [1 1], 'k--')
ylim([0 2])

@ মার্তিজজন ওয়েটারিংস এই পরীক্ষায় আমি এন = 80 এবং পি = 40 দিয়ে শুরু করব। পূর্বানুমানকারীদের মোট সংখ্যা (পি + কিউ) n = 80 এর কাছাকাছি আসার সাথে সাথে সমস্যাটি শর্তসাপেক্ষে পরিণত হয় এবং ওএলএসের দ্রবণটি মারাত্মকভাবে ওভারফিট করে। ৪ = ৪০ এর আশেপাশে ত্রুটির একটি বিরাট শীর্ষ রয়েছে। P + q> n এর সাথে সাথেই, "ন্যূনতম-আদর্শ" সীমাবদ্ধতা কিক করে এবং ত্রুটি কমতে শুরু করে তবে এটি যেখানে q = 0 দিয়ে ছিল সেখানে ফিরে না আসা পর্যন্ত কিছুটা সময় নেয়। এটি Q = 70, অর্থাত্ প + কিউ = 130 এর কাছাকাছি হয়। এর পরে, ত্রুটি আরও কমছে এবং প্লটের এই অংশটি রিজ রিগ্রেশন প্লটের মতো। এটা কি কোন মানে আছে?
অ্যামিবা বলেছেন মনিকাকে

@ মার্তিজজন ওয়েটারিংস প্রথম মন্তব্যে: আমরা একই পৃষ্ঠায় আছি। ২ য় মন্তব্যে: আমার প্রশ্নে আমি বিটা কেটে দিচ্ছি না, এটা ঠিক। তবে আসলে যদি আমি আমার সিমুলেশনে বিটা কেটে না ফেলে ( y(fold) - XX(fold,:) * betaপরিবর্তে ব্যবহার করি XX(fold,1:size(X,2)) * beta(1:size(X,2))), তবে ফলাফলগুলি খুব বেশি পরিবর্তন হয় না। আমার ধারণা আমার এই উত্তরটি যুক্ত করা উচিত। আমি মনে করি আমার আসল তথ্যগুলি এই জাতীয় আচরণ দেখায়।
অ্যামিবা বলেছেন মনিকাকে

(১/২): আমি এখনও সমস্ত মন্তব্য এবং কোড বোঝার জন্য নিজের পথে কাজ করছি, তবে একটি ধারণা আমার কাছে ঘটেছিল: আমরা যে ঘটনাটি পর্যবেক্ষণ করছি তার মধ্যে এবং রিজ রিগ্রেশন এবং এলোমেলো প্রভাবের মধ্যে সম্পর্ক রয়েছে কি?
রায়ান সিমন্স

(২/২): এখানে রেন্ডেলের জবাব ( স্ট্যাটাস.স্ট্যাকেক্সেঞ্জারএইচএস / সেকশনস / ১২২০২২/২ ), আমরা র্যান্ডম এফেক্টস এবং রিজ রিগ্রেশন-এর মধ্যে একটি অনুমান সমান দেখতে পাই, যেখানে ল্যাম্বডা অবশিষ্টাংশের অনুপাতের সমানরূপের সমান? এলোমেলো প্রভাব। এখানে, বেনোইট সানচেজের উত্তর অনুসারে, আমরা দেখতে পাচ্ছি যে রিজ রিগ্রেশন লাম্বদার একটি ফাংশন এবং পরামিতিগুলির সংখ্যার সমান বৈকল্পিক সহ প্রতিটি ভুয়া স্বতন্ত্র ভবিষ্যদ্বাণীদের একটি স্বেচ্ছাসেবী সংখ্যার যোগ করার সমতুল্য। আমার কাছে মনে হয় একটি ধারণামূলক সম্পর্ক আছে।
রায়ান সিমন্স

@ আমেবা এটি একটি ভুল ছিল ম্যাট্রিক্স এক্স-এ একটি স্কেলড ভেক্টর ওয়াই যুক্ত করা কিছুটা নিয়মিত করে তবে রিজ রিগ্রেশন বা শোনার ভেক্টরগুলির মতো নয়। তবে এটি আমাকে বিস্মিত করে তোলে যখন ওয়াই ভেক্টরের সাথে প্রতিটি ভেরিয়েবলকে কিছুটা নেতিবাচকভাবে সম্পর্কযুক্ত (বা কম ধনাত্মক) করার জন্য আমরা প্রতিটি এক্স থেকে কিছুটা বিয়োগ করি তখন কী হয় । এটি কিছু 'নেতিবাচক' নিয়মিতকরণ করার জন্য। এটি 1000 ভেক্টরগুলিকে নিয়মিতকরণ 'পূর্বাবস্থায়িত' করার জন্য (এক পর্যায়ে এটি অত্যধিক হয়ে উঠতে পারে, আপনি দেখছেন যে শীর্ষ / সর্বোত্তম নিয়মিতকরণ সহগ এখন প্রায় সীমার বাইরে রয়েছে)। y
সেক্সটাস এম্পেরিকাস

15

এখানে এমন একটি কৃত্রিম পরিস্থিতি রয়েছে যেখানে এটি ঘটে। ধরা যাক প্রতিটি ভবিষ্যদ্বাণীকারী চলকটি প্রচুর পরিমাণে গাউসী শব্দ প্রয়োগ করে লক্ষ্য ভেরিয়েবলের একটি অনুলিপি। সর্বোত্তম সম্ভাব্য মডেল হ'ল সব পূর্বাভাসকারী ভেরিয়েবলের গড়।

library(glmnet)
set.seed(1846)
noise <- 10
N <- 80
num.vars <- 100
target <- runif(N,-1,1)
training.data <- matrix(nrow = N, ncol = num.vars)
for(i in 1:num.vars){
  training.data[,i] <- target + rnorm(N,0,noise)
}
plot(cv.glmnet(training.data, target, alpha = 0,
               lambda = exp(seq(-10, 10, by = 0.1))))

100 ভবিষ্যদ্বাণীকারী সহ বিভিন্ন ল্যাম্বডায় এমএসই

100 ভেরিয়েবলগুলি "স্বাভাবিক" উপায়ে আচরণ করে: ল্যাম্বদার কিছু ধনাত্মক মান নমুনা ত্রুটির বাইরে হ্রাস করে।

তবে উপরের কোডটিতে সংখ্যা.ভারগুলি 1000 এ বাড়িয়ে নিন এবং এখানে নতুন এমএসই পথ রয়েছে। (আমি নিজেকে বোঝাতে লগ (লাম্বদা) = -100 প্রসারিত করেছি।

1000 প্রেডিক্টর সহ বিভিন্ন ল্যাম্বডায় এমএসই

আমি যা ভাবছি তা ঘটছে

কম নিয়মিতকরণের সাথে অনেকগুলি পরামিতিগুলি ফিট করার সময়, সহগগুলি এলোমেলোভাবে উচ্চ প্রকৃতির সাথে তাদের সত্য মানের চারপাশে বিতরণ করা হয়।

ভবিষ্যদ্বাণীকারীদের সংখ্যা খুব বড় হয়ে ওঠার সাথে সাথে, "গড় ত্রুটি" শূন্যের দিকে ঝুঁকছে, এবং সহগগুলি যেখানে পড়তে পারে সেখানেই পড়তে দিলে এবং 0 এর দিকে পক্ষপাতদুষ্ট হওয়ার চেয়ে সমস্ত কিছু যোগ করতে ভাল হয়।

আমি নিশ্চিত যে সত্য ভবিষ্যদ্বাণীকারীদের এই অবস্থাটি সমস্ত ভবিষ্যদ্বাণীকের গড় হিসাবে দেখা হয় তবে এটি ঘটে যায় এমন একমাত্র সময় নয়, তবে আমি জানি না যে কীভাবে এখানে সবচেয়ে গুরুত্বপূর্ণ প্রয়োজনীয় শর্তটি শুরু করা যায়।

সম্পাদনা করুন:

খুব কম ল্যাম্বডের জন্য "সমতল" আচরণ সর্বদা ঘটবে, যেহেতু সমাধানটি সর্বনিম্ন-আদর্শ ওএলএস দ্রব্যে রূপান্তরিত হয়। একইভাবে বাঁকটি খুব উচ্চ ল্যাম্বডায় সমতল হবে কারণ দ্রবণটি 0 এ রূপান্তরিত হয়। যদি এই দুটি সমাধানের মধ্যে একটি অনুকূল হয় তবে কোনও সর্বনিম্ন হবে না।

ন্যূনতম-আদর্শ ওএলএস দ্রবণটি এ ক্ষেত্রে (তুলনামূলক) ভাল কেন? আমি মনে করি এটি নীচের আচরণের সাথে সম্পর্কিত যা আমি খুব পাল্টা স্বজ্ঞাত পেয়েছি, তবে প্রতিচ্ছবিটি অনেকটা অর্থবোধ করে।

max.beta.random <- function(num.vars){
  num.vars <- round(num.vars)
  set.seed(1846)
  noise <- 10
  N <- 80
  target <- runif(N,-1,1)
  training.data <- matrix(nrow = N, ncol = num.vars)

  for(i in 1:num.vars){
    training.data[,i] <- rnorm(N,0,noise)
  }
  udv <- svd(training.data)

  U <- udv$u
  S <- diag(udv$d)
  V <- udv$v

  beta.hat <- V %*% solve(S) %*% t(U) %*% target

  max(abs(beta.hat))
}


curve(Vectorize(max.beta.random)(x), from = 10, to = 1000, n = 50,
      xlab = "Number of Predictors", y = "Max Magnitude of Coefficients")

abline(v = 80)

পূর্বাভাসকারীদের সংখ্যা বৃদ্ধি পাওয়ার সাথে সহগের সর্বাধিক প্রস্থের প্লট

এলোমেলোভাবে উত্পাদিত ভবিষ্যদ্বাণীগুলি প্রতিক্রিয়াটির সাথে সম্পর্কিত নয়, যেমন পি বৃদ্ধি করে সহগগুলি বড় হয়, তবে পি একবার এন এর চেয়ে অনেক বড় হয় তারা শূন্যের দিকে সঙ্কুচিত হয়। এটি আমার উদাহরণেও ঘটে। খুব আলগাভাবে, এই সমস্যাগুলির জন্য অনিয়ন্ত্রিত সমাধানগুলির সঙ্কুচিত হওয়া দরকার না কারণ তারা ইতিমধ্যে খুব ছোট are

তুচ্ছ কারণে এটি ঘটে। এর কলামগুলির লিনিয়ার সংমিশ্রণ হিসাবে ঠিক প্রকাশ করা যেতে পারে । co সহগের নূন্যতম-আদর্শ ভেক্টর। আরও কলামগুলিকে যুক্ত করার সাথে সাথে nor এর আদর্শটি হ্রাস করতে হবে বা অবিচ্ছিন্ন থাকতে হবে, কারণ একটি সম্ভাব্য রৈখিক সংমিশ্রণটি পূর্ববর্তী সহগকে একই রাখে এবং নতুন সহগকে সেট করে ।yXβ^β^0


1
(+1 টি)। ভবিষ্যদ্বাণীকারীরা পরস্পর সম্পর্কযুক্ত হলে ঘটনাটি ঘটেছিল বলে মনে হয়। এটির আনুষ্ঠানিক অর্থ এই নয় যে ত্রুটি বক্ররেখাটি ধনাত্মক- জন্য কোনও ন্যূনতম নয়, তবে 0 এর সীমাও বড় নয়। এর ঠিক অর্থ হ'ল বাঁকটি সমতল হয়ে যায় এবং বড় জন্য 0-এর দিকে ঝুঁকির কাজ বন্ধ করার জন্য ছোট- কতটা নিয়মিত হতে হবে তার প্রান্তিকতা । এখানে এই প্রান্তিক গণনা সীমা ছাড়িয়ে গেছে তবে ফায়ারব্যাগের উত্তর এটি সর্বদা বিদ্যমান থাকতে পারে। λλp
বেনোইট সানচেজ

1
glmnetআপনার আপডেটে আপনার প্রয়োজন কেন ? আপনার যদি কেবল ন্যূনতম আদর্শ ওএলএস সমাধানের প্রয়োজন হয় তবে সরাসরি সূত্র রয়েছে (আমার প্রশ্নের দ্বিতীয় সূত্রটি দেখুন) এবং যদি এসভিডি গণনা করে তবে এই সূত্রটি কেবল simply । আর-তে সম্ভবত একটি ফাংশন রয়েছে যা এই সমাধানটিকে গণনা করে তবে আমি আর সত্যিই জানি না :)X=USVβ^=VS1Uy
অ্যামিবা বলেছেন মনিকা

2
এটি সম্পর্কে আরও কিছু চিন্তা করা মোটেও অবাক হওয়ার কিছু নয়। ভেক্টরগুলির রৈখিক সংমিশ্রণ হিসাবে ঠিক প্রকাশ করা যেতে পারে । the হ'ল সবচেয়ে ছোট আদর্শের সহগগুলির ভেক্টর। আপনি যখন কোনও ভেক্টর যুক্ত করেন nor এর আদর্শটি অবশ্যই হ্রাস করতে হবে বা একই আকারে থাকতে হবে, কারণ আপনি পুরাতন সহগকে একই রাখতে এবং নতুনকে শূন্যে সেট করতে পারেন। yXβ^β^
জনি লমন্ড

3
জোনির উদাহরণটি একটি ভাল কারণ এটি ইতিমধ্যে বিশ্লেষণ করা হয়েছে: জেমস-স্টেইন অনুমানকারী দেখুন । 3 বা ততোধিক মাত্রা সহ একটি নির্দিষ্ট ভেক্টর- of এর গড় অনুমান করার সময় , আমরা সর্বদা শূন্যের দিকে পক্ষপাতিত্ব করে সহজ গড়ের মাধ্যমে উন্নতি করতে পারি, যা কমবেশি রিজ রিগ্রেশন কি করে। আমি ভাবছি যদি সম্ভবত এই ক্ষেত্রে উন্নতি খুব কম পরিলক্ষিত হয়? θ
পল

3
এটি সুপরিচিত সত্য যে রিজ রিগ্রেশন ডেটাসেটে অতিরিক্ত "নকল" নমুনাগুলি যুক্ত করার সাথে প্রতিটি বৈশিষ্ট্যের মান এবং অন্য কোথাও শূন্য, এবং সমস্ত সম্পর্কিত প্রতিক্রিয়া শূন্যের সমান। (এই ফর্মটিতে আরআর ব্যয় ফাংশনটি পুনরায় লেখার জন্য এটি তুচ্ছ)) আমি এখন ভাবছি যে অতিরিক্ত বৈশিষ্ট্য যুক্ত করার কোনও উপায় আছে (যেমন খাঁটি শব্দ?) যা একই রকম প্রভাব ফেলবে। অবশ্যই অতিরিক্ত বৈশিষ্ট্য যুক্ত করার অর্থ হ'ল তার মাত্রিকতা বাড়িয়ে তুলবে তবে কেবলমাত্র "মূল" ভবিষ্যদ্বাণীকারীদের কাছে এটির মানগুলি দেখতে পারে। @ পলpλβ^
অ্যামিবা বলছেন মনিকাকে

6

তাই আমি mlrমডেলিং পদ্ধতির থেকে আসলে কী আসছে তা দেখার জন্য আর এর মধ্যে বিশেষায়িত প্যাকেজটি ব্যবহার করে নেস্টেড ক্রস-বৈধকরণ চালানোর সিদ্ধান্ত নিয়েছি ।

কোড (একটি সাধারণ নোটবুকে চালাতে কয়েক মিনিট সময় লাগে)

library(mlr)
daf = read.csv("https://pastebin.com/raw/p1cCCYBR", sep = " ", header = FALSE)

tsk = list(
  tsk1110 = makeRegrTask(id = "tsk1110", data = daf, target = colnames(daf)[1]),
  tsk500 = makeRegrTask(id = "tsk500", data = daf[, c(1,sample(ncol(daf)-1, 500)+1)], target = colnames(daf)[1]),
  tsk100 = makeRegrTask(id = "tsk100", data = daf[, c(1,sample(ncol(daf)-1, 100)+1)], target = colnames(daf)[1]),
  tsk50 = makeRegrTask(id = "tsk50", data = daf[, c(1,sample(ncol(daf)-1, 50)+1)], target = colnames(daf)[1]),
  tsk10 = makeRegrTask(id = "tsk10", data = daf[, c(1,sample(ncol(daf)-1, 10)+1)], target = colnames(daf)[1])
)

rdesc = makeResampleDesc("CV", iters = 10)
msrs = list(mse, rsq)
configureMlr(on.par.without.desc = "quiet")
bm3 = benchmark(learners = list(
    makeLearner("regr.cvglmnet", alpha = 0, lambda = c(0, exp(seq(-10, 10, length.out = 150))),
    makeLearner("regr.glmnet", alpha = 0, lambda = c(0, exp(seq(-10, 10, length.out = 150))), s = 151)
    ), tasks = tsk, resamplings = rdesc, measures = msrs)

ফলাফল

getBMRAggrPerformances(bm3, as.df = TRUE)
#   task.id    learner.id mse.test.mean rsq.test.mean
#1    tsk10 regr.cvglmnet     1.0308055  -0.224534550
#2    tsk10   regr.glmnet     1.3685799  -0.669473387
#3   tsk100 regr.cvglmnet     0.7996823   0.031731316
#4   tsk100   regr.glmnet     1.3092522  -0.656879104
#5  tsk1110 regr.cvglmnet     0.8236786   0.009315037
#6  tsk1110   regr.glmnet     0.6866745   0.117540454
#7    tsk50 regr.cvglmnet     1.0348319  -0.188568886
#8    tsk50   regr.glmnet     2.5468091  -2.423461744
#9   tsk500 regr.cvglmnet     0.7210185   0.173851634
#10  tsk500   regr.glmnet     0.6171841   0.296530437

তারা মূলত কাজ জুড়ে একই কাজ।

সুতরাং, সর্বোত্তম ল্যাম্বডাস সম্পর্কে কী?

sapply(lapply(getBMRModels(bm3, task.ids = "tsk1110")[[1]][[1]], "[[", 2), "[[", "lambda.min")
# [1] 4.539993e-05 4.539993e-05 2.442908e-01 1.398738e+00 4.539993e-05
# [6] 0.000000e+00 4.539993e-05 3.195187e-01 2.793841e-01 4.539993e-05

লক্ষ করুন যে ল্যাম্বডাস ইতিমধ্যে রূপান্তরিত হয়েছে। কিছু ভাঁজ এমনকি সর্বনিম্ন ল্যাম্বদা- বাছাই করে ।λ=0

আমি আরও কিছুটা ঝাঁকুনি দিয়ে glmnetআবিষ্কার করেছিলাম সেখানে ন্যূনতম লাম্বদা বাছাই করা হয় না। পরীক্ষা করে দেখুন:

সম্পাদনা করুন:

অ্যামিবার মন্তব্যের পরে, এটি স্পষ্ট হয়ে উঠল নিয়মিতকরণের পথটি glmnetঅনুমানের একটি গুরুত্বপূর্ণ পদক্ষেপ , সুতরাং কোডটি এখন এটি প্রতিফলিত করে। এইভাবে, বেশিরভাগ বৈসাদৃশ্যগুলি অদৃশ্য হয়ে গেল।

cvfit = cv.glmnet(x = x, y = y, alpha = 0, lambda = exp(seq(-10, 10, length.out = 150)))
plot(cvfit)

এখানে চিত্র বর্ণনা লিখুন

উপসংহার

সুতরাং, মূলত, সত্যিই ফিটকে উন্নত করে ( সম্পাদনা করুন: তবে খুব বেশি নয়! )।λ>0

এটি কীভাবে সম্ভব এবং এটি আমার ডেটাসেট সম্পর্কে কী বলে? আমি কি স্পষ্ট কিছু অনুপস্থিত বা এটি প্রকৃতপক্ষে স্বজ্ঞাত?

আমরা সম্ভবত ডেটা সেটিং- শূন্যের চেয়ে বড় একটি ছোট মানের সঠিক বিতরণের কাছাকাছি । যদিও এ সম্পর্কে পাল্টা স্বজ্ঞাত কিছুই নেই।λ

সম্পাদনা করুন: মনে রাখবেন, রিজ নিয়মিতকরণের পথটি আমরা যখন ফোন করি তখন পূর্ববর্তী প্যারামিটারের অনুমানগুলি ব্যবহার করে glmnetতবে এটি আমার দক্ষতার বাইরে। আমরা lambdaযদি বিস্মৃতিকে খুব কম সেট করি তবে এটি সম্ভবত কার্য সম্পাদনকে হ্রাস পাবে।

সম্পাদনা: ল্যাম্বদা নির্বাচনটি আপনার ডেটা সম্পর্কে আরও কিছু বলে। বৃহত্তর ল্যাম্বডাস কর্মক্ষমতা হ্রাস করার সাথে সাথে এর অর্থ আপনার মডেলটিতে পছন্দসই, অর্থাত্ বৃহত্তর, সহগ রয়েছে, কারণ বড় ল্যাম্বডাস সমস্ত গুণফলকে শূন্যের দিকে সঙ্কুচিত করে। যদিও এর মানে হল যে আপনার মডেল স্বাধীনতা কার্যকর ডিগ্রী স্বাধীনতা, আপাত ডিগ্রী চেয়ে ছোট ।λ0p

উভয় n এর চেয়ে বড় যে দেওয়া যায় তাতে পি = 100 এবং পি = 1000 এর মধ্যে কোনও গুণগত পার্থক্য কীভাবে থাকতে পারে?

p=1000 এ অন্তত একইরকম তথ্য বা এরও বেশি থাকে ।p=100


মন্তব্য

দেখে মনে হচ্ছে আপনি কিছু নন-শূন্য ল্যাম্বদা (আমি আপনার চিত্রটি দেখছি) এর জন্য একটি ছোট্ট ন্যূনতম পাচ্ছেন, তবে বক্ররেখাগুলি এখনও এটির বামদিকে সত্যিই সমতল। সুতরাং আমার মূল প্রশ্নটি রয়ে গেছে যে কেন λ over 0 লক্ষণীয়ভাবে বেশি মানায় না। আমি এখনও এখানে একটি উত্তর দেখতে পাচ্ছি না। আপনি কি এটি সাধারণ ঘটনা হিসাবে প্রত্যাশা করছেন? অর্থাত্ N withp সহ যে কোনও তথ্যের জন্য, ল্যাম্বডা = 0 পারফরম্যান্স করবে [প্রায়] অনুকূল ল্যাম্বডা হিসাবে ভাল? বা এই ডেটা সম্পর্কে বিশেষ কিছু? আপনি যদি মন্তব্যগুলিতে উপরের দিকে তাকান তবে আপনি দেখতে পাবেন যে অনেকেই আমাকে বিশ্বাসও করেনি যে এটি সম্ভব।

আমি মনে করি আপনি পরীক্ষার পারফরম্যান্সের সাথে বৈধতা পারফরম্যান্সকে বিভ্রান্ত করছেন, এবং এই ধরনের তুলনাটি অনুমোদিত নয়।

সম্পাদনা করুন: লক্ষ্য করুন যদিও আমরা lambdaপুরো নিয়মিতকরণের চলার পরে 0 এ সেট করি যখন কর্মক্ষমতা যেমন হ্রাস না করে, তাই নিয়মিতকরণের পথটি কী হচ্ছে তা বোঝার মূল উপায়!

এছাড়াও, আমি আপনার শেষ লাইনটি বেশ বুঝতে পারি না। P = 100 এর জন্য cv.glmnet আউটপুটটি দেখুন। এটির খুব আলাদা আকৃতি থাকবে। সুতরাং পি = 100 বা পি = 1000 যখন এই আকৃতি (বাম দিকে অ্যাসিপটোট বনাম কোনও অ্যাসিম্পটোট) প্রভাবিত করে?

আসুন উভয়ের জন্য নিয়মিতকরণের পাথগুলি তুলনা করি:

fit1000 = glmnet(x, y, alpha = 0, lambda = exp(seq(-10,10, length.out = 1001)))
fit100 = glmnet(x[, sample(1000, 100)], y, alpha = 0, lambda = exp(seq(-10,10, length.out = 1001)))
plot(fit1000, "lambda")

এখানে চিত্র বর্ণনা লিখুন

x11()
plot(fit100, "lambda")

এখানে চিত্র বর্ণনা লিখুন

এটি স্পষ্ট হয়ে যায় বাড়ানোর ক্ষেত্রে বৃহত্তর , যদিও এর উভয় প্লটের বামদিকে অ্যাসিপোটোটিক্যালি-ওএলএস রিজের জন্য ছোট সহগ রয়েছে। সুতরাং, মূলত, গ্রাফের বামে অতিরিক্ত পোশাকগুলি এবং এটি সম্ভবত তাদের মধ্যে আচরণের পার্থক্য ব্যাখ্যা করে।p=1000λp=100

এটা তোলে অপেক্ষকৃত বেশি কঠিন কারণ overfit করবেন, যদিও রিজ শুন্যতে কোফিসিয়েন্টস সঙ্কুচিত, তারা শূন্য পৌঁছানোর না হয়। এর অর্থ এই যে মডেলটির ভবিষ্যদ্বাণীপূর্ণ শক্তি আরও অনেকগুলি উপাদানগুলির মধ্যে ভাগ করা হয়েছে যা শব্দের দ্বারা দূরে সরে যাওয়ার পরিবর্তে গড়ের আশেপাশে ভবিষ্যদ্বাণী করা সহজ করে তোলে।p=1000


+1 এই পরীক্ষাগুলি করার জন্য ধন্যবাদ! দেখে মনে হচ্ছে আপনি কিছু নন-শূন্য ল্যাম্বদা (আমি আপনার চিত্রটি দেখছি) এর জন্য একটি ছোট্ট ন্যূনতম পাচ্ছেন, তবে বক্ররেখাগুলি এখনও এটির বামদিকে সত্যিই সমতল। সুতরাং আমার মূল প্রশ্নটি রয়ে গেছে যে ল্যাম্বদা notice কেন লক্ষণীয়ভাবে অত্যধিক মানায় না। আমি এখনও এখানে একটি উত্তর দেখতে পাচ্ছি না। আপনি কি এটি সাধারণ ঘটনা হিসাবে প্রত্যাশা করছেন? অর্থাত্ সহ যে কোনও ডেটা , ল্যাম্বডা = 0 পারফর্ম করবে [প্রায়] অনুকূল ল্যাম্বডা হিসাবে ভাল? বা এই ডেটা সম্পর্কে বিশেষ কিছু? আপনি যদি মন্তব্যগুলিতে উপরের দিকে তাকান তবে আপনি দেখতে পাবেন যে অনেকেই আমাকে বিশ্বাসও করেনি যে এটি সম্ভব। λ0np
অ্যামিবা বলছেন মনিকা পুনরায় ইনস্টল করুন

এছাড়াও, আমি আপনার শেষ লাইনটি বেশ বুঝতে পারি না। cv.glmnetপি = 100 এর আউটপুট দেখুন । এটির খুব আলাদা আকৃতি থাকবে। সুতরাং পি = 100 বা পি = 1000 যখন এই আকৃতি (বাম দিকে অ্যাসিপটোট বনাম কোনও অ্যাসিম্পটোট) প্রভাবিত করে?
অ্যামিবা বলছেন মনিকা পুনরায় ইনস্টল করুন

আপনি কি জানেন বা mlrনির্বাচন করেন lambda.minবা lambda.1se( cv.glmnetপরিভাষায়)?
অ্যামিবা বলেছেন মনিকাকে

@amoeba lambda.min। এখানে একজন regr.cvglmnetশিক্ষানবিশও রয়েছে, যা সম্ভবত অন্য নিয়মগুলি নির্বাচন করতে দেয়।
ফায়ারব্যাগ

ধন্যবাদ। সত্যি কথা বলতে আমি আপনার 1e-100 বেঞ্চমার্কের আউটপুট বুঝতে পারি না। যেমন পি = 1100 এর জন্য এটি এমএসই = 1.45 দেয়। তবে এখানে অভ্যন্তরীণ লুপে কোনও হাইপারপ্যারামিটার টিউনিং নেই তাই মূলত একজনের অভ্যন্তরীণ সিভি লুপের মোটেই প্রয়োজন হয় না। অর্থাত লাম্বদা = 1e-100 এ অ-নেস্টেড সিভি সহ ফলাফল একই হওয়া উচিত। তবে আমরা প্রথম চিত্রটিতে দেখতে পাই যে এমএসই সেখানে প্রায় 0.7। এটি আমার কাছে কোনও অর্থবোধ করে না।
অ্যামিবা

5

(সর্বনিম্ন আদর্শ) ওএলএস কীভাবে অতিরিক্ত সাফল্য পেতে ব্যর্থ হতে পারে?

সংক্ষেপে:

সত্য মডেলটিতে (অজানা) প্যারামিটারগুলির সাথে সম্পর্কিত এমন পরীক্ষামূলক পরামিতিগুলি সর্বনিম্ন আদর্শ ওএলএস ফিটিং পদ্ধতিতে উচ্চ মানগুলির সাথে অনুমান করা সম্ভব। কারণ তারা 'মডেল + গোলমাল' ফিট করবে তবে অন্যান্য পরামিতিগুলি কেবল 'গোলমাল' মাপসই করবে (এইভাবে তারা গুণাগুলির নিম্ন মানের সাথে মডেলের একটি বৃহত অংশকে ফিট করবে এবং উচ্চ মানের হওয়ার সম্ভাবনা বেশি থাকবে) সর্বনিম্ন আদর্শ ওএলএসে)।

এই প্রভাবটি সর্বনিম্ন আদর্শ ওএলএস ফিটিং পদ্ধতিতে ওভারফিটের পরিমাণ হ্রাস করবে। এর পরে আরও পরামিতিগুলি উপলব্ধ থাকলে এর প্রভাব আরও স্পষ্টভাবে প্রকাশিত হয় তবে সম্ভবত এটি সম্ভব হয় যে সত্যিকারের মডেলটির একটি বড় অংশ অনুমানের সাথে যুক্ত করা হচ্ছে।

দীর্ঘ অংশ:
(বিষয়টি আমার কাছে পুরোপুরি পরিষ্কার না হওয়ায় এখানে কী রাখবেন তা আমি নিশ্চিত নই, বা প্রশ্নের উত্তর দেওয়ার জন্য উত্তরটির কী সঠিকতা প্রয়োজন তা আমি জানি না)

নীচে একটি উদাহরণ দেওয়া যায় যা সহজেই তৈরি করা যায় এবং সমস্যাটি দেখায়। প্রভাবটি এত অদ্ভুত নয় এবং উদাহরণগুলি তৈরি করা সহজ।

  • আমি ভেরিয়েবল হিসাবে সিন-ফাংশন (কারণ তারা লম্ব হয়) arep=200
  • পরিমাপ সহ একটি এলোমেলো মডেল তৈরি করেছে । n=50
    • মডেলটি কেবল ভেরিয়েবলের দিয়ে নির্মিত হয়েছে তাই 200 ভেরিয়েবলের মধ্যে 190 টি ওভার-ফিটিং তৈরির সম্ভাবনা তৈরি করছে।tm=10
    • মডেল সহগগুলি এলোমেলোভাবে নির্ধারিত হয়

এই উদাহরণের ক্ষেত্রে আমরা পর্যবেক্ষণ করেছি যে কিছু ওভার-ফিটিং রয়েছে তবে প্রকৃত মডেলের সাথে সম্পর্কিত পরামিতিগুলির সহগগুলির উচ্চতর মান থাকে। সুতরাং আর ^ 2 এর কিছু ইতিবাচক মান থাকতে পারে।

নীচের চিত্রটি (এবং এটি উত্পন্ন করার কোড) দেখায় যে ওভার-ফিটিং সীমাবদ্ধ। 200 পরামিতিগুলির অনুমান মডেলের সাথে সম্পর্কিত বিন্দুগুলি। লাল বিন্দুগুলি সেই 'পরামিতিগুলির সাথে সম্পর্কিত যেগুলি' সত্যিকারের মডেলটিতেও উপস্থিত রয়েছে এবং আমরা দেখতে পাচ্ছি যে তাদের মান বেশি। সুতরাং, আসল মডেলটির কাছে পৌঁছানোর এবং 0 এর উপরে আর ^ 2 পাওয়ার কিছুটা ডিগ্রি রয়েছে।

  • নোট করুন যে আমি অরર્થোগোনাল ভেরিয়েবল (সাইন-ফাংশন) সহ একটি মডেল ব্যবহার করেছি। যদি প্যারামিটারগুলি পারস্পরিক সম্পর্কযুক্ত হয় তবে তারা তুলনামূলকভাবে খুব উচ্চ সহগের সাথে মডেলটিতে দেখা দিতে পারে এবং সর্বনিম্ন আদর্শ ওএলএসে আরও দণ্ডিত হয়।
  • নোট করুন যে যখন আমরা ডেটা বিবেচনা করি তখন 'অরথোগোনাল ভেরিয়েবলগুলি অরথোগোনাল হয় না। অভ্যন্তরীণ পণ্যের শুধুমাত্র শূন্য হয় যখন আমরা সমগ্র স্থান সংহত এবং আমরা মাত্র কয়েক নমুনা আছে । ফলাফলটি হ'ল শূন্য শোরগোলের পরেও ওভার-ফিটিংটি ঘটবে (এবং আর ^ 2 মানটি শব্দের বাদে অনেকগুলি বিষয়ের উপর নির্ভর করে বলে মনে হচ্ছে অবশ্যই এবং সম্পর্ক রয়েছে তবে এটিও গুরুত্বপূর্ণ যে কতগুলি ভেরিয়েবলগুলি রয়েছে প্রকৃত মডেলটিতে এবং তাদের মধ্যে কতগুলি ফিটিং মডেলটিতে রয়েছে)।sin(ax)sin(bx)xxnp

ওভার-ফিটিং হ্রাস হচ্ছে উদাহরণ

library(MASS)

par(mar=c(5.1, 4.1, 9.1, 4.1), xpd=TRUE)

p <- 200       
l <- 24000
n <- 50
tm <- 10

# generate i sinus vectors as possible parameters
t <- c(1:l)
xm <- sapply(c(0:(p-1)), FUN = function(x) sin(x*t/l*2*pi))

# generate random model by selecting only tm parameters
sel <- sample(1:p, tm)
coef <- rnorm(tm, 2, 0.5)

# generate random data xv and yv with n samples
xv <- sample(t, n)
yv <- xm[xv, sel] %*% coef + rnorm(n, 0, 0.1)

# generate model
M <- ginv(t(xm[xv,]) %*% xm[xv,])

Bsol <- M %*% t(xm[xv,]) %*% yv
ysol <- xm[xv,] %*% Bsol

# plotting comparision of model with true model
plot(1:p, Bsol, ylim=c(min(Bsol,coef),max(Bsol,coef)))
points(sel, Bsol[sel], col=1, bg=2, pch=21)
points(sel,coef,pch=3,col=2)

title("comparing overfitted model (circles) with true model (crosses)",line=5)
legend(0,max(coef,Bsol)+0.55,c("all 100 estimated coefficients","the 10 estimated coefficients corresponding to true model","true coefficient values"),pch=c(21,21,3),pt.bg=c(0,2,0),col=c(1,1,2))

রিজ রিগ্রেশন সম্পর্কিত সংক্ষিপ্ত বিটা কৌশল

আমি অ্যামিবা থেকে অজগর কোডটি আর তে রূপান্তরিত করেছি এবং দুটি গ্রাফকে একত্রিত করেছি। যুক্ত নয়েজ ভেরিয়েবলের সাথে প্রতিটি ন্যূনতম আদর্শ অনুমানের জন্য আমি ( ভেক্টরের জন্য একই (প্রায়) -Norm এর সাথে একটি রিজ রিগ্রেশন অনুমানের সাথে মেলে ।l2β

  • দেখে মনে হচ্ছে কাটা কাটা শব্দের মডেলটি অনেক একই কাজ করে (কেবল কিছুটা ধীর গতিতে গণনা করা হয়, এবং সম্ভবত খানিকটা কম ভাল)।
  • তবে কাটা ছাড়াই প্রভাবটি খুব কম শক্ত হয়।
  • পরামিতি এবং রিজ পেনাল্টি যোগ করার মধ্যে এই চিঠিপত্রগুলি অতিরোধক-ফিটনের অনুপস্থিতির পেছনে সবচেয়ে শক্তিশালী প্রক্রিয়া নয়। এটি বিশেষত 1000p বক্ররেখায় (প্রশ্নের চিত্রের চিত্রে) প্রায় 0.3 এ যেতে দেখা যায় যখন অন্যান্য রেখাচিত্রগুলি বিভিন্ন পি সহ এই স্তরে পৌঁছায় না, রিজ রিগ্রেশন প্যারামিটারটি যাই হোক না কেন। ব্যবহারিক ক্ষেত্রে অতিরিক্ত পরামিতিগুলি রিজ প্যারামিটারের শিফটের মতো নয় (এবং আমি অনুমান করি যে এটি অতিরিক্ত পরামিতি একটি আরও ভাল, আরও সম্পূর্ণ, মডেল তৈরি করবে)।

  • শোর প্যারামিটারগুলি একদিকে আদর্শকে হ্রাস করে (ঠিক রিজ রিগ্রেশনের মতো) তবে অতিরিক্ত শব্দও প্রবর্তন করে। বেনোইট সানচেজ দেখায় যে সীমাতে, ছোট বিচ্যুতির সাথে অনেকগুলি শোর প্যারামিটার যুক্ত করা, এটি শেষ পর্যন্ত রিজ রিগ্রেশন হিসাবে একই হয়ে উঠবে (শোর প্যারামিটারগুলির ক্রমবর্ধমান সংখ্যা একে অপরকে বাতিল করে দেয়)। তবে একই সময়ে, এর জন্য আরও অনেকগুলি গণনা প্রয়োজন (যদি আমরা শব্দটির বিচ্যুতি বাড়িয়ে তুলি, কম পরামিতি ব্যবহার করতে পারি এবং গণনার গতি বাড়িয়ে তুলি তবে পার্থক্য আরও বড় হয়)।

রোহ = 0.2 কাটা শব্দের সাথে রিজ রিগ্রেশনটির তুলনা করা

রোহ = 0.4 কাটা শব্দের সাথে রিজ রিগ্রেশনটির তুলনা করা

আরএও = 0.2 শব্দের প্যারামিটারগুলির বৈকল্পিকতা 2 তে বাড়িয়ে তুলছে কাটা শব্দের সাথে রিজ রিগ্রেশনটির তুলনা করা

কোড উদাহরণ

# prepare the data
set.seed(42)
n = 80
p = 40
rho = .2
y = rnorm(n,0,1)
X = matrix(rep(y,p), ncol = p)*rho + rnorm(n*p,0,1)*(1-rho^2)

# range of variables to add
ps = c(0, 5, 10, 15, 20, 40, 45, 50, 55, 60, 70, 80, 100, 125, 150, 175, 200, 300, 400, 500, 1000)
#ps = c(0, 5, 10, 15, 20, 40, 60, 80, 100, 150, 200, 300) #,500,1000)

# variables to store output (the sse)
error   = matrix(0,nrow=n, ncol=length(ps))
error_t = matrix(0,nrow=n, ncol=length(ps))
error_s = matrix(0,nrow=n, ncol=length(ps))

# adding a progression bar
pb <- txtProgressBar(min = 0, max = n, style = 3)

# training set by leaving out measurement 1, repeat n times 
for (fold in 1:n) {
    indtrain = c(1:n)[-fold]

    # ridge regression
    beta_s <- glmnet(X[indtrain,],y[indtrain],alpha=0,lambda = 10^c(seq(-4,2,by=0.01)))$beta
    # calculate l2-norm to compare with adding variables
    l2_bs <- colSums(beta_s^2)

    for (pi in 1:length(ps)) {
        XX = cbind(X, matrix(rnorm(n*ps[pi],0,1), nrow=80))
        XXt = XX[indtrain,]

        if (p+ps[pi] < n) {
            beta = solve(t(XXt) %*% (XXt)) %*% t(XXt) %*% y[indtrain]
        }
        else {
            beta = ginv(t(XXt) %*% (XXt)) %*% t(XXt) %*% y[indtrain]
        }

        # pickout comparable ridge regression with the same l2 norm      
        l2_b <- sum(beta[1:p]^2)
        beta_shrink <- beta_s[,which.min((l2_b-l2_bs)^2)] 

        # compute errors
        error[fold, pi] = y[fold] - XX[fold,1:p] %*% beta[1:p]
        error_t[fold, pi] = y[fold] - XX[fold,] %*% beta[]
        error_s[fold, pi] = y[fold] - XX[fold,1:p] %*% beta_shrink[]
    }
    setTxtProgressBar(pb, fold) # update progression bar
}

# plotting
plot(ps,colSums(error^2)/sum(y^2) , 
     ylim = c(0,2),
     xlab ="Number of extra predictors",
     ylab ="relative sum of squared error")
lines(ps,colSums(error^2)/sum(y^2))
points(ps,colSums(error_t^2)/sum(y^2),col=2)
lines(ps,colSums(error_t^2)/sum(y^2),col=2)
points(ps,colSums(error_s^2)/sum(y^2),col=4)
lines(ps,colSums(error_s^2)/sum(y^2),col=4)

title('Extra pure noise predictors')

legend(200,2,c("complete model with p + extra predictors",
               "truncated model with p + extra predictors",
               "ridge regression with similar l2-norm",
               "idealized model uniform beta with 1/p/rho"),
       pch=c(1,1,1,NA), col=c(2,1,4,1),lt=c(1,1,1,2))

# idealized model (if we put all beta to 1/rho/p we should theoretically have a reasonable good model)
error_op <- rep(0,n)
for (fold in 1:n) {
  beta = rep(1/rho/p,p)
    error_op[fold] = y[fold] - X[fold,] %*% beta
}
id <- sum(error_op^2)/sum(y^2)
lines(range(ps),rep(id,2),lty=2)

1
(+1) ধন্যবাদ আমি মনে করি আপনার উত্তরের শুরুতে স্বজ্ঞাত যুক্তিটি অর্থবোধ করে।
অ্যামিবা বলছেন

1

আপনি যদি লিনিয়ার অপারেটরগুলির সাথে পরিচিত হন তবে আপনি আমার উত্তরটি ঘটনাটি বোঝার সর্বাধিক সরাসরি পথ হিসাবে পছন্দ করতে পারেন: কেন ন্যূনতম আদর্শ প্রতিরোধ পুরোপুরি ব্যর্থ হয় না? কারণটি হ'ল আপনার সমস্যা ( ) হ'ল অসুস্থ পোজ ইনভার্স সমস্যা এবং এটি সমাধানের অন্যতম উপায় সিউডো-ইনভার্স। নিয়মিতকরণ যদিও একটি উন্নতি।np

এই কাগজটি সম্ভবত সবচেয়ে কমপ্যাক্ট এবং প্রাসঙ্গিক ব্যাখ্যা: লরেঞ্জো রোসাসকো এট আল, শেখা, নিয়মিতকরণ এবং অসুস্থ-বিপরীত সমস্যা । । তারা শেখার হিসাবে, Eq.3 দেখুন, যেখানে প্যারামিটার সংখ্যা পর্যবেক্ষণ সংখ্যা অতিক্রম করে আপনার রিগ্রেশন সমস্যা সেট আপ: যেখানে হিলবার্ট স্পেস এবং এর একটি রৈখিক অপারেটর - সশব্দ তথ্য।

Ax=gδ,
Agδ

স্পষ্টতই, এটি একটি অসুস্থ পোজযুক্ত বিপরীত সমস্যা। সুতরাং, আপনি এটি এসভিডি বা মুর-পেনরোজ বিপরীত দ্বারা সমাধান করতে পারেন, যা প্রকৃতপক্ষে সর্বনিম্ন আদর্শ সমাধান সরবরাহ করবে। সুতরাং এটি অবাক করা উচিত নয় যে আপনার সর্বনিম্ন আদর্শ সমাধানটি পুরোপুরি ব্যর্থ হচ্ছে না।

তবে, আপনি যদি কাগজটি অনুসরণ করেন তবে দেখতে পাবেন যে উপরের দিকে রিজ রিগ্রেশনটি উন্নতি হতে পারে be মুর-পেনরোজ সলিউশন অগত্যা সীমাবদ্ধ নয় বলে উন্নতি হ'ল অনুমানকারীটির আরও ভাল আচরণ।

হালনাগাদ

আমি বুঝতে পেরেছিলাম যে আমি পরিষ্কার করে দিচ্ছি না যে অসুস্থ-পোজ করা সমস্যাগুলি অত্যধিক মানসিক চাপের দিকে নিয়ে যায়। গ্যাবার এ, বঙ্গ জেআর কাগজটি থেকে উদ্ধৃতিটি এখানে দেওয়া হয়েছে। জৈবিক সিস্টেমগুলির গতিশীল মডেলগুলিতে দৃ and় এবং দক্ষ পরামিতি অনুমান । বিএমসি সিস্টেমস জীববিজ্ঞান। 2015; 9: 74। ডোই: 10,1186 / s12918-015-0219-2:

এই সমস্যার অসুস্থতা সাধারণত (i) মডেলগুলি থেকে প্রচুর পরিমাণে প্যারামিটার (ওভার-প্যারামিট্রাইজেশন), (ii) পরীক্ষামূলক ডেটা ঘাটতি এবং (iii) উল্লেখযোগ্য পরিমাপের ত্রুটি [19, 40] থেকে উদ্ভূত হয়। ফলস্বরূপ, আমরা প্রায়শই এই জাতীয় গতিশীল মডেলগুলির তুলনায় অত্যধিক মান গ্রহণ করি ie

সুতরাং, আমার যুক্তিটি নীচে বর্ণিত হতে পারে:

  • অসুস্থ পোজযুক্ত সমস্যা অত্যধিক মানসিক চাপের দিকে নিয়ে যায়
  • (n <p) কেসটি একটি অত্যন্ত অসুস্থ-উদ্ভুত বিপরীত সমস্যা
  • মুর-পেনরোজ স্যুডো-ইনভার্স (বা এসভিডি এর মতো অন্যান্য সরঞ্জাম), যা আপনি প্রশ্নটিতে হিসাবে উল্লেখ করেছেন , একটি অসতর্কিত সমস্যা সমাধান করেX+
  • অতএব, এটি কমপক্ষে কিছুটা হলেও ওভারফিটিংয়ের যত্ন নেয় এবং অবাক হওয়ার কিছু নেই যে এটি সম্পূর্ণরূপে ব্যর্থ হয় না, নিয়মিত ওএলএসের মতো নয়

আবার নিয়মিতকরণ হ'ল আরও শক্ত সমাধান।


1
(+1) ধন্যবাদ, তবে এই কাগজটি কীভাবে প্রাসঙ্গিক তা আমি পুরোপুরি দেখতে পাই না। আমি আগামীকাল আরও বিস্তারিতভাবে এটি দেখতে হবে। তারা ঠিক কোথায় বলে যে ন্যূনতম আদর্শ ওএলএস সমাধানটি কার্যকর হবে না বা সর্বনিম্ন আদর্শের প্রয়োজনীয়তাটিকে নিয়মিতকরণ হিসাবে দেখা যায়?
অ্যামিবা বলেছেন

1
আসুন আপনি কাগজটি পড়ার সময় আলোচনা করুন discuss তারা বলে না যে স্যুডো ইনভার্স নিয়মিতকরণ zation তারা যা বলে তা হ'ল এটিই হ'ল অসুস্থ সমস্যার সমাধান। আমি যা বলছি তা হল ওভারফিটিং সমস্যাটির অসুবিধাগ্রস্থ নেজগুলির কারণে, সুতরাং দ্বিতীয়টি সম্বোধনের মাধ্যমে আপনি প্রাক্তনদের যেমন যত্ন নেন তবুও নিয়মিতকরণের সাথে নয়।
আকসকল

1
আমি মনে করি আশ্চর্যের বিষয়টি নয় যে ন্যূনতম আদর্শ সমাধানটি কিছুটা বেশি পরিমাণে ফিট করে না, তবে আরও নিয়মিতকরণ যুক্ত করার ফলে জিনিসগুলির আরও উন্নতি হয় না। এছাড়াও বৈশিষ্ট্যগুলির সংখ্যা বৃহত্তর হওয়ায় ন্যূনতম আদর্শ সমাধান কেন আরও কার্যকর। আমার স্বজ্ঞাততা হ'ল আরও বেশি পরামিতিগুলির সমস্যাগুলির চেয়ে কম নিয়মিত হওয়ার পরিবর্তে আরও নিয়মিতকরণের প্রয়োজন (সমস্ত কিছু অন্যথায় সমান হচ্ছে)। এটি একটি সত্যই আকর্ষণীয় সমস্যা এবং এটি ব্যাখ্যা করতে সহায়তা করতে পারে যে যেমন অনিয়ন্ত্রিত নিউরাল নেটওয়ার্কগুলি আপনার প্রত্যাশার চেয়েও বেশি ফিট করে না।
ডিকরান মার্সুপিয়াল

1
@ ডিকরান প্রকৃতপক্ষে অন্যান্য ফর্ম বা নিয়মিতকরণ এখনও কর্মক্ষমতা উন্নত করতে পারে: উদাহরণস্বরূপ আমি কার্যনির্বাহী উন্নতি করতে পারি (ন্যূনতম-আদর্শ ওএলএসের তুলনায়) প্রধান উপাদান রিগ্রেশন বা ইলাস্টিক নেট দিয়ে। এটি কেবলমাত্র রিজ নিয়মিতকরণ অকেজো হয়ে যায়। নিউরাল নেটওয়ার্কগুলির সাথে সাদৃশ্যটি একটি আকর্ষণীয় চিন্তা যা আমার মনকে অতিক্রম করে নি। যদিও আমি সম্প্রতি সম্পর্কে যা ভেবেছিলাম তা হ'ল আশ্চর্যরূপে অবাক হওয়ার কিছু নেই যে ব্যাচ নরমালাইজের মতো জটিল গভীর শিক্ষার জিনিসগুলি সত্যই কাজ করে কেন, যে পরিসংখ্যান ১০১ থেকে লিনিয়ার রিজ রিগ্রেশন এতই বিস্ময়কর হতে পারে :-)
অ্যামিবা বলেছেন

2
এটি হ'ল মূল প্রশ্ন নয় তবে আমি মনে করি যে এটি অন্যথায় দুর্দান্ত সিরিজ প্রশ্ন, উত্তর এবং মন্তব্যে ক্রস-বৈধতা আনতে ব্যর্থ হয়েছে। এই আলোচনার জন্য ডেটা অনুকরণে ব্যবহৃত গুলি থেকে জনসংখ্যার লিনিয়ার ভবিষ্যদ্বাণী গণনা করা এবং লিনিয়ার ভবিষ্যদ্বাণীকারীর কোনও অনুমানকারীর এমএসই গণনা করা এত সহজ। এবং আমি এমন একটি মামলা দেখেছি যেখানে আমি রিজ রিগ্রেশন (আর প্যাকেজ ফাংশন) এর জন্য একটি সর্বোত্তম সংশোধিত এআইসি খুঁজে পাইনি । তবে সত্যিকারের লিনিয়ার ভবিষ্যদ্বাণীকে সোনার মান হিসাবে ব্যবহার করে আমার আবার চালানো দরকার। βn<<prmsols
ফ্র্যাঙ্ক হ্যারেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.