প্রত্যাশিত ভবিষ্যদ্বাণী ত্রুটি - ডেরাইভেশন


20

আমি নীচে প্রতি প্রত্যাশিত পূর্বাভাস ত্রুটির (ESL) তাত্পর্য বোঝার জন্য লড়াই করছি, বিশেষত ২.১১ এবং ২.১২ (কন্ডিশনিং, পয়েন্ট-ওয়াইজ ন্যূনতম দিকে ধাপ) the যে কোনও পয়েন্টার বা লিঙ্কগুলি প্রশংসিত।

নীচে আমি ইএসএল পৃষ্ঠা থেকে উদ্ধৃত প্রতিবেদন করছি। 18. প্রথম দুটি সমীকরণ, ক্রম, সমীকরণ 2.11 এবং 2.12।


যাক একটি বাস্তব মূল্যবান র্যান্ডম ইনপুট ভেক্টর, এবং বোঝাতে একটি বাস্তব মূল্যবান র্যান্ডম আউটপুট পরিবর্তনশীল, যুগ্ম ডিস্ট্রিবিউশনের সাথে । আমরা ইনপুট প্রদত্ত মানগুলির পূর্বাভাস দেওয়ার জন্য একটি ফাংশনXRpYRPr(X,Y)f(X)YX । ভবিষ্যদ্বাণীতে ত্রুটিগুলি দণ্ডিত করার জন্য এই তত্ত্বটির ক্ষতি একটি ক্ষতি ফাংশন প্রয়োজন L(Y,f(X)) , এবং এখন পর্যন্ত সবচেয়ে সাধারণ এবং সুবিধাজনক হ'ল স্কোয়ার ত্রুটি ক্ষতি : L(Y,f(X))=(Yf(X))2 । এটি আমাদেরf নির্বাচনের জন্য একটি মানদণ্ডে নিয়ে যায়,

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

প্রত্যাশিত (স্কোয়ার) পূর্বাভাস ত্রুটি। X কন্ডিশনার করে আমরা ইপিই লিখতে পারি

EPE(f)=EXEY|X([Yf(X)]2|X)

এবং আমরা দেখতে পেলাম যে ইপিই পয়েন্ট-ওয়াইনকে হ্রাস করতে যথেষ্ট হবে:

f(x)=argmincEY|X([Yc]2|X)

সমাধানটি হ'ল

f(x)=E(Y|X=x)

শর্তসাপেক্ষ প্রত্যাশা, যা রিগ্রেশন ফাংশন নামেও পরিচিত ।


ল এর সম্পূর্ণ প্রত্যাশার উইকিপিডিয়া নিবন্ধের প্রথম সমীকরণে এবং ওয়াই অদলবদল (2.9) এবং (2.11) এর সমতুল্যতা দেয়। প্রমাণের জন্য যে নিবন্ধটি পড়ুন। (2.12) যে অবিলম্বে করা হচ্ছে বুঝতে উপর অর্ডার EPE হ্রাস করার জন্য মনোনীত করা হয়। XYf
whuber

3
পার্শ্ব দ্রষ্টব্য: এটি পরিসংখ্যান শেখার উপাদানগুলি
ঝুবার্ব

2
যারা এই বইটি পড়ছেন তাদের জন্যও ওয়েদারম্যাক্স এবং এপস্টেইনের এই বিস্তৃত নোটগুলি দেখুন
ডডজি

@ ডডজি সেই লিঙ্কটি মারা গেছে: (
ম্যাথু ড্রুরি

2
-); @MatthewDrury সৌভাগ্যবশত একটি "Weathermax এবং এপস্টাইন পরিসংখ্যান" এর googling প্রথম ফলে একটি লিঙ্ক ফিরে waxworksmath.com/Authors/G_M/Hastie/WriteUp/...
Dodgie

উত্তর:


16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)

3
আপনি কী লিখেছেন তা আমি বুঝতে পেরেছি, তবে আপনি কি ভাবেন যে যদি প্রশ্নটিতে দেখানো ডাইরিভিশন দ্বারা ওপি বিভ্রান্ত হয়, তবে তিনি আপনার উত্তরটি বুঝতে পারবেন? অবশ্যই, আমি ইতিমধ্যে প্রশ্নটিতে প্রদর্শিত ব্যয় বুঝতে পেরেছি।
মার্ক এল স্টোন

আমি গুগল থেকে একই প্রশ্নটি নিয়ে এখানে এসেছি এবং এই উত্কৃষ্টতাকে আমার ঠিক যা প্রয়োজন তা হ'ল।
সেমিকোলনস এবং নালী টেপ

1
@ MarkL.Stone - এই একটি মূঢ় প্রশ্ন হতে পারে, কিন্তু আপনি ব্যাখ্যা হতে পারে কি দ্বারা বোঝানো হয় এবং কিভাবে এটা হয়ে পি ( এক্স , Y ) এক্স Y ? ধন্যবাদ একগুচ্ছPr(dx,dy)p(x,y)dxdy
জাভেয়ের বউরেট সিকোত্তে

1
প্রাক্তন বলতে যা বোঝায় তা হ'ল পরেরটি। আমি মনে করি পরিবর্তে ডিপি (এক্স, ওয়াই) বা ডিএফ (এক্স, ওয়াই) ব্যবহার করা বেশি সাধারণ। 1 ডি-তে, আপনি প্রায়শই ডিএফ (এক্স) দেখতে f (x) ডিএক্স দেখতে পাবেন যেখানে f (x) সম্ভাবনা ঘনত্বের ক্রিয়া, তবে স্বরলিপিটি পৃথক সম্ভাব্যতা ভর ক্রিয়াকলাপ (সংক্ষেপে) বা এমনকি একটি মিশ্রণেরও অনুমতি দিতে পারে অবিচ্ছিন্ন ঘনত্ব এবং পৃথক সম্ভাবনা ভর।
মার্ক এল স্টোন

(শেষ সূত্র) বলার চেয়ে আরও নির্ভুল হবে না ? EX(EY|X([Yf(X)]2|X=x))
ডি 1 এক্স

11

সমীকরণ (2.11) নিম্নলিখিত সামান্য সাম্যতার একটি পরিণতি। যে কোনও দুটি এলোমেলো ভেরিয়েবলের জন্য এবং জেড 2 এবং যে কোনও ফাংশন জিZ1Z2g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

EZ1,Z2EZ1Z2Z1Z2

না করে এটিকে ক্ষেত্রে এটি যাচাই করা সহজ easyZ1Z2

EZ2(EZ1Z2(g(Z1,Z2)Z2))=EZ2(z1g(z1,Z2)Pr(Z1=z1Z2))=z2(z1g(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))

The continuous case can either be viewed informally as a limit of this argument, or formally verified once all the measure theoretic do-dads are in place.

To unwind the application, take Z1=Y, Z2=X, and g(x,y)=(yf(x))2. Everything lines up exactly.

The assertion (2.12) asks us to consider minimizing

EXEYX(Yf(X))2

where we are free to choose f as we wish. Again, focusing on the discrete case, and dropping halfway into the unwinding above, we see that we are minimizing

x(y(yf(x))2Pr(Y=yX=x))Pr(X=x)

Everything inside the big parenthesis is non-negative, and you can minimize a sum of non-negative quantities by minimizing the summands individually. In context, this means that we can choose f to minimize

y(yf(x))2Pr(Y=yX=x)

individually for each discrete value of x. This is exactly the content of what ESL is claiming, only with fancier notation.


8

I find some parts in this book express in a way that is difficult to understand, especially for those who do not have a strong background in statistics.

I will try to make it simple and hope that you can get rid of confusion.

Claim 1 (Smoothing) E(X)=E(E(X|Y)),X,Y

Proof: Notice that E(Y) is a constant but E(Y|X) is a random variable depending on X.

E(E(X|Y))=E(X|Y=y)fY(y)dy=xfX|Y(x|y)dxfY(y)dy=xfX|Y(x|y)fY(y)dxdy=xfXY(x,y)dxdy=x(fXY(x,y)dy)dx=xfX(x)dx=E(X)

Claim 2: E(Yf(X))2E(YE(Y|X))2,f

Proof:

E((Yf(X))2|X)=E(([YE(Y|X)]+[E(Y|X)f(X)])2|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2E((YE(Y|X))(E(Y|X)f(X))|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2(E(Y|X)f(X))E(YE(Y|X))|X)( since E(Y|X)f(X) is constant given X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X) ( use Claim 1 )E((YE(Y|X))2|X)

Taking expectation both sides of the above equation give Claim 2 (Q.E.D)

Therefore, the optimal f is f(X)=E(Y|X)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.