ওএলএস লিনিয়ার রিগ্রেশনে ব্যয় ফাংশন


32

আমি মেশিন লার্নিং সম্পর্কে কোর্সেরায় অ্যান্ড্রু এনজি দ্বারা রৈখিক রিগ্রেশন সম্পর্কিত একটি বক্তৃতা দিয়ে কিছুটা বিভ্রান্ত হয়ে পড়েছি। সেখানে তিনি একটি ব্যয়ের কাজ দিয়েছেন যা স্কোয়ারের যোগফলকে হ্রাস করে:

12mi=1m(hθ(X(i))Y(i))2

আমি বুঝতে পারি যে where কোথা থেকে এসেছে। আমি মনে করি তিনি এটি এমনটি করেছিলেন যাতে তিনি যখন বর্গক্ষেত্রের মেয়াদে ডেরিভেটিভ পরিবেশন করেন, বর্গক্ষেত্রের 2 টি অর্ধের সাথে বাতিল হয়ে যায়। তবে আমি বুঝতে পারি না যে । কোথা থেকে এসেছে। 1121m

কেন আমাদের do করা দরকার ? স্ট্যান্ডার্ড লিনিয়ার রিগ্রেশন, আমাদের এটি নেই, আমরা কেবল অবশিষ্টাংশগুলিকে ছোট করি। আমাদের এখানে এটি কেন দরকার?1মি


1/2 মি তথ্য পয়েন্ট প্রতি গড় ত্রুটি খুঁজে পেতে সহায়তা করে এবং এম মোট পর্যবেক্ষণ বা পর্যবেক্ষণের সংখ্যা উপস্থাপন করে।
কৃষ্ণন আচারি

উত্তর:


33

আপনি যেমন অনুধাবন করছেন বলে মনে হচ্ছে, লিনিয়ার রিগ্রেশন পেতে আমাদের অবশ্যই ফ্যাক্টরের দরকার নেই । মিনিমাইজারগুলি অবশ্যই এটির সাথে বা এটি ছাড়া ঠিক একই হবে। মি দ্বারা সাধারণকরণের একটি সাধারণ কারণটি হ'ল আমরা ব্যয় কার্যকারিতাটিকে "জেনারালাইজেশন ত্রুটি" এর সান্নিধ্য হিসাবে দেখতে পারি, যা এলোমেলোভাবে বেছে নেওয়া নতুন উদাহরণের (প্রশিক্ষণ সংস্থায় নয়) প্রত্যাশিত বর্গক্ষেত্র ক্ষতি:1/মিমি

ধরুন IID কিছু বন্টন থেকে নমুনা করছে। তারপরে বড় মিটারের জন্য আমরা আশা করি 1(X,Y),(X(1),Y(1)),,(X(m),Y(m))m

1মিΣআমি=1মি(θ(এক্স(আমি))-ওয়াই(আমি))2(θ(এক্স)-ওয়াই)2

আরও স্পষ্টভাবে, বড় সংখ্যাগুলির শক্তিশালী আইন অনুসারে, আমাদের সম্ভাব্যতা সহ 1।

লিমমি1মিΣআমি=1মি(θ(এক্স(আমি))-ওয়াই(আমি))2=(θ(এক্স)-ওয়াই)2

দ্রষ্টব্য: বিবৃতি প্রত্যেকটি উপরে কোন বিশেষ জন্য , প্রশিক্ষণ সেট দিকে না তাকিয়েই চয়ন করা হয়েছে। মেশিন লার্নিং জন্য, আমরা কিছু জন্য রাখা এই বিবৃতি চান θ ট্রেনিং সেট -এর ওপর তার ভাল কর্মক্ষমতা উপর ভিত্তি করে চয়ন করা হয়েছে। এই দাবির এখনও এই ক্ষেত্রে ধরে রাখতে পারেন যদিও আমরা ফাংশন সেটে এসে কিছু অনুমানের করা প্রয়োজন { θθθ^ , এবং আমাদের বৃহত সংখ্যাগুলির আইন থেকে আরও শক্তিশালী কিছু দরকার need {hθ|θΘ}


1
@ স্টুডেন্টটি মোট হিসাবে গড় ত্রুটি ব্যবহারের সম্ভবত এটি সর্বোত্তম কারণ। আমার ব্যাখ্যাটি সত্যই ডেভিডআর এর গভীর কারণ মাত্র একটি পৃষ্ঠ স্তরের পরিণতি।
ম্যাথু ড্রুরি

29

আপনি না আছে আছে। আপনি 1 টি অন্তর্ভুক্ত করুন কিনা ক্ষতির ফাংশনে একই নূন্যতম রয়েছে বা এটি দমন। আপনি যদি এটি অন্তর্ভুক্ত করেন তবে আপনিডেটাপয়েন্টেগড়ত্রুটিহ্রাস করার (এক অর্ধেক) সুন্দর ব্যাখ্যাপাবেন। অন্য উপায় রাখুন, আপনিমোট ত্রুটির পরিবর্তেত্রুটিহারকেহ্রাস করছেন।1m

ভিন্ন আকারের দুটি ডেটা সেটগুলিতে পারফরম্যান্সের তুলনা বিবেচনা করুন। স্কোয়ার ত্রুটির কাঁচা অঙ্কটি সরাসরি তুলনামূলক নয়, কারণ বড় আকারের ডেটাসেটগুলির আকারের কারণে আরও মোট ত্রুটি থাকে। অন্যদিকে, datapoint প্রতি গড় ত্রুটি হয়

আপনি কিছুটা ব্যাখ্যা করতে পারেন?

অবশ্যই। আপনার ডেটা সেট ডাটা পয়েন্টের একটি সংগ্রহ । আপনার একবার মডেল এইচ হয়ে গেলে , একক ডেটা পয়েন্টে এইচ এর সর্বনিম্ন স্কোয়ার ত্রুটি{xi,yi}hh

(h(xi)yi)2

এটি অবশ্যই প্রতিটি ডেটাপয়েন্টের জন্য আলাদা। এখন, আমরা যদি কেবল ত্রুটিগুলি সংশ্লেষ করি (এবং আপনি যে কারণে বর্ণনা করেছেন তার জন্য অর্ধেক গুণ করে) আমরা মোট ত্রুটি পাই

12i(h(xi)yi)2

তবে যদি আমরা সমান সংখ্যার সাথে ভাগ করে থাকি তবে আমরা প্রতি পয়েন্ট প্রতি গড় ত্রুটি পাই

12mi(h(xi)yi)2

গড় ত্রুটি সুবিধার যে আমরা আছে যদি দুই ডেটাসেট এবং { এক্স ' আমি , Y ' আমি } এর মাপ differeing , তাহলে আমরা গড় ত্রুটি তুলনা করতে পারবেন কিন্তু মোট ত্রুটি। যদি দ্বিতীয় ডেটা সেট হয়, বলুন, প্রথমটির আকারের দশগুণ বেশি, তবে আমরা একই মডেলের জন্য মোট ত্রুটিটি প্রায় দশগুণ বেশি হবে বলে আশা করব। অন্যদিকে, গড় ত্রুটি ডেটা সেটের আকারের প্রভাবকে বিভক্ত করে এবং তাই আমরা আশা করি যে একই রকম পারফরম্যান্সের মডেলগুলি বিভিন্ন ডেটা সেটগুলিতে একই গড় ত্রুটি থাকতে পারে।{xi,yi}{xi,yi}


1
আমি আপনাকে অনুসরণ করতে পারি, আপনি কি কিছুটা বিস্তারিত বর্ণনা করতে পারেন? দুঃখিত, আমি মেশিন লার্নিংয়ে নতুন!
স্মলচেস

@ স্টুডেন্টটি আমি আমার উত্তরে একটি ব্যাখ্যা দেওয়ার চেষ্টা করেছি।
ম্যাথু ড্রুরি

1
আপনি যদি স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত করার সময় মিনি ব্যাচের আকারের সাথে পরীক্ষা-নিরীক্ষা করতে যান তবে এটি একই ক্ষেত্রে প্রযোজ্য যা বড় ডেটাসেটের সাথে কাজ করার সময় লিনিয়ার গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার সবচেয়ে সাধারণ ধরণ: আপনি আরও সহজে ত্রুটির তুলনা করতে পারেন।
জেসনসভাও
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.