আপনার ক্ষতির ফাংশন কাজ করবে না কারণ এটি সেটিং incentivizes কোন সসীম মান এবং করতে ।θ1θ0−∞
এর কল করা যাক অবশিষ্ট জন্য ।r(x,y)=1m∑mi=1hθ(x(i))−yh
আপনার লক্ষ্য করা হয় যেমন শূন্য পাসে সম্ভব, না শুধু এটাকে কমানোর । একটি উচ্চ negativeণাত্মক মান উচ্চ ধনাত্মক মানের হিসাবে খারাপ।r
সম্পাদনা: আপনি কৃত্রিমভাবে প্যারামিটার স্থান (যেমন আপনি চান ) সীমাবদ্ধ করে এটিকে মোকাবেলা করতে পারেন । এই ক্ষেত্রে, অনুকূল পরামিতিগুলি প্যারামিটার স্পেসের সীমানায় নির্দিষ্ট পয়েন্টগুলিতে থাকবে। Https://math.stackexchange.com/q/896388/12467 দেখুন । এই কি আপনি চান না।Θ|θ0|<10
আমরা কেন বর্গক্ষেত্রের ক্ষতি ব্যবহার করব
স্কোয়ার ত্রুটি এবং সাথে মিলে যায়। এটি সম্ভব হলে এ হ্রাস করা হয় , এবং সর্বদা , কারণ এটি আসল সংখ্যার এর বর্গ ।h(x)yu=v≥0u−v
|u−v|would হিসাবে, উপরোক্ত উদ্দেশ্যে এছাড়াও কাজ করবে সঙ্গে, কিছু ধনাত্মক পূর্ণসংখ্যা। এর মধ্যে প্রথমটি ব্যবহৃত হয় (একে ক্ষতি বলা হয়; আপনি যা স্কোয়ার ত্রুটির অন্য নাম।(u−v)2nnℓ1ℓ2
সুতরাং, বর্গক্ষেত্রের ক্ষতিগুলি এর চেয়ে ভাল কেন? এই হল গভীর মধ্যে সংযোগ এর সাথে সম্পর্কিত প্রশ্ন Frequentist এবং Bayesian অনুমান। সংক্ষেপে, স্কোয়ার ত্রুটি গাউসী নয়েসের সাথে সম্পর্কিত ।
আপনার ডেটা ঠিক সব পয়েন্ট ফিট না হয় তাহলে, অর্থাত্ কোন ব্যাপার কি কিছু পয়েন্ট জন্য শূন্য নয় (হিসাবে সবসময় বাস্তবে ঘটবে) আপনার চয়ন করা, যে কারণে হতে পারে গোলমাল । যে কোনও জটিল সিস্টেমে আপনার মডেল এবং রিয়েলিটি এর পার্থক্যের জন্য অনেকগুলি ছোট ছোট স্বাধীন কারণ থাকবে : পরিমাপের ত্রুটি, পরিবেশগত কারণ ইত্যাদি etc. কেন্দ্রীয় সীমাবদ্ধতা উপপাদ্য (সিএলটি) দ্বারা মোট শব্দটি সাধারণত বিতরণ করা হবে , যেমন অনুযায়ী গাউসির বিতরণ । আমরা সেরা ফিট বেছে নিতে চাইh(x)−yθ h yθঅ্যাকাউন্টে এই শব্দ বিতরণ গ্রহণ। , model of এর যে অংশটি আপনার মডেল ব্যাখ্যা করতে পারে না, তা অনুমান করুন , গাউসীয় বিতরণ । আমরা রাজধানী ব্যবহার করছি কারণ আমরা এখন এলোমেলো ভেরিয়েবলের কথা বলছি।R=h(X)−YyN(μ,σ)
গাউসীয় ডিস্ট্রিবিউশনের দুটি প্যারামিটার রয়েছে, যার অর্থ এবং ভেরিয়েন্স । এই শর্তগুলি আরও ভালভাবে বুঝতে এখানে দেখুন ।μ=E[R]=1m∑ihθ(X(i))−Y(i))σ2=E[R2]=1m∑i(hθ(X(i))−Y(i)))2
বিবেচনা করুন , এটি আমাদের পরিমাপের পদ্ধতিগত ত্রুটি । ব্যবহার করুন , পদ্ধতিগত ত্রুটির জন্য সংশোধন যাতে (পাঠকদের জন্য ব্যায়াম)। এখানে আর কিছু করার নেই।μএইচ ′ ( এক্স ) = এইচ ( এক্স ) - μ μ ′ = ই [ আর ′ ] = 0h′(x)=h(x)−μμ′=E[R′]=0
σ এলোমেলো ত্রুটি প্রতিনিধিত্ব করে , যাকে শব্দও বলা হয় । একবার আমরা পূর্ববর্তী বিন্দুর মতো পদ্ধতিগত শব্দের উপাদানটির যত্ন নেওয়ার পরে, হ্রাস করা হয়েছে। আরেকটি উপায়ে বলি, সেরা ভবিষ্যদ্বাণীকারী হলেন হ'ল পূর্বাভাসকৃত মান, অর্থাৎ ক্ষুদ্রতম বৈকল্পিকের চারপাশে সবচেয়ে কম বিতরণ (ক্ষুদ্রতম প্রকরণ)। সর্বনিম্ন স্কোয়ার ক্ষয়ক্ষতি হ্রাস করা বৈকল্পিকতা হ্রাস করার একই জিনিস! এটি ব্যাখ্যা করে যে কেন সর্বনিম্ন স্কোয়ার লোকসান বিস্তৃত সমস্যার জন্য কাজ করে। অন্তর্নিহিত শব্দটি প্রায়শই সিএলটি-র কারণে গাউসিয়ান হয় এবং স্কোয়ার ত্রুটি হ্রাস করে সঠিক হিসাবে দেখা দেয়σ 2 = 1σ2=1m∑i(hθ(X(i))−Y(i)))2 করার আছে!
একই সাথে গড় এবং ভিন্নতা উভয়কেই বিবেচনায় নিতে, আমরা আমাদের শ্রেণিবদ্ধে একটি সিস্টেম পক্ষের শর্তটি অন্তর্ভুক্ত করি (পদ্ধতিগত ত্রুটি- পরিচালনা করতে ), তারপরে বর্গক্ষেত্রের ক্ষতি হ্রাস করুন।μ
ফলোআপ প্রশ্ন:
স্বল্প স্কোয়ার ক্ষতি = গাউসিয়ান ত্রুটি। অন্যান্য প্রতিটি ক্ষতির ফাংশনও কিছু শব্দ বিতরণের সাথে মিলে যায়? হ্যাঁ. উদাহরণস্বরূপ, ক্ষতি (স্কোয়ার ত্রুটির পরিবর্তে নিখুঁত মান হ্রাস করা) ল্যাপ্লেস বিতরণের সাথে যায় ( সূত্রটি দেখুন - এটি কেবলমাত্র পরিবর্তে সাথে গাউসিয়ান রয়েছে )। সম্ভাব্যতা বিতরণের জন্য একটি জনপ্রিয় ক্ষতি হ'ল কেএল-ডাইভারজেন্স । -গুশিয়ান বিতরণ কেন্দ্রীয় সীমাবদ্ধ তত্ত্বের কারণে খুব ভালভাবে অনুপ্রাণিতℓ1| x - μ | ( x - μ ) 2 ℓ 1|x−μ|(x−μ)2যা আমরা আগে আলোচনা করেছি। ল্যাপলেস বিতরণটি কখন সঠিক শোরগোলের মডেল? কিছু পরিস্থিতিতে যেখানে এটি সম্পর্কে স্বাভাবিকভাবেই আসে, কিন্তু এটা আরো সাধারণভাবে হিসাবে একটি regularizer এর জোরদার করা sparsity : ক্ষতি অন্তত উত্তল সব উত্তল লোকসান মধ্যে।ℓ1
- জন মন্তব্যে যেমন উল্লেখ করেছেন, স্কোয়ার বিচ্যুতির মিনিমাইজারটি গড় এবং পরম বিচরণের যোগফলের সংক্ষিপ্ততর মাধ্যমিক । আমরা কেন মাঝখানের পরিবর্তে অবশিষ্টাংশের মধ্যস্থতাকারীদের সন্ধান করব? গড়ের বিপরীতে, মিডিয়ান একটি খুব বড় আউটলেট দ্বারা ফেলে দেওয়া হয় না। সুতরাং, ক্ষতিটি জন্য ব্যবহৃত হয়। কখনও কখনও দুজনের সংমিশ্রণ ব্যবহার করা হয়।ℓ1
এমন পরিস্থিতি রয়েছে যেখানে আমরা গড় এবং বৈকল্পিকতা উভয়কেই ন্যূনতম করি? হ্যাঁ. দেখুন বায়াস-ভ্যারিয়েন্স ট্রেড বন্ধ । এখানে, আমরা ক্লাসিফায়ার of এর একটি সেট খুঁজছি এবং তাদের মধ্যে কোনটি সেরা তা জিজ্ঞাসা করছি। যদি আমরা জিজ্ঞাসা করি যে কোন শ্রেণিবদ্ধের সেটটি কোনও সমস্যার জন্য সেরা, তবে পক্ষপাত এবং প্রকরণ উভয়ই হ্রাস করা গুরুত্বপূর্ণ হয়ে ওঠে। দেখা যাচ্ছে যে তাদের মধ্যে সর্বদা বাণিজ্য বন্ধ থাকে এবং আমরা কোনও সমঝোতা অর্জনের জন্য নিয়মিতকরণ ব্যবহার করি ।hθ∈H
সংক্রান্ত মেয়াদ12
1/2 গুরুত্ব দেয় না এবং বাস্তবেও - তারা উভয়ই ধ্রুবক। সর্বোত্তম মান উভয় ক্ষেত্রে একই থাকবে।mθ
গ্রেডিয়েন্টের জন্য অভিব্যক্তিটি দিয়ে সুন্দর হয়ে যায় , কারণ বর্গক্ষেত্রের 2 টি বাতিল হয়ে যায়।12
- কোড বা অ্যালগরিদমগুলি লেখার সময়, আমরা সাধারণত গ্রেডিয়েন্টের সাথে আরও উদ্বিগ্ন, তাই এটি সংক্ষিপ্ত রাখতে সহায়তা করে। আপনি কেবল গ্রেডিয়েন্টের আদর্শ পরীক্ষা করে অগ্রগতি পরীক্ষা করতে পারেন। ক্ষতির ফাংশনটি নিজেই কখনও কখনও কোড থেকে বাদ যায় কারণ এটি কেবলমাত্র চূড়ান্ত উত্তরের বৈধতার জন্য ব্যবহৃত হয়।
আপনি গ্রেডিয়েন্ট বংশদ্ভুত সঙ্গে এই সমস্যার সমাধান দরকারী। তারপরে আপনার গ্রেডিয়েন্ট একটি অঙ্কের পরিবর্তে পদগুলির গড় হয়ে যায় , সুতরাং যখন আপনি আরও ডেটা পয়েন্ট যুক্ত করেন তখন এর 'স্কেল পরিবর্তন হয় না।mm
- আমি এর আগেও এই সমস্যায় পড়েছি: আমি সংখ্যক পয়েন্ট সহ কোডটি পরীক্ষা করি এবং এটি কার্যকর হয় তবে আপনি যখন এটি পুরো ডেটাसेटের সাথে পরীক্ষা করেন তখন নির্ভুলতা হ্রাস পায় এবং কখনও কখনও ওভার / নিম্ন-প্রবাহে থাকে, অর্থাৎ আপনার গ্রেডিয়েন্ট হয়ে যায়
nan
বা inf
। এড়াতে, কেবল ডাটা পয়েন্টের কব্জি সংখ্যাকে স্বাভাবিক করুন।
এই নান্দনিক সিদ্ধান্তগুলি এখানে ভবিষ্যতের সমীকরণগুলির সাথে ধারাবাহিকতা বজায় রাখার জন্য ব্যবহৃত হয় যেখানে আপনি নিয়মিতকরণের শর্তাদি যুক্ত করবেন। আপনি অন্তর্ভুক্ত করেন, তাহলে , নিয়মিতকরণ প্যারামিটার ডেটা সেটটি আকারের উপর নির্ভর করা হবে না এবং এটি সমস্যার জুড়ে আরো interpretable হবে।mλm