কেন ছোট ওজনগুলি নিয়মিতকরণে সহজ মডেলগুলির ফলাফল করে?


27

আমি প্রায় এক বছর আগে অ্যান্ড্রু এনগের মেশিন লার্নিং কোর্সটি সম্পন্ন করেছি এবং এখন লজিস্টিক রিগ্রেশন এবং পারফরম্যান্সকে অনুকূল করার কৌশলগুলি সম্পর্কে আমার হাই স্কুল গণিত অনুসন্ধানটি লিখছি writing এই কৌশলগুলির মধ্যে একটি অবশ্যই নিয়মিতকরণ।

নিয়ন্ত্রণের লক্ষ্য হল মডেলের সরলতার লক্ষ্য অন্তর্ভুক্ত করার জন্য ব্যয় ক্রিয়াকে বাড়িয়ে ওভারফিটিং প্রতিরোধ করা। আমরা কিছু নিয়মিতকরণ পরামিতি দ্বারা গুণিত প্রতিটি বর্গক্ষেত্রের প্রতিটি ব্যয় ফাংশনে যুক্ত করে ওজনের আকারকে দণ্ডিত করে এটি অর্জন করতে পারি ।

এখন, মেশিন লার্নিং অ্যালগরিদম প্রশিক্ষণের সেটটিতে যথার্থতা বজায় রেখে ওজনগুলির আকার হ্রাস করার লক্ষ্য রাখে। ধারণাটি হ'ল আমরা মাঝখানে এমন কিছু জায়গায় পৌঁছে যাব যেখানে আমরা এমন একটি মডেল তৈরি করতে পারি যা ডেটাতে সাধারণীকরণ করে এবং কম জটিল হয়ে সমস্ত স্টকাস্টিক আওয়াজে ফিট করার চেষ্টা করে না।

আমার বিভ্রান্তি কেন আমরা ওজনের আকারকে দন্ডিত করি ? বৃহত্তর ওজন কেন আরও জটিল মডেল তৈরি করে এবং ছোট ওজনগুলি সহজ / মসৃণ মডেল তৈরি করে? অ্যান্ড্রু এনজি তার বক্তৃতায় দাবি করেছেন যে ব্যাখ্যাটি শেখানো একটি কঠিন, তবে আমার ধারণা আমি এখন এই ব্যাখ্যাটি খুঁজছি looking

অধ্যাপক এনজি প্রকৃতপক্ষে কীভাবে নতুন ব্যয় কার্যকারিতাটির ওজনকে (যেমন x ^ 3 এবং x ^ 4) শূন্যের দিকে ঝুঁকতে পারে তার একটি উদাহরণ দিয়েছিলেন যাতে মডেলের ডিগ্রি হ্রাস পায় তবে এটি সম্পূর্ণ তৈরি করে না ব্যাখ্যা।

আমার অন্তর্নিহিততাটি হ'ল ছোট ওজনগুলি ক্ষুদ্র ক্ষুদ্র এক্সপোজেন্টগুলির চেয়ে বেশি ক্ষতিকারক বৈশিষ্ট্যগুলির সাথে আরও "গ্রহণযোগ্য" হতে থাকে (কারণ ছোট ওজনের বৈশিষ্ট্যগুলি ফাংশনের ভিত্তির মতো)। ছোট ওজন উচ্চ অর্ডার সহ বৈশিষ্ট্যগুলিতে আরও ছোট "অবদান" বোঝায়। তবে এই স্বজ্ঞাতটি খুব কংক্রিটের নয়।


2
এটি একটি প্রশ্নের প্রয়োজনের মতো মনে হচ্ছে "সুতরাং আমার দাদী এটি বুঝতে পারে" উত্তর।
এনগ্রিস্টুডেন্ট - মনিকা

2
@ এঙ্গারস্টুডেন্ট কারণ আমার হাই স্কুল গণিত শিক্ষক এবং উচ্চ বিদ্যালয়ের গণিত পরীক্ষার্থীদের পড়ার জন্য এটি ঠিক আমার ম্যাথ আইএতে উপস্থাপন করা দরকার।
এমসিকেপুর

উত্তর:


4

আপনি ব্যবহার করেন তাহলে নিয়মিতকরণ আপনি শুধুমাত্র না কমানোর করছি ইন-নমুনা ত্রুটি কিন্তু Oতোমার দর্শন লগ করাটিহেএসএকটিমিপিRRRআমিএনএসএকটিমিপিRRR+ +এমসিমিপিএক্সআমিটিYপিএনএকটিটিY

আরো সঠিকভাবে, একটি হাইপোথিসিস জন্যএইচ, যেখানেλকিছু প্যারামিটার, সাধারণতλ(0,1),মিটারআপনার ডেটাসেটে উদাহরণ সংখ্যা, এবংΩকিছু শাস্তি যে ওজন উপর নির্ভরশীল হয়W,Ω=WটিW। এটিবর্ধিত ত্রুটিহিসাবে পরিচিত। ওজন কম ছোট হলে আপনি কেবলমাত্র উপরে ফাংশনটি ছোট করতে পারেন।জেএকটিতোমার দর্শন লগ করা((এক্স),Y,λ,Ω)=জে((এক্স),Y)+ +λ2মিΩএইচλλ(0,1)মিΩWΩ=WটিW

এখানে খেলনা খেলতে কিছু আর কোড রয়েছে

w <- c(0.1,0.2,0.3)
out <- t(w) %*% w
print(out)

সুতরাং, পরিবর্তে পুরো হাইপোথিসিস স্থান দণ্ড আরোপ এর , আমরা প্রতিটি অনুমান দণ্ডিত স্বতন্ত্রভাবে। আমরা কখনও কখনও এর ওজন ভেক্টর ডাব্লু দ্বারা অনুমানের h উল্লেখ করি ।এইচW

নিম্ন ওজনের মডেল জটিলতার সাথে কেন ছোট ওজনগুলি চলে যায়, আসুন নীচের অনুমানটি দেখুন: । মোট আমরা তিনটি সক্রিয় ওজন পরামিতি ডাব্লু 1 , , ডাব্লু 3 । এখন, আসুন আমরা ডাব্লু 3 একটি খুব ছোট মান, ডাব্লু 3 = 0 সেট করুন । এটি মডেলের জটিলতা হ্রাস করে: এইচ1(এক্স)=এক্স1×W1+ +এক্স2×W2+ +এক্স3×W3W1,...,W3W3W3=0 । তিনটি সক্রিয় ওজনের পরামিতিগুলির পরিবর্তে আমরা কেবল দুটি বাকি পেয়েছি।1(এক্স)=এক্স1×W1+ +এক্স2×W2


1
স্পষ্টতই যদি কোনও ওজন শূন্যে কমে যায় তবে মডেলের জটিলতা হ্রাস হওয়ায় আপনি একটি পদ এবং সুতরাং একটি গণনামূলক অপারেশন সরিয়ে নিতে পারেন। কিন্তু এই ব্যাখ্যা কেন মডেল জটিলতা কমে যাবে যেমন ওজন মান সাহায্য না পন্থা শূন্য। সূত্র নয়, এমন শব্দ দিয়ে কেউ কি তা ব্যাখ্যা করতে পারেন?
গ্রেগ 7gkb

6

আমি নিশ্চিত যে আমি কী সম্পর্কে কথা বলছি তা সত্য কিনা তা আমি নিশ্চিত নই তবে আমি এটির শট দেব। এটি এত ছোট ওজন থাকা খুব বেশি নয় যা ওভারফিটিং প্রতিরোধ করে (আমার মনে হয়), এটি আরও সত্য যে আরও নিয়মিতভাবে মডেল করার জায়গাটি হ্রাস করে is বাস্তবে আপনি যদি আপনার এক্স মানগুলির এল 2 আদর্শকে 10000000s এর ভেক্টর বিয়োগ করে নিতে চান তবে আপনি প্রায় 10000000 নিয়মিত করতে পারেন। এটি ওভারফিটিংকে হ্রাস করবে (অবশ্যই এটি করার পিছনে আপনার কিছু যুক্তিও হওয়া উচিত (উদাহরণস্বরূপ আপনার ওয়াই মানগুলি আপনার এক্স মানগুলির যোগফলের তুলনায় 10000000 গুণ বেশি বড়, তবে কেউ সত্যিই তা করে না কারণ আপনি কেবল ডেটা পুনরুদ্ধার করতে পারেন)।

বায়াস এবং ভেরিয়েন্স উভয়ই মডেল জটিলতার ফাংশন। এটি ভিসি তত্ত্বের সাথে সম্পর্কিত তাই এটি দেখুন। সম্ভাব্য মডেলের জায়গাগুলি বৃহত্তর (যেমন আপনার সমস্ত প্যারামিটারগুলি মূলত নিতে পারে) মডেলটির সম্ভাবনা তত বেশি। যদি আপনার মডেল কোনও সরলরেখার থেকে শুরু করে প্রতিটি দিকে সাইন ওয়েভের মতো ঝাঁকুনি দেওয়া পর্যন্ত যা কিছু করে উপরে উঠতে পারে তবে তা আপনার ডেটাতে এলোমেলো উপায়ে মডেল হওয়ার সম্ভাবনা অনেক বেশি যা ফলাফল হয় না isn't অন্তর্নিহিত সংকেত তবে সেই ডেটা সেটে কেবল ভাগ্যবান সুযোগের ফলাফল (এই কারণেই আরও ডেটা প্রাপ্তি অধিকতর সহায়তা করে তবে আন্ডারফিটিং নয়)।

আপনি যখন নিয়মিত করেন, মূলত আপনি মডেলের স্থান হ্রাস করেন। এর অর্থ এই নয় যে মসৃণ / চাটুকার ফাংশনগুলির উচ্চতর পক্ষপাত এবং কম বৈকল্পিকতা থাকে। লিনিয়ার মডেলটির কথা চিন্তা করুন যা সাইন ওয়েভ দ্বারা আবৃত থাকে যা মূলত কিছু না করে এমন একটি ছোট ছোট প্রশস্ততা দোলন সীমাবদ্ধ থাকে (এটি মূলত একটি अस्पष्ट লাইন)। এই ফাংশনটি এক অর্থে সুপার উইগল্লি তবে একটি লিনিয়ার রিগ্রেশনের চেয়ে কিছুটা বেশি fits মসৃণ / চাটুকারের ফাংশনগুলিতে উচ্চতর পক্ষপাত এবং কম বৈকল্পিকতা থাকার কারণ হ'ল কারণ তথ্য বিজ্ঞানী হিসাবে আমরা ধরে নিই যে আমাদের যদি একটি নমুনা স্থান হ্রাস পেয়ে যায় তবে ঘটনাক্রমে রেজারের সাহায্যে আমরা মডেলগুলিকে মসৃণ ও সরল রাখি এবং মডেলগুলি ছুঁড়ে ফেলি would এগুলি পুরো জায়গা জুড়ে দিশেহারা এবং দোদুল্যমান। প্রথমে উইগলি মডেলগুলি ছুঁড়ে ফেলার মতো ধারণা তৈরি হয়,

রিজ রিগ্রেশনের মতো নিয়মিতকরণ, মডেলের স্থান হ্রাস করে কারণ এটি শূন্য (বা যে কোনও সংখ্যা) থেকে আরও দূরে থাকা আরও ব্যয়বহুল করে তোলে। সুতরাং যখন মডেলটি আপনার ডেটাতে একটি ক্ষুদ্র ক্ষুদ্র ক্ষয়ক্ষতি বিবেচনার সিদ্ধান্ত নিয়েছে, তখন সম্ভবত এটির দিক থেকে ভুল হবে, কারণ এটি (সাধারণত) আপনার প্যারামিটারের মান বাড়িয়ে তুলবে। যদি সেই পার্টনিউটিজটি এলোমেলো সুযোগের কারণে হয় (যেমন আপনার এক্স ভেরিয়েবলগুলির মধ্যে একটিতে আপনার y ভেরিয়েবলের সাথে সামান্য র্যান্ডম সম্পর্ক রয়েছে) মডেলটিকে নিয়মিত নয় এমন রেজিস্ট্রেশনের তুলনায় অ্যাকাউন্টটিকে বিবেচনা করবে না কারণ নন-নিয়মিত রেজিস্ট্রেশনের সাথে কোনও দাম নেই বিটা আকার বাড়ছে। যাইহোক, যদি সেই ক্ষতিকারক ঘটনাটি আসল সংকেতের কারণে হয় তবে আপনার নিয়মিত রেজিস্ট্রেশন সম্ভবত এটি মিস করবে যে কারণে এটির উচ্চতর পক্ষপাত রয়েছে (এবং কেন সেখানে বৈকল্পিক পক্ষপাতিত্ব ট্রেড অফ রয়েছে)।


আপনার চিন্তাশীল উত্তরের জন্য আপনাকে ধন্যবাদ! সুতরাং হ্যাঁ, চতুর্থ অনুচ্ছেদে আপনি উল্লেখ করেছেন "এইভাবে যখন মডেলটি আপনার ডেটাতে একটি ছোট্ট ঘাঁটিঘাঁটি বিবেচনায় নেওয়ার নির্বাচনের মুখোমুখি হয়, তখন সম্ভবত এটির পক্ষে ভুল হয় না, কারণ এটি (সাধারণত) আপনার প্যারামিটার বাড়িয়ে তুলবে মান। "। এটিই আমি সুনির্দিষ্টভাবে জিজ্ঞাসা করছি কেন এটি কেস? ধন্যবাদ!
এমসিকেপুর

পেনাল্টি ফ্যাক্টর যুক্ত করে আপনি এটির কম সম্ভাবনা তৈরি করেন যে মডেলটির উচ্চতর বিটা থাকবে, সুতরাং আপনার মডেলের স্থানটি কম। অন্যটি মনে রাখার বিষয়টি হ'ল যদি আপনার মডেলটি সমস্ত শব্দ হয় তবে এর কোনও শূন্যতা নেই কারণ এর সাথে কোনও সম্পর্ক নেই ope সাধারণত সত্য)। সুতরাং যদি কোনও বিতর্ক / সম্পর্ক থাকে তবে এটি বিটা বাড়ানোর সম্ভাবনা রয়েছে। সুতরাং নিয়মিতকরণ এই সত্যটিকে শাস্তি দেয় এবং সংকেত বা গোলমাল হতে পারে এমন প্রতিচ্ছবিগুলির মধ্যে ফিরিয়ে আনতে বাধা দেয়।
www3

@ ww3 আমি বুঝতে পেরেছি। তবে বৃহত্তর বিটাসের ফলে উচ্চতর মডেলের স্থান কেন ঘটে?
এমসিকেপুর

আপনার আর প্রয়োজন হয় কিনা তা আমি নিশ্চিত নই তবে আমি ভেবেছিলাম আমি উত্তর দেব। বিষয়টি বড় বেটাস নয়। উদাহরণস্বরূপ আপনি Y বা 1000 * Y এর সাথে রিগ্রেশন করতে পারবেন প্রতিটির ক্ষেত্রে একই জটিলতা থাকবে তবে দ্বিতীয় ক্ষেত্রে বিটাগুলি 1000 বেশি হবে। সাধারণ নিয়মিতকরণ নির্দিষ্ট বিটা সংমিশ্রণগুলি অর্জন করা আরও কঠিন করে তোলে, যেমন একটি সহগের পরিমাণ 1000 এবং অন্য -1000 এবং অন্য যেগুলি 0s এর মতো চাটুকার / সরল। এর অর্থ যদি আপনার মডেলটির ডেটা থেকে নির্দিষ্ট কিছু গোলমাল থাকে তবে নিয়মিত মডেল এটি তুলার সম্ভাবনা কম।
www3

অবিরত রাখতে, মডেলটি সমস্ত কোলাহলপূর্ণ quirks উপেক্ষা করবে না, এটি কেবল এমন quirks উপেক্ষা করবে যা বিতার পরম মানগুলিকে বৃদ্ধি করে। এর অর্থ হ'ল বিটার মানগুলিকে হ্রাসকারী কিরকগুলিকে আরও জোর দেওয়া হবে। এটি ঠিক আছে কারণ আপনি সরল রেখার চেয়ে বেশি আঁকড়ে রেখাগুলি আঁকতে পারেন (যেমন লাইনারি বা ধ্রুবক সমীকরণের সাথে চতুর্ভুজ সমীকরণের তুলনা করুন)। সুতরাং যদি এমন কোলাহলগুলি দেখা যায় যেগুলি ডেটাগুলিকে প্রভাবিত করে, তবে তারা কোনও চাটুকার / স্ট্রেটার মডেলের তুলনায় একটি মডেলকে আরও উইগলি (এবং তাই আরও জটিল মডেল) ফিট করার সম্ভাবনা বেশি।
www3

3

গল্প:
আমার ঠাকুরমা হাঁটে, কিন্তু চড়েনি। কিছু ঠাকুমা করেন। এক দাদী কিলিমঞ্জারো আরোহণের জন্য বিখ্যাত ছিল ।

সেই সুপ্ত আগ্নেয়গিরি বড়। এটি এর বেস থেকে 16,000 ফুট উপরে is (আমার সাম্রাজ্যীয় ইউনিটগুলিকে ঘৃণা করবেন না)) এর শীর্ষে কখনও কখনও হিমবাহ থাকে।

যদি আপনি এমন এক বছরে আরোহণ করেন যেখানে কোনও হিমবাহ নেই, এবং আপনি শীর্ষে পৌঁছেছেন, তবে কি হিমবাহ ছিল এমনই একই শীর্ষে? উচ্চতা আলাদা। আপনার যে পথ অবলম্বন করতে হবে তা আলাদা। হিমবাহের ঘনত্ব বেশি হলে আপনি কি শীর্ষে যান? এটি এটিকে আরও একটি সাফল্য করে তোলে? প্রায় 35,000 লোক প্রতি বছর এটি আরোহণের চেষ্টা করে তবে প্রায় 16,000 জনই সফল হয়।

অ্যাপ্লিকেশন:
সুতরাং আমি আমার দাদীর কাছে ওজন নিয়ন্ত্রণের (ওরফে মিনিমাইজিং মডেল জটিলতা) ব্যাখ্যা করব:

ঠাকুরমা, আপনার মস্তিষ্ক একটি আশ্চর্যজনক চিন্তাবিদ আপনি এটি জানেন বা না জানেন। যদি আমি আপনাকে জিজ্ঞাসা করি যে তারা কীভাবে ১ who,০০০ কে শীর্ষে পৌঁছেছে বলে মনে করে তারা আসলে এটি করেছে, আপনি "তাদের সমস্ত" বলবেন।

আমি যদি সমস্ত 30,000 পর্বতারোহীর জুতাগুলিতে সেন্সর রেখেছি এবং সমুদ্রতল থেকে উচ্চতা পরিমাপ করি তবে এই ভাগে কিছু লোক অন্যদের মতো উচ্চতা পায়নি এবং যোগ্যতা অর্জন করতে পারে না। যখন আমি এটি করি যে আমি স্থির মডেলটিতে যাচ্ছি - আমি বলছি যদি উচ্চতা পরিমাপকৃত সর্বোচ্চ উচ্চতার কিছু শতাংশের সমান না হয় তবে এটি শীর্ষ নয় not কিছু লোক শীর্ষে লাফ দেয়। কিছু লোক কেবল লাইনটি পেরিয়ে বসে থাকে।

আমি সেন্সরে অক্ষাংশ এবং দ্রাঘিমাংশ যুক্ত করতে পারি এবং কিছু উচ্চতর অর্ডার সমীকরণের সাথে ফিট করতে পারি এবং সম্ভবত আমি আরও ভাল ফিট করতে পারি এবং আরও লোকেরা থাকতে পারি, সম্ভবত এটির চেষ্টা করা মোট জনগণের ঠিক ৪৫ %ও।

সুতরাং আসুন পরের বছরটি একটি "বড় হিমবাহ" বছর বা একটি "কোনও হিমবাহ" বছর না কারণ কিছু আগ্নেয়গিরি সত্যই পৃথিবীর আলবেডোকে রূপান্তরিত করে । আমি যদি এই বছর থেকে আমার জটিল এবং কঠোর মডেলটি গ্রহণ করি এবং পরের বছর আরোহণকারী লোকদের কাছে এটি প্রয়োগ করি তবে মডেলটির অদ্ভুত ফলাফল হতে চলেছে। হয়তো প্রত্যেকে "পাস" করবে বা পাস করার জন্য খুব বেশি হবে। সম্ভবত কেউ পাস করবে না, এবং এটি ভাববে যে কেউ আসলেই আরোহণটি সম্পন্ন করেনি। বিশেষত যখন মডেলটি জটিল হয় তখন এটি ভালভাবে জেনারেল না হওয়ার প্রবণতা রাখে। এটি ঠিক এই বছরের "প্রশিক্ষণ" ডেটা ফিট করতে পারে, কিন্তু নতুন তথ্য এলে এটি খারাপ আচরণ করে comes

আলোচনা:
আপনি যখন মডেলটির জটিলতা সীমাবদ্ধ করেন, তখন আপনার অতিরিক্ত ওষুধ না দিয়ে সাধারণত আরও সাধারণীকরণ করা যায়। আরও সহজ মডেলগুলি ব্যবহার করে, যা বাস্তব-বিশ্বের বৈচিত্রকে সামঞ্জস্য করার জন্য আরও বেশি নির্মিত, আরও ভাল ফলাফল দেওয়ার ঝোঁক দেয়, সমস্ত কিছুই সমান।

এখন আপনার কাছে একটি স্থির নেটওয়ার্ক টপোলজি রয়েছে, তাই আপনি বলছেন "আমার প্যারামিটারের গণনা স্থির হয়ে গেছে" - মডেলের জটিলতায় আমার প্রকরণ থাকতে পারে না। ছাইপাঁশ. ওজনে এন্ট্রপি পরিমাপ করুন। এন্ট্রপি যখন বেশি হয়, এর অর্থ কিছু সংখ্যক অন্যের তুলনায় যথেষ্ট "তথ্যবহুলতা" বহন করে। আপনার যদি খুব কম এন্ট্রপি থাকে তবে এর অর্থ হ'ল সাধারণভাবে সহগগুলি "তথ্যবহুলতা" এর একই স্তরের বহন করে। তথ্যবহুলতা অগত্যা কোনও ভাল জিনিস নয়। একটি গণতন্ত্রে আপনি চান যে সমস্ত মানুষ সমান হোক এবং জর্জ অরওয়েলের মতো জিনিস "অন্যের চেয়ে সমান" সিস্টেমের ব্যর্থতার একটি পরিমাপ। যদি এর কোনও দুর্দান্ত কারণ না থাকে তবে আপনি চান ওজন একে অপরের সাথে বেশ সমান হোক।

একটি ব্যক্তিগত নোটে: ভুডু বা হিউরিস্টিক্স ব্যবহার না করে, আমি "তথ্যের মানদণ্ড" এর মতো জিনিস পছন্দ করি কারণ তারা আমাকে নির্ভরযোগ্য এবং ধারাবাহিক ফলাফল পেতে দেয় get এআইসি , এআইসিসি এবং বিআইসি কয়েকটি সাধারণ এবং দরকারী প্রারম্ভিক পয়েন্ট। সমাধানের স্থিতিশীলতা বা তথ্যের মানদণ্ডের ফলাফলের পরিধি নির্ধারণের জন্য বিশ্লেষণ পুনরাবৃত্তি করা একটি সাধারণ পদ্ধতি। কেউ ওজনে এনট্রপিতে সিলিং লাগানোর দিকে নজর দিতে পারে।


2
মজার ব্যাপার অন্যরকম। পেডেন্টের কোণ: আপনি লিখেছেন "ওরসন ওয়েলস"। বানানটি ওয়েলস। আমি সন্দেহ করি আপনি জর্জ অরওয়েল ( অ্যানিম্যাল ফার্ম ) এর অর্থ সবই দিয়েছিলেন।
নিক কক্স

@ নিককক্স - আমি খুব অসুস্থ ছিলাম। আমার মস্তিষ্ক যেমন ইচ্ছা তেমন কাজ করে না। অরওয়েল ছিল।
এনগ্রিস্টুডেন্ট - মনিকা

আমি বুঝতে চাইছি কেন নির্দিষ্ট সংখ্যক প্যারামিটারের সাথে মডেল জটিলতা পরিবর্তিত হতে পারে (আপনার দ্বিতীয় থেকে শেষ অনুচ্ছেদের ধারণা) এবং আমার কোনও ভাগ্য গুগলিং "প্যারামিটার এন্ট্রপি" বা "এলএস প্যারামিটার এন্ট্রপি" পাচ্ছে না। আপনি কী এনট্রপির ধারণাটি ব্যবহার করেছেন কারণ এটি কেবল ভাল ফিট করে বা এটি মডেল পরামিতিগুলির একটি সম্পত্তিটির আসল, বহুল পরিচিত? আগাম ধন্যবাদ.
আলভারো ফুয়েন্তেস

1
@ আলভারো ফুয়েটেস - এন্ট্রপি, এই অর্থে তথ্য তত্ত্ব থেকে এসেছে। এখানে উইকিপিডিয়া নিবন্ধ। ওজনকে তালিকা হিসাবে ভাবেন এবং সম্ভাব্যতার ঘনত্বের আনুমানিক জন্য কার্নেল পদ্ধতি ব্যবহার করে আপনি সমস্ত ওজনের সিস্টেমের এনট্রপি গণনা করতে পারেন। আপনি উচ্চতর স্কেলে নিউরনগুলি জুড়ে তুলনা করতে প্রতি নিউরনের গড় এনট্রপি দেখতে পারেন।
EngrStudent - মনিকা

0

একটি সহজ স্বজ্ঞাত নীচে দেওয়া হয়। মনে রাখবেন নিয়মিতকরণের জন্য বৈশিষ্ট্যগুলি প্রায় মানসম্পন্ন করার জন্য মানক করা উচিত। একই স্কেল।

ধরা যাক যে মিনিমাইজেশন ফাংশনটি স্কোয়ার ত্রুটির পরিমাণ মাত্র:

এসএস

এসএসএসএস

এখন নিয়মিতকরণ বিবেচনা করুন, এক্ষেত্রে লাসো। হ্রাস করা ফাংশনগুলি হয়

এসএস+ +λΣ|β|

এখন অতিরিক্ত বৈশিষ্ট্য যুক্ত করার ফলে অতিরিক্ত জরিমানার ফলস্বরূপ: পরম সহগের যোগফল আরও বড় হয়! এসএসই হ্রাস অতিরিক্ত অতিরিক্ত জরিমানা ছাড়িয়ে যাওয়া উচিত। বিনা ব্যয়ে অতিরিক্ত বৈশিষ্ট্য যুক্ত করা আর সম্ভব নয়।

বৈশিষ্ট্য মানীকরণ এবং পরম সহগের যোগফলকে দণ্ডিত করার সংমিশ্রণ অনুসন্ধানের স্থানকে সীমাবদ্ধ করে, যার ফলে কম ওভারফিটিং হয়।

এখন লাসো:

এসএস+ +λΣ|β|

গুণাগুণগুলি শূন্যে রাখার প্রবণতা রয়েছে, যখন রিজ রিগ্রেশন:

এসএস+ +λΣβ2

গুণাগুণগুলি আনুপাতিকভাবে সঙ্কুচিত করে। এটি পেনালাইজ ফাংশনের ধরণের পার্শ্ব প্রতিক্রিয়া হিসাবে দেখা যায়। নীচের ছবিটি এর সাথে সহায়তা করে:

এখানে চিত্র বর্ণনা লিখুন

অনুশীলনে নিয়মিত পেনাল্টি ফাংশনটি প্যারামিটারগুলির জন্য একটি 'বাজেট' দেয়, উপরে সায়ান এলাকা দ্বারা চিত্রিত।

এসএস

চিত্র থেকে নেওয়া https://onlinecourses.science.psu.edu/stat857/node/158

সংক্ষিপ্তসার: নিয়মিতকরণ অতিরিক্ত প্যারামিটারগুলি যুক্ত করে জরিমানা করে, এবং নিয়ন্ত্রণের ধরণের উপর নির্ভর করে সমস্ত সহগ (রিজ) সঙ্কুচিত করবে বা বাজেটের অনুমতি অনুসারে অন্যান্য সহগগুলি বজায় রেখে বেশ কয়েকটি সহগকে 0 তে সেট করবে la


1
আপনি কেবল লাসো এবং রিজ রিগ্রেশন এর মধ্যে পার্থক্য ব্যাখ্যা করছেন তবে নিয়মিতকরণ কেন কম জটিলতার দিকে পরিচালিত করে সেই কারণটি প্রশ্ন করছে।
সোবি

দয়া করে এই বিভাগটি পড়ুন: "এখন অতিরিক্ত বৈশিষ্ট্য যুক্ত করার ফলে অতিরিক্ত জরিমানার ফলস্বরূপ: পরম সহগের যোগফল আরও বড় হয়! এসএসইতে হ্রাস হওয়া অতিরিক্ত অতিরিক্ত জরিমানা ছাড়িয়ে যাবে cost ব্যয় ছাড়া অতিরিক্ত বৈশিষ্ট্য যুক্ত করা আর সম্ভব নয়" "
spdrnl

এল1λλএল2

সংক্ষিপ্তসারটি হ'ল পরামিতিগুলি যুক্ত করার জন্য পেনাল্টির ধরণটি বিভিন্ন উপায়ে পরামিতিগুলিকে প্রভাবিত করছে। অনুশীলনে আপনি পরামিতিগুলির সাথে এমন একটি মডেল পান যা প্রশিক্ষণের ডেটা কম সুনির্দিষ্টভাবে ফিট করে: এটি ছিল লক্ষ্য অনুসারে।
spdrnl

0

ইনপুটটিতে গুসিয়ান শব্দ যোগ করার মাধ্যমে, শেখার মডেলটি এল 2-পেনাল্টি নিয়ামকের মতো আচরণ করবে।

কেন তা দেখতে, লিনিয়ার রিগ্রেশন বিবেচনা করুন যেখানে আইড শব্দটি বৈশিষ্ট্যগুলিতে যুক্ত করা হয়। ক্ষতিটি এখন ত্রুটিগুলি + ওজনের আদর্শের অবদানের কাজ।

উত্স দেখুন: https://www.youtube.com/watch?v=qw4vtBYhLp0


0

আমি মনে করি একটি বিশ্ববিদ্যালয়ের ক্লাসে আমার শিক্ষক বলেছিলেন যে বড় পরামিতিগুলিকে শাস্তি দেওয়া অত্যধিক মানসিক চাপ হ্রাস করতে পারে কারণ এটি মডেলটিকে ডেটাতে নির্দিষ্ট বৈশিষ্ট্যগুলিতে অত্যধিক ওজন চাপানো থেকে বাধা দেয়, কারণ মডেল কেবলমাত্র ডেটার কয়েকটি নির্দিষ্ট বৈশিষ্ট্য স্মরণ করে এবং এর সাথে সম্পর্কিত হয় সাধারণ নিয়মগুলি শিখার পরিবর্তে লেবেলটি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.