নিয়মিতকরণ: কেন 1 / 2m দিয়ে গুণ?


10

ইন সপ্তাহ 3 বক্তৃতা নোট এর অ্যান্ড্রু এনজি এর Coursera মেশিন লার্নিং বর্গ , একটি শব্দ নিয়মিতকরণ বাস্তবায়ন খরচ ফাংশন যোগ করা হয়:

জে+ +(θ)=জে(θ)+ +λ2মিΣ=1এনθ2

বক্তৃতা নোটগুলি বলে:

আমরা একক সংশ্লেমে আমাদের সমস্ত থীতা পরামিতিগুলিকেও নিয়মিত করতে পারি:

মিআমিএনθ 12মি [Σআমি=1মি(θ(এক্স(আমি))-Y(আমি))2+ +λ Σ=1এনθ2]

12মিপরে নিউরাল নেটওয়ার্কগুলির নিয়মিতকরণের মেয়াদে প্রয়োগ করা হয় :

স্মরণ করুন যে নিয়মিত লজিস্টিক রিগ্রেশন জন্য ব্যয় কাজটি ছিল:

J(θ)=1mi=1m[y(i) log(hθ(x(i)))+(1y(i)) log(1hθ(x(i)))]+λ2mj=1nθj2

নিউরাল নেটওয়ার্কগুলির জন্য, এটি কিছুটা জটিল হতে চলেছে:

জে(Θ)=-1মিΣআমি=1মিΣ=1কে[Y(আমি)লগ((Θ(এক্স(আমি))))+ +(1-Y(আমি))লগ(1-(Θ(এক্স(আমি))))]+ +λ2মিΣ=1এল-1Σআমি=1গুলিΣ=1গুলি+ +1(Θ,আমি())2
  • কেন এখানে ধ্রুবক অর্ধেক ব্যবহার করা হয়? যাতে এটি ডেরাইভেটিভ এ বাতিল করা হয়জে'?
  • কেন বিভাগ দ্বারা মিপ্রশিক্ষণের উদাহরণ? প্রশিক্ষণের উদাহরণগুলির পরিমাণ কীভাবে জিনিসগুলিকে প্রভাবিত করে?

আপনি কি নিশ্চিত যে 1 / মি নিয়মিতকরণে রয়েছে এবং জে (থেটা) এএফাইক নয়, @ ডিক্রানমারসুপিয়ালের উত্তরটি এই অনুমান করছে যে ...... বা জে (থেইটা) নিজেই একটি 1 / মি শব্দ আছে?
seanv507

এই অনুমানটি ভুল - 12মিআন-নিয়ন্ত্রিত ব্যয় ক্রিয়াকলাপ এবং নিয়মিতকরণের মেয়াদ উভয় ক্ষেত্রেই প্রয়োগ করা হয়। আমি পূর্ণ সূত্র দেওয়ার জন্য প্রশ্ন আপডেট করেছি।
টম হ্যালে

উত্তর:


5

এর 10 উদাহরণ আছে এবং আপনি সংখ্যা দ্বারা একটি ও L2 নিয়মিতকরণ খরচ ভাগ করে না উদাহরণ অনুমান করা যাক মি । তারপরে ক্রস-এনট্রপি ব্যয়ের তুলনায় এল 2 নিয়মিতকরণ ব্যয়ের একটি "আধিপত্য" 10: 1 এর মতো হবে, কারণ প্রতিটি প্রশিক্ষণের উদাহরণ আনুপাতিকভাবে 1 / মি = 1/10 এর সামগ্রিক ব্যয়ে অবদান রাখতে পারে ।

আপনার যদি আরও উদাহরণ থাকে তবে 100 বলে নেওয়া যাক, তবে এল 2 নিয়মিতকরণ ব্যয়ের "আধিপত্য" 100: 1 এর মতো কিছু হবে, সুতরাং আপনার অসুবিধাগুলি হ্রাস করতে হবে ly সেই অনুযায়ী, যা অসুবিধাজনক। এটা আছে ভালো λ একটি ব্যাচ আকার নির্বিশেষে ধ্রুবক।

আপডেট: এই যুক্তিটিকে আরও দৃ make় করতে আমি একটি জ্যুপির নোটবুক তৈরি করেছি ।


1
হুঁ, তবে প্রতিটি প্রশিক্ষণের উদাহরণ ব্যয়ের ক্ষেত্রে সমানভাবে অবদান রাখার ব্যয়টির আগে 1 / মি ফ্যাক্টরের উদ্দেশ্য নয়? সুতরাং, যেহেতু আমরা ইতিমধ্যে স্বতন্ত্র ব্যয়ের গড় গড় করছি, এটি এল 2 পদটির আধিপত্যের কারণ হওয়া উচিত নয়। তবে আমি আপনার দুর্দান্ত সিমুলেশন থেকে দেখতে পাচ্ছি যে এল 2 টার্মের আগে 1 / মি ফ্যাক্টরও সহায়তা করে। আমি কেবল এর পিছনে স্বজ্ঞাততা পাই না (এখনও)।
মিলানিয়া

কেন অসুবিধে হচ্ছে ?? নমুনাগুলির সংখ্যা দ্বারা L2 ব্যয়কে ভাগ করা সহজ। আমি মনে করি আপনি সম্ভবত এটি ভুল উপায়ে লিখেছেন। আমি মনে করি আপনি বলতে চাচ্ছেন যে প্রতিবার এল 2 ব্যয়টি ম্যানুয়ালি স্কেল করা অসুবিধাজনক , এটি স্বয়ংক্রিয়ভাবে স্কেল করার সূত্রের অংশ হিসাবে নমুনার সংখ্যা দ্বারা ভাগ করা ভাল।
স্পেসমুনকি

6

প্রশিক্ষণের সেটটিতে ক্ষতি ফাংশন জে(θ) সাধারণত প্রশিক্ষণের সেট সমন্বিত নিদর্শনগুলির উপর একটি সমষ্টি, যাতে প্রশিক্ষণ সেটটি বড় হওয়ার সাথে সাথে প্রথম টার্ম স্কেলগুলি মূলত রৈখিকভাবে মি। আমরা একটি ভাল মানের জন্য seraching জন্য পরিসীমা সংকীর্ণ করতে পারেনλ মোটামুটি বিট যদি আমরা প্রথমে নিয়ামকরণের পদটি ভাগ করি মি এর নির্ভরতা অফসেট করতে জে(θ) চালু মি। ২ টি অবশ্যই অপটিমাল নির্ধারণের জন্য ব্যবহৃত অ্যালগরিদমের জন্য প্রয়োজনীয় ডেরিভেটিভসকে সহজ করার জন্য ডিনোমিনেটরে রয়েছেθ


অ-নিয়মিত ব্যয় স্কেলিংটি ব্যাখ্যা করার জন্য ধন্যবাদ Thanks মি। আমি এখনও কীভাবে ভাগ করে নিই নামি একটি একক সাহায্য করবে λ মান বিভিন্ন ধরণের ভিন্নতর মান সঙ্গে আরও ভাল কাজ মি। নিয়মবিহীন ব্যয় ইতিমধ্যে ভারী উপর নির্ভর করেমি, সুতরাং নির্ভর করে কেন নিয়মিতকরণ শব্দটি সম্পর্কে যত্নশীল এন পরামিতি, না মিউদাহরণ? এটি কি কারণ আরও প্রশিক্ষণের উদাহরণ সহ, একই সংখ্যার পরামিতিগুলি দেখিয়ে বৈচিত্রটি হ্রাস পাবে?
টম হ্যালে

প্রশ্নের ক্ষতির ফাংশনটি সমস্ত উদাহরণের তুলনায় গড় (যেমন এটি মি দ্বারা বিভক্ত), কোনও যোগফল নয়, সুতরাং আমি উত্তরটি কীভাবে কাজ করে তা সত্যই দেখছি না।
ডেনজিলো

@ ডেনজিলো এটি নিয়মিতকরণের মেয়াদেও প্রয়োগ করা হয়।
ডিকরান মার্শুপিয়াল

2

এই কোর্সটি গ্রহণ করার সময় আমি ঠিক একই জিনিসটি নিয়ে ভাবছিলাম এবং এটি নিয়ে কিছুটা গবেষণা শেষ করেছি। আমি একটি সংক্ষিপ্ত উত্তর এখানে দেব, কিন্তু আপনি একটি আরো বিস্তারিত ওভারভিউ পড়তে পারেন একটি ব্লগ পোস্টে আমি এটা সম্পর্কে লিখেছেন

আমি বিশ্বাস করি যে এই স্কেলিং সহগের কমপক্ষে একটি কারণ হ'ল L² নিয়মিতকরণ সম্ভবত ওজন ক্ষয়ের ধারণার সাথে সম্পর্কিত, তবে অভিন্ন নয়, প্রবর্তনের মাধ্যমে গভীর শিক্ষার ক্ষেত্রে প্রবেশ করেছিল।

০.০ ফ্যাক্টরটি তখন গ্রেডিয়েন্টে ওজন ক্ষয়ের জন্য একমাত্র একমাত্র λ কেবলমাত্র গুণফল এবং এম দ্বারা স্কেলিংটি পেতে ... ভাল, কমপক্ষে ৫ টি ভিন্ন ভিন্ন অনুপ্রেরণা রয়েছে যা আমি খুঁজে পেয়েছি বা পেয়েছি:

  1. ব্যাচ গ্রেডিয়েন্ট বংশোদ্ভূত একটি পার্শ্ব-প্রতিক্রিয়া: যখন গ্রেডিয়েন্ট বংশোদ্ভূত একক পুনরাবৃত্তি পরিবর্তে পুরো প্রশিক্ষণের সেটের তুলনায় আনুষ্ঠানিকভাবে তৈরি করা হয়, ফলস্বরূপ ব্যয়কে তুলনীয় করে তুলতে ব্যাস গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার ফলে অ্যালগরিদমকে কখনও কখনও ব্যাচ গ্রেডিয়েন্ট বংশোদ্ভূত বলা হয়। বিভিন্ন আকারের ডেটাসেট জুড়ে, ওজন ক্ষয় শব্দটিতে স্বয়ংক্রিয়ভাবে প্রয়োগ হয়।
  2. একক উদাহরণের ওজনকে পুনরুদ্ধার করুন: গ্রেজের আকর্ষণীয় স্বীকৃতি দেখুন।
  3. প্রশিক্ষণ সংস্থার প্রতিনিধিত্বশীলতা: প্রশিক্ষণের সেটটির আকার বাড়ার সাথে সাথে নিয়মিতকরণের মাপকাঠিটি বুদ্ধিমান হয়, পরিসংখ্যানগতভাবে, সামগ্রিক বন্টনেরও এর প্রতিনিধিত্বশীলতা বৃদ্ধি পায়। মূলত, আমাদের যত বেশি তথ্য আছে, নিয়মিতকরণের প্রয়োজন কম।
  4. তুলনীয় করে তোলা: আশা করা যায় পরিবর্তনের প্রয়োজনীয়তা হ্রাস করে m যখন এম পরিবর্তন হয়, এই স্কেলিংটি size নিজেকে বিভিন্ন আকারের ডেটাসেটের মধ্যে তুলনীয় করে তোলে। এটি তৈরি করে learning নির্দিষ্ট শিক্ষার সমস্যা সম্পর্কে নির্দিষ্ট মডেলের দ্বারা প্রয়োজনীয় নিয়মিতকরণের প্রকৃত ডিগ্রির আরও প্রতিনিধি অনুমানক।
  5. গবেষণামূলক মান: দ্বারা মহান নোটবুক grezপ্রমান করে যে এই অভ্যাস কর্মক্ষমতা উন্নত।

0

আমি এ সম্পর্কেও বিভ্রান্ত হয়ে পড়েছিলাম, কিন্তু তারপরে ডিপলাইনিংয়ের একটি বক্তৃতায়। অ্যান্ড্রু পরামর্শ দিয়েছেন এটি কেবল একটি স্কেলিং ধ্রুবক:

http://www.youtube.com/watch?v=6g0t3Phly2M&t=2m50s

সম্ভবত 1 / 2m ব্যবহারের আরও গভীর কারণ রয়েছে তবে আমি সন্দেহ করি এটি কেবল একটি হাইপারপ্যারামিটার।


এটি প্রশ্নের উত্তর দেয় না।
মাইকেল আর। চেরনিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.