নিউরাল নেটওয়ার্কের ব্যয় ফাংশনটি নন-উত্তল?


36

খরচ ফাংশন স্নায়ুর নেটওয়ার্ক হল , এবং এটি বলে দাবি করা হয় অ উত্তল । আমি কেন পুরোপুরি বুঝতে পারি না কেন যেহেতু আমি দেখতে পাচ্ছি যে এটি লজিস্টিক রিগ্রেশন ব্যয় ফাংশনের সাথে একেবারে সমান, ঠিক?J(W,b)

যদি এটি নন-উত্তল হয়, তবে ২ য় অর্ডার ডেরিভেটিভ , ডান?JW<0

হালনাগাদ

নীচের উত্তরের পাশাপাশি @ গুংয়ের মন্তব্যে ধন্যবাদ, আমি আপনার বক্তব্যটি পেয়েছি, যদি কোনও গোপন স্তর নেই তবে এটি উত্তল, ঠিক যেমন লজিস্টিক রিগ্রেশন। তবে যদি লুকানো স্তর থাকে তবে লুকানো স্তরগুলিতে নোডগুলি এবং পরবর্তী সংযোগগুলিতে ওজনকে অনুমতি দিয়ে, আমাদের একই ক্ষতির ফলে ওজনগুলির একাধিক সমাধান থাকতে পারে।

এখন আরও প্রশ্ন,

1) একাধিক স্থানীয় মিনিমা রয়েছে এবং তাদের মধ্যে কিছুগুলির একই মান হওয়া উচিত, যেহেতু তারা কিছু নোড এবং ওজন অনুমানের সাথে সম্পর্কিত, তাই না?

2) যদি নোড এবং ওজনগুলি একেবারেই অনুমতি দেওয়া হয় না, তবে এটি উত্তল, তাই না? এবং মিনিমা হবে বিশ্বব্যাপী মিনিমা। যদি তাই হয় তবে, 1 এর উত্তরটি হ'ল, সেই সমস্ত স্থানীয় মিনিমা একই মান হবে, তাই না?


এটি একাধিক স্থানীয় মিনিমা থাকতে পারে এটি নন-উত্তল।
গুং - মনিকা পুনরায়

2
নিউরাল নেটওয়ার্কের উপর নির্ভর করে। লিনিয়ার অ্যাক্টিভেশন ফাংশন এবং বর্গক্ষেত্রের ক্ষতিকারক নিউরাল নেটওয়ার্কগুলি উত্তল অপ্টিমাইজেশন অর্জন করবে (যদি আমার স্মৃতি আমাকে সঠিকভাবে বৈকল্পিকের সাথে রেডিয়াল বেস ফাংশন নেটওয়ার্কের জন্য পরিবেশন করে)। তবে স্নায়বিক নেটওয়ার্কগুলি বেশিরভাগ ক্ষেত্রে অ-রৈখিক অ্যাক্টিভেশন ফাংশন (অর্থাত্ সিগময়েড) ব্যবহার করা হয়, সুতরাং অপ্টিমাইজেশনটি অ-উত্তল হয়ে যায়।
ক্যাগডাস ওজজেঙ্ক

@ গুং, আমি আপনার বক্তব্য পেয়েছি, এবং এখন আমার আরও প্রশ্ন রয়েছে, দয়া করে আমার আপডেটটি দেখুন :-)
অ্যাভোকাডো

5
এই মুহুর্তে (২ বছর পরে), আপনার প্রশ্নটি আগের সংস্করণে ফিরিয়ে নেওয়া ভাল, নীচের উত্তরগুলির একটি গ্রহণ করুন, এবং একটি নতুন, ফলো-আপ প্রশ্ন জিজ্ঞাসা করুন যা প্রসঙ্গে এইটির সাথে লিঙ্ক করে।
গুং - মনিকা পুনরায়

1
@ গুং, হ্যাঁ আপনি ঠিক বলেছেন, কিন্তু এখন আমি উত্তরটি উত্থাপনের কিছু দিক সম্পর্কে ঠিক নিশ্চিত নই। ঠিক আছে, আমি নীচের উত্তরগুলিতে কিছু নতুন মন্তব্য রেখেছি, নতুন জিজ্ঞাসা করা দরকার কিনা তা দেখার জন্য আমি কিছুক্ষণ অপেক্ষা করব।
অ্যাভোকাডো

উত্তর:


25

নিউরাল নেটওয়ার্কের ব্যয় কার্যকারিতা সাধারণত উত্তল বা অবতল হয় না। এর অর্থ হ'ল সমস্ত দ্বিতীয় আংশিক ডেরিভেটিভস (হেসিয়ান) এর ম্যাট্রিক্সটি না ইতিবাচক অর্ধবৃত্তীয়, না নেতিবাচক সেমাইডাইফিনেট। যেহেতু দ্বিতীয় ডেরাইভেটিভ একটি ম্যাট্রিক্স, এটি সম্ভব যে এটি দুটিই নয় বা অন্যটিও নয়।

এক-ভেরিয়েবল ফাংশনগুলির সাথে এই সাদৃশ্য তৈরি করতে, কেউ বলতে পারেন যে ব্যয় ফাংশনটি এর গ্রাফের মতো নয় বা এর গ্রাফের মতো আকারযুক্ত । একটি অ-উত্তল, অ-অবতল ফাংশন অন্য একটি উদাহরণ হচ্ছে উপর । সবচেয়ে উল্লেখযোগ্য পার্থক্যগুলির মধ্যে একটি হ'ল: এর মধ্যে একটি মাত্র চূড়ান্ত রয়েছে, যখন অসীম অনেকগুলি ম্যাক্সিমা এবং মিনিমা রয়েছে।x2x2sin(x)R±x2sin

এটি কীভাবে আমাদের নিউরাল নেটওয়ার্কের সাথে সম্পর্কিত? একটি ব্যয় ফাংশন এর সাথে অনেকগুলি স্থানীয় ম্যাক্সিমা এবং মিনিমা রয়েছে, যেমন আপনি এই ছবিতে দেখতে পাচ্ছেন , উদাহরণস্বরূপ।J(W,b)

সত্য যে একাধিক মিনিমা রয়েছে একটি চমৎকার ভাবে ব্যাখ্যা করা যেতে পারে। প্রতিটি স্তরে, আপনি একাধিক নোড ব্যবহার করেন যা ব্যয়কে ছোট করার জন্য বিভিন্ন পরামিতি বরাদ্দ করা হয়। প্যারামিটারের মান বাদে এই নোডগুলি একই। সুতরাং আপনি একই স্তরের দ্বিতীয় নোডের সাথে এক স্তরে প্রথম নোডের প্যারামিটারগুলি এবং পরবর্তী স্তরগুলিতে এই পরিবর্তনের জন্য অ্যাকাউন্টিং করতে পারেন। আপনি প্যারামিটারগুলির একটি আলাদা সেট দিয়ে শেষ করতে চান, তবে ব্যয় কার্যের মানটি আলাদা করে চিহ্নিত করা যায় না (মূলত আপনি কেবল একটি নোডকে অন্য জায়গায় সরিয়ে নিয়েছেন, তবে সমস্ত ইনপুট / আউটপুট একই রেখেছেন)।J


ঠিক আছে, আমি আপনার প্রদত্ত ক্রমবর্ধনের ব্যাখ্যাটি বুঝতে পেরেছি, আমি মনে করি এটি বোধগম্য হয়েছে তবে এখন আমি অবাক হয়েছি যে স্নায়বিক জালটি নন-উত্তল কেন এটি ব্যাখ্যা করার জন্য এটিই খাঁটি?
অ্যাভোকাডো

1
'খাঁটি এক' বলতে কী বোঝ?
রোল্যান্ড

আমি বোঝাতে চাইছি, এটি কেবলমাত্র একটি উপমা নয়, এটির অর্থ ব্যাখ্যা করা উচিত।
অ্যাভোকাডো

4
@ লোগানাকলস আপনি সঠিক যে ব্যয় ক্রিয়াকলাপগুলি নন-উত্তল কারণ এটিই কেবল কারণ নয়, তবে এর একটি সুস্পষ্ট কারণ। নেটওয়ার্ক এবং প্রশিক্ষণের সেটের উপর নির্ভর করে একাধিক মিনিমা থাকার কারণে অন্যান্য কারণও থাকতে পারে। তবে নীচের লাইনটি হ'ল: পারফরম্যান্স একাকী অন্য প্রভাবগুলি বিবেচনা না করেই বেহালতা তৈরি করে।
রোল্যান্ড

1
দুঃখিত, আমি শেষ অনুচ্ছেদ বুঝতে পারি না। তবে আমি এখানেও কেন সর্বাধিক (0, x) উল্লেখ করেছি তা মিস করছি। যাই হোক না কেন - আমি মনে করি যে সেখানে একাধিক মোড (একাধিক স্থানীয় নূন্যতম) কোনওভাবে প্রমাণিত করার সঠিক উপায়। পিএস যদি হেসিয়ান অনির্দিষ্ট হয় তবে এটি কিছুই বলেনি - কোজিকোনভেক্স ফাংশনে অনির্দিষ্ট হেসিয়ান থাকতে পারে তবে এটি এখনও সর্বজনীন।
বুড়িউজ

17

আপনি যদি লুকানো স্তরে নিউরনগুলিকে অনুমতি দেন এবং সংলগ্ন স্তরগুলির ওজনে একই ক্রমানুসরণ করেন তবে ক্ষতির কোনও পরিবর্তন হয় না। সুতরাং যদি ওজনের ফাংশন হিসাবে যদি কোনও শূন্য-গ্লোবাল ন্যূনতম থাকে, তবে এটি অনন্য হতে পারে না যেহেতু ওজনের অনুপাতটি আরও ন্যূনতম দেয়। সুতরাং ফাংশন উত্তল নয়।


5

উদ্দেশ্য ফাংশন উত্তল বা না নেটওয়ার্কের বিশদ উপর নির্ভর করে। একাধিক স্থানীয় মিনিমা উপস্থিত থাকার ক্ষেত্রে, আপনি সেগুলি সমান কিনা তা জিজ্ঞাসা করুন। সাধারণভাবে, উত্তরটি হ'ল না, তবে ভাল সাধারণকরণের পারফরম্যান্সের সাথে স্থানীয় ন্যূনতম সন্ধানের সুযোগটি নেটওয়ার্ক আকারের সাথে বাড়তে দেখা যায়।

এই কাগজটি আগ্রহী:

Choromanska এবং অন্যান্য। (2015)। মাল্টিলেয়ার নেটওয়ার্কের ক্ষয়ক্ষতি

http://arxiv.org/pdf/1412.0233v3.pdf

ভূমিকা থেকে:

  • বড় আকারের নেটওয়ার্কগুলির জন্য, বেশিরভাগ স্থানীয় মিনিমা সমতুল্য এবং পরীক্ষার সেটটিতে অনুরূপ পারফরম্যান্স দেয়।

  • একটি "খারাপ" (উচ্চ মানের) স্থানীয় ন্যূনতম সন্ধানের সম্ভাবনা ছোট আকারের নেটওয়ার্কগুলির জন্য শূন্য নয় এবং নেটওয়ার্ক আকারের সাথে দ্রুত হ্রাস পায়।

  • প্রশিক্ষণ সংস্থায় গ্লোবাল ন্যূনতম সন্ধানের জন্য সংগ্রাম (অনেকগুলি ভাল স্থানীয় লোকের বিপরীতে) অনুশীলনে কার্যকর নয় এবং অত্যধিক মানসিক চাপের দিকে নিয়ে যেতে পারে।

তারা বৃহত্তর নেটওয়ার্কগুলি প্রশিক্ষণ দেওয়ার সময় স্থানীয় মিনিমার চেয়ে কীভাবে প্যাডেল পয়েন্টগুলি একটি বড় সমস্যা তা বর্ণনা করে কিছু কাগজপত্রও উদ্ধৃত করে।


4

আপনার আপডেটের জন্য কিছু উত্তর:

  1. হ্যাঁ, সাধারণ একাধিক স্থানীয় মিনিমা রয়েছে। (যদি কেবল একটিই ছিল, তবে এটি বিশ্বব্যাপী সর্বনিম্ন বলা হবে)) স্থানীয় মিনিমা অগত্যা একই মানের হবে না। সাধারণভাবে, কোনও স্থানীয় মিনিমা একই মান ভাগ করে নিতে পারে না।

  2. না, এটি যদি এক-স্তরীয় নেটওয়ার্ক না হয় তবে এটি উত্তল নয়। সাধারণ একাধিক-স্তরের ক্ষেত্রে, পরবর্তী স্তরগুলির পরামিতিগুলি (ওজন এবং অ্যাক্টিভেশন প্যারামিটারগুলি) পূর্ববর্তী স্তরগুলিতে প্যারামিটারগুলির উচ্চ পুনরাবৃত্তি ফাংশন হতে পারে। সাধারণত, কিছু পুনরাবৃত্তাকারী কাঠামোর দ্বারা প্রবর্তিত সিদ্ধান্তের ভেরিয়েবলগুলির গুণগুলি জঞ্জালতা নষ্ট করে। এর আর একটি দুর্দান্ত উদাহরণ টাইম সিরিজ বিশ্লেষণের এমএ (কিউ) মডেল।

পার্শ্ব নোট: নোড এবং ওজন অনুমতি দিয়ে আপনি কী বোঝাতে চেয়েছেন তা আমি সত্যিই জানি না। যদি অ্যাক্টিভেশন ফাংশনটি নোডগুলির মধ্যে পৃথক হয়ে থাকে এবং উদাহরণস্বরূপ, এবং আপনি নোডগুলিকে অনুমতি দেন তবে আপনি মূলত একটি ভিন্ন নিউরাল নেটওয়ার্কটি অনুকূল করে তুলছেন। এটি হ'ল, যদিও এই অনুমোদিত নেটওয়ার্কটির মিনিমা একই মিনিমা হতে পারে, এটি একই নেটওয়ার্ক নয় তাই আপনি একই মিনিমার গুণনের বিষয়ে কোনও বিবৃতি দিতে পারবেন না। সর্বনিম্ন-স্কোয়ার ফ্রেমওয়ার্কে এর সাদৃশ্যটির জন্য আপনি উদাহরণস্বরূপ এবং এর কয়েকটি সারি অদলবদল করছেন এবং বলছেন যে সর্বনিম্নপূর্বের মতই অনেকগুলি মিনিমাইজার রয়েছে যেখানে অনুমতি দেওয়া আছে।yXyXβ


1
"ওয়ান-লেয়ার নেটওয়ার্ক" কেবল "সফটম্যাক্স" বা লজিস্টিক রিগ্রেশন দেখতে ঠিক কেমন হবে?
অ্যাভোকাডো

"নোড এবং ওজনকে অনুমতি দিয়ে", মানে আমি "অদলবদল" করছি এবং উপরের 2 টি পুরানো উত্তরগুলি থেকে আমি এটি পেয়েছি এবং আমি তাদের উত্তরগুলি বুঝতে পেরেছি, লুকানো স্তরগুলিতে নোড এবং ওজনগুলি "অদলবদল করে" আমরা শেষ পর্যন্ত পেতে পারি তত্ত্বে একই আউটপুট, এবং সে কারণেই আমাদের একাধিক মিনিমা থাকতে পারে। আপনি এই ব্যাখ্যা সঠিক না মানে?
অ্যাভোকাডো

আপনার সঠিক ধারণা আছে তবে এটি একরকম নয়। নেটওয়ার্কের ক্ষেত্রে, লোকসান অগত্যা দ্বিপদ ক্ষতি নাও হতে পারে, অ্যাক্টিভেশন ফাংশন অগত্যা sigmoids, ইত্যাদি হতে পারে
মুস্তাফা এস ঈসা

হ্যাঁ, আমি এটি সঠিক বলে মনে করি না। যদিও এই সত্য যে আপনি এই শর্তাদি মেনে চলেন বা না করুক না কেন আপনি একই পারফরম্যান্স পাবেন, এটি কোনও সমস্যার উত্সাহ বা বেহালতা সংজ্ঞায়িত করে না। অপ্টিমাইজেশনের সমস্যাটি যদি উত্তীর্ণ হয় তবে যদি কোনও নির্দিষ্ট ক্ষতি ফাংশনের জন্য (ক্ষতির মধ্যে শর্তগুলির কোনও অনুক্রম না হয়), উদ্দেশ্য ফাংশনটি মডেল প্যারামিটারগুলিতে উত্তল হয় এবং আপনি যে অঞ্চলটি অপ্টিমাইজ করছেন তা উত্তল এবং বন্ধ হয়ে যায়।
মোস্তফা এস আইসা

আমি দেখতে পাচ্ছি, সুতরাং এটি যদি "এক স্তর" হয় তবে এটি "সফটম্যাক্স" নাও থাকতে পারে।
অ্যাভোকাডো

2

সমস্যা উত্তল বা কাসিকোনভেক্স হলে আপনার একটি বৈশ্বিক সর্বনিম্ন থাকবে have

নিউরাল নেটওয়ার্কগুলি নির্মাণের সময় উত্তল "বিল্ডিং ব্লক" সম্পর্কে (কম্পিউটার সায়েন্স সংস্করণ)

আমি মনে করি তাদের মধ্যে বেশ কয়েকটি রয়েছে যা উল্লেখ করা যেতে পারে:

  1. সর্বাধিক (0, এক্স) - উত্তল এবং ক্রমবর্ধমান

  2. লগ-সম-এক্সপ্রেস - উত্তরণ এবং প্রতিটি প্যারামিটারে বৃদ্ধি increasing

  3. y = অক্ষটি অ্যাফাইন এবং তাই (এ) এ উত্তেজিত, সম্ভবত ক্রমবর্ধমান হতে পারে কমতে। y = অক্স অ্যাফাইন এবং তাই উত্তেজনাপূর্ণ (এক্স), সম্ভবত ক্রমবর্ধমান হতে পারে কমতে।

দুর্ভাগ্যক্রমে এটি (এ, এক্স) এর উত্তল নয় কারণ এটি অনির্দিষ্ট চতুর্ভুজ রূপের মতো দেখাচ্ছে।

  1. সাধারণ গণিতের বিচ্ছিন্ন রূপান্তর ("যথাযথ" দ্বারা আমি পুনরাবৃত্ত সংকেত দ্বারা সংজ্ঞায়িত) ওয়াই = এইচ * এক্স দেখে মনে হচ্ছে এটি एच এর বা ভেরিয়েবল এক্স এর অ্যাফাইন ফাংশন So আমি মনে করি না কারণ এইচ এবং এক্স স্কেলার সমঝোতা অনির্দিষ্টকালের চতুর্ভুজ আকারে হ্রাস পাবে।

  2. সর্বাধিক (চ, জি) - যদি চ এবং জি উত্তল হয় তবে সর্বাধিক (চ, জি) উত্তলও হয়।

যদি আপনি একটি ফাংশনটিকে অন্য স্থানে প্রতিস্থাপন করেন এবং কম্পোজিশন তৈরি করেন তবে y = h (g (x), q (x)) এর উত্তল কক্ষে এখনও স্থির করতে পারেন, তবে এইচটি উত্তল হওয়া উচিত এবং প্রতিটি যুক্তিতে বৃদ্ধি (অ-হ্রাস) হওয়া উচিত। ...

স্নায়ুবিহীন নেটবুকগুলি কেন নন-উত্তল:

  1. আমি মনে করি কনভলিউশন Y = h * X h এর মধ্যে nessesary বৃদ্ধি পাচ্ছে না। সুতরাং আপনি যদি কার্নেল সম্পর্কে কোনও অতিরিক্ত অনুমান ব্যবহার না করেন তবে আপনি সমঝোতা প্রয়োগের পরে তাত্ক্ষণিক উত্তল অপ্টিমাইজেশন থেকে বেরিয়ে যাবেন। সুতরাং রচনা দিয়ে সব ঠিক আছে

  2. উপরোক্ত হিসাবে দুটি পরামিতি বিবেচনা করলে কনভোলজ এবং ম্যাট্রিক্সের গুণটি উত্তল নয় । সুতরাং ম্যাট্রিক্সের গুণণের ক্ষেত্রে ইভান সমস্যা রয়েছে: এটি প্যারামিটারে অ-উত্তল অপারেশন (এ, এক্স)

  3. y = অ্যাক্সকে (এ, এক্স) কোয়াসিকোনভেক্স হতে পারে তবে অতিরিক্ত অনুমানগুলিও বিবেচনায় নেওয়া উচিত।

আপনি যদি একমত না হন বা কোনও অতিরিক্ত বিবেচনা করেন তবে দয়া করে আমাকে জানান। প্রশ্নটিও আমার কাছে খুব আকর্ষণীয়।

পিএস সর্বাধিক-পুলিং - যা সর্বাধিক নির্বাচনের সাথে ডাউনস্যাম্পিংয়ের মতো এফাইন প্রম্পোজেশন (প্রয়োজন ব্লকগুলি টানতে) সাথে অ্যালিমেন্টওয়াই সর্বাধিক ক্রিয়াকলাপগুলির কিছু সংশোধন এবং এটি আমার জন্য উত্তল দেখাচ্ছে।

অন্যান্য প্রশ্ন সম্পর্কে

  1. না, লজিস্টিক রিগ্রেশন উত্তল বা অবতল নয়, তবে এটি লগ-অবতল। এর অর্থ হ'ল লগারিদম প্রয়োগের পরে আপনার ব্যাখ্যামূলক ভেরিয়েবলগুলিতে অবতল ফাংশন হবে। সুতরাং এখানে সর্বাধিক লগ-সম্ভাবনা কৌশল কৌশল দুর্দান্ত।

  2. যদি একমাত্র বিশ্বব্যাপী ন্যূনতম না হয়। স্থানীয় নূন্যতমের মধ্যে সম্পর্ক সম্পর্কে কিছুই বলা যায় না। বা কমপক্ষে আপনি উত্তল অপ্টিমাইজেশন ব্যবহার করতে পারবেন না এবং এটির জন্য এটি এক্সটেনশানস কারণ গণিতের এই অঞ্চলটি গভীরভাবে অবমূল্যায়নের উপর ভিত্তি করে।

এই সম্পর্কে আপনার বিভ্রান্তি থাকতে পারে। কারণ সত্যিকারের লোকেরা যারা এই জাতীয় স্কিম তৈরি করে তারা কেবল "কিছু" করেন এবং তারা "কিছু" পান। দুর্ভাগ্যক্রমে কারণ আমাদের কাছে নন-উত্তল অপ্টিমাইজেশান (সাধারণভাবে) মোকাবেলার জন্য নিখুঁত প্রক্রিয়া নেই।

তবে নিউরাল নেটওয়ার্কগুলির পাশে আরও সাধারণ জিনিস রয়েছে - যা লিনিয়ার ন্যূনতম স্কোয়ারগুলির মতো সমাধান করা যায় না - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.