নিউরাল নেটওয়ার্ক ওজন অনুমান করতে আমরা কি এমএলই ব্যবহার করতে পারি?

23

আমি কেবল পরিসংখ্যান এবং মডেলগুলির স্টাফ সম্পর্কে পড়াশোনা শুরু করেছি। বর্তমানে, আমার বোধগম্যতা হল আমরা কোনও মডেলের সেরা প্যারামিটার (গুলি) অনুমান করতে এমএলই ব্যবহার করি। যাইহোক, যখন আমি নিউরাল নেটওয়ার্কগুলি কীভাবে কাজ করে তা বোঝার চেষ্টা করি, মনে হয় তারা সাধারণত প্যারামিটারগুলি অনুমান করার জন্য অন্য পদ্ধতির ব্যবহার করে। কেন আমরা এমএলই ব্যবহার করি না বা এমএলই ব্যবহার করা কি আদৌ সম্ভব?

maximum-likelihood neural-networks

— পাহাড়
সূত্র

16

কৃত্রিম নিউরাল নেটওয়ার্ক ওজনের (এএনএন) এমএলই অনুমান অবশ্যই সম্ভব ; প্রকৃতপক্ষে, এটি সম্পূর্ণরূপে আদর্শ। শ্রেণিবদ্ধকরণ সমস্যাগুলির জন্য, একটি আদর্শ উদ্দেশ্যমূলক ক্রস হ'ল ক্রস-এনট্রপি, যা দ্বিপদী মডেলের নেতিবাচক লগ-সম্ভাবনার সমান। রিগ্রেশন সমস্যার জন্য, অবশিষ্ট স্কোয়ার ত্রুটি ব্যবহৃত হয়, যা ওএলএস রিগ্রেশন এর এমএলই এর সমান্তরাল হয়।

ক্লাসিকাল পরিসংখ্যান থেকে প্রাপ্ত এমএলইয়ের দুর্দান্ত বৈশিষ্ট্যগুলিও নিউরাল নেটওয়ার্কগুলির এমএলইয়ের জন্য ধারণ করে এমনটি ধরে নিয়ে কিছু সমস্যা রয়েছে।

এএনএন অনুমানের সাথে একটি সাধারণ সমস্যা রয়েছে: এমনকি সিঙ্গল-লেয়ার এএনএন-এর অনেকগুলি প্রতিসম সমাধান রয়েছে। লুকানো স্তরটির জন্য ওজনের লক্ষণগুলি বিপরীত করা এবং লুকানো স্তরটির অ্যাক্টিভেশন প্যারামিটারের চিহ্নগুলিকে বিপরীত করা উভয়ের সমান সম্ভাবনা। অতিরিক্তভাবে, আপনি যে কোনও লুকানো নোডকে অনুমতি দিতে পারেন এবং এই ক্রিয়াকলাপগুলিরও একই সম্ভাবনা রয়েছে। এটি ফলস্বরূপ অনিবার্য কারণ আপনাকে অবশ্যই স্বীকার করতে হবে যে আপনি সনাক্তকরণের বিষয়টি ছেড়ে চলেছেন। তবে, যদি সনাক্তকরণযোগ্যতা গুরুত্বপূর্ণ না হয় তবে আপনি সহজেই গ্রহণ করতে পারেন যে এই বিকল্প সমাধানগুলি কেবল প্রতিচ্ছবি এবং / বা একে অপরের ক্রমবিন্যাস।

এটি পরিসংখ্যানগুলিতে এমএলইর শাস্ত্রীয় ব্যবহারের বিপরীতে যেমন কোনও ওএলএস রিগ্রেশন: ওএলএসের সমস্যাটি উত্তল, এবং যখন নকশার ম্যাট্রিক্স পূর্ণ পদে থাকে তখন কঠোরভাবে উত্তল হয়। দৃ con় উত্তলতা বোঝায় যে এখানে একটি একক, অনন্য মিনিমাইজার রয়েছে।
আনঅনস্রষ্টিত সমাধান ব্যবহার করার সময় এএনএনগুলি ডেটাগুলিকে অতিরিক্ত মানিয়ে নেবে। ওজন উত্স থেকে দূরে স্রষ্টাযোগ্য বৃহত্তর মানগুলির দিকে ঝুঁকবে which ওজন ক্ষয় বা অন্যান্য নিয়মিতকরণ পদ্ধতি চাপিয়ে দেওয়ার ফলে ওজন অনুমানের পরিমাণ শূন্যের দিকে সঙ্কুচিত হয়। এটি অগত্যা (1) থেকে অনির্দিষ্টতা সমস্যা সমাধান করে না, তবে এটি নেটওয়ার্কের সাধারণীকরণকে উন্নত করতে পারে।
ক্ষতির ফাংশনটি ননকোনভেক্স এবং অপ্টিমাইজেশন স্থানীয়ভাবে অনুকূল সমাধানগুলি খুঁজে পেতে পারে যা বিশ্বব্যাপী অনুকূল নয়। অথবা সম্ভবত এই সমাধানগুলি স্যাডল পয়েন্ট, যেখানে কয়েকটি অপ্টিমাইজেশন পদ্ধতি স্টল করে। এই গবেষণাপত্রের ফলাফলগুলি দেখতে পেয়েছে যে আধুনিক অনুমানের পদ্ধতিগুলি এই ইস্যুটিকে পাশ কাটাবে।
একটি শাস্ত্রীয় পরিসংখ্যানগত সেটিংয়ে, দন্ডযুক্ত ফিটের পদ্ধতি যেমন ইলাস্টিক নেট, বা নিয়মিতকরণ উত্তলকে একটি র‌্যাঙ্ক-অভাব (অর্থাত্ নন-উত্তল) সমস্যা তৈরি করতে পারে। এই সত্যটি নিউরাল নেটওয়ার্ক সেটিং পর্যন্ত প্রসারিত হয় না, (1) এ পারমিটেশন ইস্যুর কারণে। এমনকি আপনি যদি আপনার পরামিতিগুলির আদর্শকে সীমাবদ্ধ করেন তবে ওজনকে অনুমতি দেওয়া বা প্রতিসামগ্রী বিপরীত লক্ষণগুলি পরামিতি ভেক্টরের আদর্শকে পরিবর্তন করবে না; বা এটি সম্ভাবনা পরিবর্তন করবে না। সুতরাং ক্ষতি অনুমোদিত বা প্রতিফলিত মডেলগুলির জন্য একই থাকবে এবং মডেলটি এখনও শনাক্ত করা হয়নি। $L^1$ $L^2$

— সাইকোরাক্স মনিকাকে রিইনস্টেট বলে
সূত্র

2

আপনি যা বলছেন তার সাথে আমি আলাদা হতে চাই to প্রতিসমগুলি থেকে উদ্ভূত বিভিন্ন স্থানীয় মিনিমাগুলি একই মানের, তাই আপনাকে এগুলি নিয়ে মোটেই উদ্বিগ্ন হওয়ার দরকার নেই। আপনি সম্ভবত যা বলতে চান তা হ'ল এএনএনগুলির উত্তল ক্ষতি কার্যকারিতা নেই যা অপ্টিমাইজেশনকে আরও জড়িত করে এবং বিশ্বব্যাপী সর্বোত্তম খুঁজে পাওয়ার গ্যারান্টি দেয় না। যাইহোক, সম্প্রতি বেশ কিছু প্রমাণ পাওয়া গেছে যে এএনএনগুলির কাছে স্থানীয় মিনিমা ইস্যুগুলি আসলে নেই, বরং স্যাডল পয়েন্ট ইস্যুগুলি। উদাহরণস্বরূপ দেখুন arxiv.org/abs/1412.6544 ।

— বায়ারজ

11

শ্রেণিবদ্ধকরণের সমস্যাগুলিতে, সম্ভাব্যতা সর্বাধিকীকরণ হ'ল নিউরাল নেটওয়ার্ক প্রশিক্ষণ দেওয়ার সর্বাধিক সাধারণ উপায় (উভয় তদারকি করা এবং নিরীক্ষণযোগ্য মডেল)।

অনুশীলনে, আমরা সাধারণত নেতিবাচক লগ-সম্ভাবনা (সমতুল্য MLE) হ্রাস করি। নেতিবাচক লগ-সম্ভাবনা ব্যবহারের একমাত্র সীমাবদ্ধতা হ'ল একটি আউটপুট স্তর থাকে যা সম্ভাব্যতা বন্টন হিসাবে ব্যাখ্যা করা যায়। একটি সফটম্যাক্স আউটপুট স্তরটি সাধারণত এটি করতে ব্যবহৃত হয়। মনে রাখবেন যে স্নায়ু-নেটওয়ার্ক সম্প্রদায়, নেতিবাচক লগ-সম্ভাবনা কখনও কখনও ক্রস-এন্ট্রপি হিসাবে চিহ্নিত করা হয়। নিয়মিতকরণের পদ অবশ্যই অবশ্যই যুক্ত করা যেতে পারে (এবং কখনও কখনও প্যারামিটারগুলির উপর পূর্ব বিতরণ হিসাবে ব্যাখ্যা করা যায়, সেক্ষেত্রে আমরা সর্বাধিক একটি পোস্টেরিয়েরি ( এমএপি ) খুঁজছি ।

— AdeB
সূত্র