নিউরাল নেটওয়ার্কগুলি সম্পর্কে আমাদের বোঝার মধ্যে দুটি প্রধান শূন্যস্থান রয়েছে: অপ্টিমাইজেশনের কঠোরতা এবং সাধারণীকরণের কর্মক্ষমতা।
নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য উচ্চ মাত্রায় একটি উচ্চ-উত্তল-উত্তোলন অপ্টিমাইজেশন সমস্যা সমাধান করা দরকার। বর্তমান প্রশিক্ষণ অ্যালগরিদমগুলি সমস্তই গ্রেডিয়েন্ট বংশোদ্ভূত উপর ভিত্তি করে, যা কেবলমাত্র একটি সমালোচনামূলক পয়েন্টে (স্থানীয় সর্বনিম্ন বা স্যাডল) রূপান্তরিত হওয়ার গ্যারান্টি দেয়। প্রকৃতপক্ষে, আনন্দকুমার এবং জিই 2016 সম্প্রতি প্রমাণ করেছে যে এমনকি স্থানীয় নূন্যতম সন্ধান করা এনপি-হার্ড, যার অর্থ (অনুমান করা হয় পি! = এনপি) সেখানে "খারাপ" রয়েছে, পালাতে খুব কঠিন, ত্রুটির পৃষ্ঠের স্যাডল পয়েন্ট রয়েছে।
তবুও, এই প্রশিক্ষণ অ্যালগরিদমগুলি অনেক ব্যবহারিক সমস্যার জন্য অভিজ্ঞভাবে কার্যকর এবং এটি কেন জানি না। চোরোমেনস্কা এট আল এর
মতো তাত্ত্বিক কাগজপত্র রয়েছে । 2016 এবং কাওয়াগুচি 2016যা প্রমাণ করে যে, কিছু অনুমানের অধীনে স্থানীয় মিনিমা মূলত গ্লোবাল মিনিমার মতোই ভাল তবে তারা যে অনুমানগুলি করে তা কিছুটা অবাস্তব এবং তারা খারাপ জিন পয়েন্টগুলির বিষয়টি বিবেচনা করে না।
আমাদের বোঝার অন্য প্রধান ফাঁকটি হ'ল জেনারালাইজেশন পারফরম্যান্স: প্রশিক্ষণের সময় দেখা না যাওয়া উপন্যাসের উদাহরণগুলিতে মডেলটি কতটা ভাল সম্পাদন করে? এটি দেখানো সহজ যে প্রশিক্ষণ উদাহরণের অসীম সংখ্যার সীমাবদ্ধতার মধ্যে (একটি আদর্শ বিতরণ থেকে নমুনা আইডির) প্রশিক্ষণের ত্রুটিটি উপন্যাসের উদাহরণগুলিতে প্রত্যাশিত ত্রুটিতে রূপান্তরিত করে (আপনি যে বৈশ্বিক সর্বোত্তমকে প্রশিক্ষণ দিতে পারতেন) তবে আমরা যেহেতু অসীম প্রশিক্ষণের উদাহরণ নেই, প্রশিক্ষণ এবং জেনারালাইজেশন ত্রুটির মধ্যে প্রদত্ত পার্থক্য অর্জনের জন্য কতগুলি উদাহরণের প্রয়োজন তা আমরা আগ্রহী। পরিসংখ্যান শেখার তত্ত্ব এই সাধারণীকরণের সীমা অধ্যয়ন করে।
অভিজ্ঞতার সাথে, একটি বৃহত আধুনিক নিউরাল নেটওয়ার্ককে প্রশিক্ষণের জন্য প্রচুর প্রশিক্ষণের উদাহরণের প্রয়োজন হয় (বিগ ডেটা, আপনি যদি বুজওয়ার্ডগুলি পছন্দ করেন) তবে বাস্তবিকভাবে অপরিবর্তনীয় হওয়ার জন্য এটি স্মরণীয়ভাবে বড় নয়। তবে আপনি যদি পরিসংখ্যান শেখার তত্ত্ব থেকে সর্বাধিক পরিচিত সীমানা প্রয়োগ করেন (উদাহরণস্বরূপ গাও এবং ঝোউ 2014 ) আপনি সাধারণত এই অনিবার্যভাবে বিশাল সংখ্যা পান। সুতরাং এই সীমাগুলি কঠোর হওয়া থেকে খুব দূরে, অন্তত ব্যবহারিক সমস্যার জন্য।
এর অন্যতম কারণ হতে পারে যে এই সীমাগুলি ডেটা উত্পন্ন বিতরণ সম্পর্কে খুব কম ধারণা করে, তাই তারা প্রতিকূল পরিবেশের বিরুদ্ধে সবচেয়ে খারাপ পারফরম্যান্সকে প্রতিফলিত করে, যখন "প্রাকৃতিক" পরিবেশগুলি আরও "শেখার" হয়ে থাকে।
বিতরণ-নির্ভর সাধারণীকরণের সীমাটি লেখা সম্ভব, তবে কীভাবে "প্রাকৃতিক" পরিবেশের উপর কোনও বিতরণকে আনুষ্ঠানিকভাবে বৈশিষ্ট্যযুক্ত করা যায় তা আমরা জানি না। অ্যালগরিদমিক তথ্য তত্ত্বের মতো পন্থাগুলি এখনও অসম্পূর্ণ।
অতএব আমরা এখনও জানি না কেন স্নায়বিক নেটওয়ার্কগুলি অত্যধিক মানানসই ছাড়াই প্রশিক্ষিত হতে পারে।
তদ্ব্যতীত, এটি লক্ষ করা উচিত যে এই দুটি প্রধান বিষয়গুলি এখনও খারাপভাবে বোঝা যায় এমনভাবে সম্পর্কিত বলে মনে হচ্ছে: পরিসংখ্যান শিক্ষার তত্ত্ব থেকে সাধারণীকরণের সীমাবদ্ধতা ধরে নেওয়া হয় যে মডেলটি প্রশিক্ষণ সংস্থায় গ্লোবাল সর্বোত্তমের দিকে প্রশিক্ষিত, তবে একটি ব্যবহারিক বিন্যাসে আপনি এমনকি কোনও স্যাডল পয়েন্টে রূপান্তর না হওয়া পর্যন্ত কোনও নিউরাল নেটওয়ার্ককে কখনও প্রশিক্ষণ দেয় না কারণ এটি করার ফলে সাধারণত অত্যধিক মানানসই হয়। পরিবর্তে আপনি প্রশিক্ষণ বন্ধ করবেন যখন একটি আউট-আউট বৈধতা সেটটিতে ত্রুটি (যা সাধারণকরণের ত্রুটির প্রক্সি) উন্নতি বন্ধ করে। এটি "প্রারম্ভিক থামানো" হিসাবে পরিচিত।
সুতরাং এক অর্থে গ্লোবাল অপ্টিমের সাধারণকরণের ত্রুটি বেঁধে রাখার বিষয়ে এই সমস্ত তাত্ত্বিক গবেষণাটি বেশ অপ্রাসঙ্গিক হতে পারে: কেবলমাত্র আমরা কার্যকরভাবে এটি খুঁজে পেতে পারি না, এমনকি যদি আমরা এটি করতে পারি তবে আমরাও চাই না, কারণ এটি আরও খারাপভাবে সম্পাদন করবে since অনেক "উপ-অনুকূল" সমাধানগুলির চেয়ে উপন্যাসের উদাহরণ।
এটি এমন ক্ষেত্রে হতে পারে যে অপ্টিমাইজেশনের কঠোরতা নিউরাল নেটওয়ার্কের ত্রুটি নয়, বিপরীতে, সম্ভবত নিউরাল নেটওয়ার্কগুলি যথাযথভাবে কাজ করতে পারে কারণ তারা অনুকূলিত হওয়া শক্ত।
এই সমস্ত পর্যবেক্ষণ অনুভূতিমূলক এবং তাদের ব্যাখ্যা করার মতো কোনও ভাল তত্ত্ব নেই। এমন কোনও তত্ত্বও নেই যা ব্যাখ্যা করে যে কীভাবে নিউরাল নেটওয়ার্কগুলির হাইপারপ্যারামিটারগুলি নির্ধারণ করতে হবে (গোপন স্তরের প্রস্থ এবং গভীরতা, শিক্ষার হার, স্থাপত্য সংক্রান্ত বিশদ ইত্যাদি)। অনুশীলনকারীরা অভিজ্ঞতার দ্বারা সম্মানিত তাদের অন্তর্দৃষ্টি ব্যবহার করে এবং কার্যকর মূল্যবোধের সাথে প্রচুর পরীক্ষা এবং ত্রুটি আসে, যখন একটি তত্ত্ব আমাদের আরও নিয়মতান্ত্রিক উপায়ে নিউরাল নেটওয়ার্কগুলি ডিজাইন করার অনুমতি দিতে পারে।