গভীর সমঝোতা সংক্রান্ত নিউরাল নেটওয়ার্কের প্রাক-প্রশিক্ষণ সম্পর্কিত কোনও সাহিত্যিক কি কেউ দেখেছেন? আমি কেবল অটেনকোডার বা সীমাবদ্ধ বল্টজম্যান মেশিনগুলিতে অপ্রচারিত প্রাক-প্রশিক্ষণ দেখেছি।
গভীর সমঝোতা সংক্রান্ত নিউরাল নেটওয়ার্কের প্রাক-প্রশিক্ষণ সম্পর্কিত কোনও সাহিত্যিক কি কেউ দেখেছেন? আমি কেবল অটেনকোডার বা সীমাবদ্ধ বল্টজম্যান মেশিনগুলিতে অপ্রচারিত প্রাক-প্রশিক্ষণ দেখেছি।
উত্তর:
আমি নিশ্চিত নই যে এটি আপনার প্রশ্নের সঠিক উত্তর দেয় কিনা তবে আমি যে কারণে মানুষকে প্রাকট্রেনিং করতে দেখি না তার কারণটি থেকে আমি বুঝতে পারি ( আমি এটি একটি নিরীক্ষণমূলক প্রাক-প্রশিক্ষণ অর্থে বোঝাতে চাইছি ) কনফ নেটগুলি কারণ নিখুঁত তদারকি প্রশিক্ষণে বিভিন্ন উদ্ভাবন হয়েছে যে অপ্রয়োজনীয় প্রাকট্রিনিং অপ্রয়োজনীয় রেন্ডার করেছে (আপাতত, ভবিষ্যতে কী সমস্যা এবং সমস্যাগুলি আসবে তা কে জানে?)
মূল উদ্ভাবনের মধ্যে একটি সিগময়েডাল (সিগময়েড, তানহ) অ্যাক্টিভেশন ইউনিটগুলি থেকে সরে যাচ্ছিল, যা সমতল বক্রতার অঞ্চলগুলিকে পরিপূরণ / করতে পারে এবং এইভাবে খুব সামান্য গ্রেডিয়েন্টটি পিছনের দিকে প্রসারিত হয়, তাই সমস্ত বাস্তব ব্যবহারিক উদ্দেশ্যগুলির জন্য সম্পূর্ণভাবে থামানো না থাকলে পড়াশোনা অবিশ্বাস্যরূপে ধীর হয় learning এবং উদ্দেশ্য। গ্লোরোট, বোর্ডস এবং বেনজিও নিবন্ধ ডিপ স্পার্স রেকটিফায়ার নিউরাল নেটওয়ার্কগুলি recতিহ্যবাহী সিগময়েডাল ইউনিটগুলির পরিবর্তে সক্রিয়করণ ফাংশন হিসাবে সংশোধিত লিনিয়ার ইউনিট (রিলিজ) ব্যবহার করেছে used রিলিজগুলির নিম্নলিখিত ফর্ম রয়েছে: । লক্ষ্য করুন যে সেগুলি সীমাহীন এবং ইতিবাচক অংশের জন্য, ধ্রুব ধাপ 1 রয়েছে has
গ্লোরোট, বোর্ডস এবং বেনজিও নিবন্ধটি কনভ নেট থেকে নয় মাল্টিলেয়ার পারসেপ্ট্রনগুলির জন্য রিলিজ ব্যবহার করেছে। পূর্ববর্তী নিবন্ধটি জ্যানারেট এবং ইয়ান লেকুনের এনওয়াইইউ গ্রুপের অন্যদের দ্বারা অবজেক্ট রিকোনিশনেশনের জন্য সেরা মাল্টি-স্টেজ আর্কিটেকচারটি কোনটি ননলাইনারিগুলি সংশোধন করে তবে সিগময়েডাল ইউনিটগুলির জন্য ব্যবহৃত হয়েছিল, সুতরাং তাদের ফ (x) = | \ তানহ (এক্স) ফর্মটির সক্রিয়করণের কাজ ছিল ) | , ইত্যাদি উভয় নিবন্ধ পর্যবেক্ষণ করেছেন যে অরৈখিকতা সংশোধন করার মাধ্যমে খাঁটি তদারকি করা পদ্ধতি এবং নিরীক্ষণযুক্ত প্রাক-প্রশিক্ষিত পদ্ধতির মধ্যে ব্যবধানের বেশিরভাগ অংশ বন্ধ হয়ে যায় বলে মনে হয়।
আর একটি নতুনত্ব হ'ল আমরা গভীর নেটওয়ার্কগুলির জন্য আরও ভাল সূচনাটি আবিষ্কার করেছি। কোনও নেটওয়ার্কের স্তর জুড়ে বৈকল্পিক মানককরণের ধারণাটি ব্যবহার করে, কয়েক বছর ধরে থাম্বের ভাল নিয়ম প্রতিষ্ঠিত হয়েছে। প্রথমটি, সর্বাধিক জনপ্রিয় একটি হ'ল গ্লোরোট এবং বেনজিও প্রশিক্ষণ ডিফ ফিডফর্ডার নেটওয়ার্কগুলির অসুবিধা বোঝা যা একটি রৈখিক অ্যাক্টিভেশন হাইপোথিসিসের অধীনে গভীর জাল আরম্ভ করার একটি উপায় সরবরাহ করেছিল এবং পরে ডিপ ইন্ট রেকটিফায়ারসেমাইক্রোসফ্ট রিসার্চ টিমের সদস্যদের দ্বারা যা গ্লোরোট এবং বেনজিও ওজন সূচনা পরিবর্তন করে যা সংশোধনযোগ্য অন-লাইনের জন্য অ্যাকাউন্টে আসে। ওজন সূচনা অত্যন্ত গভীর জালের জন্য একটি বড় বিষয়। 30 লেয়ার কনভ নেটের জন্য, এমএসআর ওয়েট ইনিশিয়ালাইজেশন গ্লোরোট ওজন শুরুর চেয়ে অনেক ভাল পারফর্ম করেছে। মনে রাখবেন যে গ্লোরোট পেপারটি ২০১০ সালে এসেছিল এবং এমএসআর পেপারটি ২০১৫ সালে প্রকাশিত হয়েছিল।
আমি নিশ্চিত নই যে ডিপ কনভলিউশনাল নিউরাল নেটওয়ার্ক পেপার সহ ইমেজনেট শ্রেণিবিন্যাস অ্যালেক্স ক্রিজেভস্কি, ইলিয়া সুটস্কিভার এবং জেফ হিন্টন প্রথমে কনফিড নেটগুলির জন্য রিলিউ ব্যবহার করেছিলেন, তবে এর সবচেয়ে বেশি প্রভাব পড়েছিল। এই গবেষণাপত্রে আমরা দেখতে পাচ্ছি যে কনফিউট নেটগুলির জন্য রিলুগুলি শিখতে গতি বাড়িয়েছে, যেমনটি তাদের সিআইএফএআর -10 গ্রাফের দ্বারা প্রমাণিত হয়েছে যে রেএলইউ কনভ নেটগুলি নন-রেএলইউ কনভ নেটগুলির তুলনায় দ্রুত প্রশিক্ষণের ত্রুটির হার দ্রুত অর্জন করতে পারে। এই ReLU গুলি বিলুপ্তিমান গ্রেডিয়েন্ট / স্যাচুরেটিং সিগময়েডাল ইস্যুতে ভুগছে না এবং আরও গভীর জাল প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। অন্যান্য বড় উদ্ভাবনগুলির মধ্যে একটি হ'ল ড্রপআউট প্রশিক্ষণ, স্টোকাস্টিক নয়েজ ইনজেকশন বা মডেল গড় কৌশল (আপনার দৃষ্টিভঙ্গির উপর নির্ভর করে) যা আমাদের যতটা না ফিট করে দীর্ঘতর গভীরতর, বৃহততর নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণ দেয়।
এবং রূপান্তরিত গতিতে নিয়ন্ত্রিত নেট উদ্ভাবন অব্যাহত ছিল, প্রায় সবগুলি পদ্ধতিই রিলু (বা মাইক্রোসফ্ট গবেষণা থেকে প্রাইলুগুলির মতো কিছু পরিবর্তন), ড্রপআউট এবং খাঁটি তদারকি প্রশিক্ষণ (এসজিডি + মোমেন্টাম, সম্ভবত কিছু অভিযোজিত শিখার হার কৌশল যেমন আরএমএসপ্রপ বা এডিগ্র্যাড) )।
সুতরাং এখন পর্যন্ত, শীর্ষস্থানীয় পারফরম্যান্সের অনেকগুলি জাল নিখুঁত তদারকি প্রকৃতির বলে মনে হচ্ছে। এটি বলার অপেক্ষা রাখে না যে ভবিষ্যতে unsupervised প্রাকট্রাইনিং বা আনসারভিজড কৌশল ব্যবহার করা গুরুত্বপূর্ণ হবে না। তবে কিছু অবিশ্বাস্যরূপে গভীর সমঝোতার জালগুলি কেবল তদারকি করা প্রশিক্ষণ ব্যবহার করে খুব সমৃদ্ধ ডেটাসেটগুলিতে মানব স্তরের পারফরম্যান্সকে ম্যাচ বা ছাড়িয়ে গেছে। আসলে আমি বিশ্বাস করি ইমেজনেট 2015 প্রতিযোগিতায় সর্বশেষ মাইক্রোসফ্ট রিসার্চ সাবমিশনটিতে 150 টি স্তর ছিল। এটি কোনও টাইপ নয়। 150।
যদি আপনি কনফিউশন জালগুলির জন্য নিরীক্ষণমূলক প্রাকট্রেনিং ব্যবহার করতে চান তবে আমি মনে করি আপনি এমন কোনও কাজটি সন্ধান করতে পারবেন যেখানে কনফিড নেটগুলির "স্ট্যান্ডার্ড" তত্ত্বাবধানে প্রশিক্ষণটি এত ভাল সম্পাদন করে না এবং আনসারভিজড প্রিটার্নাইনিং চেষ্টা করে।
প্রাকৃতিক ভাষার মডেলিংয়ের বিপরীতে, এমন একটি নিরীক্ষণযোগ্য টাস্ক খুঁজে পাওয়া শক্ত মনে হয়েছে যা চিত্রের ডেটা এলে এটি সম্পর্কিত তত্ত্বাবধানে টাস্কটিকে সহায়তা করে। তবে আপনি যদি ইন্টারনেটকে যথেষ্ট পরিমাণে ঘুরে দেখেন তবে আপনি গভীর শিক্ষার কিছু অগ্রগামী (কিছু লোকের নাম দেওয়ার জন্য যোশুয়া বেনজিও, ইয়ান লেকান) দেখবেন যে তারা অপ্রত্যাশিত শিক্ষাকে কতটা গুরুত্বপূর্ণ বলে মনে করবে এবং কী হবে about
উপরের উত্তরগুলি থেকে বোঝা যায়, প্রাক-প্রশিক্ষণ যখন একাধিক জিনিস ঘটেছিল তখন 'ফ্যাশনআউট' হয়েছিল। যাইহোক, আমি এটি সম্পর্কে আমার উপলব্ধি ছড়িয়ে দিতে চাই:
সুতরাং আপনি দেখুন, প্রাক-প্রশিক্ষণ ফর্ম রূপান্তরিত প্রাক প্রসেসিং এবং ওজন সূচনাতে রূপান্তরিত কিন্তু কার্যপ্রণালীতে রয়ে গেছে এবং এটি আরও মার্জিত হয়ে ওঠে।
চূড়ান্ত নোট হিসাবে, মেশিন লার্নিং খুব ফ্যাশনেবল। আমি ব্যক্তিগতভাবে অ্যান্ড্রু এনগের মতো বাজি দিচ্ছি যে ভবিষ্যতে নিরীক্ষণযোগ্য এবং স্ব-শিক্ষিত শিক্ষার প্রভাব পড়বে তাই এটিকে কোনও ধর্ম হিসাবে পরিণত করবেন না :)
কিছু কাগজপত্র রয়েছে তবে অটোরকোডার বা আরবিএমের মতো নয় not আমি মনে করি কারণটি এনএন এর টাইম লাইন। স্ট্যাকড আরবিএম এবং অটোনকোডার যথাক্রমে ২০০ and এবং ২০০ at এ প্রবর্তিত হয়েছিল । ২০০৯- এ রিএলইউর চাকরির পরে অব্যবহৃত পড়াশুনা আংশিকভাবে পরিত্যাগ করা হয় (যখন সরাসরি তদারকি শেখায় পর্যাপ্ত ডেটা থাকে)) কনভলিউশন নেট (বা লেনেট) 1989 সালে উদ্ভাবিত হলেও এটি 2012 পর্যন্ত গভীর কাঠামো হিসাবে প্রশিক্ষিত হতে পারেনি যা আরএলইউর সাথে সরাসরি তদারকি করা শিক্ষার জনপ্রিয়তার পরে। সুতরাং গবেষকরা, আমার ধারণা, এটি বেশিরভাগ প্রত্যক্ষ তদারকি শেখার মাধ্যমে প্রশিক্ষণ নিয়েছে।