গভীর সমঝোতা নিউরাল নেটওয়ার্কের প্রাক প্রশিক্ষণ?


33

গভীর সমঝোতা সংক্রান্ত নিউরাল নেটওয়ার্কের প্রাক-প্রশিক্ষণ সম্পর্কিত কোনও সাহিত্যিক কি কেউ দেখেছেন? আমি কেবল অটেনকোডার বা সীমাবদ্ধ বল্টজম্যান মেশিনগুলিতে অপ্রচারিত প্রাক-প্রশিক্ষণ দেখেছি।

উত্তর:


39

আমি নিশ্চিত নই যে এটি আপনার প্রশ্নের সঠিক উত্তর দেয় কিনা তবে আমি যে কারণে মানুষকে প্রাকট্রেনিং করতে দেখি না তার কারণটি থেকে আমি বুঝতে পারি ( আমি এটি একটি নিরীক্ষণমূলক প্রাক-প্রশিক্ষণ অর্থে বোঝাতে চাইছি ) কনফ নেটগুলি কারণ নিখুঁত তদারকি প্রশিক্ষণে বিভিন্ন উদ্ভাবন হয়েছে যে অপ্রয়োজনীয় প্রাকট্রিনিং অপ্রয়োজনীয় রেন্ডার করেছে (আপাতত, ভবিষ্যতে কী সমস্যা এবং সমস্যাগুলি আসবে তা কে জানে?)

মূল উদ্ভাবনের মধ্যে একটি সিগময়েডাল (সিগময়েড, তানহ) অ্যাক্টিভেশন ইউনিটগুলি থেকে সরে যাচ্ছিল, যা সমতল বক্রতার অঞ্চলগুলিকে পরিপূরণ / করতে পারে এবং এইভাবে খুব সামান্য গ্রেডিয়েন্টটি পিছনের দিকে প্রসারিত হয়, তাই সমস্ত বাস্তব ব্যবহারিক উদ্দেশ্যগুলির জন্য সম্পূর্ণভাবে থামানো না থাকলে পড়াশোনা অবিশ্বাস্যরূপে ধীর হয় learning এবং উদ্দেশ্য। গ্লোরোট, বোর্ডস এবং বেনজিও নিবন্ধ ডিপ স্পার্স রেকটিফায়ার নিউরাল নেটওয়ার্কগুলি recতিহ্যবাহী সিগময়েডাল ইউনিটগুলির পরিবর্তে সক্রিয়করণ ফাংশন হিসাবে সংশোধিত লিনিয়ার ইউনিট (রিলিজ) ব্যবহার করেছে used রিলিজগুলির নিম্নলিখিত ফর্ম রয়েছে: । লক্ষ্য করুন যে সেগুলি সীমাহীন এবং ইতিবাচক অংশের জন্য, ধ্রুব ধাপ 1 রয়েছে has(এক্স)=সর্বোচ্চ(0,এক্স)

গ্লোরোট, বোর্ডস এবং বেনজিও নিবন্ধটি কনভ নেট থেকে নয় মাল্টিলেয়ার পারসেপ্ট্রনগুলির জন্য রিলিজ ব্যবহার করেছে। পূর্ববর্তী নিবন্ধটি জ্যানারেট এবং ইয়ান লেকুনের এনওয়াইইউ গ্রুপের অন্যদের দ্বারা অবজেক্ট রিকোনিশনেশনের জন্য সেরা মাল্টি-স্টেজ আর্কিটেকচারটি কোনটি ননলাইনারিগুলি সংশোধন করে তবে সিগময়েডাল ইউনিটগুলির জন্য ব্যবহৃত হয়েছিল, সুতরাং তাদের ফ (x) = | \ তানহ (এক্স) ফর্মটির সক্রিয়করণের কাজ ছিল ) | (এক্স)=|TANH(এক্স)|, ইত্যাদি উভয় নিবন্ধ পর্যবেক্ষণ করেছেন যে অরৈখিকতা সংশোধন করার মাধ্যমে খাঁটি তদারকি করা পদ্ধতি এবং নিরীক্ষণযুক্ত প্রাক-প্রশিক্ষিত পদ্ধতির মধ্যে ব্যবধানের বেশিরভাগ অংশ বন্ধ হয়ে যায় বলে মনে হয়।

আর একটি নতুনত্ব হ'ল আমরা গভীর নেটওয়ার্কগুলির জন্য আরও ভাল সূচনাটি আবিষ্কার করেছি। কোনও নেটওয়ার্কের স্তর জুড়ে বৈকল্পিক মানককরণের ধারণাটি ব্যবহার করে, কয়েক বছর ধরে থাম্বের ভাল নিয়ম প্রতিষ্ঠিত হয়েছে। প্রথমটি, সর্বাধিক জনপ্রিয় একটি হ'ল গ্লোরোট এবং বেনজিও প্রশিক্ষণ ডিফ ফিডফর্ডার নেটওয়ার্কগুলির অসুবিধা বোঝা যা একটি রৈখিক অ্যাক্টিভেশন হাইপোথিসিসের অধীনে গভীর জাল আরম্ভ করার একটি উপায় সরবরাহ করেছিল এবং পরে ডিপ ইন্ট রেকটিফায়ারসেমাইক্রোসফ্ট রিসার্চ টিমের সদস্যদের দ্বারা যা গ্লোরোট এবং বেনজিও ওজন সূচনা পরিবর্তন করে যা সংশোধনযোগ্য অন-লাইনের জন্য অ্যাকাউন্টে আসে। ওজন সূচনা অত্যন্ত গভীর জালের জন্য একটি বড় বিষয়। 30 লেয়ার কনভ নেটের জন্য, এমএসআর ওয়েট ইনিশিয়ালাইজেশন গ্লোরোট ওজন শুরুর চেয়ে অনেক ভাল পারফর্ম করেছে। মনে রাখবেন যে গ্লোরোট পেপারটি ২০১০ সালে এসেছিল এবং এমএসআর পেপারটি ২০১৫ সালে প্রকাশিত হয়েছিল।

আমি নিশ্চিত নই যে ডিপ কনভলিউশনাল নিউরাল নেটওয়ার্ক পেপার সহ ইমেজনেট শ্রেণিবিন্যাস অ্যালেক্স ক্রিজেভস্কি, ইলিয়া সুটস্কিভার এবং জেফ হিন্টন প্রথমে কনফিড নেটগুলির জন্য রিলিউ ব্যবহার করেছিলেন, তবে এর সবচেয়ে বেশি প্রভাব পড়েছিল। এই গবেষণাপত্রে আমরা দেখতে পাচ্ছি যে কনফিউট নেটগুলির জন্য রিলুগুলি শিখতে গতি বাড়িয়েছে, যেমনটি তাদের সিআইএফএআর -10 গ্রাফের দ্বারা প্রমাণিত হয়েছে যে রেএলইউ কনভ নেটগুলি নন-রেএলইউ কনভ নেটগুলির তুলনায় দ্রুত প্রশিক্ষণের ত্রুটির হার দ্রুত অর্জন করতে পারে। এই ReLU গুলি বিলুপ্তিমান গ্রেডিয়েন্ট / স্যাচুরেটিং সিগময়েডাল ইস্যুতে ভুগছে না এবং আরও গভীর জাল প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। অন্যান্য বড় উদ্ভাবনগুলির মধ্যে একটি হ'ল ড্রপআউট প্রশিক্ষণ, স্টোকাস্টিক নয়েজ ইনজেকশন বা মডেল গড় কৌশল (আপনার দৃষ্টিভঙ্গির উপর নির্ভর করে) যা আমাদের যতটা না ফিট করে দীর্ঘতর গভীরতর, বৃহততর নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণ দেয়।

এবং রূপান্তরিত গতিতে নিয়ন্ত্রিত নেট উদ্ভাবন অব্যাহত ছিল, প্রায় সবগুলি পদ্ধতিই রিলু (বা মাইক্রোসফ্ট গবেষণা থেকে প্রাইলুগুলির মতো কিছু পরিবর্তন), ড্রপআউট এবং খাঁটি তদারকি প্রশিক্ষণ (এসজিডি + মোমেন্টাম, সম্ভবত কিছু অভিযোজিত শিখার হার কৌশল যেমন আরএমএসপ্রপ বা এডিগ্র্যাড) )।

সুতরাং এখন পর্যন্ত, শীর্ষস্থানীয় পারফরম্যান্সের অনেকগুলি জাল নিখুঁত তদারকি প্রকৃতির বলে মনে হচ্ছে। এটি বলার অপেক্ষা রাখে না যে ভবিষ্যতে unsupervised প্রাকট্রাইনিং বা আনসারভিজড কৌশল ব্যবহার করা গুরুত্বপূর্ণ হবে না। তবে কিছু অবিশ্বাস্যরূপে গভীর সমঝোতার জালগুলি কেবল তদারকি করা প্রশিক্ষণ ব্যবহার করে খুব সমৃদ্ধ ডেটাসেটগুলিতে মানব স্তরের পারফরম্যান্সকে ম্যাচ বা ছাড়িয়ে গেছে। আসলে আমি বিশ্বাস করি ইমেজনেট 2015 প্রতিযোগিতায় সর্বশেষ মাইক্রোসফ্ট রিসার্চ সাবমিশনটিতে 150 টি স্তর ছিল। এটি কোনও টাইপ নয়। 150।

যদি আপনি কনফিউশন জালগুলির জন্য নিরীক্ষণমূলক প্রাকট্রেনিং ব্যবহার করতে চান তবে আমি মনে করি আপনি এমন কোনও কাজটি সন্ধান করতে পারবেন যেখানে কনফিড নেটগুলির "স্ট্যান্ডার্ড" তত্ত্বাবধানে প্রশিক্ষণটি এত ভাল সম্পাদন করে না এবং আনসারভিজড প্রিটার্নাইনিং চেষ্টা করে।

প্রাকৃতিক ভাষার মডেলিংয়ের বিপরীতে, এমন একটি নিরীক্ষণযোগ্য টাস্ক খুঁজে পাওয়া শক্ত মনে হয়েছে যা চিত্রের ডেটা এলে এটি সম্পর্কিত তত্ত্বাবধানে টাস্কটিকে সহায়তা করে। তবে আপনি যদি ইন্টারনেটকে যথেষ্ট পরিমাণে ঘুরে দেখেন তবে আপনি গভীর শিক্ষার কিছু অগ্রগামী (কিছু লোকের নাম দেওয়ার জন্য যোশুয়া বেনজিও, ইয়ান লেকান) দেখবেন যে তারা অপ্রত্যাশিত শিক্ষাকে কতটা গুরুত্বপূর্ণ বলে মনে করবে এবং কী হবে about


1
কনভনেট সম্পর্কে স্ট্যানফোর্ডের টিউটোরিয়ালে আমি দেখেছি যে, কনভ্যুশনাল নিউরাল নেটওয়ার্কগুলির পূর্বনির্ধারণ রয়েছে। এখানে লিঙ্কটি দেওয়া হচ্ছে: cs231n.github.io/transfer-learning এগুলি কি আলাদা? যেহেতু তারা আসলে একই জিনিস করছেন?
রিকা

2
আরে দেরী জবাবের জন্য আমি দুঃখিত। ট্রান্সফার লার্নিং অনেক কিছু হয়। এটি স্ক্র্যাচ থেকে প্রশিক্ষণের ক্লান্তিকর কাজটি এড়াতে এবং পরিবর্তে ইমেজনেটের মতো বড় ডেটাসেটে প্রশিক্ষিত বৈশিষ্ট্যগুলি ব্যবহার করার জন্য ব্যবহৃত হয় এবং আমরা কেবল তার পরিবর্তে এই বৈশিষ্ট্যগুলির উপরে একটি শ্রেণিবদ্ধকে প্রশিক্ষণ দিয়ে থাকি। আমি আমার উত্তরটি আপডেট করে জানিয়েছি যে এই দিনগুলিতে আপনি অনেকটা অব্যবহৃত প্রাকট্রেনিং দেখেন না , যা স্থানান্তর শেখার মতো নয়। মন্তব্য করার জন্য আপনাকে ধন্যবাদ.
ইন্ডি এআই

+1 টি। খুব ভাল উত্তর। আমি যা অনুপস্থিত তার কিছু আলোচনা বা মন্তব্য রয়েছে যা আপনি যা বলছেন তা (অর্থাত্ প্রাক-প্রশিক্ষণের দরকার নেই) বিশেষত কনভ্যুশনাল নিউরাল নেটওয়ার্কগুলিতে (যদি তাই হয় তবে কেন?) বা নন-সহ কোনও গভীর নেটওয়ার্কের ক্ষেত্রে প্রযোজ্য সমঝোতা
অ্যামিবা বলছে মনিকাকে

14

উপরের উত্তরগুলি থেকে বোঝা যায়, প্রাক-প্রশিক্ষণ যখন একাধিক জিনিস ঘটেছিল তখন 'ফ্যাশনআউট' হয়েছিল। যাইহোক, আমি এটি সম্পর্কে আমার উপলব্ধি ছড়িয়ে দিতে চাই:

  1. অনেক আগে 2010 সালে, প্রত্যেকে প্রাক-প্রশিক্ষণের বিষয়ে যত্নশীল ছিল। এখানে আমি যে বিষয়ের উপরে উত্থাপিত হতে দেখিনি সে সম্পর্কে একটি দুর্দান্ত কাগজ রয়েছে
  2. অ্যালেক্স ক্রিজেভস্কির আগে ইলিয়া সুটস্কিভার এবং জেফ হিন্টন তাদের ইমেজনেট পেপার প্রকাশের আগে কিছুটা আগে, লোকেরা এখনও বিশ্বাস করে যে বৈশিষ্ট্যগুলি গুরুত্বপূর্ণ তবে তারা বৈশিষ্ট্যগুলি তৈরির জন্য বেশিরভাগ নিরীক্ষণশাস্ত্র এবং এমনকি স্ব-শেখানো শিক্ষায় মনোনিবেশ করেছিল।
  3. কেন এটি দেখা কঠিন নয় - তত্কালীন স্নায়ু নেটওয়ার্কগুলির বিল্ডিং ব্লকগুলি এত শক্তিশালী ছিল না এবং দরকারী বৈশিষ্ট্যগুলিতে খুব ধীরে ধীরে রূপান্তরিত হয়েছিল। অনেক সময় তারা দর্শনীয়ভাবে ব্যর্থ হয়েছিল। প্রাক প্রশিক্ষণ তখন কার্যকর ছিল যখন আপনার পর্যাপ্ত ডেটা ছিল আপনি এসজিডির জন্য একটি ভাল সূচনা পেতে পারেন।
  4. যখন রিলু আনয়ন করা হয়েছিল, নেটওয়ার্কগুলি দ্রুত রূপান্তরিত হয়েছিল। যখন ফাঁসী রেহু এবং আরও সাম্প্রতিক সমাধানগুলি সামনে আনা হয়েছিল, যখন কোনও কার্যকরী ফলাফলে রূপান্তরিত করার বিষয়টি আসে তখন নিউরাল নেটগুলি আরও মজবুত মেশিনে পরিণত হয়। আমি অত্যন্ত পরামর্শ দিচ্ছি যে আপনি একটি দুর্দান্ত নিউরাল নেটওয়ার্ক ডেমো দিয়ে খেলুন এই প্রতিভাবান গুগলার লিখেছেন , আমি কী বলছি তা আপনি দেখতে পাবেন।
  5. আমাদের মূল বক্তব্যটিতে পৌঁছাবার অর্থ এই নয় যে প্রাক-প্রশিক্ষণের কিছু ফর্ম গভীর শেখার ক্ষেত্রে গুরুত্বপূর্ণ নয়। যদি আপনি শিল্পের ফলাফলের স্থিতি পেতে চান তবে আপনাকে ডেটা প্রাক প্রসেসিং করতে হবে (উদাহরণস্বরূপ জেডসিএ) এবং সঠিকভাবে প্রাথমিক ওজন চয়ন করতে হবে - এটি বিষয়টির একটি খুব ভাল কাগজ

সুতরাং আপনি দেখুন, প্রাক-প্রশিক্ষণ ফর্ম রূপান্তরিত প্রাক প্রসেসিং এবং ওজন সূচনাতে রূপান্তরিত কিন্তু কার্যপ্রণালীতে রয়ে গেছে এবং এটি আরও মার্জিত হয়ে ওঠে।

চূড়ান্ত নোট হিসাবে, মেশিন লার্নিং খুব ফ্যাশনেবল। আমি ব্যক্তিগতভাবে অ্যান্ড্রু এনগের মতো বাজি দিচ্ছি যে ভবিষ্যতে নিরীক্ষণযোগ্য এবং স্ব-শিক্ষিত শিক্ষার প্রভাব পড়বে তাই এটিকে কোনও ধর্ম হিসাবে পরিণত করবেন না :)


13

কিছু কাগজপত্র রয়েছে তবে অটোরকোডার বা আরবিএমের মতো নয় not আমি মনে করি কারণটি এনএন এর টাইম লাইন। স্ট্যাকড আরবিএম এবং অটোনকোডার যথাক্রমে ২০০ and এবং ২০০ at এ প্রবর্তিত হয়েছিল । ২০০৯- এ রিএলইউর চাকরির পরে অব্যবহৃত পড়াশুনা আংশিকভাবে পরিত্যাগ করা হয় (যখন সরাসরি তদারকি শেখায় পর্যাপ্ত ডেটা থাকে)) কনভলিউশন নেট (বা লেনেট) 1989 সালে উদ্ভাবিত হলেও এটি 2012 পর্যন্ত গভীর কাঠামো হিসাবে প্রশিক্ষিত হতে পারেনি যা আরএলইউর সাথে সরাসরি তদারকি করা শিক্ষার জনপ্রিয়তার পরে। সুতরাং গবেষকরা, আমার ধারণা, এটি বেশিরভাগ প্রত্যক্ষ তদারকি শেখার মাধ্যমে প্রশিক্ষণ নিয়েছে।


সুতরাং, আপনি সম্মত হন যে ডিপ কনভ্যুশনাল নিউরাল নেটওয়ার্কের কোনও প্রাক প্রশিক্ষণ এখনও নেই?
রকটিস্টার

4
@ রক দ্য স্টার নো, আগের দু'জনের মতো কিন্তু নেই। গবেষণা.microsoft.com/pubs/200804/CNN-Interspeech2013_pub.pdf এই গবেষণা এটি ব্যবহার করেছে। এখানে একটি সংক্ষিপ্ত উদ্ধৃতি; "আমরা পর্যবেক্ষণ করেছি যে প্রাক প্রশিক্ষণ টিএনটিএমের সিএনএন ব্যতীত ডিএনএন এবং সিএনএন উভয়ের উন্নতি করে যেখানে প্রিটারেইনিং সহায়তা করে না। সাধারণভাবে সিএনএন-এর জন্য প্রিটারনেইন ব্যবহারের তুলনামূলক উন্নতি ডিএনএন-এর চেয়ে কম হয়।"
yasin.yazici
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.