আসুন একটি ট্রিভিলিটি দিয়ে শুরু করুন: ডিপ নিউরাল নেটওয়ার্কটি অনেকগুলি লুকানো স্তর সহ কেবল একটি ফিডফরওয়ার্ড নেটওয়ার্ক।
এটি সংজ্ঞা সম্পর্কে বলতে গেলে কমবেশি সমস্ত কিছু ঘটে। নিউরাল নেটওয়ার্কগুলি বারবার বা ফিডফোরওয়ার্ড হতে পারে; ফিডফরওয়ার্ডগুলি তাদের গ্রাফের কোনও লুপ নেই এবং স্তরগুলিতে সংগঠিত হতে পারে। যদি "অনেকগুলি" স্তর থাকে তবে আমরা বলি যে নেটওয়ার্কটি গভীর ।
কিভাবে অনেক স্তর একটি নেটওয়ার্ক অর্ডার যেমন গভীর যোগ্যতা আছে আছে? এর কোনও সুনির্দিষ্ট উত্তর নেই (এটি কতগুলি শস্যের গাদা করে তা জিজ্ঞাসার মতো ) তবে সাধারণত দুটি বা আরও বেশি গোপন স্তরগুলি গভীর হিসাবে গণনা করা হয়। বিপরীতে, কেবলমাত্র একটি গোপন স্তরযুক্ত একটি নেটওয়ার্ককে প্রচলিতভাবে "অগভীর" বলা হয়। আমি সন্দেহ করি যে এখানে কিছুটা মুদ্রাস্ফীতি চলছে, এবং দশ বছরে লোকেরা মনে করতে পারে যে, দশ স্তরগুলি অল্প অল্প এবং কেবল কিন্ডারগার্টেন অনুশীলনের জন্য উপযুক্ত। অনানুষ্ঠানিকভাবে, "গভীর" পরামর্শ দেয় যে নেটওয়ার্কটি পরিচালনা করা শক্ত।
এখান থেকে রূপান্তরিত একটি চিত্র এখানে দেওয়া হয়েছে :
তবে আপনি যে আসল প্রশ্নটি জিজ্ঞাসা করছেন তা হ'ল অবশ্যই অনেক স্তর থাকা কেন উপকারী হবে?
আমি ভাবি যে কিছুটা অবাক করে দেওয়া উত্তরটি আসলেই কেউ জানে না। কিছু সাধারণ ব্যাখ্যা রয়েছে যা আমি নীচে সংক্ষিপ্তভাবে পর্যালোচনা করব, তবে এগুলির কোনওটিই দৃinc়তার সাথে সত্য বলে প্রমাণিত হয়নি, এবং একটিও নিশ্চিত হতে পারে না যে অনেক স্তর থাকা সত্যই উপকারী কিনা ।
আমি বলি যে এটি আশ্চর্যজনক, কারণ গভীর শিক্ষাগুলি ব্যাপকভাবে জনপ্রিয়, প্রতি বছর (চিত্রের স্বীকৃতি, গো খেলানো, স্বয়ংক্রিয় অনুবাদ ইত্যাদিতে) সমস্ত রেকর্ড ভাঙা, ইত্যাদি ইত্যাদি ইত্যাদি দ্বারা ব্যবহৃত হচ্ছে এবং ইত্যাদি And আমরা এখনও নয় বেশ নিশ্চিত কেন এত ভাল কাজ করে।
আমি গুডফেলো, বেনজিও এবং করভিলির ডিপ লার্নিং বইয়ের উপর আমার আলোচনার ভিত্তি রেখেছি যা 2017 সালে প্রকাশিত হয়েছিল এবং এটি গভীর শিক্ষার উপর বই হিসাবে ব্যাপকভাবে বিবেচিত হয় । (এটা অনলাইন অবাধে উপলব্ধ।) প্রাসঙ্গিক অধ্যায় 6.4.1 ইউনিভার্সাল পড়তা প্রোপার্টি এবং গভীরতা ।
আপনি যে লিখেছেন
ক্লাসে 10 বছর আগে আমি শিখেছি যে বেশ কয়েকটি স্তর বা একটি স্তর থাকা (ইনপুট এবং আউটপুট স্তরগুলি গণনা করা নয়) একটি নিউরাল নেটওয়ার্ক প্রতিনিধিত্ব করতে সক্ষম ফাংশনের ক্ষেত্রে সমতুল্য ছিল [...]
আপনি অবশ্যই তথাকথিত ইউনিভার্সাল আনুগত্যের উপপাদ্যটির কথা উল্লেখ করছেন , যা 1989 সালে সাইবেঙ্কো দ্বারা প্রমাণিত হয়েছিল এবং ১৯৯০ এর দশকে বিভিন্ন ব্যক্তিরা সাধারণীকরণ করেছিলেন। এটি মূলত বলেছে যে একটি অগভীর নিউরাল নেটওয়ার্ক (1 লুকানো স্তর সহ) যে কোনও ফাংশন আনুমানিক করতে পারে, অর্থাত নীতিগতভাবে কিছু শিখতে পারে । এটি বিভিন্ন ননলাইনাল অ্যাক্টিভেশন ফাংশনগুলির ক্ষেত্রে সত্য, সংশোধিত লিনিয়ার ইউনিটগুলি সহ যা বেশিরভাগ নিউরাল নেটওয়ার্কগুলি আজ ব্যবহার করছে ( এই ফলাফলের জন্য পাঠ্যপুস্তক রেফারেন্স Leshno ET। 1993 ) including
যদি তাই হয়, তবে সবাই কেন গভীর জাল ব্যবহার করছে?
ওয়েল, একটি নির্বোধ উত্তর হ'ল কারণ তারা আরও ভাল কাজ করে। এখানে ডিপ লার্নিং বইয়ের একটি চিত্র দেখানো হয়েছে যে এটি একটি নির্দিষ্ট কার্যে আরও স্তর রাখতে সহায়তা করে তবে একই ঘটনাটি প্রায়শই বিভিন্ন কাজ এবং ডোমেনগুলিতে লক্ষ্য করা যায়:
আমরা জানি যে অগভীর নেটওয়ার্কের পারে গভীর বেশী হিসাবে হিসাবে ভাল সঞ্চালন। তবে তা হয় না; এবং তারা সাধারণত না। প্রশ্ন --- কেন? সম্ভাব্য উত্তর:
- সম্ভবত একটি অগভীর নেটওয়ার্কে আরও বেশি নিউরনের প্রয়োজন হবে গভীর থেকে?
- সম্ভবত একটি অগভীর নেটওয়ার্ক আমাদের বর্তমান অ্যালগরিদমগুলি সহ প্রশিক্ষণ করা আরও বেশি কঠিন (উদাহরণস্বরূপ এটিতে আরও কদর্য স্থানীয় মিনিমা রয়েছে, বা রূপান্তর হারটি ধীর, বা যাই হোক না কেন)?
- সম্ভবত আমরা সাধারণত যে ধরণের সমস্যার সমাধান করতে চাইছি তা অগভীর আর্কিটেকচারের সাথে খাপ খায় না (উদাহরণস্বরূপ বস্তুর স্বীকৃতি একটি পঞ্চম "গভীর", শ্রেণিবদ্ধ প্রক্রিয়া)?
- অন্যকিছু?
গভীর শিক্ষা বই বুলেট পয়েন্ট # 1 এবং # 3 জন্য যুক্তি। প্রথমত, এটি যুক্তি দেয় যে অগভীর নেটওয়ার্কে ইউনিটের সংখ্যা টাস্ক জটিলতার সাথে তাত্পর্যপূর্ণভাবে বৃদ্ধি পায়। সুতরাং কার্যকর হতে একটি অগভীর নেটওয়ার্ক খুব বড় হতে পারে; সম্ভবত একটি গভীর নেটওয়ার্কের চেয়ে অনেক বড়। এটি বেশ কয়েকটি কাগজের উপর ভিত্তি করে প্রমাণিত হয়েছে যে অগভীর নেটওয়ার্কগুলির ক্ষেত্রে কিছু ক্ষেত্রে তাত্পর্যপূর্ণভাবে অনেক নিউরন প্রয়োজন; তবে যেমন এমএনআইএসটির শ্রেণিবদ্ধতা বা প্লে প্লে এই জাতীয় কেসগুলি প্রকৃতপক্ষে পরিষ্কার নয়। দ্বিতীয়ত, বইটি এই বলে:
একটি গভীর মডেল নির্বাচন করা খুব সাধারণ বিশ্বাসকে এনকোড করে যে ফাংশনটি আমরা শিখতে চাই তাতে বেশ কয়েকটি সহজ ফাংশনের সংমিশ্রণ থাকা উচিত। প্রতিনিধিত্বমূলক শিক্ষার দৃষ্টিকোণ থেকে এটি ব্যাখ্যা করা যেতে পারে যে আমরা বিশ্বাস করি যে শিক্ষার সমস্যাটি পরিবর্তনের অন্তর্নিহিত কারণগুলির একটি সেট আবিষ্কার করে যা পরিবর্তিতভাবে পরিবর্তনের অন্যান্য, সহজ অন্তর্নিহিত কারণগুলির সাথে বর্ণিত হতে পারে consists
আমার মনে হয় বর্তমান "sensকমত্য" হ'ল এটি বুলেট পয়েন্ট # 1 এবং # 3 এর সংমিশ্রণ: বাস্তব-জগতের কার্যগুলির জন্য গভীর আর্কিটেকচার প্রায়শই উপকারী এবং অগভীর আর্কিটেকচার অদক্ষ হতে পারে এবং একই পারফরম্যান্সের জন্য আরও অনেক নিউরন প্রয়োজন।
তবে এটি প্রমাণিত থেকে অনেক দূরে। উদাহরণস্বরূপ, জাগোরুইকো এবং কমোডাকিস, 2016, প্রশস্ত অবশিষ্টাংশগুলি বিবেচনা করুন । ২০১০ সালে 150+ স্তর সহ অবশিষ্টাংশের নেটওয়ার্কগুলি উপস্থিত হয়েছিল এবং বিভিন্ন চিত্র স্বীকৃতি প্রতিযোগিতা জিতেছে। এটি একটি বড় সাফল্য এবং গভীরতার পক্ষে একটি বাধ্যতামূলক যুক্তির মতো দেখায়; এখানে অবশিষ্ট লেখকের অবশিষ্ট লেখার প্রথম লেখকের উপস্থাপনা থেকে একটি চিত্র এখানে দেখুন (দ্রষ্টব্য যে বিভ্রান্তিকরভাবে এখানে বাম দিকে চলে যায়):
তবে উপরের লিঙ্কযুক্ত কাগজটি দেখায় যে "কেবল" 16 টি স্তরযুক্ত একটি "প্রশস্ত" অবশিষ্টাংশগুলি "150" স্তরযুক্ত "গভীর" একটিকে ছাড়িয়ে যেতে পারে। যদি এটি সত্য হয় তবে উপরের চিত্রের পুরো পয়েন্টটি ভেঙে যায়।
বা বা কারুয়ানা, 2014 বিবেচনা করুন , ডিপ নেটগুলি কি আসলেই গভীর হতে হবে? :
এই গবেষণাপত্রে আমরা পরীক্ষামূলক প্রমাণ সরবরাহ করি যা অগভীর জাল গভীর জালের মতো একই ফাংশনটি শিখতে সক্ষম এবং কিছু ক্ষেত্রে গভীর জালের মতো একই সংখ্যক পরামিতি রয়েছে। আমরা প্রথমে একটি অত্যাধুনিক গভীর মডেলকে প্রশিক্ষণ দিয়ে এবং তারপরে গভীর মডেলটিকে অনুকরণ করার জন্য একটি অগভীর মডেলকে প্রশিক্ষণ দিয়ে এটি করি। নকল মডেলটি পরবর্তী বিভাগে বর্ণিত মডেল কম্প্রেশন স্কিম ব্যবহার করে প্রশিক্ষণপ্রাপ্ত। লক্ষণীয়ভাবে, মডেল সংক্ষেপণের মাধ্যমে আমরা অগভীর জালগুলি কয়েকটি গভীর মডেলের মতো নির্ভুল হতে প্রশিক্ষণ দিতে সক্ষম হয়েছি, যদিও আমরা অগভীর জালগুলি সরাসরি আসল উপর প্রশিক্ষণ দেওয়া হয় তখন গভীর জালের মতো নির্ভুল হতে প্রশিক্ষণ দিতে সক্ষম হয় না লেবেলযুক্ত প্রশিক্ষণের ডেটা। যদি গভীর নেট হিসাবে একই সংখ্যার পরামিতিগুলির সাথে একটি অগভীর নেট উচ্চ বিশ্বস্ততার সাথে গভীর জাল অনুকরণ করতে শিখতে পারে,
যদি সত্য হয় তবে এর অর্থ হ'ল সঠিক ব্যাখ্যাটি বরং আমার বুলেট # 2, এবং # 1 বা # 3 নয়।
যেমনটি আমি বলেছি --- সত্যিকার অর্থে কেউ এখনও জানে না।
মন্তব্য আখেরী
গত ~ 10 বছরে গভীর শিক্ষায় যে পরিমাণ অগ্রগতি অর্জিত হয়েছে তা সত্যই আশ্চর্যজনক, তবে এই অগ্রগতির বেশিরভাগই পরীক্ষা এবং ত্রুটি দ্বারা অর্জিত হয়েছিল এবং গভীর জালগুলি এত ভালভাবে কাজ করতে ঠিক কী করে তা সম্পর্কে আমাদের এখনও খুব প্রাথমিক বোধগম্যতার অভাব রয়েছে। এমনকি লোকেরা কার্যকর গভীর নেটওয়ার্ক স্থাপনের জন্য যে বিষয়গুলিকে অত্যন্ত গুরুত্বপূর্ণ বলে মনে করে তার তালিকায় প্রতি কয়েক বছর অন্তর পরিবর্তন হয়।
গভীর শিক্ষার পুনর্জাগরণ 2006 সালে শুরু হয়েছিল যখন জিওফ্রে হিন্টন (যিনি কারও কাছ থেকে বেশি আগ্রহ ছাড়াই 20+ বছর ধরে নিউরাল নেটওয়ার্কগুলিতে কাজ করছিলেন) গভীর নেটওয়ার্ক প্রশিক্ষণের কার্যকর উপায় প্রস্তাব করে একাধিক যুগান্তকারী গবেষণাপত্র প্রকাশ করেছিলেন ( বিজ্ঞান পত্র , নিউরাল গণনা পত্র ) । কৌশলটি ছিল গ্রেডিয়েন্ট বংশোদ্ভূত সূচনা শুরুর আগে নিরীক্ষণমূলক প্রাক প্রশিক্ষণ ব্যবহার করা । এই কাগজগুলি ক্ষেত্রে ক্ষেত্রে বিপ্লব ঘটেছে এবং কয়েক বছর ধরে লোকেরা মনে করেছিল যে অব্যবহৃত প্রাক-প্রশিক্ষণই মূল বিষয়।
তারপরে ২০১০ সালে মার্টেনস দেখিয়েছেন যে গভীর নিউরাল নেটওয়ার্কগুলি সেকেন্ড-অর্ডার পদ্ধতিগুলি (যাকে হেসিয়ান-মুক্ত পদ্ধতি বলা হয়) দিয়ে প্রশিক্ষণ দেওয়া যেতে পারে এবং প্রাক-প্রশিক্ষণের মাধ্যমে প্রশিক্ষিত নেটওয়ার্কগুলিকে ছাড়িয়ে যেতে পারে: হেসিয়ান মুক্ত অপ্টিমাইজেশনের মাধ্যমে গভীর শেখা । তারপরে 2013 স্যুটস্কেভার এট আল। দেখানো হয়েছিল যে কয়েকটি অত্যন্ত চালাক কৌশল দ্বারা স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত হেসিয়ান মুক্ত পদ্ধতিগুলিকে ছাড়িয়ে যেতে পারে: গভীর শিক্ষার সূচনা এবং গতির গুরুত্বকে । এছাড়াও, 2010-এর কাছাকাছি লোকেরা বুঝতে পেরেছিল যে সিগময়েড ইউনিটগুলির পরিবর্তে সংশোধিত লিনিয়ার ইউনিট ব্যবহার করা গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার জন্য বিশাল পার্থক্য করে। ড্রপআউট ২০১৪ সালে হাজির হয়েছিল। ২০১id সালে অবশিষ্ট নেটওয়ার্কগুলি উপস্থিত হয়েছিল deep গভীর নেটওয়ার্কগুলিকে প্রশিক্ষণের জন্য লোকরা আরও এবং আরও কার্যকর উপায়গুলি নিয়ে আসতে থাকে এবং10 বছর আগে কী কী অন্তর্দৃষ্টি হিসাবে মনে হয়েছিল তা প্রায়শই একটি উপদ্রব হিসাবে বিবেচিত হয়। এগুলি সবই বিচার এবং ত্রুটির দ্বারা পরিচালিত এবং কিছু জিনিস এত ভালভাবে কাজ করে এবং কিছু অন্যান্য জিনিস কী করে না সে সম্পর্কে খুব কমই বোঝা যায় না। গভীর নেটওয়ার্ক প্রশিক্ষণ দেওয়া কৌশলগুলির একটি বড় ব্যাগের মতো। সফল কৌশলগুলি সাধারণত যুক্তিযুক্ত পোস্ট ফ্যাক্টাম হয়।
গভীর নেটওয়ার্কগুলি একটি পারফরম্যান্স মালভূমিতে কেন পৌঁছে যায় তা আমরা জানি না; মাত্র 10 বছর লোকেরা স্থানীয় মিনিমাটিকে দোষারোপ করত, তবে বর্তমানের চিন্তাভাবনাটি হ'ল এটি বিন্দু নয় (যখন পারফোমেন্স প্লেটাস, গ্রেডিয়েন্টগুলি বড় থাকে) to এই গভীর নেটওয়ার্ক সম্পর্কে এই ধরনের একটি মৌলিক প্রশ্ন হল, এবং আমরা এমনকি জানি না এই ।
আপডেট: এটি আলি রহিমির এনআইপিএস 2017 আলস্য হিসাবে মেশিন লার্নিংয়ের আলোচনার বিষয়: https://www.youtube.com/watch?v=Qi1Yry33TQE ।
[এই উত্তরটি সম্পূর্ণ এপ্রিল 2017 এ পুনরায় লেখা হয়েছিল, সুতরাং নীচের কিছু মন্তব্য আর প্রযোজ্য নয়]]