নিউরাল নেটওয়ার্ক এবং গভীর নিউরাল নেটওয়ার্কের মধ্যে পার্থক্য কী এবং গভীর সংস্থাগুলি কেন আরও ভাল কাজ করে?


113

আমি এই পদগুলিতে প্রশ্নটি সঠিকভাবে দেখিনি, এবং এই কারণেই আমি একটি নতুন প্রশ্ন করি make

আমি যা জানতে আগ্রহী তা হ'ল নিউরাল নেটওয়ার্কের সংজ্ঞা নয়, তবে গভীর নিউরাল নেটওয়ার্কের সাথে প্রকৃত পার্থক্য বোঝা।

আরও প্রসঙ্গে: আমি জানি যে একটি নিউরাল নেটওয়ার্ক কী এবং কীভাবে ব্যাকপ্রোপেশন কাজ করে। আমি জানি যে একটি ডিএনএন অবশ্যই একাধিক লুকিয়ে আছে have যাইহোক, ক্লাসে 10 বছর আগে আমি শিখেছি যে বেশ কয়েকটি স্তর বা একটি স্তর থাকা (ইনপুট এবং আউটপুট স্তরগুলি গণনা করা নয়) একটি নিউরাল নেটওয়ার্ক প্রতিনিধিত্ব করতে সক্ষম ফাংশনগুলির ক্ষেত্রে সমতুল্য ছিল (সাইবেনকো'র সর্বজনীন আনুমানিক উপপাদ্য দেখুন ) এবং এটি ছিল যে পারফরম্যান্সে লাভ না পেয়ে আরও স্তরগুলি বিশ্লেষণ করা আরও জটিল করে তুলেছে। স্পষ্টতই, সেটি আর হয় না।

আমি মনে করি, সম্ভবত ভুলভাবে, পার্থক্যগুলি কাঠামোর পরিবর্তে প্রশিক্ষণের অ্যালগরিদম এবং বৈশিষ্ট্যগুলির সাথে সম্পর্কিত, এবং তাই উত্তরটি ডিএনএন-তে সরানোকে যে কারণগুলি উল্লেখ করেছে (উদাহরণস্বরূপ গাণিতিক প্রমাণ বা এলোমেলোভাবে নেটওয়ার্কগুলির সাথে খেলতে পারে) তার কারণগুলি যদি আন্ডারলাইজ করতে পারে তবে আমি সত্যিই প্রশংসা করব ?) এবং আকাঙ্ক্ষিত (যেমন রূপান্তর গতি?)



আপনি যে ফাংশনটি আনুমানিক করতে চান তা যদি গঠনমূলক ফাংশন হয় (তবে ফিজিক্সের আইনের কারণে চিত্র প্রক্রিয়াকরণ এবং অনেক প্রাকৃতিক ডোমেন)। এটি প্রমাণিত হতে পারে যে গভীর নেটওয়ার্কগুলি এই রচনাটি কাজে লাগাতে পারে এবং তাত্পর্যপূর্ণভাবে কম সংখ্যক নিউরন (একটি একক-লুকানো-স্তর নেটওয়ার্কের তুলনায়) এর সাথে সংখ্যাসূচক ত্রুটির একই স্তর অর্জন করতে পারে। রেফারেন্স: পোগজিও, টমাসো, ইত্যাদি al "কেন এবং কখন গভীর-তবে অগভীর-নেটওয়ার্কগুলি মাত্রিকতার অভিশাপ এড়াতে পারে না: একটি পর্যালোচনা।" অটোমেশন এবং কম্পিউটিং এর আন্তর্জাতিক জার্নাল (2017)
ডেটাহুংরি

উত্তর:


151

আসুন একটি ট্রিভিলিটি দিয়ে শুরু করুন: ডিপ নিউরাল নেটওয়ার্কটি অনেকগুলি লুকানো স্তর সহ কেবল একটি ফিডফরওয়ার্ড নেটওয়ার্ক।

এটি সংজ্ঞা সম্পর্কে বলতে গেলে কমবেশি সমস্ত কিছু ঘটে। নিউরাল নেটওয়ার্কগুলি বারবার বা ফিডফোরওয়ার্ড হতে পারে; ফিডফরওয়ার্ডগুলি তাদের গ্রাফের কোনও লুপ নেই এবং স্তরগুলিতে সংগঠিত হতে পারে। যদি "অনেকগুলি" স্তর থাকে তবে আমরা বলি যে নেটওয়ার্কটি গভীর

কিভাবে অনেক স্তর একটি নেটওয়ার্ক অর্ডার যেমন গভীর যোগ্যতা আছে আছে? এর কোনও সুনির্দিষ্ট উত্তর নেই (এটি কতগুলি শস্যের গাদা করে তা জিজ্ঞাসার মতো ) তবে সাধারণত দুটি বা আরও বেশি গোপন স্তরগুলি গভীর হিসাবে গণনা করা হয়। বিপরীতে, কেবলমাত্র একটি গোপন স্তরযুক্ত একটি নেটওয়ার্ককে প্রচলিতভাবে "অগভীর" বলা হয়। আমি সন্দেহ করি যে এখানে কিছুটা মুদ্রাস্ফীতি চলছে, এবং দশ বছরে লোকেরা মনে করতে পারে যে, দশ স্তরগুলি অল্প অল্প এবং কেবল কিন্ডারগার্টেন অনুশীলনের জন্য উপযুক্ত। অনানুষ্ঠানিকভাবে, "গভীর" পরামর্শ দেয় যে নেটওয়ার্কটি পরিচালনা করা শক্ত।

এখান থেকে রূপান্তরিত একটি চিত্র এখানে দেওয়া হয়েছে :

গভীর বনাম অ-গভীর নিউরাল নেটওয়ার্ক

তবে আপনি যে আসল প্রশ্নটি জিজ্ঞাসা করছেন তা হ'ল অবশ্যই অনেক স্তর থাকা কেন উপকারী হবে?

আমি ভাবি যে কিছুটা অবাক করে দেওয়া উত্তরটি আসলেই কেউ জানে না। কিছু সাধারণ ব্যাখ্যা রয়েছে যা আমি নীচে সংক্ষিপ্তভাবে পর্যালোচনা করব, তবে এগুলির কোনওটিই দৃinc়তার সাথে সত্য বলে প্রমাণিত হয়নি, এবং একটিও নিশ্চিত হতে পারে না যে অনেক স্তর থাকা সত্যই উপকারী কিনা

আমি বলি যে এটি আশ্চর্যজনক, কারণ গভীর শিক্ষাগুলি ব্যাপকভাবে জনপ্রিয়, প্রতি বছর (চিত্রের স্বীকৃতি, গো খেলানো, স্বয়ংক্রিয় অনুবাদ ইত্যাদিতে) সমস্ত রেকর্ড ভাঙা, ইত্যাদি ইত্যাদি ইত্যাদি দ্বারা ব্যবহৃত হচ্ছে এবং ইত্যাদি And আমরা এখনও নয় বেশ নিশ্চিত কেন এত ভাল কাজ করে।

আমি গুডফেলো, বেনজিও এবং করভিলির ডিপ লার্নিং বইয়ের উপর আমার আলোচনার ভিত্তি রেখেছি যা 2017 সালে প্রকাশিত হয়েছিল এবং এটি গভীর শিক্ষার উপর বই হিসাবে ব্যাপকভাবে বিবেচিত হয় । (এটা অনলাইন অবাধে উপলব্ধ।) প্রাসঙ্গিক অধ্যায় 6.4.1 ইউনিভার্সাল পড়তা প্রোপার্টি এবং গভীরতা

আপনি যে লিখেছেন

ক্লাসে 10 বছর আগে আমি শিখেছি যে বেশ কয়েকটি স্তর বা একটি স্তর থাকা (ইনপুট এবং আউটপুট স্তরগুলি গণনা করা নয়) একটি নিউরাল নেটওয়ার্ক প্রতিনিধিত্ব করতে সক্ষম ফাংশনের ক্ষেত্রে সমতুল্য ছিল [...]

আপনি অবশ্যই তথাকথিত ইউনিভার্সাল আনুগত্যের উপপাদ্যটির কথা উল্লেখ করছেন , যা 1989 সালে সাইবেঙ্কো দ্বারা প্রমাণিত হয়েছিল এবং ১৯৯০ এর দশকে বিভিন্ন ব্যক্তিরা সাধারণীকরণ করেছিলেন। এটি মূলত বলেছে যে একটি অগভীর নিউরাল নেটওয়ার্ক (1 লুকানো স্তর সহ) যে কোনও ফাংশন আনুমানিক করতে পারে, অর্থাত নীতিগতভাবে কিছু শিখতে পারে । এটি বিভিন্ন ননলাইনাল অ্যাক্টিভেশন ফাংশনগুলির ক্ষেত্রে সত্য, সংশোধিত লিনিয়ার ইউনিটগুলি সহ যা বেশিরভাগ নিউরাল নেটওয়ার্কগুলি আজ ব্যবহার করছে ( এই ফলাফলের জন্য পাঠ্যপুস্তক রেফারেন্স Leshno ET। 1993 ) including

যদি তাই হয়, তবে সবাই কেন গভীর জাল ব্যবহার করছে?

ওয়েল, একটি নির্বোধ উত্তর হ'ল কারণ তারা আরও ভাল কাজ করে। এখানে ডিপ লার্নিং বইয়ের একটি চিত্র দেখানো হয়েছে যে এটি একটি নির্দিষ্ট কার্যে আরও স্তর রাখতে সহায়তা করে তবে একই ঘটনাটি প্রায়শই বিভিন্ন কাজ এবং ডোমেনগুলিতে লক্ষ্য করা যায়:

আরও স্তর ভাল

আমরা জানি যে অগভীর নেটওয়ার্কের পারে গভীর বেশী হিসাবে হিসাবে ভাল সঞ্চালন। তবে তা হয় না; এবং তারা সাধারণত না। প্রশ্ন --- কেন? সম্ভাব্য উত্তর:

  1. সম্ভবত একটি অগভীর নেটওয়ার্কে আরও বেশি নিউরনের প্রয়োজন হবে গভীর থেকে?
  2. সম্ভবত একটি অগভীর নেটওয়ার্ক আমাদের বর্তমান অ্যালগরিদমগুলি সহ প্রশিক্ষণ করা আরও বেশি কঠিন (উদাহরণস্বরূপ এটিতে আরও কদর্য স্থানীয় মিনিমা রয়েছে, বা রূপান্তর হারটি ধীর, বা যাই হোক না কেন)?
  3. সম্ভবত আমরা সাধারণত যে ধরণের সমস্যার সমাধান করতে চাইছি তা অগভীর আর্কিটেকচারের সাথে খাপ খায় না (উদাহরণস্বরূপ বস্তুর স্বীকৃতি একটি পঞ্চম "গভীর", শ্রেণিবদ্ধ প্রক্রিয়া)?
  4. অন্যকিছু?

গভীর শিক্ষা বই বুলেট পয়েন্ট # 1 এবং # 3 জন্য যুক্তি। প্রথমত, এটি যুক্তি দেয় যে অগভীর নেটওয়ার্কে ইউনিটের সংখ্যা টাস্ক জটিলতার সাথে তাত্পর্যপূর্ণভাবে বৃদ্ধি পায়। সুতরাং কার্যকর হতে একটি অগভীর নেটওয়ার্ক খুব বড় হতে পারে; সম্ভবত একটি গভীর নেটওয়ার্কের চেয়ে অনেক বড়। এটি বেশ কয়েকটি কাগজের উপর ভিত্তি করে প্রমাণিত হয়েছে যে অগভীর নেটওয়ার্কগুলির ক্ষেত্রে কিছু ক্ষেত্রে তাত্পর্যপূর্ণভাবে অনেক নিউরন প্রয়োজন; তবে যেমন এমএনআইএসটির শ্রেণিবদ্ধতা বা প্লে প্লে এই জাতীয় কেসগুলি প্রকৃতপক্ষে পরিষ্কার নয়। দ্বিতীয়ত, বইটি এই বলে:

একটি গভীর মডেল নির্বাচন করা খুব সাধারণ বিশ্বাসকে এনকোড করে যে ফাংশনটি আমরা শিখতে চাই তাতে বেশ কয়েকটি সহজ ফাংশনের সংমিশ্রণ থাকা উচিত। প্রতিনিধিত্বমূলক শিক্ষার দৃষ্টিকোণ থেকে এটি ব্যাখ্যা করা যেতে পারে যে আমরা বিশ্বাস করি যে শিক্ষার সমস্যাটি পরিবর্তনের অন্তর্নিহিত কারণগুলির একটি সেট আবিষ্কার করে যা পরিবর্তিতভাবে পরিবর্তনের অন্যান্য, সহজ অন্তর্নিহিত কারণগুলির সাথে বর্ণিত হতে পারে consists

আমার মনে হয় বর্তমান "sensকমত্য" হ'ল এটি বুলেট পয়েন্ট # 1 এবং # 3 এর সংমিশ্রণ: বাস্তব-জগতের কার্যগুলির জন্য গভীর আর্কিটেকচার প্রায়শই উপকারী এবং অগভীর আর্কিটেকচার অদক্ষ হতে পারে এবং একই পারফরম্যান্সের জন্য আরও অনেক নিউরন প্রয়োজন।

তবে এটি প্রমাণিত থেকে অনেক দূরে। উদাহরণস্বরূপ, জাগোরুইকো এবং কমোডাকিস, 2016, প্রশস্ত অবশিষ্টাংশগুলি বিবেচনা করুন । ২০১০ সালে 150+ স্তর সহ অবশিষ্টাংশের নেটওয়ার্কগুলি উপস্থিত হয়েছিল এবং বিভিন্ন চিত্র স্বীকৃতি প্রতিযোগিতা জিতেছে। এটি একটি বড় সাফল্য এবং গভীরতার পক্ষে একটি বাধ্যতামূলক যুক্তির মতো দেখায়; এখানে অবশিষ্ট লেখকের অবশিষ্ট লেখার প্রথম লেখকের উপস্থাপনা থেকে একটি চিত্র এখানে দেখুন (দ্রষ্টব্য যে বিভ্রান্তিকরভাবে এখানে বাম দিকে চলে যায়):

গভীর অবশিষ্টাংশ নেটওয়ার্ক

তবে উপরের লিঙ্কযুক্ত কাগজটি দেখায় যে "কেবল" 16 টি স্তরযুক্ত একটি "প্রশস্ত" অবশিষ্টাংশগুলি "150" স্তরযুক্ত "গভীর" একটিকে ছাড়িয়ে যেতে পারে। যদি এটি সত্য হয় তবে উপরের চিত্রের পুরো পয়েন্টটি ভেঙে যায়।

বা বা কারুয়ানা, 2014 বিবেচনা করুন , ডিপ নেটগুলি কি আসলেই গভীর হতে হবে? :

এই গবেষণাপত্রে আমরা পরীক্ষামূলক প্রমাণ সরবরাহ করি যা অগভীর জাল গভীর জালের মতো একই ফাংশনটি শিখতে সক্ষম এবং কিছু ক্ষেত্রে গভীর জালের মতো একই সংখ্যক পরামিতি রয়েছে। আমরা প্রথমে একটি অত্যাধুনিক গভীর মডেলকে প্রশিক্ষণ দিয়ে এবং তারপরে গভীর মডেলটিকে অনুকরণ করার জন্য একটি অগভীর মডেলকে প্রশিক্ষণ দিয়ে এটি করি। নকল মডেলটি পরবর্তী বিভাগে বর্ণিত মডেল কম্প্রেশন স্কিম ব্যবহার করে প্রশিক্ষণপ্রাপ্ত। লক্ষণীয়ভাবে, মডেল সংক্ষেপণের মাধ্যমে আমরা অগভীর জালগুলি কয়েকটি গভীর মডেলের মতো নির্ভুল হতে প্রশিক্ষণ দিতে সক্ষম হয়েছি, যদিও আমরা অগভীর জালগুলি সরাসরি আসল উপর প্রশিক্ষণ দেওয়া হয় তখন গভীর জালের মতো নির্ভুল হতে প্রশিক্ষণ দিতে সক্ষম হয় না লেবেলযুক্ত প্রশিক্ষণের ডেটা। যদি গভীর নেট হিসাবে একই সংখ্যার পরামিতিগুলির সাথে একটি অগভীর নেট উচ্চ বিশ্বস্ততার সাথে গভীর জাল অনুকরণ করতে শিখতে পারে,

যদি সত্য হয় তবে এর অর্থ হ'ল সঠিক ব্যাখ্যাটি বরং আমার বুলেট # 2, এবং # 1 বা # 3 নয়।

যেমনটি আমি বলেছি --- সত্যিকার অর্থে কেউ এখনও জানে না।


মন্তব্য আখেরী

গত ~ 10 বছরে গভীর শিক্ষায় যে পরিমাণ অগ্রগতি অর্জিত হয়েছে তা সত্যই আশ্চর্যজনক, তবে এই অগ্রগতির বেশিরভাগই পরীক্ষা এবং ত্রুটি দ্বারা অর্জিত হয়েছিল এবং গভীর জালগুলি এত ভালভাবে কাজ করতে ঠিক কী করে তা সম্পর্কে আমাদের এখনও খুব প্রাথমিক বোধগম্যতার অভাব রয়েছে। এমনকি লোকেরা কার্যকর গভীর নেটওয়ার্ক স্থাপনের জন্য যে বিষয়গুলিকে অত্যন্ত গুরুত্বপূর্ণ বলে মনে করে তার তালিকায় প্রতি কয়েক বছর অন্তর পরিবর্তন হয়।

গভীর শিক্ষার পুনর্জাগরণ 2006 সালে শুরু হয়েছিল যখন জিওফ্রে হিন্টন (যিনি কারও কাছ থেকে বেশি আগ্রহ ছাড়াই 20+ বছর ধরে নিউরাল নেটওয়ার্কগুলিতে কাজ করছিলেন) গভীর নেটওয়ার্ক প্রশিক্ষণের কার্যকর উপায় প্রস্তাব করে একাধিক যুগান্তকারী গবেষণাপত্র প্রকাশ করেছিলেন ( বিজ্ঞান পত্র , নিউরাল গণনা পত্র ) । কৌশলটি ছিল গ্রেডিয়েন্ট বংশোদ্ভূত সূচনা শুরুর আগে নিরীক্ষণমূলক প্রাক প্রশিক্ষণ ব্যবহার করা । এই কাগজগুলি ক্ষেত্রে ক্ষেত্রে বিপ্লব ঘটেছে এবং কয়েক বছর ধরে লোকেরা মনে করেছিল যে অব্যবহৃত প্রাক-প্রশিক্ষণই মূল বিষয়।

তারপরে ২০১০ সালে মার্টেনস দেখিয়েছেন যে গভীর নিউরাল নেটওয়ার্কগুলি সেকেন্ড-অর্ডার পদ্ধতিগুলি (যাকে হেসিয়ান-মুক্ত পদ্ধতি বলা হয়) দিয়ে প্রশিক্ষণ দেওয়া যেতে পারে এবং প্রাক-প্রশিক্ষণের মাধ্যমে প্রশিক্ষিত নেটওয়ার্কগুলিকে ছাড়িয়ে যেতে পারে: হেসিয়ান মুক্ত অপ্টিমাইজেশনের মাধ্যমে গভীর শেখা । তারপরে 2013 স্যুটস্কেভার এট আল। দেখানো হয়েছিল যে কয়েকটি অত্যন্ত চালাক কৌশল দ্বারা স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত হেসিয়ান মুক্ত পদ্ধতিগুলিকে ছাড়িয়ে যেতে পারে: গভীর শিক্ষার সূচনা এবং গতির গুরুত্বকে । এছাড়াও, 2010-এর কাছাকাছি লোকেরা বুঝতে পেরেছিল যে সিগময়েড ইউনিটগুলির পরিবর্তে সংশোধিত লিনিয়ার ইউনিট ব্যবহার করা গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার জন্য বিশাল পার্থক্য করে। ড্রপআউট ২০১৪ সালে হাজির হয়েছিল। ২০১id সালে অবশিষ্ট নেটওয়ার্কগুলি উপস্থিত হয়েছিল deep গভীর নেটওয়ার্কগুলিকে প্রশিক্ষণের জন্য লোকরা আরও এবং আরও কার্যকর উপায়গুলি নিয়ে আসতে থাকে এবং10 বছর আগে কী কী অন্তর্দৃষ্টি হিসাবে মনে হয়েছিল তা প্রায়শই একটি উপদ্রব হিসাবে বিবেচিত হয়। এগুলি সবই বিচার এবং ত্রুটির দ্বারা পরিচালিত এবং কিছু জিনিস এত ভালভাবে কাজ করে এবং কিছু অন্যান্য জিনিস কী করে না সে সম্পর্কে খুব কমই বোঝা যায় না। গভীর নেটওয়ার্ক প্রশিক্ষণ দেওয়া কৌশলগুলির একটি বড় ব্যাগের মতো। সফল কৌশলগুলি সাধারণত যুক্তিযুক্ত পোস্ট ফ্যাক্টাম হয়।

গভীর নেটওয়ার্কগুলি একটি পারফরম্যান্স মালভূমিতে কেন পৌঁছে যায় তা আমরা জানি না; মাত্র 10 বছর লোকেরা স্থানীয় মিনিমাটিকে দোষারোপ করত, তবে বর্তমানের চিন্তাভাবনাটি হ'ল এটি বিন্দু নয় (যখন পারফোমেন্স প্লেটাস, গ্রেডিয়েন্টগুলি বড় থাকে) to এই গভীর নেটওয়ার্ক সম্পর্কে এই ধরনের একটি মৌলিক প্রশ্ন হল, এবং আমরা এমনকি জানি না এই

আপডেট: এটি আলি রহিমির এনআইপিএস 2017 আলস্য হিসাবে মেশিন লার্নিংয়ের আলোচনার বিষয়: https://www.youtube.com/watch?v=Qi1Yry33TQE


[এই উত্তরটি সম্পূর্ণ এপ্রিল 2017 এ পুনরায় লেখা হয়েছিল, সুতরাং নীচের কিছু মন্তব্য আর প্রযোজ্য নয়]]


2
দুর্দান্ত প্রতিক্রিয়া! 1) নামেও @Nicolas দ্বারা উল্লেখ করা হয়েছে, এটি সক্রিয় আউট একটি উপপাদ্য (যে en.wikipedia.org/wiki/Universal_approximation_theorem ) দাবি করে যে যে একটি ফিড এগিয়ে দিয়ে স্নায়ুর নেটওয়ার্ক একটি একক লুকানো স্তর এবং নিউরোন একটি সসীম সংখ্যা করতে আনুমানিক ইউনিট হাইপারকিউবে কোনও অবিচ্ছিন্ন ফাংশন (একটি ডিএনএন সহ) এই ফলাফলটি অ্যাক্টিভেশন ফাংশনের পছন্দ থেকে স্বাধীন বলে দাবি করা হচ্ছে। ২) আমি নিশ্চিত নই যে আপনার শেষ মন্তব্যটি (যেমন হিন্টন গুগলে যোগ দিয়েছে) ডিএনএন-এর সাম্প্রতিক সাফল্যের সাথে প্রাসঙ্গিক কিনা; ডিএনএন মহামারী হওয়ার অনেক পরে হিন্টন গুগলে যোগ দিলেন!
সোবি 23

4
হতে পারে আমরা পরিভাষাটি অন্যভাবে ব্যবহার করছি। পারসেপ্ট্রনের কোনও গোপন স্তর নেই - তাদের ইনপুটটি ডেটা, তাদের আউটপুটকে শ্রেণিবদ্ধকরণ। একজন Multilayer নেটওয়ার্কের একসঙ্গে যেমন যে স্তর থেকে আউটপুট ওয়্যার্ড perceptrons একটি গুচ্ছ নিয়ে গঠিত ফরম ইনপুট স্তরে । একটি একক লুকানো স্তরযুক্ত একটি নেটওয়ার্কে এইভাবে তিনটি স্তর থাকে (ইনপুট, লুকানো, আউটপুট)। এই লুকানো স্তরটি সর্বজনীন আনুমানিকতার মূল বিষয়: পারসেপ্ট্রনগুলির, যার অভাব রয়েছে, এক্সওআর এর মতো জিনিসগুলি গণনা করতে পারে না, তবে মাল্টিলেয়ার নেটওয়ার্কগুলি পারে। এনn1n
ম্যাট ক্রাউস 18

2
লিনিয়ারটি জিনিসটি দুটি ইস্যুর সংমিশ্রণের মতো মনে হয়। পারসেপ্টরনগুলি কেবল লিনিয়ার সিদ্ধান্তের সীমানা গণনা করতে পারে - এটি কেবল দুটি শ্রেণি বিভক্ত করার জন্য সরলরেখা আঁকতে পারে। মাল্টিলেয়ার নেটওয়ার্কগুলি আরও জটিল সীমানা "আঁকতে" পারে। তবে একাধিক নেটওয়ার্কের আউটপুট স্তর ব্যতীত অনুধাবক এবং মাল্টিলেয়ার নেটওয়ার্কগুলি লিনিয়ার অ্যাক্টিভেশন ফাংশন ব্যবহার করে না। পার্সেপেট্রন অ্যাক্টিভেশন ফাংশন হ্যাভিসাইড (1 যদি x> 0, 0 অন্যথায়); মাল্টিলেয়ার নেটওয়ার্কগুলি প্রায়শই সিগময়েডগুলি ব্যবহার করে তবে সর্বজনীন আনুমানিক জন্য সীমাবদ্ধতা। বেশ হালকা: অ-ধ্রুবক, আবদ্ধ এবং একঘেয়েভাবে বৃদ্ধি।
ম্যাট ক্রাউস 18

2
@ অ্যামিবা দুর্দান্ত উত্তর, শুরুতে ছবিটি আমাকে বাকী পড়া বন্ধ করে দিয়েছে, তবে এটি সবচেয়ে ভাল ছিল। পার্সেপট্রন হ'ল শ্রেণিবিন্যাসের জন্য লিনিয়ার রিগ্রেশনের প্রতিচ্ছবি, এই কারণেই লোকেরা যখন অনলাইন (এসএজিডি) পদ্ধতির পরিবর্তে সমস্যার সমাধানের জন্য ক্লোজড ফর্ম সলিউশন (সিউডোইনভার্স) ব্যবহার করে, লজিস্টিক (সিগময়েড ফাংশন) এর কারণে এটি লজিস্টিক রিগ্রেশন বলে called = অনুধাবন। একটি পারসেপট্রন / লজিস্টিক রিগ্রেশন কেবল লিনিয়ার সিদ্ধান্তের সীমানা 'আঁকতে' পারে এবং এ কারণেই এটিকে রৈখিক বলা হয়।
shuriken x নীল

2
যাইহোক, মাল্টি-লেয়ার পার্সেপেট্রন (আপনি বাম দিকে আপনার প্রথম ছবিতে কী আঁকেন) এই জাতীয় একাধিক লিনিয়ার সিদ্ধান্তের সীমানা একত্রিত করতে পারে এবং এইভাবে @ ম্যাট হিসাবে উল্লিখিত (অ-রৈখিক) এক্সওআর সমস্যা সমাধানের জন্য স্থানটি বিভাজন করতে পারে। সুতরাং, অনেকগুলি সম্মিলিত রৈখিক সিদ্ধান্তের সীমানা উদাহরণস্বরূপ একটি বৃত্ত তৈরি করতে পারে যদি আপনি নিজের চোখকে বাদ দেন। এটি নির্ভর করে যে আপনি এটি সম্পর্কে কীভাবে চিন্তা করেন - সিদ্ধান্তটি এখনও উচ্চতর স্থানে রৈখিক, যদি আপনি কার্নেলের সাথে পরিচিত হন তবে এটি একই ধরণের জিনিস।
shuriken x নীল

8

এখন পর্যন্ত ভাল উত্তর, যদিও এখানে বেশ কয়েকটি বিষয় উল্লেখ করা হয়নি তবে এখানে আমার 0.02 $ রয়েছে $

আমি কেবল একটি গল্পের আকারে উত্তর দেব, বিষয়গুলি আরও মজাদার এবং স্পষ্ট করা উচিত। এখানে কোন tldr। প্রক্রিয়াটিতে আপনার পার্থক্য কী তা বুঝতে সক্ষম হওয়া উচিত।

ডিএনএনগুলি যখন করেছিল তখন একাধিক কারণ রয়েছে (তারারগুলি সারিবদ্ধভাবে দেখাতে হয়েছিল, একই রকম সমস্ত জিনিস এটি সঠিক স্থান, সঠিক সময় ইত্যাদির বিষয়)।

একটি কারণ হ'ল ডেটা উপলভ্যতা, প্রচুর ডেটা (লেবেলযুক্ত ডেটা)। আপনি যদি 'জেনেরিক প্রিয়ারস' বা 'ইউনিভার্সাল প্রিয়ারস' (যেমন বেসিক বিল্ডিং ব্লকগুলি যেগুলি টাস্ক / অ্যাপ্লিকেশনগুলির মধ্যে পুনরায় ব্যবহার করা যেতে পারে) এর মতো কিছু সাধারণ করতে এবং শিখতে চান তবে আপনার প্রচুর ডেটা প্রয়োজন। এবং ওয়াইল্ড ডেটা, আমি যুক্ত করতে পারি, জীবাণুমুক্ত ডেটা-সেটগুলি নিয়ন্ত্রিত আলো এবং সমস্ত সহ ল্যাবটিতে সাবধানে রেকর্ড করা হয়নি। যান্ত্রিক তুর্ক যে (লেবেলিং) সম্ভব করেছে।

দ্বিতীয়ত, জিপিইউগুলি ব্যবহার করে আরও বৃহত্তর নেটওয়ার্কগুলিকে দ্রুত প্রশিক্ষণের সম্ভাবনা দ্রুততর পরীক্ষামূলকভাবে তৈরি হয়েছে। আরএলইউ ইউনিটগুলি জিনিসগুলি কম্পিউটারের তুলনায় দ্রুততর করে তোলে এবং তাদের নিয়মিতকরণ করায় যেহেতু স্তরগুলি এখন আরও স্পারস ছিল তাই একই তথ্য সংকুচিত করতে আপনাকে এক স্তরতে আরও বেশি ইউনিট ব্যবহার করার প্রয়োজন ছিল, তাই এটি ড্রপআউটেও চমৎকার হয়েছিল। এছাড়াও, আপনি একাধিক স্তর স্ট্যাক করার পরে ঘটে এমন একটি গুরুত্বপূর্ণ সমস্যাটি তারা সহায়তা করেছিল। সে সম্পর্কে আরও পরে। পারফরম্যান্স উন্নত বিভিন্ন একাধিক কৌশল। মিনি-ব্যাচগুলি (যা আসলে চূড়ান্ত ত্রুটির জন্য ক্ষতিকারক) বা কনভোলিউশনগুলি ব্যবহার করার মতো (যা বাস্তবে স্থানীয় গ্রহণযোগ্য ক্ষেত্রগুলির তুলনায় ততটা বৈকল্পিকতা গ্রহণ করে না) তবে গণনামূলকভাবে দ্রুত হয়।

এর মধ্যে লোকেরা বিতর্ক করছিলেন যে তারা যদি আরও চর্মসার বা আরও নিবিড়, আরও ছোট বা লম্বা, ফ্রিকলগুলি সহ বা তাদের ছাড়াই পছন্দ করে etc. এবং নিউটন পদ্ধতি, শেষ পর্যন্ত তারা সকলেই বুঝতে পেরেছিল যে কোনও নিখরচায় দুপুরের খাবার নেই। নেটওয়ার্কগুলি চুরমার হয়ে যাচ্ছিল।

কি অপচিত জিনিষ ছিল অন্তর্ধান গ্রেডিয়েন্ট সমস্যা। লোকেরা এমনভাবে চলে গেল: ওহ, এ তো দূরের কথা, মানুষ! সংক্ষেপে এর অর্থ হ'ল ইনপুটগুলির কাছাকাছি স্তরগুলির ত্রুটিটি সামঞ্জস্য করা কঠিন ছিল। আপনি কেকের উপর আরও স্তর যুক্ত করার সাথে সাথে খুব ঘোলাটে হয়ে যান। আপনি প্রথম স্তরগুলিতে অর্থবহ ত্রুটি ফিরে প্রচার করতে পারেন না। যত বেশি স্তর, তত খারাপ। হতাশাজনক।

কিছু লোকেরা বুঝতে পেরেছিল যে লস ফাংশন হিসাবে ক্রস-এনট্রপি ব্যবহার করা (ভাল, আবার, শ্রেণিবদ্ধকরণ এবং চিত্রের স্বীকৃতি) কিছু প্রকার নিয়মিতকরণ সরবরাহ করে এবং নেটওয়ার্ককে স্যাচুরেটেড হওয়ার বিরুদ্ধে সহায়তা করে এবং ফলস্বরূপ গ্রেডিয়েন্টটি এটি ভালভাবে আড়াল করতে সক্ষম হয় নি।

কী কী জিনিসগুলি সম্ভব করেছিল তা হ'ল আন-সার্ভিস পদ্ধতিগুলি ব্যবহার করে প্রতি-স্তর প্রাক-প্রশিক্ষণ। মূলত, আপনি সংক্ষেপণের অনুপাত বাড়ানোর সাথে সাথে অটো-এনকোডারগুলির একটি গোছা গ্রহণ করেন এবং ক্রমবর্ধমান কম বিমূর্ত উপস্থাপনা শিখেন। এই নেটওয়ার্কগুলির ওজন তদারকি করা সংস্করণ আরম্ভ করার জন্য ব্যবহৃত হত। এটি বিলুপ্ত গ্রেডিয়েন্ট সমস্যাটিকে অন্যভাবে সমাধান করেছে: আপনি ইতিমধ্যে আরও ভাল শুরু অবস্থান থেকে তদারকি প্রশিক্ষণ শুরু করছেন। সুতরাং অন্যান্য সমস্ত নেটওয়ার্ক উঠে বিদ্রোহ শুরু করে। তবে নেটওয়ার্কগুলিকে যাইহোক তদারকির দরকার ছিল, অন্যথায় বড় ডেটাটি রাখা এখনও অসম্ভব ছিল।

এখন, শেষ অংশের জন্য যা শেষ পর্যন্ত আপনার উত্তরটির দিকে বাড়ে যা সংক্ষেপে বলা খুব জটিল: কেন আরও স্তর এবং কেবল একটি নয় not কারন আমরা পারি! এবং কারণ প্রসঙ্গে এবং আক্রমণকারী বৈশিষ্ট্য বিবরণকারী। এবং পুল।

এখানে একটি উদাহরণ রয়েছে: আপনার কাছে চিত্রের একটি ডেটা সেট রয়েছে, কীভাবে আপনি সেই ডেটা ব্যবহার করে কোনও পরিকল্পনা এনএনকে প্রশিক্ষণ দিচ্ছেন? ভাল, নির্বাকভাবে, আপনি প্রতিটি সারি বলুন নেওয়া এবং আপনি এটি একটি দীর্ঘ ভেক্টর মধ্যে একত্রীকরণ এবং এটি আপনার ইনপুট। তুমি কী শিখো? ভাল, কিছু अस्पष्ट বাজে ফাংশন যা কোনও কিছুর মতো না দেখায় কারণ চিত্রের বস্তুগুলিতে থাকা বহু ধরণের বৈকল্পিকতার কারণে এবং আপনি প্রাসঙ্গিক এবং অপ্রাসঙ্গিক বিষয়গুলির মধ্যে পার্থক্য করতে সক্ষম নন। এবং এক পর্যায়ে নতুন স্টাফ পুনরায় শেখার জন্য নেটওয়ার্কটি ভুলে যাওয়া দরকার। সুতরাং ক্ষমতা ক্ষমতা আছে। এটি আরও অ-রৈখিক গতিবিদ্যা, তবে অন্তর্নিহিততাটি হ'ল আপনার নেটওয়ার্কে আরও তথ্য অন্তর্ভুক্ত করতে আপনাকে নিউরনের সংখ্যা বাড়াতে হবে।

সুতরাং মুল বক্তব্যটি হ'ল আপনি যদি চিত্রটিকে কেবল এক টুকরো হিসাবে ইনপুট করেন তবে অতিরিক্ত স্তর যুক্ত করা আপনার পক্ষে খুব বেশি কিছু করে না যেহেতু আপনি বিমূর্ততা শিখতে সক্ষম নন , এটি খুব গুরুত্বপূর্ণ। সামগ্রিকভাবে কাজগুলি এইভাবে কার্যকর হয় না, যদি না আপনি নেটওয়ার্কের সাথে কোনও নির্দিষ্ট ধরণের অবজেক্টের দিকে মনোনিবেশ করার মতো সহজ কাজ করেন, সুতরাং আপনি নিজেকে এক শ্রেণিতে সীমাবদ্ধ রাখুন এবং আপনি কিছু বিশ্বব্যাপী বৈশিষ্ট্যকে শ্রেণিবদ্ধকরণ লক্ষ্য হিসাবে বেছে নেবেন।

তাহলে কি করার আছে? আপনার পর্দার প্রান্তটি দেখুন এবং এই পাঠ্যটি পড়ার চেষ্টা করুন। সমস্যা? এটি যতটা বোকা শোনাচ্ছে ততই আপনি কী পড়ছেন তা আপনাকে দেখতে হবে। অন্যথায় এটি খুব अस्पष्ट / পর্যাপ্ত রেজোলিউশন / গ্রানুলারিটি নেই। আসুন ফোকাস অঞ্চলটিকে গ্রহনযোগ্য ক্ষেত্র বলি। নেটওয়ার্কগুলিকেও ফোকাস করতে সক্ষম হতে হবে। মূলত পুরো চিত্রটিকে ইনপুট হিসাবে ব্যবহার না করে আপনি চিত্রের সাথে একটি স্লাইডিং উইন্ডোটি সরান এবং তারপরে আপনি এটি নেটওয়ার্কে ইনপুট হিসাবে ব্যবহার করেন (মানুষ যা করেন তার চেয়ে কিছুটা কম স্টোকাস্টিক)। এখন আপনার কাছে পিক্সেল এবং সেইজন্য অবজেক্টগুলির মধ্যে পারস্পরিক সম্পর্ক ক্যাপচার করারও সুযোগ রয়েছে এবং আপনি একটি সোফায় বসে ঘুমন্ত বিড়াল এবং একটি উল্টোপাল্ট বিড়ালের বাঙ্গি জাম্পিংয়ের মধ্যে পার্থক্য করতে পারেন। ঝরঝরে, মানবতার প্রতি বিশ্বাস পুনরুদ্ধার। নেটওয়ার্ক একাধিক স্তরের কোনও চিত্রে স্থানীয় বিমূর্ততা শিখতে পারে। নেটওয়ার্ক ফিল্টার শিখেছে,

সুতরাং, বিষয়গুলি সংক্ষেপে: গ্রহণযোগ্য ক্ষেত্রগুলি / কনভলিউশনগুলি, অকার্যকর সূচনা, সংশোধিত লিনিয়ার ইউনিট, ড্রপআউট বা অন্যান্য নিয়মিতকরণ পদ্ধতি। আপনি যদি এ সম্পর্কে খুব গুরুতর হন তবে আমি আপনাকে পরামর্শ দিচ্ছি যে নিউরাল নেটওয়ার্কগুলিতে শ্মিধুবারের ডিপ লার্নিংটি একবার দেখুন : একটি সংক্ষিপ্ত বিবরণ এখানে প্রিপ্রিন্টের জন্য ইউআরএল http://arxiv.org/abs/1404.7828

এবং মনে রাখবেন: বড় শিখন, গভীর তথ্য। ওয়ার্ড।


হাই ফ্লোরিন, সুন্দর উত্তরের জন্য ধন্যবাদ! আমি রাইটিং স্টাইলটি পছন্দ করি। আপনি যখন স্লাইডিং উইন্ডোজ সম্পর্কে কথা বলছেন, আপনি কি কনফিউশনাল এনএন এর কনভ্যুশনাল স্তরগুলি কোনও চিত্রের বিভিন্ন অংশ পর্যবেক্ষণ করে এবং নিম্নতর মাত্রার স্থানে তাদের ক্রিয়াকলাপগুলি প্রজেক্ট করে দিচ্ছেন?
নিকোলাস

বেশ কিছুটা হ্যাঁ, কনভলিউশনগুলি প্রয়োজনীয় নয়, তবে ওজনগুলি সীমাবদ্ধ হওয়ায় এগুলি দ্রুত গণনামূলকভাবে হয়। এই কাগজটি দেখুন যেখানে তারা কনভলিউশনগুলি ব্যবহার করে না এবং স্থানীয় গ্রহণযোগ্য ক্ষেত্রগুলি ব্যবহার করে না। গুরুত্বপূর্ণ কীওয়ার্ডগুলি স্থানীয় / শ্রেণিবদ্ধ: arxiv.org/pdf/1112.6209.pdf
shuriken x নীল

আমি আরও মনে করি সবচেয়ে কাছের পদ্ধতিগত উত্তরটি সোবি'র। সে আমার উর্ধ্বতন পেয়েছে। আমি এখানে আরও কিছু জিনিস যুক্ত করেছি এবং কিছুটা লবণ এবং মরিচ দিয়ে।
shuriken x নীল

6

সাধারণ লোকের ভাষায়, ক্লাসিক নিউরাল নেটওয়ার্কগুলির সাথে প্রধান পার্থক্য হ'ল তাদের আরও অনেক গোপন স্তর রয়েছে।

বিমূর্তির কয়েকটি স্তর তৈরি করতে স্তরগুলিতে লেবেল যুক্ত করার ধারণাটি রয়েছে:

উদাহরণস্বরূপ, অবজেক্টের স্বীকৃতির জন্য একটি গভীর নিউরাল নেটওয়ার্ক :

  • স্তর 1: একক পিক্সেল
  • স্তর 2: প্রান্তগুলি
  • স্তর 3: ফর্ম (চেনাশোনা, স্কোয়ার)
  • স্তর n: পুরো অবজেক্ট

কোওরায় এই প্রশ্নটিতে আপনি একটি ভাল ব্যাখ্যা পেতে পারেন ।

এবং, আপনি যদি এই বিষয়ে আগ্রহী হন তবে আমি এই বইটি একবার দেখে নেওয়া উচিত ।


1
ধন্যবাদ ডেভিড, তবে কীভাবে কীভাবে কেবল লেবেল যুক্ত করা যায় এটি আলাদা করা যায় তা আমি সত্যিই দেখছি না। আমার এটাও মনে আছে যে নিউরাল নেটওয়ার্কের বাইকটি কীভাবে এনকোড করা হয়েছিল তা বুঝতে এবং পচন করা শক্ত সমস্যা ছিল। আরও বেশি স্তর থাকা ছাড়াও অন্য কিছু থাকতে হবে। আপনি যে উদাহরণ দিয়েছেন, আমি বিশ্বাস করি যে প্রতিটি কাজটি করার জন্য আপনি স্বতন্ত্রভাবে (পুরানো স্কুল) নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণ দিতে পারেন।
নিকোলাস

আপনি যখন এটি পাইপলাইনের মতো ব্যবহার করেন তখন শক্তিটি আসে, সুতরাং স্তর থেকে ইনপুট এবং আউটপুট প্রতিটি স্তরে স্তরে স্তরে।
ডেভিড গ্যাসকেজ

আমি আপনার প্রথম লিঙ্কটি পড়ছি, যা একটি ভাল রিসোর্স এবং কোরা এবং সে সম্পর্কিত অন্যান্য সম্পর্কিত প্রশ্নগুলি পড়েছে, তবে আপনি যে উদাহরণ দিয়েছেন তা আমি যা পড়েছি তা সঠিক বলে মনে হয় না। আমি আমার নিজের প্রশ্নের উত্তর দেওয়ার চেষ্টা করব, এই পড়াগুলি সংক্ষেপে।
নিকোলাস

2
পয়েন্ট রিসোর্সটি আকর্ষণীয় হওয়া সত্ত্বেও, বর্তমানের উত্তরটি প্রশ্নের উত্তর দেয় না।
নিকোলাস

আপনি কি এমন কোনও উদাহরণ দেখিয়ে দিতে পারেন যেখানে স্তরগুলি লেবেলযুক্ত (সম্পূর্ণ বর্ণনামূলক উপায় ব্যতীত)? এটি অবশ্যই সত্য যে লুকানো স্তরগুলি প্রতিটি লুকানো স্তরে ধারাবাহিকভাবে আরও জটিল বৈশিষ্ট্যগুলিতে উপস্থিত হয়, তবে "লেবেল যুক্ত করা" বোঝায় যে তারা এটি করার জন্য বিশেষভাবে প্রশিক্ষিত হচ্ছে।
ম্যাট ক্রাউস

2

নিউরাল নেটওয়ার্ক (এনএন) এবং ডিপ নিউরাল নেটওয়ার্ক (ডিএনএন) এর মধ্যে পার্থক্য নিয়ে আমি শুরুতে কিছুটা বিভ্রান্ত হয়ে পড়েছিলাম, তবে 'গভীরতা' কেবলমাত্র পরামিতি এবং স্তরগুলির সংখ্যাকেই বোঝায়, দুর্ভাগ্যক্রমে। আপনি এটি তথাকথিত 'কানাডিয়ান মাফিয়া' এর অধীনে কিছু ধরণের পুনঃ ব্র্যান্ডিং হিসাবে নিতে পারেন।

বেশ কয়েক বছর আগে, আমারও ক্লাসের অংশ হিসাবে নিউরাল নেটওয়ার্ক ছিল এবং আমরা এনএন ব্যবহার করে ডিজিট স্বীকৃতি, তরঙ্গ আনুমানিকতা এবং অনুরূপ অ্যাপ্লিকেশন করতাম, যার একাধিক আড়াল স্তর এবং আউটপুট এবং ডিএনএন এর সমস্ত জাজ ছিল। যাইহোক, আমাদের তখন যা ছিল তা ছিল কম্পিউটিং পাওয়ার।

যে কারণে ডিএনএন-তে সরানো সম্ভব এবং পছন্দসই হয়েছে, তা হ'ল হার্ডওয়্যার বিকাশের অগ্রগতি। সোজা কথায়, এখন আমরা আরও, দ্রুত এবং আরও সমান্তরাল (জিপিইউতে ডিএনএন) গণনা করতে পারি, যখন আগে এনএন এর জন্য সময় ছিল বাধা।

ডিপ লার্নিংয়ের জন্য উইকিপিডিয়ায় পৃষ্ঠায় উল্লিখিত হিসাবে , 'গভীর' অংশটি বেশিরভাগ স্তরগুলিতে একটি অ-রৈখিক ফ্যাশনে বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে, তাই বৈশিষ্ট্য নিষ্কাশন এবং রূপান্তর সম্পাদন করে। এটি স্ট্যান্ডার্ড এনএন-তেও করা হয়েছিল, তবে আরও ছোট স্কেলে।

একই পৃষ্ঠায়, এখানে আপনার সংজ্ঞা রয়েছে 'একটি গভীর নিউরাল নেটওয়ার্ক (ডিএনএন) একটি কৃত্রিম নিউরাল নেটওয়ার্ক (এএনএন) এবং ইনপুট এবং আউটপুট স্তরগুলির মধ্যে ইউনিটের একাধিক লুকানো স্তর রয়েছে' '


হাই ম্যাটক, আপনার উত্তরের জন্য ধন্যবাদ, এটি এই প্রশ্নের উপর আরও আলোকপাত করেছে। আপনার শেষ পয়েন্টটি সম্পর্কে, হ্যাঁ কাঠামোগতভাবে পার্থক্যটি ব্যাখ্যা করা খুব সহজ (1 বনাম একাধিক স্তর), তবে এই একাধিক স্তর কীভাবে ব্যবহৃত হয় তার মধ্যে পার্থক্যটি গুরুত্বপূর্ণ এবং এটি খুব কম পরিষ্কার বলে মনে হয়। এজন্যই আমি প্রশ্নটির কাঠামোর দিকে নয় কেন্দ্রীকরণ করেছি ..
নিকোলাস

সত্যই, আমি উল্লেখ করা শেষ সংজ্ঞাটির সাথে আমি একমত নই - যেহেতু একটি লুকানো স্তর সহ এএনএন / এনএন সত্যিই দক্ষ নয়, এবং আপনার যে কোনও ধরণের জটিল ভবিষ্যদ্বাণী করার জন্য একাধিকের প্রয়োজন ছিল (আমি এটি বলছি কারণ আমি মনে করি ডিএনএন ছিল ইতিমধ্যে ভাল শব্দ, এনএন) এ যুক্তহীন বাজওয়ার্ড যুক্ত হয়েছে। আমি মনে করি আপনি এনএন এবং ডিএনএন বিনিময়যোগ্যভাবে ব্যবহার করতে পারবেন (কারণ আজকাল কেউ এক-গোপন স্তর এনএন ব্যবহার করে না), তবে স্তরগুলির ব্যবহার ডিএনএন (সিএনএন, আরবিএম, আরএনএন, এলএসটিএম, সিডব্লু-আরএনএন, ...) এর মধ্যে পৃথক হয় while এবং নিজেই ডিএনএন এর ধারণা নয়।
mttk

2

আমি যতদূর জানি, বর্তমানে ডিপ নিউরাল নেটওয়ার্ক (ডিএনএন) যাকে বলা হয় তার পুরানো স্ট্যান্ডার্ড নিউরাল নেটওয়ার্ক (এনএন) থেকে মৌলিক বা দার্শনিকভাবে আলাদা কিছু নেই। যদিও তত্ত্ব অনুসারে, কেবলমাত্র একটি গোপন স্তর সহ অগভীর এনএন ব্যবহার করে কেউ একটি স্বেচ্ছাসেবী এনএন অনুমান করতে পারে , তবে এর অর্থ এই নয় যে একই অ্যালগরিদম এবং প্রশিক্ষণের ডেটা ব্যবহার করে প্রশিক্ষিত হওয়ার সময় দুটি নেটওয়ার্ক একইভাবে সঞ্চালন করবে। প্রকৃতপক্ষে অগভীর নেটওয়ার্কগুলি প্রশিক্ষণের ক্ষেত্রে ক্রমবর্ধমান আগ্রহ রয়েছে যা গভীর নেটওয়ার্কগুলির অনুরূপ সম্পাদন করে। এটি যেভাবে করা হয় তা হ'ল প্রথমে একটি গভীর নেটওয়ার্ক প্রশিক্ষণ দেওয়া এবং তারপরে অগভীর নেটওয়ার্ককে অনুকরণ করার প্রশিক্ষণ দেওয়াগভীর নেটওয়ার্কের চূড়ান্ত আউটপুট (অর্থাত্ পেনাল্টিমেট লেয়ারের আউটপুট)। দেখুন, গভীর আর্কিটেকচারকে কী অনুকূল করে তোলে তা হ'ল নিউরনগুলি শ্রেণিবদ্ধ কাঠামোতে ছড়িয়ে দেওয়া হলে আজকের প্রশিক্ষণ কৌশলগুলি (পিছনে প্রচার) আরও ভাল কাজ করতে পারে।

আরেকটি প্রশ্ন জিজ্ঞাসা করা যেতে পারে: হঠাৎ হঠাৎ কেন নিউরাল নেটওয়ার্ক (বিশেষত ডিএনএন) এত জনপ্রিয় হয়ে উঠল? আমার বোঝার জন্য, ডিএনএনগুলি সম্প্রতি যে যাদুবিদ্যাগুলি এত জনপ্রিয় করেছে সেগুলি নীচে রয়েছে:

উ: ডেটাসেট এবং ডেটা প্রক্রিয়াকরণ ক্ষমতা উন্নত

১. লক্ষ লক্ষ বিচিত্র চিত্র সহ বৃহত্তর স্কেল ডেটাসেটগুলি উপলভ্য হয়েছিল

২. দ্রুত জিপিইউ বাস্তবায়ন জনসাধারণের জন্য উপলব্ধ করা হয়েছিল

বি প্রশিক্ষিত অ্যালগরিদম এবং নেটওয়ার্ক আর্কিটেকচার উন্নত

1. সিগময়েড বা তানহ পরিবর্তে রেকর্ডেড লিনিয়ার ইউনিট (রিলিউড)

2. ডিপ নেটওয়ার্ক আর্কিটেকচারগুলি কয়েক বছর ধরে বিকশিত হয়েছিল


এ -১) খুব সম্প্রতি পর্যন্ত কমপক্ষে কম্পিউটার ভিশনে আমরা লক্ষ লক্ষ লেবেলযুক্ত চিত্রগুলিতে মডেলদের প্রশিক্ষণ দিতে পারি নি; কেবলমাত্র সেই আকারের লেবেলযুক্ত ডেটাসেটের অস্তিত্ব ছিল না বলে। দেখা গেছে যে চিত্রের সংখ্যার পাশাপাশি, লেবেল সেটটির গ্রানুলারিটিও ডিএনএনগুলির সাফল্যের জন্য খুব গুরুত্বপূর্ণ বিষয় (আজিজপুর এট আল-র এই পেপারে চিত্র 8 দেখুন )।

এ -২) ইঞ্জিনিয়ারিংয়ের প্রচুর প্রচেষ্টা অনুশীলনে ভালভাবে কাজ করে এমন ডিএনএন প্রশিক্ষণ দেওয়া সম্ভব করেছে, বিশেষত, জিপিইউ বাস্তবায়নের আগমন। ডিএনএনগুলির প্রথম সফল জিপিইউ বাস্তবায়নগুলির মধ্যে একটি, দুটি সমান্তরাল জিপিইউতে চলে; তবুও, হাই-এন্ড জিপিইউ ব্যবহার করে 1000 বিভাগের 1.2 মিলিয়ন চিত্রের উপর ডিএনএনকে প্রশিক্ষণ দিতে এক সপ্তাহ সময় লাগে ( ক্রিজেভস্কি এট আল এর লেখা এই পেপারটি দেখুন )।

খ -১) সিগময়েড এবং তান ফাংশনের পরিবর্তে সাধারণ রেকটিফাইড লিনিয়ার ইউনিটগুলির (আরএলইউ) ব্যবহার ডিএনএনগুলির প্রশিক্ষণের পক্ষে সম্ভবত বৃহত্তম বিল্ডিং ব্লক। নোট করুন যে সিগময়েড এবং তানহ উভয় ফাংশনের প্রায় সর্বত্রই প্রায় শূন্য গ্রেডিয়েন্ট রয়েছে , তারা নিম্ন সক্রিয়করণ স্তর থেকে উচ্চে কত দ্রুত ট্রানজিট করে তার উপর নির্ভর করে; চরম ক্ষেত্রে, যখন ট্রানজিশনটি হঠাৎ হয়, আমরা এমন একটি পদক্ষেপ ফাংশন পাই যেখানে everywhere াল শূন্য থাকে যেখানে এক পর্যায়ে ট্রানজিশন ঘটে।

বি -২) বছরের পর বছর ধরে কীভাবে নিউরাল নেটওয়ার্ক আর্কিটেকচারের বিকাশ ঘটেছিল তার গল্পটি আমাকে মনে করিয়ে দেয় যে বিবর্তন প্রকৃতির কোনও জীবের কাঠামোকে কীভাবে পরিবর্তন করে। প্যারামিটার ভাগ করে নেওয়া (যেমন কনভোলজিনাল লেয়ারগুলিতে), ড্রপআউট নিয়মিতকরণ, সূচনাকরণ, শিখার হারের শিডিয়ুল, স্থানিক পুলিং, গভীর স্তরগুলিতে সাব-স্যাম্পলিং এবং আরও অনেক কৌশল যেগুলি এখন ডিএনএন প্রশিক্ষণে মান হিসাবে বিবেচিত হয় সেগুলি বিকাশ, বিবর্তিত এবং শেষ অনুসারে তৈরি করা হয়েছিল বছরগুলিতে গভীর নেটওয়ার্কগুলির প্রশিক্ষণকে আজকের উপায়ে সম্ভব করে তুলেছে।


3
+1 টি। এই থ্রেডের প্রথম উত্তর যা ওপির প্রশ্নের পর্যাপ্ত উত্তর সরবরাহ করে provides এখানে অনেক ভাল পয়েন্ট। আমার একমাত্র প্রধান মন্তব্যটি হ'ল আপনার A এবং B এর পাশাপাশি সিও রয়েছে: উপলব্ধ প্রশিক্ষণ ডেটাসেটগুলির আকারে ব্যাপক বৃদ্ধি। এটি কমপক্ষে এ এবং বি হিসাবে গুরুত্বপূর্ণ বলে মনে হচ্ছে
অ্যামিবা

1
আমি মনে করি না যে রিহু এত গুরুত্বপূর্ণ: অ্যালেক্স ক্রিজেভস্কি পেপার দাবি করেছে যে এটি 6 গুণ দ্রুত শিখিয়েছে। আপনি উল্লিখিত অন্যান্য নেটওয়ার্ক কাঠামোর বেশিরভাগ পরিবর্তনগুলি কনভ্যুশনাল এনএনএস সম্পর্কিত, যা কেবলমাত্র স্ট্যান্ডার্ড ইমেজ প্রসেসিং পাইপলাইনগুলি অনুলিপি করে (ভাল জিনিস, তবে কোনও নতুন অন্তর্দৃষ্টি নয়)
seanv507

1
@ অ্যামিবা: ডেটাসেটের আকার এ এর ​​অধীনে রয়েছে আমি এটিটি হাইলাইট করার জন্য পাঠ্য আপডেট করেছি।
সোবি

@ সানভ 7০:: উত্তরটি লেখার সময় অবশ্যই আমার মনে মনে কনভলিউশনাল নেটওয়ার্ক (কনভনেটস) ছিল। যদি আমি মিস করে থাকি এমন আরও কিছু গুরুত্বপূর্ণ কারণ (কনভনেটসের সাথে সম্পর্কিত নয়) থাকে তবে আমি যদি সেগুলি উল্লেখ করি তবে আমি এটির প্রশংসা করব। আমি আমার উত্তরটি সেই অনুযায়ী আপডেট করতে পেরে খুশি হব। ReLUs সম্পর্কে, তান এবং সিগময়েড সহ প্রশিক্ষণ এনএনএসগুলি বিলুপ্ত গ্রেডিয়েন্টগুলির ইস্যুর কারণে রিলুগুলির তুলনায় যথেষ্ট শক্ত: ইউনিটগুলি সহজেই স্যাচুরেটেড হয়ে যায় এবং একবার এর পরে, তাদের আবার অসম্পৃক্ত হতে দীর্ঘ সময় লাগে (ইউনিট যখন গ্রেডিয়েন্টগুলি খুব ছোট থাকে) স্যাচুরেটেড হয়
সোবি

2

একটি "ডিপ" এনএন এবং একটি স্ট্যান্ডার্ড এনএন এর মধ্যে পার্থক্যটি নিখুঁত গুণগত: এটি "ডিপ" অর্থ কী তার কোনও সংজ্ঞা নেই। "গভীর" অর্থ গুগল, ফেসবুক এবং কো-র দ্বারা ব্যবহৃত 50 টি 80 টি এমনকি আরও স্তর রয়েছে এমন 2 টি আড়াল স্তর (মোট 4 স্তর) আর্কিটেকচারের জন্য অত্যন্ত অত্যাধুনিক আর্কিটেকচার থেকে কিছু বোঝানো যেতে পারে। আপনি যদি কোনও একক আড়াল স্তর দিয়ে গভীর শেখার দাবি করে এমন নিবন্ধগুলিও খুঁজে পান তবে আমি অবাক হব না, কারণ "গভীর" এর অর্থ খুব বেশি নয়।

"নিউরাল নেটওয়ার্ক" একটি শব্দও যার খুব সুনির্দিষ্ট অর্থ নেই। এটি মডেলগুলির একটি অত্যন্ত বৃহত পরিবেশনাকে কভার করে, এলোমেলো বল্টজম্যান মেশিনগুলি (যা প্রত্যাহারযোগ্য গ্রাফগুলি থেকে শুরু করে) বিভিন্ন অ্যাক্টিভেশন ফাংশন সহ ফিডফর্ডার আর্কিটেকচার পর্যন্ত। বেশিরভাগ এনএন ব্যাকপ্রপ ব্যবহার করে প্রশিক্ষিত হবে, তবে এটির ক্ষেত্রে এমনটি হওয়ার দরকার নেই এমনকি প্রশিক্ষণের অ্যালগরিদমগুলি খুব একজাতীয় নয়।

সামগ্রিকভাবে, গভীর শেখা, গভীর এনএন এবং এনএনগুলি সমস্ত শব্দগুলি হয়ে উঠেছে যা প্রচুর পদ্ধতির ভিড় জাগায়।

"কী বদলেছে" - এর জন্য প্রাথমিক পরিচয়ের উল্লেখের জন্য: প্রতিনিধিত্বগুলির গভীর শিখন: ফরোয়ার্ড খুঁজছেন , বেনজিও, 2013 ভবিষ্যতের জন্য একটি ভাল পর্যালোচনা + দৃষ্টিভঙ্গি। এছাড়াও দেখুন ডিপ নেটগুলি কি সত্যিই গভীর হতে হবে? বা ও কারুয়ানা, ২০১৩ যা চিত্রিত করে যে গভীর হওয়া গভীরভাবে উপস্থাপনের জন্য নয় তবে শেখার জন্য কার্যকর হতে পারে।


আপনার দেওয়া তথ্যসূত্রগুলি খুব সহায়ক, তবে বাকী উত্তরটি বর্তমান আকারে (যা "NN এর অর্থ কোনও কিছু নয়, ডিএনএন কোনও মানেই বোঝায় না, এনএন এবং ডিএনএন অনেক কিছু করতে পারে") খুব বেশি নয়, আপনি এটি সংশোধন বিবেচনা?
নিকোলাস

1

ডেভিড গ্যাসকেজের উত্তরটি প্রসারিত করার জন্য, গভীর স্নায়বিক নেটওয়ার্ক এবং traditionalতিহ্যবাহী নিউরাল নেটওয়ার্কগুলির মধ্যে একটি প্রধান পার্থক্য হ'ল আমরা কেবল গভীর নিউরাল নেটগুলির জন্য ব্যাকপ্রোপেশন ব্যবহার করি না।

কেন? কারণ ব্যাকপ্রোপ্যাগেশন ট্রেনগুলি পরবর্তী স্তরগুলিকে প্রশিক্ষণের চেয়ে স্তরগুলির পরে আরও দক্ষতার সাথে প্রশিক্ষণ দেয় - যেমন আপনি নেটওয়ার্কে আগে এবং আগের দিকে যান, ত্রুটিগুলি আরও ছোট হয়ে যায় এবং আরও বিচ্ছুরিত হয়। সুতরাং দশ-স্তর নেটওয়ার্কটি মূলত এলোমেল্ড ওজনের সাত স্তর এবং তারপরে লাগানো ওজনের তিনটি স্তর থাকবে এবং ঠিক তেমনি একটি তিন স্তর নেটওয়ার্কও করবে। আরও জন্য এখানে দেখুন।

সুতরাং ধারণাগত অগ্রগতি পৃথক সমস্যাগুলি (লেবেলযুক্ত স্তরগুলি) পৃথক সমস্যা হিসাবে বিবেচনা করছে - আমরা যদি প্রথমে একটি জেনারিকভাবে প্রথম ভাল স্তর তৈরির সমস্যাটি সমাধান করার চেষ্টা করি এবং তারপরে জেনারিকভাবে ভাল দ্বিতীয় স্তর তৈরির সমস্যাটি সমাধান করার চেষ্টা করি, শেষ পর্যন্ত আমাদের কাছে একটি গভীর বৈশিষ্ট্যযুক্ত স্থান থাকবে যা আমরা আমাদের আসল সমস্যায় ফিড করতে পারি।


1

এন এন:

  • একটি লুকানো স্তর যথেষ্ট তবে তবুও একাধিক স্তর থাকতে পারে, বাম থেকে ডান ক্রম (মডেল: ফিড ফরোয়ার্ড এনএন)
  • শুধুমাত্র তদারকি উপায়ে প্রশিক্ষিত (ব্যাকপ্রোপেশন)
  • যখন একাধিক স্তর ব্যবহৃত হয়, একই সাথে সমস্ত স্তরকে প্রশিক্ষণ দিন (একই অ্যালগোরিদম: ব্যাকপ্রসারণ), ত্রুটিগুলি খুব ছোট হয়ে যাওয়ার কারণে আরও স্তরগুলি ব্যবহার করা কঠিন করে তোলে
  • প্রতিটি স্তরে কী শিখেছে তা বোঝা শক্ত

DNN:

  • একাধিক স্তর আবশ্যক, পুনর্নির্দেশিত প্রান্তগুলি (মডেল: সীমাবদ্ধ বল্টজম্যান মেশিন)
  • প্রথমে অপ্রকাশিত পদ্ধতিতে প্রশিক্ষণ দেওয়া হয়েছে, যেখানে নেটওয়ার্কগুলি তার ইনপুট পুনরুত্পাদন করতে শিখে প্রাসঙ্গিক বৈশিষ্ট্যগুলি শেখে, তারপরে তদারকি করা এমন একটি প্রশিক্ষণ দেয় যা বৈশিষ্ট্যগুলি শ্রেণীবদ্ধ করার জন্য জরিমানা করে
  • ইনপুট থেকে আউটপুট স্তরে এক এক করে স্তরগুলি প্রশিক্ষণ দিন (অ্যালগোরিদম: বিপরীতে বিভাজন)
  • প্রতিটি স্তরের স্পষ্টতই বর্ধমান বিমূর্ততার বৈশিষ্ট্য রয়েছে

২০০N সালে ঘটে যাওয়া তিনটি স্বতন্ত্র ব্রেকথ্রুজের কারণে ডিএনএন-তে সরানো হয়েছে।

এনএন-তে উপপাদ্যগুলি সম্পর্কে, প্রশ্নটি যেটির প্রশ্নের জবাব দেয় তা হ'ল:

  • সর্বজনীন আনুমানিক উপপাদ্য বা সাইবেঙ্কো উপপাদ্য: একটি একক আড়াল স্তর সহ একটি ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্ক যে কোনও অবিচ্ছিন্ন ক্রিয়াকলাপ আনুমানিক করতে পারে। তবে অনুশীলনে এটির জন্য আরও একাধিক নিউরন প্রয়োজন হতে পারে যদি একটি একক লুকানো স্তর ব্যবহৃত হয়।

2
-1? সত্যি? আমি সাহিত্যে এই সমস্ত পড়েছি এবং উভয় পদ্ধতির সাথে পয়েন্ট বাই পয়েন্ট তৈরি করেছি! দয়া করে কমপক্ষে ঠিক করুন যা সঠিক নয় ...
নিকোলাস

3
আমি ডাউনভোট করিনি (সম্ভবত কোনও ডাউনভোটার পছন্দ করেননি যে আপনি নিজের প্রশ্নের উত্তর দিয়েছেন? তবে এটি অবশ্যই এখানে পুরোপুরি ঠিক আছে), তবে এখানে একটি জিনিস সম্পূর্ণ সঠিক নয়। আপনি ডিএনএন এর বৈশিষ্ট্য হিসাবে কী তালিকাবদ্ধ করেছেন: যে প্রান্তগুলি পুনর্নির্দেশিত হয়, এটি প্রথমে একটি নিরীক্ষণযোগ্য উপায়ে প্রশিক্ষিত হয় যে স্তরগুলি একে একে প্রশিক্ষিত হয় - এগুলি কেবল 2006 সালে হিন্টনের প্রস্তাবিত গভীর বিশ্বাস নেটওয়ার্কগুলিকে বোঝায় This এটি নয় অগত্যা গভীরভাবে নিউরাল নেটওয়ার্কগুলির জন্য সত্য এবং বাস্তবে এগুলি ছাড়াই গভীর নেটওয়ার্ক প্রশিক্ষণের এখন অনেক উপায় রয়েছে। আমার উত্তর দেখুন।
অ্যামিবা

1

O(n)

আমার মনে হয় আপনার পিছনে ফিরে এসে দেখুন যে এটি অগভীর এআইতে একটি পুনরুত্থান তৈরি করেছে - উদাহরণস্বরূপ সংবেদন বিশ্লেষণ এবং অন্যান্য ভাষার প্রয়োগের জন্য শব্দগুলির ব্যাগ এবং শব্দের ভিজ্যুয়াল ডিএনএন-এর আগে চিত্রের স্বীকৃতির দিকে পরিচালিত করেছিল। কেউ কথার ঝুলি ভাষাটির সত্যিকারের মডেল বলছেন না, তবে এটি একটি কার্যকর ইঞ্জিনিয়ারিং সমাধান। সুতরাং আমি বলব ডিএনএন হ'ল শব্দগুলির ভিজ্যুয়াল ব্যাগ - উদাহরণস্বরূপ সজেজেডি এট আল। 2013 নিউরাল নেটওয়ার্ক এবং এনগুইন এট আল এর আকর্ষণীয় বৈশিষ্ট্যগভীর নিউরাল নেটওয়ার্কগুলি সহজেই বোকা: অচেনা চিত্রগুলির জন্য উচ্চ আত্মবিশ্বাসের পূর্বাভাস যেখানে এটি স্পষ্ট যে উচ্চতর অর্ডার কাঠামো ইত্যাদি শিখছে না (বা ডিএনএন-এর জন্য দাবি করা যাই হোক না কেন)।


অ্যামিবা এই অন্যান্য কাগজটি প্রায় প্রথম সহকর্মী কাগজ (আবার অনেকগুলি চিত্র সহ!)
seanv507

0

ডিপ লার্নিং হ'ল মেশিন লার্নিংয়ের একটি অ্যালগরিদমের একটি সেট যা একাধিক অ-রৈখিক রূপান্তরগুলি সমন্বিত আর্কিটেকচার ব্যবহার করে ডেটাতে উচ্চ-স্তরের বিমূর্তি মডেল করার চেষ্টা করে ।

সূত্র: আরনো ক্যান্ডেল

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.