তিনটি বাক্য সংস্করণ:
প্রতিটি স্তর আপনার আগের স্তরের যে কোনও ক্রিয়াকলাপ প্রয়োগ করতে পারে (সাধারণত একটি রৈখিক রূপান্তর যার পরে স্কোয়াশিং ননলাইনারিটি থাকে)।
লুকানো স্তরগুলির কাজ হ'ল ইনপুটগুলিকে এমন কিছুতে রূপান্তর করা যা আউটপুট স্তরটি ব্যবহার করতে পারে।
আউটপুট স্তর হ'ল স্তরের ক্রিয়াকলাপগুলিকে আপনার আউটপুটটি যে পরিমাণ স্কেলে যেতে চেয়েছিল তা রূপান্তরিত করে।
আপনি যেমন 5:
আপনি যদি কোনও কম্পিউটারে কোনও ছবিতে বাস আছে কিনা তা জানানোর জন্য কম্পিউটার চান, কম্পিউটারের যদি সঠিক সরঞ্জাম থাকে তবে তার জন্য আরও সহজ সময় থাকতে পারে।
সুতরাং আপনার বাস ডিটেক্টরটি হুইল ডিটেক্টর (এটি আপনাকে একটি বাহন বলতে আপনাকে সহায়তা করার জন্য) এবং একটি বাক্স ডিটেক্টর (যেহেতু বাসটি একটি বড় বাক্সের মতো আকারযুক্ত) এবং একটি আকার ডিটেক্টর দিয়ে তৈরি হতে পারে (আপনাকে বলার জন্য এটি গাড়ি হওয়া অনেক বড় )। এটি আপনার লুকানো স্তরের তিনটি উপাদান: এগুলি কাঁচা চিত্রের অংশ নয়, তারা বাসগুলি সনাক্ত করতে আপনাকে ডিজাইন করার জন্য তৈরি করা সরঞ্জাম।
যদি এই তিনটি ডিটেক্টর তিনটিই চালু করে (বা সম্ভবত তারা বিশেষভাবে সক্রিয় থাকে) তবে আপনার সামনে একটি বাসের ভাল সুযোগ রয়েছে।
নিউরাল নেটগুলি দরকারী কারণ প্রচুর ডিটেক্টর তৈরির জন্য এবং তাদের একসাথে রাখার জন্য ভাল সরঞ্জাম (যেমন ব্যাকপ্রোপেশন) রয়েছে।
আপনি যেমন একজন প্রাপ্তবয়স্ক
একটি ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্ক ডেটাগুলিতে একাধিক ফাংশন প্রয়োগ করে। সঠিক ফাংশনগুলি আপনি যে নিউরাল নেটওয়ার্কটি ব্যবহার করছেন তার উপর নির্ভর করবে: প্রায়শই এই ফাংশনগুলি প্রতিটি পূর্ববর্তী স্তরের একটি রৈখিক রূপান্তর গণনা করে, তারপরে একটি স্কোয়াশিং ননরেণারিটি অনুসরণ করে। কখনও কখনও ফাংশনগুলি অন্য কিছু করবে (যেমন আপনার উদাহরণগুলিতে লজিক্যাল ফাংশনগুলি গণনা করা বা কোনও চিত্রের সংলগ্ন পিক্সেলগুলির উপরে গড়)। সুতরাং বিভিন্ন স্তরগুলির ভূমিকাগুলি কোন কার্যগুলি গণনা করা হচ্ছে তার উপর নির্ভর করতে পারে তবে আমি খুব সাধারণ হওয়ার চেষ্টা করব।
আসুন ইনপুট ভেক্টর , লুকানো স্তর সক্রিয়করণ , এবং আউটপুট অ্যাক্টিভেশন । আপনি কিছু ফাংশন আছে থেকে মানচিত্র করার এবং অন্য ফাংশন থেকে মানচিত্র করার । h y f x h g h yএক্সজYচএক্সজছজY
সুতরাং লুকানো স্তরের অ্যাক্টিভেশনটি এবং নেটওয়ার্কের আউটপুট ।g ( f ( x ) )চ( এক্স )ছ( চ)( এক্স ) )
কেন কেবল একটির পরিবর্তে দুটি ফাংশন ( এবং ) রয়েছে?gচছ
যদি ফাংশন প্রতি জটিলতার মাত্রা সীমাবদ্ধ থাকে তবে এমন জিনিসগুলি গণনা করতে পারে যা এবং স্বতন্ত্রভাবে করতে পারে না। f gছ( চ)( এক্স ) )চছ
যৌক্তিক ফাংশন সহ একটি উদাহরণ:
উদাহরণস্বরূপ, আমরা যদি কেবল "এবং", "ওআর", এবং "ন্যান্ড" এর মতো সহজ লজিকাল অপারেটর হিসাবে এবং কে অনুমতি দিই , তবে আপনি "এক্সওআর" এর মতো অন্য ফাংশনগুলির মধ্যে কেবল একটির সাথে গুনতে পারবেন না। অন্যদিকে, আমরা "এক্সওর" গণনা করতে পারতাম যদি আমরা এই ফাংশনগুলি একে অপরের উপরে রেখে দিতে চাইতাম:gচছ
প্রথম স্তর ফাংশন:
- নিশ্চিত করুন যে কমপক্ষে একটি উপাদান "সত্য" (OR ব্যবহার করে)
- নিশ্চিত হয়ে নিন যে তারা সবাই "সত্য" নয় (নন্দ ব্যবহার করছে)
দ্বিতীয় স্তর ফাংশন:
- নিশ্চিত হয়ে নিন যে প্রথম স্তরের উভয় মানদণ্ডই সন্তুষ্ট (এ্যান্ড ব্যবহার করে)
নেটওয়ার্কের আউটপুট কেবল এই দ্বিতীয় ফাংশনের ফলাফল। প্রথম স্তরটি ইনপুটগুলিকে এমন কিছুতে রূপান্তর করে যা দ্বিতীয় স্তরটি ব্যবহার করতে পারে যাতে পুরো নেটওয়ার্কটি XOR সম্পাদন করতে পারে।
চিত্র সহ একটি উদাহরণ:
এই টক থেকে 61 স্লাইড - একটি একক চিত্র হিসাবে এখানে উপলভ্য - নির্দিষ্ট নিউরাল নেটওয়ার্কের বিভিন্ন গোপন স্তরগুলি কী কী সন্ধান করছে তা দেখায় (কল্পনা করার এক উপায়)।
প্রথম স্তরটি ইমেজটিতে প্রান্তের সংক্ষিপ্ত টুকরোগুলি সন্ধান করে: কাঁচা পিক্সেল ডেটা থেকে এগুলি খুঁজে পাওয়া খুব সহজ তবে আপনি কোনও মুখ বা বাস বা একটি হাতির দিকে তাকিয়ে আছেন কিনা তা জানার জন্য তারা নিজেরাই খুব কার্যকর নয়'re ।
পরবর্তী স্তরটি প্রান্তগুলি রচনা করে: নীচে লুকানো স্তর থেকে প্রান্তগুলি যদি একটি নির্দিষ্ট উপায়ে একসাথে ফিট করে, তবে বাম-সর্বাধিক কলামের মাঝখানে একটি চক্ষু-সনাক্তকারী চালু হতে পারে। কাঁচা পিক্সেল থেকে সুনির্দিষ্ট কিছু সন্ধানের ক্ষেত্রে এমন একটি স্তর তৈরি করা শক্ত হবে: কাঁচা পিক্সেলগুলির চেয়ে চোখের সনাক্তকারীগুলি এজ ডিটেক্টরগুলি তৈরি করা আরও সহজ।
পরবর্তী স্তর আপ চোখের সনাক্তকারী এবং নাক ডিটেক্টরগুলি মুখের মধ্যে রচনা করে। অন্য কথায়, পূর্ববর্তী স্তর থেকে চক্ষু সনাক্তকারী এবং নাক সনাক্তকারী সঠিক নিদর্শনগুলি চালু করলে এগুলি আলোকিত হবে। এগুলি বিশেষ ধরণের মুখগুলির সন্ধানে খুব ভাল: যদি তাদের মধ্যে এক বা একাধিক আলোক জ্বলতে থাকে তবে আপনার আউটপুট স্তরটি এমন একটি প্রতিবেদন উপস্থিত থাকার রিপোর্ট করবে।
এটি দরকারী কারণ ফেস ডিটেক্টরগুলি চোখের সনাক্তকারী এবং নাক সনাক্তকারীগুলির থেকে সহজেই তৈরি করা সহজ, তবে পিক্সেলের তীব্রতার চেয়ে আরও শক্তিশালী।
সুতরাং প্রতিটি স্তর আপনাকে কাঁচা পিক্সেল থেকে আরও দূরে এবং আপনার চূড়ান্ত লক্ষ্যের (যেমন মুখ সনাক্তকরণ বা বাস সনাক্তকরণ) কাছাকাছি পেতে দেয়।
বাছাই করা অন্যান্য প্রশ্নের উত্তর
"ইনপুট স্তরের কিছু স্তর কেন লুকানো স্তরের সাথে সংযুক্ত থাকে এবং কিছুটি হয় না?"
নেটওয়ার্কে সংযোগ বিচ্ছিন্ন নোডগুলিকে "পক্ষপাত" নোড বলা হয়। এখানে একটি দুর্দান্ত ব্যাখ্যা আছে । সংক্ষিপ্ত উত্তরটি হ'ল তারা প্রতিরোধের ক্ষেত্রে বিরতিযুক্ত পদগুলির মতো like
"চিত্রের উদাহরণে" আই ডিটেক্টর "ছবিগুলি কোথা থেকে এসেছে?"
আমি যে নির্দিষ্ট চিত্রগুলির সাথে লিঙ্ক করেছি তা আমি ডাবল-চেক করে দেখিনি, তবে সাধারণভাবে, এই ভিজ্যুয়ালাইজেশনগুলি ইনপুট লেয়ারে পিক্সেলের সেট দেখায় যা সংশ্লিষ্ট নিউরনের ক্রিয়াকলাপকে সর্বাধিক করে তোলে। সুতরাং আমরা যদি নিউরনকে চক্ষু সনাক্তকারী হিসাবে ভাবি, তবে এই চিত্রটিই নিউরনকে সর্বাধিক চোখের মতো বলে মনে করে। লোকেরা সাধারণত একটি অপ্টিমাইজেশন (পাহাড়ী আরোহণ) পদ্ধতিতে এই পিক্সেল সেটগুলি খুঁজে পায়।
ইন এই কাগজ বিশ্বের বৃহত্তম নিউরাল জাল এক সঙ্গে কিছু Google Folks দ্বারা, তারা একটি "মুখ আবিষ্কারক" স্নায়ুর এবং একটি "বিড়াল আবিষ্কারক" স্নায়ুর এই ভাবে, সেইসাথে একটি দ্বিতীয় পথ দেখাতে: তারা দেন প্রকৃত চিত্র যে সক্রিয় নিউরন সর্বাধিক দৃ strongly়ভাবে (চিত্র 3, চিত্র 16)। দ্বিতীয় পদ্ধতিরটি দুর্দান্ত কারণ এটি দেখায় যে নেটওয়ার্কটি কতটা নমনীয় এবং ননলাইনার - এই উচ্চ-স্তরের "ডিটেক্টরগুলি" এই সমস্ত চিত্রের প্রতি সংবেদনশীল, যদিও তারা পিক্সেল স্তরে বিশেষভাবে অনুরূপ দেখাচ্ছে না।
এখানে কিছু অস্পষ্ট কিনা বা আপনার আরও কিছু প্রশ্ন থাকলে তা আমাকে জানান Let