যদি নিউরাল নেটওয়ার্কের প্রতিটি নিউরন মূলত একটি লজিস্টিক রিগ্রেশন ফাংশন হয় তবে মাল্টি লেয়ার কেন ভাল?


13

আমি কৌসরের ডিপিএআই কোর্সটি (সপ্তাহের ভিডিও 1 "" নিউরাল নেটওয়ার্ক ওভারভিউ ") এবং অ্যান্ড্রু এনজি ব্যাখ্যা দিচ্ছেন যে কীভাবে নিউরাল নেটওয়ার্কের প্রতিটি স্তরটি কেবল অন্য লজিস্টিক রিগ্রেশন, তবে কীভাবে এটি জিনিসটিকে আরও সঠিক করে তোলে তা তিনি ব্যাখ্যা করেন না।

সুতরাং একটি 2 স্তর নেটওয়ার্কে, লজিস্টিক একাধিকবার গণনা কিভাবে এটি আরও নির্ভুল করে তোলে?


7
প্রায়শই ভাল একক লজিস্টিক রিগ্রেশন মডেল ফিট করার জন্য আপনাকে উল্লেখযোগ্য বৈশিষ্ট্যযুক্ত এনজেনারিং করতে হবে need দুটি স্তর এনএন আপনার জন্য সেই কাজটির কিছু করার চেষ্টা করছে।
ম্যাথু

@ এমএসকে, আপনার লজিস্টিক রিগ্রেশন উন্নত করতে আপনি কি কখনও নিজের মূল বৈশিষ্ট্যের ভিত্তিতে নতুন বৈশিষ্ট্য তৈরি করেছেন? লুকানো স্তর (গুলি) এটি করে।
রিকার্ডো ক্রুজ

উত্তর:


10

লজিস্টিক অ্যাক্টিভেশন ফাংশনগুলি ব্যবহার করার সময়, এটি সত্য যে প্রতিটি ইউনিটের ইনপুটগুলির সাথে তার আউটপুট সম্পর্কিত ফাংশনটি লজিস্টিক রিগ্রেশন হিসাবে একই। কিন্তু, এটি প্রতিটি ইউনিট লজিস্টিক রিগ্রেশন সম্পাদন করার মতো সত্য নয়। পার্থক্যটি হ'ল লজিস্টিক রিগ্রেশনে, ওজন এবং পক্ষপাতটি এমনটি বেছে নেওয়া হয় যে আউটপুট সেরা টার্গেট মানগুলির সাথে মিলিত হয় (লগ / ক্রস-এনট্রপি ক্ষতি ব্যবহার করে)। বিপরীতে, একটি নিউরাল নেট মধ্যে লুকানো ইউনিটগুলি তাদের আউটপুটগুলি ডাউন স্ট্রিম ইউনিটে প্রেরণ করে। স্বতন্ত্র লুকানো ইউনিটগুলির জন্য কোনও লক্ষ্য আউটপুট মিলবে না। পরিবর্তে, ওজন এবং পক্ষপাতগুলি নেটওয়ার্কের চূড়ান্ত আউটপুট উপর নির্ভর করে কিছু উদ্দেশ্যমূলক ফাংশন হ্রাস করতে বেছে নেওয়া হয়।

লজিস্টিক রিগ্রেশন সম্পাদন করার পরিবর্তে, প্রতিটি লুকানো ইউনিটকে কিছু বৈশিষ্ট্যযুক্ত স্থানে একটি স্থানাঙ্কের কম্পিউটিং হিসাবে ভাবা আরও বোধগম্য হতে পারে। এই দৃষ্টিকোণ থেকে, একটি লুকানো স্তরটির উদ্দেশ্য এর ইনপুটটি রূপান্তর করা - ইনপুট ভেক্টরটি লুকানো স্তর সক্রিয়করণের একটি ভেক্টরে ম্যাপ করা হয়। আপনি প্রতিটি লুকানো ইউনিটের সাথে সম্পর্কিত একটি মাত্রা সহ কোনও বৈশিষ্ট্য স্পেসে ইনপুট ম্যাপিং হিসাবে এটি ভাবতে পারেন।

আউটপুট স্তরটি প্রায়শই একটি স্ট্যান্ডার্ড লার্নিং অ্যালগরিদম হিসাবে ভাবা যেতে পারে যা এই বৈশিষ্ট্যটিতে কাজ করে। উদাহরণস্বরূপ, একটি শ্রেণিবদ্ধকরণ কার্যে ক্রস এন্ট্রপি ক্ষতির সাথে একটি লজিস্টিক আউটপুট ইউনিট ব্যবহার করা বৈশিষ্ট্য স্পেসে লজিস্টিক রিগ্রেশন সম্পাদনের সমতুল্য (বা সফটম্যাক্স আউটপুট ব্যবহার করে মাল্টিনোমিয়াল লজিস্টিক রিগ্রেশন)। একটি রিগ্রেশন টাস্কে স্কোয়ার ত্রুটির সাথে লিনিয়ার আউটপুট ব্যবহার করা বৈশিষ্ট্য স্পেসে কমপক্ষে স্কোয়ার লিনিয়ার রিগ্রেশন সম্পাদনের সমতুল্য।

নেটওয়ার্ক প্রশিক্ষণ বৈশিষ্ট্য স্পেস ম্যাপিং এবং শ্রেণিবদ্ধকরণ / রিগ্রেশন ফাংশন (বৈশিষ্ট্য স্পেসে) শেখার সমান, যা একত্রে সর্বোত্তম পারফরম্যান্স দেয়। ননলাইনার লুকানো ইউনিট ধরে নেওয়া, লুকানো স্তরের প্রস্থ বৃদ্ধি বা একাধিক লুকানো স্তরগুলি স্ট্যাক করা আরও জটিল বৈশিষ্ট্য স্পেস ম্যাপিংকে অনুমতি দেয়, যার ফলে আরও জটিল ফাংশন ফিট হতে পারে।


7

অরৈখিকতার শক্তি দেখার একটি উপায় হ'ল সর্বজনীন আনুমানিক তত্ত্বটি নোট করা ।

যদিও এটি অনুশীলনে খুব তাত্পর্যপূর্ণ নয় (এটি একক স্তর নেটওয়ার্কগুলির সক্ষমতার বিষয়ে), এটি আপনাকে বলে যে আপনি যদি সিবিময়েডগুলির (স্বেচ্ছাসেবী দীর্ঘ) পরিমাণ ব্যবহার করেন তবে নীতিগতভাবে আপনি কোনও পছন্দসই স্তরের কোনও ধ্রুবক কার্যকারিতা আনুমানিক করতে পারেন। আপনি যদি ফুরিয়ার তত্ত্বটি জানেন বা ওয়েয়ারসট্রাস অনুমানের উপপাদ্যটি মনে রাখেন তবে অবাক হওয়ার কিছু নেই।


3
এই একমাত্র ব্যক্তি যিনি প্রকৃতপক্ষে প্রশ্নের উত্তরটি যথাযথভাবে জবাব দিয়েছিলেন, যদিও খুব সামান্য সংক্ষেপে। মূল বৈশিষ্ট্যগুলিকে একত্রিত করে শক্তিশালী নতুন বৈশিষ্ট্য তৈরি করতে একটি গোপন স্তর যথেষ্ট। সমস্যাটি হ'ল আপনার হয়ত অনেকগুলি নোডের সাথে একটি গোপন স্তরের প্রয়োজন হতে পারে এবং লুকিয়ে থাকা স্তরগুলির সাথে গভীর নেটওয়ার্কের সাথে রূপান্তর প্রক্রিয়াটি সবচেয়ে ভাল কাজ করে> ১
রিকার্ডো ক্রুজ

5

নিউরাল নেটওয়ার্কে যখন লুকানো স্তরগুলি উপস্থিত থাকে তখন আমরা অ-লিনিয়ার বৈশিষ্ট্যগুলি যুক্ত করি। কিছু অনুভূতি পেতে দয়া করে আমার উত্তর এখানে দেখুন।

নিউরাল নেটওয়ার্কগুলিকে ননলাইনার শ্রেণিবিন্যাসের মডেল করে তোলে?

বিশেষত, একটি নেস্টেড সিগময়েড ফাংশন মূল বৈশিষ্ট্যগুলির লিনিয়ার রূপান্তর এবং একটি সিগময়েড ফাংশন (লজিস্টিক রিগ্রেশন than) এর চেয়ে বেশি "শক্তিশালী" হবে


ওপির মন্তব্যগুলিকে সম্বোধন করার জন্য একটি সংখ্যার উদাহরণ এখানে।

ধরুন আমাদের কাছে ডেটা ফ্রেম , এটি একটি ম্যাট্রিক্স (10 ডেটা পয়েন্ট, 3 বৈশিষ্ট্য।)। আমরা আছে করতে চান তাহলে লুকানো Unites, তারপর ওজন ম্যাট্রিক্স একটি হল ম্যাট্রিক্স। লুকানো স্তরটির জন্য আউটপুট (ম্যাট্রিক্স গুণিত আউটপুট ) একটি ম্যাট্রিক্স, যা প্রতিটি ডেটা পয়েন্টের জন্য, এক্সপেন্ডেড বৈশিষ্ট্য রয়েছে।10 × 3 7 ডব্লু 3 × 7 এক্স × ডাব্লু 10 × 7 7X10×37W3×7X×W10×77


আমি কেবল ভাবছি, তারপরে আউটপুটে কোনও নোডের প্রথম স্তরটি কীভাবে পৃথক হবে, আই নোড 1 এক্স 1, এক্স 2, এক্স 3 পেয়েছে, নোড 2 এছাড়াও এক্স 1, এক্স 2, এক্স 3 পেয়ে যায়, যদি তারা সমস্ত লজিস্টিক রিগ্রেশন হয় তবে কীভাবে হয় তাদের আউটপুট আলাদা হতে চলেছে?
এমএসকিডাব্লু

ধরুন আপনার কাছে 3 টি বৈশিষ্ট্য এবং 10 টি লুকানো ইউনিট রয়েছে, তবে লুকানো স্তরের আউটপুটে 10 "ইঞ্জিনিয়ার্ড বৈশিষ্ট্যগুলি" রয়েছে।
হাইতাও ডু

আপনি কেন এটিকে "ইঞ্জিনিয়ার্ড বৈশিষ্ট্যগুলি" বলছেন, এছাড়াও আপনি যে বৈশিষ্ট্যগুলি এক্স 1, এক্স 2, এক্স 3 উল্লেখ করেছেন?
এমএসকেডব্লিউ

আমি আপনার মন্তব্যগুলি সম্বোধন করতে আমার উত্তর সম্পাদনা করব।
হাইতাও ডু

আপনার ব্যাখ্যা থেকে সংশোধন করার জন্য ধন্যবাদ, আপনি নিশ্চিত যে আপনি আমার প্রশ্নের উত্তর দিচ্ছেন না, বা আমার প্রথমে জ্ঞানের একটি ফাঁক রয়েছে যেখানে আমার প্রথমে ব্রিজ করা দরকার। বিশেষত, আপনার উত্তর থেকে ওজন কি নোডের প্রতিটি আউটপুট ফাংশনকে বোঝায়? যদি তা হয় তবে একই স্তরের অন্যান্য নোডের থেকে তারা কীভাবে আলাদা?
এমএসকেডব্লু

3

স্ট্যান্ডার্ড লজিস্টিক রিগ্রেশনে আমাদের চূড়ান্ত স্তরে 1 আউটপুট থাকে। তবে একটি একক লুকানো স্তরের নিউরাল নেটওয়ার্কের সাথে আমাদের একাধিক মধ্যবর্তী মান থাকতে পারে যার প্রত্যেকটিরই আলাদা লজিস্টিক রিগ্রেশন মডেলের আউটপুট হিসাবে ভাবা যেতে পারে অর্থাৎ আমরা কেবল একই লজিস্টিক রিগ্রেশনটি বারবার সম্পাদন করছি না। এরপরে এটি ভাবার পক্ষে বড় লাফ নয় যে এগুলি সংমিশ্রণে স্ট্যান্ডার্ড লজিস্টিক রিগ্রেশন মডেলের (এবং অনুশীলন এবং তত্ত্বের মধ্যেও প্রদর্শিত হয়েছে ) তুলনায় এর বেশি সংবেদনশীল ক্ষমতা রয়েছে capabilities

আপনি এই মন্তব্যেও উল্লেখ করেছেন যে কীভাবে এই নোডগুলির একই স্তরের আলাদা আলাদা মান থাকে তবে তাদের যদি একই উপকরণ থাকে? এর কারণ তাদের ওজন আলাদা হওয়া উচিত। নিউরাল নেটওয়ার্কের প্রতিটি নোড ইনপুট গ্রহণ করে এবং একটি মান যেখানে কিছু নির্বাচিত ফাংশন হয় আমাদের ক্ষেত্রে সিগমা, ওজন হয়, , ইনপুট এবং কিছু পক্ষপাত নয়। ওজন বেছে নেওয়া হয়y j = f ( N i = 1 w j ix i + b j ) f w j i x i b jNyj=f(i=1Nwjixi+bj)fwjixibjএকটি অনুকূলকরণ অ্যালগরিদম দ্বারা আমাদের উদ্দেশ্য অনুকূলকরণ যেমন শ্রেণিবদ্ধকরণ ত্রুটি। গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদমগুলির জন্য যা প্রাথমিকভাবে ওজনকে অনুকূল করতে ব্যবহৃত হয় সেগুলির জন্য প্রাথমিককরণ খুব গুরুত্বপূর্ণ। Https://intoli.com/blog/neural-network-initialization/ দেখুন যেখানে সমস্ত ওজন 0 থেকে শুরু হয়, নেটওয়ার্কটি শিখতে অক্ষম।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.