তানহ বনাম সিগময়েড নিউরাল জালে


16

আমি এখনও এই বিষয়ে গতিতে এগিয়ে আসছি এই জন্য আমি আগাম ক্ষমা চেয়ে নিচ্ছি। আমি আমার নিউরন অ্যাক্টিভেশন ফাংশনের জন্য তানহ (মানচিত্র -1 থেকে 1) বনাম সিগময়েড (মানচিত্র 0 থেকে 1) ব্যবহার করার পক্ষে এবং কৌশলগুলি বোঝার চেষ্টা করছি। আমার পড়া থেকে এটি প্রান্তিক পার্থক্য সহ একটি গৌণ জিনিস মত শোনাচ্ছে। আমার সমস্যার জন্য অনুশীলনে আমি দেখতে পেলাম যে সিগময়েড প্রশিক্ষণ করা সহজ এবং আশ্চর্যের সাথে, সিগময়েড সাধারণ সমাধান আরও ভালভাবে খুঁজে পেতে পারে। এর মাধ্যমে আমার অর্থ এই যে সিগময়েড সংস্করণটি প্রশিক্ষণ করা হলে এটি রেফারেন্সের (প্রশিক্ষণবিহীন) ডেটা সেটটিতে ভাল করে, যেখানে টানহ সংস্করণটি রেফারেন্সটিতে খারাপভাবে করার সময় প্রশিক্ষণের ডেটাতে সঠিক উত্তর পেতে সক্ষম হবে বলে মনে হয়। এটি একই নেটওয়ার্ক আর্কিটেকচারের জন্য।

আমার একটি অন্তর্নিহিততা হ'ল সিগময়েডের সাথে, নিউরনের পক্ষে প্রায় পুরোপুরি বন্ধ করা সহজ হয়, ফলে পরবর্তী স্তরগুলিকে কোনও ইনপুট সরবরাহ করা হয় না। তানহলের এখানে আরও কঠিন সময় রয়েছে কারণ এটির ইনপুটগুলি পুরোপুরি বাতিল করতে হবে, অন্যথায় এটি সর্বদা পরবর্তী স্তরটিকে একটি মান দেয়। যদিও এই স্বজ্ঞাত যদিও ভুল।

দীর্ঘ পোস্ট। নীচের লাইনটি, বাণিজ্যটি কী এবং এটির একটি বড় পার্থক্য করা উচিত?

উত্তর:


23

সিমোন হেইকিনের "নিউরাল নেটওয়ার্কস: একটি কমপ্রেসিয়েন্স ফাউন্ডেশন" বইয়ে নিম্নলিখিত ব্যাখ্যা রয়েছে যা থেকে আমি উদ্ধৃত করেছি:

শেখার সময় হ্রাস করার জন্য, নন-শূন্য ন্যূনতম ইনপুটগুলির ব্যবহার এড়ানো উচিত। এখন, ইনসোফার হিসাবে সিগন্যাল ভেক্টর একটি মাল্টিলেয়ার পার্সেপট্রন এর প্রথম লুকানো স্তরের নিউরনে প্রয়োগ হয়েছে, এটি নেটওয়ার্কে প্রয়োগের আগে এর প্রতিটি উপাদান থেকে গড়টি সরানো সহজ । তবে নেটওয়ার্কের বাকী লুকানো এবং আউটপুট স্তরগুলিতে নিউরনে প্রয়োগ হওয়া সংকেতগুলি সম্পর্কে কী বলা যায়? এই প্রশ্নের উত্তরটি নেটওয়ার্কে ব্যবহৃত অ্যাক্টিভেশন ফাংশনের মধ্যে রয়েছে। যদি সিগময়েড ফাংশনের ক্ষেত্রে অ্যাক্টিভেশন ফাংশনটি অ-প্রতিসাম্যহীন হয় তবে প্রতিটি নিউরনের আউটপুট অন্তর মধ্যে সীমাবদ্ধ থাকে । এই জাতীয় পছন্দ নিয়মতান্ত্রিক পক্ষপাতের উত্স প্রবর্তন করেএক্সx[0,1]নেটওয়ার্কের প্রথম স্তর ছাড়িয়ে অবস্থিত ne নিউরনের জন্য। এই সমস্যাটি কাটিয়ে উঠতে আমাদের একটি এন্টিসিমমেট্রিক অ্যাক্টিভেশন ফাংশন যেমন হাইপারবোলিক ট্যানজেন্ট ফাংশন ব্যবহার করা দরকার। এই পরবর্তী , প্রতিটি নিউরনের আউটপুটকে বিরতিতে উভয় ধনাত্মক এবং নেতিবাচক মান অনুমান করার অনুমতি দেওয়া হয় , এটির গড়ের শূন্য হওয়ার সম্ভাবনা রয়েছে। যদি নেটওয়ার্ক সংযোগটি বড় হয়, অ্যান্টিসিমমেট্রিক অ্যাক্টিভেশন ফাংশনগুলির সাথে ব্যাক-প্রসারণ শেখা অ-প্রতিসাম্য অ্যাক্টিভেশন ফাংশনগুলির সাথে অনুরূপ প্রক্রিয়াটির চেয়ে দ্রুত অভিযোজন অর্জন করতে পারে, যার জন্য সেখানে অভিজ্ঞতাগত প্রমাণও রয়েছে (লেকান এট আল। 1991)।[1,1]

উদ্ধৃত রেফারেন্সটি হ'ল:

  • ওয়াই লেকান, আই। ক্যান্টার এবং এসএএসওলা: "ত্রুটির তলগুলির দ্বিতীয়-ক্রমের বৈশিষ্ট্য: শেখার সময় এবং জেনারালাইজেশন", নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমগুলির অগ্রযাত্রা, খণ্ড। 3, পৃষ্ঠা 918-924, 1991।

আরও একটি আকর্ষণীয় উল্লেখ নিম্নলিখিত:


রিলু নিউরনগুলি পক্ষপাতদুষ্ট হওয়া সত্ত্বেও বেশ ভাল কাজ করছে বলে মনে হয়। এ নিয়ে আপনার কি কিছু ভাবনা আছে?
অর্ক-কুন

@ অর্ক-কুন, আমি আরএলইউ নিউরন সম্পর্কে অনেক কিছুই জানিনা তবে আমি আপনাকে এই কাগজটি উল্লেখ করতে পারি যেখানে লেখকরা এই ধরনের অ্যাক্টিভেশন ফাংশনের সুবিধা ব্যাখ্যা করে explain এক্স Glorot এ Bordes এবং ওয়াই Bengio "ডিপ সংশোধনকারী স্নায়ুর নেটওয়ার্ক বিক্ষিপ্ত 2011 AISTATS jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf
tiagotvv

1

এই দুটি অ্যাক্টিভেশন ফাংশন খুব অনুরূপ, তবে অফসেট। আমার মূল নেটওয়ার্কটিতে পক্ষপাতিত্বের শর্তাবলী নেই। পক্ষপাতদুষ্ট যোগ করার পরে, সবকিছু অনেক বেশি স্থিতিশীল। আমার অভিজ্ঞতার ভিত্তিতে আমি বলব জটিলগুলির জন্য একটি নির্দিষ্ট অ্যাপ্লিকেশনের জন্য এইগুলির মধ্যে একটি বা অন্যটি আরও ভাল কাজ করতে পারে, সম্ভবত অজানা কারণে, তবে সঠিক পদ্ধতির পক্ষপাতিত্বের শর্তাদি অন্তর্ভুক্ত করা যাতে অ্যাক্টিভেশন অফসেটের উপর নির্ভরতা হ্রাস বা নির্মূল করা যায়।


0

আউটপুট নোডগুলিতে তান অ্যাক্টিভেশনগুলি (বাইনারি) ক্রস এন্ট্রপি ক্ষতি নিয়ে কাজ করে না:tanh

L=1ni(yilog(pi)+(1yi)log(1pi))

yiipii

pitanh


আপনি তাদের স্কেল করতে পারেন, যদিও। তানহ (এক্স) -১ ডেরিভেটিভ শেয়ার করে এবং নেতিবাচক লগগুলির সমস্যা নেই
পাবলো আরনাউ গনজালেজ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.