তান অ্যাক্টিভেশন ফাংশন বনাম সিগময়েড অ্যাক্টিভেশন ফাংশন


81

তান অ্যাক্টিভেশন ফাংশনটি হ'ল:

tanh(x)=2σ(2x)1

কোথায় , সিগমা ফাংশন, হিসাবে সংজ্ঞায়িত করা হয়: ।σ ( x ) = xσ(x)

σ(x)=ex1+ex

প্রশ্নাবলী:

  • এই দুটি অ্যাক্টিভেশন ফাংশন (তান বনাম সিগমা) ব্যবহারের মধ্যে কি আসলেই গুরুত্বপূর্ণ?
  • কোন ক্ষেত্রে কোন ফাংশন ভাল?

12
tanh(x)=2σ(2x)1
রোমান শাপোলোভ

ডিপ নিউরাল নেটওয়ার্কগুলি এগিয়ে গেছে। বর্তমানের পছন্দটি হল RELU ফাংশন।
পল নর্ড

7
@ পলনর্ড তানহ এবং সিগময়েড উভয়ই এখনও রেলুর মতো অন্যান্য ক্রিয়াকলাপের সাথে মিলিতভাবে ব্যবহৃত হয়, আপনি কী করতে চাইছেন তা নির্ভর করে।
টহলর

উত্তর:


79

হ্যাঁ প্রযুক্তিগত কারণে এটি গুরুত্বপূর্ণ। মূলত অপ্টিমাইজেশনের জন্য। এটি লেকন এট আল দ্বারা দক্ষ ব্যাকপ্রপ পড়ার উপযুক্ত ।

সেই পছন্দটির জন্য দুটি কারণ রয়েছে (ধরে নিই যে আপনি আপনার ডেটা সাধারণ করেছেন এবং এটি খুব গুরুত্বপূর্ণ):

  1. শক্তিশালী গ্রেডিয়েন্ট রয়েছে: যেহেতু ডেটা 0-এর চারপাশে কেন্দ্রিক, তাই ডেরাইভেটিভগুলি বেশি। এটি দেখতে, তান ফাংশনের ডেরাইভেটিভ গণনা করুন এবং লক্ষ্য করুন যে এর ব্যাপ্তি (আউটপুট মান) [0,1]।

তান ফাংশনের পরিসরটি [-1,1] এবং সিগময়েড ফাংশনটির [0,1]

  1. গ্রেডিয়েন্টগুলিতে পক্ষপাতিত্ব এড়ানো। এটি কাগজে খুব ভালভাবে ব্যাখ্যা করা হয়েছে, এবং এই বিষয়গুলি বোঝার জন্য এটি পড়ার পক্ষে মূল্যবান।

আপনার প্রস্তাবিত কাগজে আমার সন্দেহ আছে। পৃষ্ঠা 14 এ, "যখন এমএলপি ওজন ভাগ করে নিচ্ছে (যেমন: কনভোলিউশনাল নেট), শেখার হারকে এমনভাবে বেছে নেওয়া উচিত যে ওজন ভাগ করে নেওয়া সংযোগের বর্গমূলের সাথে এটি সমানুপাতিক" " আপনি দয়া করে কেন ব্যাখ্যা করতে পারেন?
সত্য

এই প্রশ্নের ইতিমধ্যে এখানে জবাব দেওয়া হয়েছে stats.stackexchange.com/questions/47590/…
jpmuc

1
এটি একটি খুব সাধারণ প্রশ্ন। দীর্ঘ গল্প সংক্ষিপ্ত: ব্যয় ফাংশন নির্ধারণ করে যে নিউরাল নেটওয়ার্কটি করা উচিত: শ্রেণিবিন্যাস বা রিগ্রেশন এবং কীভাবে। আপনি যদি ক্রিস্টোফার বিশপের "প্যাটার্ন রিকগনিশন ফর নিউরাল নেটওয়ার্কস" এর একটি অনুলিপি পেতে পারেন তবে দুর্দান্ত লাগবে। এছাড়াও মিচেলের "মেশিন লার্নিং" আপনাকে আরও বেসিক স্তরে একটি ভাল ব্যাখ্যা দেয়।
jpmuc

1
আমি দুঃখিত, সত্য, আমি সপ্তাহে সাধারণত বেশ ব্যস্ত থাকি। আপনি আপনার ডেটা ঠিক কীভাবে স্বাভাবিক করবেন? en.wikedia.org/wiki/Whitening_transformation আপনার সমস্যাটি কী হতে পারে আমি সত্যই নিশ্চিত নই। সবচেয়ে সহজ উপায় হ'ল গড়কে বিয়োগ করা এবং তারপরে কোভারিয়েন্স ম্যাট্রিক্সের সাথে সমান। Evtl. উচ্চ ফ্রিকোয়েন্সিগুলির জন্য আপনাকে কিছু উপাদান যুক্ত করতে হবে (উপরের রেফারেন্সে জেডসিএ রূপান্তর দেখুন)
জেএমপুক

1
অনেক অনেক জাম্পা ধন্যবাদ। আপনি সত্যিই আমাকে অনেক সাহায্য করছেন। প্রস্তাবিত পড়া খুব ভাল। আমি আসলে জলবায়ু ডেটা মাইনিংয়ের একটি প্রকল্প করছি। আমার ইনপুট বৈশিষ্ট্যগুলির 50% হ'ল তাপমাত্রা (200K-310K রেঞ্জ) এবং আমার ইনপুট বৈশিষ্ট্যের 50% হ'ল চাপ মান (50000pa থেকে 100000pa পর্যন্ত পরিসীমা)। আমি সাদা করছি। পিসিএর আগে, এটিকে স্বাভাবিক করার কোনও দরকার আছে ... হ্যাঁ, আমি কীভাবে এটি স্বাভাবিক করব? গড় দিয়ে বিয়োগ করার আগে বা গড় দিয়ে বিয়োগ করার পরে আমার কি স্বাভাবিক হওয়া উচিত? আমি যদি বিভিন্ন পদ্ধতি দ্বারা স্বাভাবিক করে তুলছি তবে আমি বিভিন্ন ফলাফল পাচ্ছি ...
সত্য

32

অনেক ধন্যবাদ @ জাম্পুক! আপনার উত্তরের দ্বারা অনুপ্রাণিত হয়ে আমি তান ফাংশনের ডেরাইভেটিভ এবং স্ট্যান্ডার্ড সিগময়েড ফাংশনটি পৃথকভাবে গণনা করেছি এবং প্লট করেছি। আমি আপনাদের সবার সাথে ভাগ করে নিতে চাই আমি যা পেয়েছি তা এখানে। এটি তান ফাংশনের ডেরাইভেটিভ। [-1,1] এর মধ্যে ইনপুট দেওয়ার জন্য, আমাদের [0.42, 1] এর মধ্যে ডেরিভেটিভ রয়েছে। এখানে চিত্র বর্ণনা লিখুন

এটি স্ট্যান্ডার্ড সিগময়েড ফাংশন চ (এক্স) = 1 / (1 + এক্সপ্রেস (-x)) এর ডেরাইভেটিভ। [0,1] এর মধ্যে ইনপুট দেওয়ার জন্য, আমাদের [0.20, 0.25] এর মধ্যে ডেরিভেটিভ রয়েছে। এখানে চিত্র বর্ণনা লিখুন

স্পষ্টতই তান ফাংশন শক্তিশালী গ্রেডিয়েন্ট সরবরাহ করে।


6
এটি দেখার আরও একটি উপায় হ'ল σ (2x) σ (x) এর সমান, তবে একটি অনুভূমিক প্রসারিত প্রয়োগ করা, স্কেল ফ্যাক্টর 1/2 (অর্থাত্ এটি একই গ্রাফের সাথে তবে সমস্ত কিছু y অক্ষের দিকে স্কোয়াশড)। আপনি যখন এটি স্কোয়াশ করবেন তখন
opeাল

2
আমি দেখছি না কেন এটি কোনও পার্থক্য করবে। স্কেল এবং স্কোয়াশিং প্রতিটি নোডের জন্য এলোমেলো হবে এবং (ইনপুট এবং আউটপুটগুলিতে অফসেট এবং ওজন সহ) উভয়ই সার্বজনীন আনুষঙ্গিক হবে, একই ফলাফলে রূপান্তর করবে।
এন্ডোলিথ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.