এলএসটিএমের তাপমাত্রা (এবং সাধারণত নিউরাল নেটওয়ার্কগুলি) কী?


উত্তর:


28

তাপমাত্রা হ'ল এলএসটিএম (এবং সাধারণত নিউরাল নেটওয়ার্ক) এর হাইপারপ্যারামিটার যা সফটম্যাক্স প্রয়োগের আগে লগইটগুলি স্কেল করে পূর্বাভাসের এলোমেলোতা নিয়ন্ত্রণ করতে ব্যবহৃত হয়। উদাহরণস্বরূপ, TensorFlow এর ম্যাজেন্টা মধ্যে বাস্তবায়ন LSTMs এর, তাপমাত্রা প্রতিনিধিত্ব করে softmax কম্পিউটিং করার আগের logits বিভক্ত করতে কত।

যখন তাপমাত্রা 1 হয়, আমরা লগইটগুলিতে সরাসরি সফটম্যাক্সটি গণনা করি (পূর্ববর্তী স্তরগুলির অনাবৃত আউটপুট) এবং 0.6 তাপমাত্রা ব্যবহার করে মডেলটি on এ সফটম্যাক্সটি গণনা করে , যার ফলে আরও বড় মান হয়। বৃহত্তর মানগুলিতে সফটম্যাক্স করা LSTM আরও আত্মবিশ্বাসী করে তোলে (আউটপুট স্তর সক্রিয় করতে কম ইনপুট প্রয়োজন) তবে এর নমুনাগুলিতে আরও রক্ষণশীল (এটি সম্ভাব্য প্রার্থীদের কাছ থেকে নমুনা পাওয়ার সম্ভাবনা কম)। উচ্চতর তাপমাত্রা ব্যবহার করে ক্লাসগুলির উপর একটি নরম সম্ভাবনার বন্টন তৈরি হয় এবং আরএনএনকে নমুনাগুলি দ্বারা আরও "সহজেই উত্সাহিত" করে তোলে যার ফলে আরও বৈচিত্র্য হয় এবং আরও বেশি ভুল হয়logits0.6

নিউরাল নেটওয়ার্কগুলি লগইট ভেক্টর with সহ শ্রেণীর সম্ভাবনা তৈরি করে যেখানে সম্ভাব্যতা ভেক্টর উত্পাদন করার জন্য সফটম্যাক্স কার্য সম্পাদন করে অন্যান্য লগইটের সাথে তুলনা করে ।zz=(z1,,zn)q=(q1,,qn)zi

(1)qi=exp(zi/T)jexp(zj/T)

যেখানে হ'ল তাপমাত্রার প্যারামিটার, সাধারণত 1 এ সেট থাকে।T

সফ্টম্যাক্স ফাংশনটি নেটওয়ার্কের প্রতিটি পুনরাবৃত্তিতে প্রার্থীদের তাদের ঘনিষ্ঠ মানগুলির উপর ভিত্তি করে নেটওয়ার্ক আউটপুটগুলি প্রতিটি টাইমস্টেপে শূন্য থেকে একের মধ্যে হয় তা নিশ্চিত করে স্বাভাবিক করে তোলে।

তাপমাত্রা তাই কম সম্ভাব্য প্রার্থীদের সংবেদনশীলতা বৃদ্ধি করে। এলএসটিএমগুলিতে প্রার্থী বা নমুনা হ'ল একটি চিঠি, একটি শব্দ বা সংগীতের নোট হতে পারে:

উচ্চ তাপমাত্রা ( ) এর জন্য, সমস্ত [নমুনা] প্রায় একই সম্ভাবনা থাকে এবং তাপমাত্রা কম হয়, আরও প্রত্যাশিত পুরষ্কারগুলি সম্ভাবনার উপর প্রভাব ফেলে। কম তাপমাত্রার জন্য ( ), সর্বাধিক প্রত্যাশিত পুরষ্কারের সাথে [নমুনা] হওয়ার সম্ভাবনা 1 থাকে।ττ0+

- সফটম্যাক্স ফাংশন সম্পর্কিত উইকিপিডিয়া নিবন্ধ থেকে

উল্লেখ

হিন্টন, জেফ্রি, ওরিওল ভিনিয়ালস এবং জেফ ডিন। "জ্ঞানকে নিউরাল নেটওয়ার্কে বিশিষ্ট করা" " আরএক্সিভ প্রিপ্রিন্ট আরএক্সিভ: 1503.02531 (2015)। arXiv


3
এটি বোল্টজমান বিতরণ (বা গিবস বিতরণ) - এর পরিসংখ্যান হিসাবে পরিসংখ্যানতত্ত্বীয় ব্যবস্থায় ব্যবহৃত সম্ভাবনা বিতরণ।
এমসি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.