স্ট্যান্ডার্ড নরমালাইজের বিপরীতে সফটম্যাক্স কেন ব্যবহার করবেন?


159

নিউরাল নেটওয়ার্কের আউটপুট স্তরে, সম্ভাব্যতা বন্টনের আনুমানিক জন্য সফটম্যাক্স ফাংশনটি ব্যবহার করা সাধারণত:

এখানে চিত্র বর্ণনা লিখুন

এটি হিসাব ব্যয়কারীর জন্য ব্যয়বহুল। কেন কেবল জেড ট্রান্সফর্মটি সম্পাদন করবেন না যাতে সমস্ত আউটপুটগুলি ইতিবাচক হয় এবং তারপরে সমস্ত আউটপুটগুলির সমষ্টি দ্বারা সমস্ত আউটপুটকে ভাগ করে কেবল স্বাভাবিক করা যায়?


8
ফাংশনটি হিসাবের কারণে গণনা করা ব্যয়বহুল নয়, তবে আপনাকে প্রতিটি কিউজে গুনতে হবে। মোট সংখ্যার প্রয়োজনীয় পরিমাণের তুলনায় এক্সপেনশনেশন সস্তা।
সেপ্পো এনারভি

আপনি কোন ধরণের জেড ট্রান্সফর্মের কথা বলছেন? শব্দটির সংকেত প্রক্রিয়াকরণ অর্থ এখানে ফিট করে না এবং ইনপুট গড়ের নিচে থাকলে মানগুলি তাদের জেড-স্কোরের সাথে প্রতিস্থাপন করে নেতিবাচক আউটপুট দেয়।
ডেভিড সিয়ান

উত্তর:


166

স্ট্যান্ডার্ড নরমালাইজের তুলনায় সফটম্যাক্সের একটি দুর্দান্ত বৈশিষ্ট্য রয়েছে।

এটি আপনার স্নায়বিক জালের কম উদ্দীপনা (ঝাপসা ভাবুন ছবিটি ভাবুন) বরং অভিন্ন বন্টন এবং উচ্চ উদ্দীপনা (যেমন বড় সংখ্যা, খাস্তা চিত্র ভাবেন) এর সাথে 0 এবং 1 এর সম্ভাব্যতাগুলির সাথে প্রতিক্রিয়া দেখায়।

যদিও প্রমিতটি একইরকম হয় ততক্ষণ স্ট্যান্ডার্ড নরমালাইজেশন যত্ন করে না।

যখন নরম সর্বাধিক 10 গুণ বড় ইনপুট থাকে তখন কী হয় তা একবার দেখুন, আপনার নিউরাল নেট একটি খাস্তা ইমেজ পেয়েছে এবং প্রচুর নিউরোন সক্রিয় হয়ে গেছে

>>> softmax([1,2])              # blurry image of a ferret
[0.26894142,      0.73105858])  #     it is a cat perhaps !?
>>> softmax([10,20])            # crisp image of a cat
[0.0000453978687, 0.999954602]) #     it is definitely a CAT !

এবং তারপরে এটি স্ট্যান্ডার্ড নরমালাইজের সাথে তুলনা করুন

>>> std_norm([1,2])                      # blurry image of a ferret
[0.3333333333333333, 0.6666666666666666] #     it is a cat perhaps !?
>>> std_norm([10,20])                    # crisp image of a cat
[0.3333333333333333, 0.6666666666666666] #     it is a cat perhaps !?

16
এই উত্তরটি তাত্ত্বিক আন্ডারপ্লিনিংগুলিকে ফোকাস করার চেয়ে ক্ষয়ক্ষতি ব্যবহারের প্রভাবকে সর্বোত্তমভাবে চিত্রিত করে । (যা মহান). শীর্ষ উত্তরের শুরুতে এটি অন্তর্ভুক্ত করা উচিত। কীভাবে এবং কী ডিগ্রীতে, ক্ষয়ক্ষতিটি মানগুলি ছড়িয়ে দেয় তা দেখার পরে, শীর্ষ উত্তরটি কেন আপনি এটি চান তা ব্যাখ্যা করতে সহায়তা করে।
আয়ান ড্যানফোরথ

@ আইয়ানড্যানফরথ আমি আপনার সাথে একমত ভিক্ষা করা উচিত।
হিতেশ

11
এই উত্তরটি কেন সবচেয়ে বেশি ভোট হয়েছে তা নিশ্চিত নন। [1,2] একটি অস্পষ্ট চিত্রের সাথে কেন [10,20] তীক্ষ্ণ চিত্রের সাথে মিল রয়েছে? এটি কেবল স্কেলিংয়ের একটি বিষয় এবং উভয় ক্ষেত্রেই মূলত একই রকম। যদি কিছু হয় তবে এটি স্ট্যান্ডার্ড নরমালাইজেশনকে সমর্থন করে বলে মনে করা উচিত, যা সঠিকভাবে দুটি ক্ষেত্রে সমতুল্য বিবেচনা করে।
ব্যবহারকারী 118967

যখন মানগুলি ইতিমধ্যে [0, 1] এ থাকার নিশ্চয়তা দেওয়া হয়, তখনো কি যোগফলের দ্বারা কেবল বিভাজনের পরিবর্তে সফটম্যাক্স নেওয়ার কোনও সুবিধা আছে?
মার্টিন থোমা

58

আমি মাস কয়েক ধরে এই প্রশ্ন ছিল। দেখে মনে হচ্ছে আমরা কেবল চালাকি করে একটি আউটপুট ফাংশন হিসাবে সফটম্যাক্স অনুমান করেছি এবং তারপরে সফটম্যাক্সকে ইনপুটটিকে লগ-সম্ভাব্যতা হিসাবে ব্যাখ্যা করব। যেমনটি আপনি বলেছিলেন, সমস্ত আউটপুটগুলিকে তাদের যোগফলের মাধ্যমে ভাগ করে কেবল সাধারণ করা হয় না কেন? আমি উত্তর পাওয়া গভীর শিক্ষা বই বিভাগ 6.2.2 মধ্যে Goodfellow, Bengio এবং Courville (2016) দ্বারা।

ধরা যাক আমাদের শেষ লুকানো স্তরটি অ্যাক্টিভেশন হিসাবে z দেয়। তারপর সফটম্যাক্স হিসাবে সংজ্ঞায়িত করা হয়

খুব সংক্ষিপ্ত ব্যাখ্যা

সফটম্যাক্স ফাংশনটির এক্সপ ক্রস-এনট্রপি ক্ষতিতে লগটিকে মোটামুটি বাতিল করে দেয় যার ফলে ক্ষতিটি z_i তে প্রায় লিনিয়ার হতে পারে। এটি মোটামুটি ধ্রুবক গ্রেডিয়েন্টের দিকে নিয়ে যায়, যখন মডেলটি ভুল হয়, এটি নিজেকে দ্রুত সংশোধন করার অনুমতি দেয়। সুতরাং, একটি ভুল স্যাচুরেটেড সফটম্যাক্স অদৃশ্য গ্রেডিয়েন্টের কারণ হয় না।

সংক্ষিপ্ত বিবরণ

নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য সর্বাধিক জনপ্রিয় পদ্ধতি হ'ল সর্বাধিক সম্ভাবনার অনুমান। আমরা প্যারামিটারগুলি থিটা এমনভাবে অনুমান করি যা প্রশিক্ষণের ডেটার সম্ভাবনা সর্বাধিক করে তোলে (আকারের এম)। যেহেতু পুরো প্রশিক্ষণ ডেটাসেটের সম্ভাবনা প্রতিটি নমুনার সম্ভাবনার একটি পণ্য , তাই ডেটাসেটের লগ-সম্ভাবনা সর্বাধিক করা সহজ এবং এইভাবে কে দ্বারা সূচিত প্রতিটি নমুনার লগ-সম্ভাবনার যোগফল:

এখন, আমরা কেবল ইতিমধ্যে প্রদত্ত জেডের সাথে এখানে সফটম্যাক্সের উপর ফোকাস করি, যাতে আমরা প্রতিস্থাপন করতে পারি

আমি kth নমুনার সঠিক শ্রেণি হিসাবে। এখন, আমরা দেখতে পাচ্ছি যে আমরা যখন নমুনা-ম্যাক্সের লগারিদম গ্রহণ করি, নমুনার লগ-সম্ভাবনা গণনা করার জন্য, আমরা পাই:

যা বড় আকারের পার্থক্যের জন্য প্রায় কাছাকাছি

প্রথমে আমরা এখানে লিনিয়ার উপাদানটি z_i দেখতে পাচ্ছি। দ্বিতীয়ত, আমরা দুটি ক্ষেত্রে সর্বাধিক (জেড) এর আচরণ পরীক্ষা করতে পারি:

  1. যদি মডেলটি সঠিক হয় তবে সর্বাধিক (z) z_i হবে। সুতরাং, লগ-সম্ভাবনা asympotes শূন্য (অর্থাত্ 1 এর সম্ভাবনা) z_i এবং z এর অন্যান্য এন্ট্রিগুলির মধ্যে ক্রমবর্ধমান পার্থক্য সহ।
  2. যদি মডেলটি ভুল হয় তবে সর্বাধিক (z) অন্য কিছু z_j> z_i হবে। সুতরাং, z_i যোগ করা সম্পূর্ণরূপে -z_j বাতিল করে না এবং লগ-সম্ভাবনা মোটামুটি (z_i - z_j)। এটি লগ-সম্ভাবনা বাড়াতে মডেলকে কী করতে হবে তা স্পষ্টভাবে জানিয়েছে: z_i বৃদ্ধি এবং z_j হ্রাস করুন।

আমরা দেখতে পাই যে সামগ্রিক লগ-সম্ভাবনা নমুনাগুলির দ্বারা প্রাধান্য পাবে, যেখানে মডেলটি ভুল। এছাড়াও, এমনকি যদি মডেলটি সত্যই ভুল হয়, যা একটি স্যাচুরেটেড সফটম্যাক্সের দিকে পরিচালিত করে, ক্ষতি ফাংশনটি পরিপূর্ণ হয় না। এটি z_j এ প্রায় লিনিয়ার, এর অর্থ আমাদের প্রায় ধ্রুবক গ্রেডিয়েন্ট রয়েছে। এটি মডেলটিকে দ্রুত নিজেকে সংশোধন করতে দেয়। মনে রাখবেন যে উদাহরণস্বরূপ গড় স্কোয়ার ত্রুটির ক্ষেত্রে এটি নয়।

দীর্ঘ ব্যাখ্যা

যদি সফ্টম্যাক্সটি এখনও আপনার কাছে স্বেচ্ছাসেবী পছন্দ বলে মনে হয়, আপনি লজিস্টিক রিগ্রেশনটিতে সিগময়েড ব্যবহারের ন্যায্যতাটি একবার দেখে নিতে পারেন:

অন্য কিছুর পরিবর্তে সিগময়েড ফাংশন কেন?

সফটম্যাক্স হ'ল সিগময়েডকে সাধারণীকরণের মাধ্যমে বহু-শ্রেণীর সমস্যার জন্য সাধারণকরণ।


হাই, আপনি কি দয়া করে এই বিবৃতিটি ব্যাখ্যা করতে পারেন এবং আপনি কীভাবে আনুমানিক সক্ষম হতে পেরেছিলেন? ", যা বড় আকারের পার্থক্যের জন্য প্রায় মোটামুটি"
লন্ডনের লোক

45

আমি এখানে ব্যাখ্যাটি খুব ভাল বলে খুঁজে পেয়েছি: CS231n: ভিজ্যুয়াল স্বীকৃতির জন্য কনভোলিউশনাল নিউরাল নেটওয়ার্কগুলি।

পৃষ্ঠতলে সফ্টম্যাক্স অ্যালগরিদমকে একটি সাধারণ অ-লিনিয়ার বলে মনে হচ্ছে (আমরা ডেফোনটি এক্সপেনশিয়ালের সাথে ছড়িয়ে দিচ্ছি) স্বাভাবিককরণ। তবে এর চেয়েও বেশি কিছু আছে।

বিশেষত কয়েকটি ভিন্ন মতামত রয়েছে ( উপরের মত একই লিঙ্ক ):

  1. তথ্য তত্ত্ব - তথ্য তত্ত্বের দৃষ্টিকোণ থেকে সফটম্যাক্স ফাংশনটিকে ভবিষ্যদ্বাণী এবং সত্যের মধ্যে ক্রস-এনট্রপিকে হ্রাস করার চেষ্টা হিসাবে দেখা যেতে পারে।

  2. সম্ভাব্য দৃষ্টিভঙ্গি - এই দৃষ্টিকোণ থেকে আমরা আসলে লগ-সম্ভাবনার দিকে তাকাচ্ছি, সুতরাং যখন আমরা ক্ষয়ক্ষতি সম্পাদন করি তখন আমরা কাঁচা সম্ভাবনার সাথে শেষ করি। সেক্ষেত্রে সফটম্যাক্স সমীকরণটি এমএলই (সর্বাধিক সম্ভাবনার প্রাক্কলন) সন্ধান করে

সংক্ষেপে, যদিও সফটম্যাক্স সমীকরণটি মনে হচ্ছে এটি নির্বিচারে হতে পারে এটি নয়। ভবিষ্যদ্বাণী এবং সত্যের মধ্যে ক্রস-এনট্রপি / নেতিবাচক সম্ভাবনা হ্রাস করার জন্য এটি শ্রেণিবদ্ধকরণকে স্বাভাবিক করার একটি মূলত নীতিগত উপায়।


2
পূর্ববর্তী মন্তব্যে যুক্ত করার জন্য, সফটম্যাক্স ফাংশনের ডেরিভেটিভটি কেবল স্নোম্যাক্স (1-সফটম্যাক্স)
রাউজবিহ

11
আমি ক্রস-এন্ট্রপি ক্ষতি ব্যবহারের কারণগুলি পেয়েছি, তবে কীভাবে এটি সফটম্যাক্সের সাথে সম্পর্কিত? আপনি বলেছিলেন "সফটম্যাক্স ফাংশনটি ভবিষ্যদ্বাণী এবং সত্যের মধ্যে ক্রস-এনট্রপিকে হ্রাস করার চেষ্টা হিসাবে দেখা যেতে পারে"। মনে করুন, আমি স্ট্যান্ডার্ড / লিনিয়ার নরমালাইজেশন ব্যবহার করব, তবে এখনও ক্রস-এন্ট্রপি ক্ষতি ব্যবহার করব। তারপরে আমি ক্রস-এন্ট্রপিও হ্রাস করার চেষ্টা করব। সুতরাং কীভাবে সফটম্যাক্স সংখ্যার সুবিধাগুলি বাদে ক্রস-এন্ট্রপির সাথে যুক্ত ?
কিলিয়ান ব্যাটজনার

18
সম্ভাব্য দৃষ্টিভঙ্গি হিসাবে: লগ সম্ভাব্যতা দেখার জন্য অনুপ্রেরণা কি? যুক্তিটি কিছুটা মনে হচ্ছে "আমরা সফটম্যাক্সে e ^ x ব্যবহার করি, কারণ আমরা এক্সকে লগ-প্রব্যাবিলিটি হিসাবে ব্যাখ্যা করি"। একই যুক্তি সহ আমরা বলতে পারি, আমরা সফটম্যাক্সে e ^ e ^ e ^ x ব্যবহার করি, কারণ আমরা এক্সকে লগ-লগ-লগ-সম্ভাবনা হিসাবে ব্যাখ্যা করি (অবশ্যই এখানে অতিরঞ্জিত)। আমি সফটম্যাক্সের সংখ্যাগত সুবিধা পেয়েছি তবে এটি ব্যবহারের তাত্ত্বিক প্রেরণা কী?
কিলিয়ান ব্যাটজনার

5
@ কিলিয়ান ব্যাটনার যদি কোনও নিউরনের আউটপুট লগের সম্ভাবনা হয় তবে অনেকগুলি নিউরনের আউটপুটগুলির সংমিশ্রণ হ'ল তাদের সম্ভাবনার একগুণ। এটি সম্ভাবনার সংখ্যার চেয়ে বেশি কার্যকর।
alltom

1
@ কিলিয়ান ব্যাটনার যদি আপনার বৈশিষ্ট্যগুলি বিভিন্ন গাউসিয়ান ক্লাস্টার থেকে আসে (প্রতি ক্লাসে ক্লাস্টারে) তবে আপনি একটি নিখুঁত শ্রেণিবদ্ধ (লজিস্টিক রিগ্রেশন) পেতে পারেন। কিছু অতিরিক্ত শর্ত রয়েছে, তবে মূলত আপনি সফিউম্যাক্সকে ন্যায্যতা / ডাইভরি করতে পারেন এবং এই ধারণাটি নিয়ে লগইট করতে পারেন যে আপনি গাউসিয়ান ক্লাস্টারগুলি পৃথক করতে চান।
ম্যাক্সি 12'19

16

Q_i এর মানগুলি লগ-সম্ভাবনার প্রতিনিধিত্ব করে। সম্ভাব্যতার মানগুলি পুনরুদ্ধার করার জন্য, আপনাকে সেগুলি ক্ষতিকারক করতে হবে।

একটি কারণ যে পরিসংখ্যানগত অ্যালগোরিদমগুলি প্রায়শই লগ-সম্ভাবনা হ্রাস ফাংশন ব্যবহার করে তা হ'ল এগুলি আরও সংখ্যাসূচকভাবে স্থিতিশীল: সম্ভাবনার একটি পণ্য একটি খুব ছোট ভাসমান পয়েন্ট সংখ্যা হিসাবে উপস্থাপিত হতে পারে। লগ-সম্ভাবনা ক্ষতি ফাংশন ব্যবহার করে, সম্ভাবনার একটি পণ্য যোগফল হয়ে যায়।

আরেকটি কারণ হ'ল লগ-সম্ভাবনাগুলি প্রাকৃতিকভাবে ঘটে যখন এলোমেলো ভেরিয়েবলের জন্য অনুমানকারীগুলি সংগ্রহ করা হয় যা মাল্টিভারিয়েট গাউসীয় বিতরণগুলি থেকে আঁকা বলে ধরে নেওয়া হয়। উদাহরণস্বরূপ সর্বাধিক সম্ভাবনা (এমএল) অনুমানক এবং এটি যেভাবে ন্যূনতম স্কোয়ারের সাথে সংযুক্ত রয়েছে তা দেখুন।

সাইডেনোট হিসাবে, আমি মনে করি যে সিএস থিওরি বা কম্পিউটেশনাল সায়েন্স স্ট্যাক এক্সচেঞ্জের জন্য এই প্রশ্নটি আরও উপযুক্ত।


12
q_i স্পষ্টভাবে লগ-সম্ভাবনার প্রতিনিধিত্ব করে না। এটি কেবল তখনই যখন আমরা সফটম্যাক্স ব্যবহার করি যা আমরা তাদের স্পষ্টভাবে ধরে নিই।
টম

6

আমরা একটি মাল্টিক্লাস শ্রেণিবদ্ধকরণ সমস্যাটি দেখছি। এটি হ'ল, পূর্বাভাসযুক্ত ভেরিয়েবল yএকটি kবিভাগ নিতে পারে , যেখানে k > 2। সম্ভাবনা তত্ত্বে, এটি সাধারণত বহুজাতিক বিতরণ দ্বারা মডেল করা হয়। বহুজাতিক বিতরণ হ'ল ঘনিষ্ঠ পরিবার বিতরণের সদস্য। P(k=?|x)তাত্পর্যপূর্ণ পরিবার বিতরণের বৈশিষ্ট্য ব্যবহার করে আমরা সম্ভাব্যতা পুনর্গঠন করতে পারি , এটি সফটম্যাক্স সূত্রের সাথে মিলে যায়।

যদি আপনি বিশ্বাস করেন যে সমস্যাটি মাল্টিনোমিয়াল ব্যতীত অন্য বিতরণে মডেল করা যেতে পারে, তবে আপনি এমন সিদ্ধান্তে পৌঁছতে পারবেন যা সফটম্যাক্স থেকে আলাদা।

আরও তথ্যের জন্য এবং একটি আনুষ্ঠানিক বিকাশের জন্য দয়া করে CS229 লেকচার নোট (9.3 সফটম্যাক্স রিগ্রেশন) দেখুন

অতিরিক্তভাবে, একটি দরকারী কৌশল সাধারণত সফটম্যাক্সকে সম্পাদন করে: সফটম্যাক্স (এক্স) = সফটম্যাক্স (এক্স + সি) , সফটম্যাক্স ইনপুটটিতে ধ্রুবক অফসেটের জন্য অদম্য।

চিত্র বিবরণ নিখরচায় প্রবেশ করুন


এটি একটি অ্যাক্টিভেশন ফাংশন হিসাবে কীভাবে কাজ করবে, কারণ এটি 'x' এবং 'x + সি' এর জন্য একই মানটি ফেরত দিচ্ছে?
সুরেশ পোখারেল

1
কড়া কথায় বলতে গেলে softmaxকোনও অ্যাক্টিভেশন ফাংশন নয়। অ্যাক্টিভেশন ফাংশন একটি উপাদান-ভিত্তিক ক্রিয়াকলাপ - একটি সেন্সর উপাদানকে বুদ্ধি করে অন্য একটি টেন্সর উত্পাদন করার জন্য একটি অ-রৈখিক অপারেশন সম্পাদন করা। তবে softmaxএটি একটি ভেক্টর অপারেশন, এটি আপনাকে একটি সাধারণ ভেক্টর উত্পাদন করে, প্রতিটি উপাদানগুলির মধ্যে অন্তর্নির্ভরতা থাকে।
গ্যাব্রিয়েলচু

5

আমি মনে করি একটি কারণ হ'ল zeroণাত্মক সংখ্যা এবং শূন্য দ্বারা বিভাজনকে মোকাবেলা করা, যেহেতু এক্সপ্রেস (এক্স) সর্বদা ইতিবাচক এবং শূন্যের চেয়ে বেশি হবে।

উদাহরণস্বরূপ a = [-2, -1, 1, 2]যোগফল 0 হবে, আমরা শূন্য দ্বারা বিভাগ এড়াতে সফটম্যাক্স ব্যবহার করতে পারি।


3
সাধারণত আপনি সর্বনিম্ন বিয়োগ করতে পারেন তারপরে সর্বাধিক / যোগফল দ্বারা বিভক্ত। আপনার ক্ষেত্রে এটি [0, 1, 3, 4]তখন বিভাজন তৈরি করবে ।
ubershmekel

1
সমস্যা হল ক্ষুদ্রতম স্কোর বর্গ সবসময় এর 0. একটি সম্ভাব্যতা নির্ধারিত হবে মধ্যে এই রানের @ubershmekel
আলেসান্দ্রো পাওয়ার

4

মনে করুন আমরা সফটম্যাক্স ফাংশনটি পরিবর্তন করি যাতে আউটপুট অ্যাক্টিভেশনগুলি দেওয়া হয় এখানে চিত্র বর্ণনা লিখুন

যেখানে cএকটি ধনাত্মক ধ্রুবক। নোট করুন যে c=1স্ট্যান্ডার্ড সফটম্যাক্স ফাংশনের সাথে সম্পর্কিত। তবে আমরা যদি আলাদা মানের মান ব্যবহার করি তবে আমরা cএকটি আলাদা ফাংশন পাই যা স্নাতাম্যাক্সের তুলনায় গুণগতভাবেই নয় similar বিশেষত, দেখান যে আউটপুট অ্যাক্টিভেশনগুলি সাধারণ সফটম্যাক্সের মতোই সম্ভাব্য বন্টন গঠন করে। ধরুন আমরা cবড় হওয়ার অনুমতি দিই , অর্থাৎ c→∞। আউটপুট অ্যাক্টিভেশনগুলির সীমাবদ্ধকরণ মানটি কী a^L_j? এই সমস্যাটি সমাধানের পরে আপনার স্পষ্ট হওয়া উচিত যে আমরা কেন c=1ফাংশনটিকে সর্বাধিক ফাংশনের "নরম" সংস্করণ হিসাবে মনে করি । এটিই "সফটম্যাক্স" শব্দটির উত্স। আপনি এই উত্স থেকে বিবরণ অনুসরণ করতে পারেন (সমীকরণ 83)


আমার জন্য সর্বাধিক ফাংশনের "নরম" সংস্করণ ধারণাটি সফটম্যাক্সের ব্যবহারকে ন্যায়সঙ্গত করার সর্বোত্তম সহজ উপায়।
tashuhka

3

পাইওটর সিজাপলা উত্তরে যুক্ত করা, ইনপুট মানগুলি যত বেশি হবে, একই অনুপাতের জন্য এবং অন্যান্য ইনপুটগুলির তুলনায় সর্বোচ্চ ইনপুট হওয়ার সম্ভাবনা তত বেশি:

এখানে চিত্র বর্ণনা লিখুন


2

সফটম্যাক্স ফাংশনের পছন্দটি একরকমভাবে স্বেচ্ছাসেবী বলে মনে হচ্ছে কারণ অন্যান্য অনেকগুলি সম্ভাব্য স্বাভাবিককরণ কার্য রয়েছে। লগ-সফটম্যাক্স ক্ষতি অন্যান্য ক্ষতির বিকল্পের তুলনায় কেন আরও ভাল পারফরম্যান্স করবে তা এখনও পরিষ্কার নয়।

থেকে " Softmax বিকল্প একটি এক্সপ্লোরেশন স্ফেরিক্যাল কমানোর পরিবার র অন্তর্গত " https://arxiv.org/abs/1511.05042

লেখকরা আরও কয়েকটি ফাংশন অনুসন্ধান করেছিলেন যার মধ্যে টেলর সম্প্রসারণ expএবং তথাকথিত গোলাকৃতির সফটম্যাক্স এবং তারা খুঁজে পেয়েছেন যে কখনও কখনও তারা স্বাভাবিকের চেয়ে আরও ভাল পারফর্ম করতে পারে softmax

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.