অন্য কিছুর পরিবর্তে সিগময়েড ফাংশন কেন?


40

ডি-ফ্যাক্টো স্ট্যান্ডার্ড সিগময়েড ফাংশন, , (অ-গভীর) নিউরাল-নেটওয়ার্ক এবং লজিস্টিক রিগ্রেশন এ এত জনপ্রিয় কেন?11+ +-এক্স

দ্রুত গণনার সময় বা ধীরে ধীরে ক্ষয় সহ আমরা কেন অন্যান্য অন্যান্য ব্যয়যোগ্য ফাংশন ব্যবহার করি না (সুতরাং বিন্যাসের গ্রেডিয়েন্ট কম হয়)। সিগময়েড ফাংশন সম্পর্কে উইকিপিডিয়ায় কয়েকটি উদাহরণ রয়েছে । ধীর ক্ষয় এবং দ্রুত হিসাব আমার প্রিয় এক ।এক্স1+ +|এক্স|

সম্পাদনা

প্রশ্নগুলি স্নায়ুবিক নেটওয়ার্কগুলিতে পেশাদার / বিঘ্নগুলির সাথে অ্যাক্টিভেশন ফাংশনগুলির বিস্তৃত তালিকার চেয়ে আলাদা কারণ আমি কেবল 'কেন' এবং কেবল সিগময়েডের জন্যই আগ্রহী।


6
লক্ষ করুন যে লজিস্টিক সিগময়েডটি সফটম্যাক্স ফাংশনের একটি বিশেষ ঘটনা, এবং এই প্রশ্নের আমার উত্তরটি দেখুন: stats.stackexchange.com/questions/145272/…
নীল জি

10
সেখানে হয় probit বা cloglog মত অন্যান্য ফাংশন যে সাধারণভাবে ব্যবহার করা হয়, দেখুন: stats.stackexchange.com/questions/20523/...
টিম

4
@ ব্যবহারকারী 7777 আমি নিশ্চিত নই যে এটি যেহেতু আপনি যে থ্রেডে উল্লেখ করেছেন তা কেন সত্য প্রশ্নের উত্তর দেয় না ।
টিম

@ কারেলম্যাসেক, আপনি কি নিশ্চিত যে ডেরিভেটিভের 0 তে বাম / ডান সীমা নেই? ব্যবহারিকভাবে দেখে মনে হচ্ছে এটির উইকিপিডিয়া থেকে লিঙ্কযুক্ত চিত্রের একটি সুন্দর স্পর্শকাতর রয়েছে।
হরভথ

5
আমি এতগুলি বিশিষ্ট সম্প্রদায়ের সদস্যদের সাথে দ্বিমত পোষণ করতে ঘৃণা করি যারা এইটিকে নকল হিসাবে বন্ধ করার পক্ষে ভোট দিয়েছিল, তবে আমি দৃu়প্রত্যয়ী হই যে আপাত নকলটি "কেন" সম্বোধন করে না এবং তাই আমি এই প্রশ্নটি আবার খুলতে ভোট দিয়েছি।
whuber

উত্তর:


24

একটি পৃথক প্রশ্নের এই উত্তর থেকে নিজেকে উদ্ধৃত :

প্যাটার্ন রিকগনিশন এবং মেশিন লার্নিং (স্প্রিংগার 2006) এর ৪.২ বিভাগে , বিশপ দেখায় যে লগইট স্বাভাবিকভাবেই দ্বি-শ্রেণীর শ্রেণিবিন্যাসের বায়েশিয়ান চিকিত্সার ক্ষেত্রে উত্তরীয় সম্ভাবনা বিতরণের রূপ হিসাবে উত্থিত হয়। তারপরে তিনি তা দেখিয়ে যান যে বিচ্ছিন্নভাবে বিতরণ করা বৈশিষ্ট্যগুলির পাশাপাশি একইসাথে তাত্পর্যপূর্ণ বিতরণের পরিবারের উপসেটও এটি একই holds বহু-শ্রেণীর শ্রেণিবিন্যাসের জন্য লগিটটি সাধারণীকৃত ঘনিষ্ঠ বা সফটম্যাক্স ফাংশনে সাধারণীকরণ করে।

এটি ব্যাখ্যা করে যে কেন এই সিগময়েড লজিস্টিক রিগ্রেশনে ব্যবহৃত হয়।

নিউরাল নেটওয়ার্কগুলি সম্পর্কে, এই ব্লগ পোস্টটি ব্যাখ্যা করে যে কীভাবে লগিট / সফটম্যাক্স এবং নিউরাল নেটওয়ার্কগুলিতে ব্যবহৃত প্রবিট সহ বিভিন্ন অরৈখিকতা একটি পরিসংখ্যানগত ব্যাখ্যা দেওয়া যেতে পারে এবং এর মাধ্যমে একটি অনুপ্রেরণা দেওয়া যায়। অন্তর্নিহিত ধারণাটি হ'ল একটি বহু-স্তরযুক্ত নিউরাল নেটওয়ার্ক সাধারণ রৈখিক মডেলগুলির শ্রেণিবিন্যাস হিসাবে বিবেচনা করা যেতে পারে; এই অনুসারে, অ্যাক্টিভেশন ফাংশনগুলি লিংক ফাংশন যা ঘুরেফিরে বিভিন্ন বন্টনমূলক অনুমানের সাথে মিলে যায়।


1
গ্রেট! সুতরাং যখন আমরা একটি নেটওয়ার্কে সিগময়েডগুলি ব্যবহার করি, আমরা বলতে পারি যে আমরা স্পষ্টতই ধরে নিচ্ছি যে নেটওয়ার্কটি বিভিন্ন ইভেন্টের (অভ্যন্তরীণ স্তরগুলিতে বা আউটপুটে) সম্ভাব্যতাগুলি "মডেল" করে। স্কোয়ার ত্রুটির জন্য এটি কোনও নেটওয়ার্কের ভিতরেও বোধগম্য মডেল হতে পারে (আউটপুট নিউরনের জন্য আলাদা একটি অ্যাক্টিভেশন ফাংশন দেয়)। এই স্বজ্ঞাততা আগে কখনও ভাবেনি, ধন্যবাদ!
মার্ক হরভাথ

@ মারকহর্ভাথ খুশি আমি সহায়তা করতে পারি। :-)
এ। ডোন্ডা

.তিহাসিকভাবে, তাই না। একটি অগোছালো ইতিহাসের আমার সেরা সংক্ষিপ্তসারটি হ'ল লগিট পরিসংখ্যান বিজ্ঞানে প্রবেশ করেছে মূলত কারণ বাইনারি প্রতিক্রিয়াগুলির জন্য অভিযোজিত এবং লিংক ফাংশন হিসাবে গ্রহণ করা হলে [ল্যাবস্টিক কার্ভগুলি অনুসরণ করার আশায় জনগণ) ডানদিকে তাকান যখন কার্যকরী ফর্মগুলি সময়ের সাথে পরিবর্তনের পূর্বাভাস দেয় used ; এবং এগুলি সহজ ক্যালকুলাস দিয়ে চালিত করা সহজ, যা পরম মানগুলিতে প্রকাশ হয় না। তবে স্বাভাবিকভাবেই এই জাতীয় ফাংশনগুলির জন্য সহজতম যৌক্তিক ন্যায়সঙ্গততা আকর্ষণীয় এবং গুরুতর এবং আপনার উত্তরটি এতে সম্বোধন করে।
নিক কক্স

1
আমি বিশপের দুটি বইয়ের (2006 এবং 1995) বিভাগগুলি পড়েছি এবং আমি এখনও নিশ্চিত নই যে সিগময়েড এখানে অপরিহার্য, যদিও আমি লগিট দিয়ে অবশ্যই প্রেরণা পাই। আমি যদি 2-শ্রেণীর পোইসন অনুমানের উপর ভিত্তি করে একই ক্রস-এন্ট্রপি লোকসান ফাংশনটি লিখি তবে সিগময়েডের পরিবর্তে একটি ভিন্ন অ্যাক্টিভেশন ফাংশন ব্যবহার করব? উদাহরণস্বরূপ, এটি অনুরূপ তবে এক হিসাবে নির্ধারিত সুন্দর দিকের মতো নয়: g (x) = 1 / (2-2x) x <0, 1 - 1 / (2 + 2x) x> 0, জি (0) = এর জন্য 0.5। এখন সর্বাধিক সম্ভাবনার সমীকরণটি ভিন্ন দেখাচ্ছে, তবে আমরা যদি এটি হ্রাস করি তবে আমরা আউটপুট হিসাবে সম্ভাবনাগুলি পাই না?
ইয়োরোল

বিস্কোপ যদি একটি = পি ( x , সি 1 ) নিয়ে যেত , "প্রাকৃতিকভাবে উদ্ভূত" ফাংশন হবেএকটিএকটি=পি(এক্স,সি1)(1+ +পি(এক্স,সি1))পি(এক্স,সি2) , তাই না? একটি1+ +একটি2
মিঃ Tsjolder

18

এই ফাংশনটি অন্যের চেয়ে বেশি "প্রাকৃতিক" বলে মনে হতে পারে তার একটি কারণ হ'ল এটি বার্নোল্লি বিতরণের ক্যানোনিকাল প্যারামিটারের বিপরীত হতে পারে: (সূচকটিরমধ্যেpএর ক্রিয়াকলাপটিকেক্যানোনিকাল প্যারামিটার বলা হয়))

f(y)=py(1p)1y=(1p)exp{ylog(p1p)}.
পি

হতে পারে আরও তাত্পর্যপূর্ণ ন্যায়সঙ্গততা তথ্য তত্ত্ব থেকে আসে, যেখানে সিগময়েড ফাংশনটি সর্বাধিক এনট্রপি মডেল হিসাবে নেওয়া যেতে পারে । মোটামুটিভাবে বলতে গেলে, সিগময়েড ফাংশনটি ন্যূনতম কাঠামো ধরে এবং অন্তর্নিহিত মডেল সম্পর্কে আমাদের অজ্ঞতার সাধারণ অবস্থা প্রতিফলিত করে।


লজিস্টিক রিগ্রেশন জন্য ভাল ন্যায়সঙ্গত। মজার বিষয় যা আমরা এটি স্কোয়ার ত্রুটির জন্যও ব্যবহার করি ...
মার্ক হরভাথ

11

আমি নিজেকে কয়েক মাস ধরে এই প্রশ্নটি জিজ্ঞাসা করেছি। ক্রসভিলেটেড এবং কোওড়ার উত্তরগুলি লজিস্টিক সিগময়েড ফাংশনের সমস্ত দুর্দান্ত বৈশিষ্ট্য তালিকাভুক্ত করে, তবে এগুলি সমস্ত মনে হয় আমরা চালাকি করে এই ফাংশনটি অনুমান করেছি। আমি যেটা মিস করলাম তা বেছে নেওয়ার ন্যায়সঙ্গততা ছিল। অবশেষে আমি বেনজিও (2016)"ডিপ লার্নিং" বইয়ের 6.2.2.2 বিভাগে একটি পেয়েছি । আমার নিজের ভাষায়:

সংক্ষেপে, আমরা চাই মডেলটির আউটপুটটির লগারিদম প্রশিক্ষণের ডেটার লগ-সম্ভাবনার গ্রেডিয়েন্ট-ভিত্তিক অপ্টিমাইজেশনের জন্য উপযুক্ত হওয়া উচিত।

প্রেরণা

  • আমরা একটি রৈখিক মডেল চাই, তবে আমরা z=wTx+b সরাসরি z(,+) হিসাবে ব্যবহার করতে পারি না ।
  • শ্রেণীবিভাগ জন্য, এটা জ্ঞান বের্নুলির বন্টন অনুমান এবং তার পরামিতি মডেল করে তোলে θ মধ্যে P(Y=1)=θ
  • সুতরাং, আমরা ম্যাপ প্রয়োজন z থেকে (,+) থেকে [0,1] শ্রেণীবিন্যাস না।

কেন লজিস্টিক সিগময়েড ফাংশন?

কেটে z- র সঙ্গে পি(ওয়াই=1|z- র)=মিএকটিএক্স{0,মিআমিএন{1,z- র}} উৎপাদ জন্য একটি শূন্য গ্রেডিয়েন্ট z- র বাইরে [0,1] । যখনই মডেলের পূর্বাভাসটি ভুল হয় আমাদের একটি শক্ত গ্রেডিয়েন্ট দরকার কারণ আমরা গ্রেডিয়েন্ট বংশোদ্ভূত সঙ্গে লজিস্টিক রিগ্রেশন সমাধান করি solve লজিস্টিক রিগ্রেশন জন্য, কোন বদ্ধ ফর্ম সমাধান নেই।

মডেলটির পূর্বাভাসটি ভুল হওয়ার পরে লজিস্টিক ফাংশনে অ্যাসিম্পটোটিংয়ের দুর্দান্ত সম্পত্তি রয়েছে যা আমরা মডেলের সাথে মানিয়ে যাওয়ার সর্বোচ্চ সম্ভাবনা অনুমানটি ব্যবহার করি। এটি নীচে দেখানো হয়েছে:

সংখ্যাগত সুবিধার জন্য, প্রশিক্ষণের ডেটার নেতিবাচক লগ-সম্ভাবনা হ্রাস করে সর্বাধিক সম্ভাবনা অনুমান করা যেতে পারে। সুতরাং, আমাদের ব্যয় ফাংশনটি হ'ল:

জে(W,B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর)=1মিΣআমি=1মি-লগপি(ওয়াই=Yআমি|এক্সআমি;W,B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর)=1মিΣআমি=1মি-(Yআমিলগপি(ওয়াই=1|z- র)+ +(Yআমি-1)লগপি(ওয়াই=0|z- র))

যেহেতু পি(ওয়াই=0|z- র)=1-পি(ওয়াই=1|z- র) , আমরা ওয়াই=1 ক্ষেত্রে ফোকাস করতে পারি । সুতরাং, প্রশ্নটি হল কীভাবে পি(ওয়াই=1|z- র) কে মডেল করবেন আমাদের প্রদত্ত z- র=Wটিএক্স+ +B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর

ফাংশন জন্য সুস্পষ্ট প্রয়োজনীয়তা f ম্যাপিং z জন্য P(Y=1|z) আছেন:

  • zR:f(z)[0,1]
  • f(0)=0.5
  • f rotationally প্রতিসম wrt হওয়া উচিত(0,0.5) , অর্থাত্f(x)=1f(x) , যাতে ক্লাস লক্ষণ আলোকসম্পাতের খরচ ফাংশন উপর কোনো প্রভাব নেই।
  • f হ্রাস হ্রাস, ধারাবাহিক এবং পার্থক্যযুক্ত হওয়া উচিত।

এই প্রয়োজনীয়তাগুলি সিগময়েড ফাংশনগুলি পুনরুদ্ধার করে পূর্ণ হয় । উভয় f(z)=11+ez এবংf(z)=0.5+0.5z1+|z|সেগুলি পূরণ করুন। তবে লগ-সম্ভাবনার গ্রেডিয়েন্ট-ভিত্তিক অপ্টিমাইজেশনের সময় সিগময়েড ফাংশনগুলি তাদের আচরণের সাথে পৃথক হয়। আমরা লজিস্টিক ফাংশনএফ(জেড)=1প্লাগ করে পার্থক্যটি দেখতে পাচ্ছিf(z)=11+ez আমাদের ব্যয় ক্রিয়ায়।

ওয়াই = 1 এর জন্য স্যাচুরেশনY=1

জন্য P(Y=1|z)=11+ez এবংY=1, একটি একক বিচ্ছিন্ন নমুনার দাম (অর্থাত্m=1) হ'ল:

J(z)=log(P(Y=1|z))=log(11+ez)=log(ez1+ez)=z+log(1+ez)

আমরা দেখতে পারি যে একটি রৈখিক উপাদান z । এখন, আমরা দুটি কেস দেখতে পারি:

  • z যখন বড় হয়, তখন মডেলটির পূর্বাভাসটি সঠিক ছিল, যেহেতু Y=1 । ব্যয় কার্যক্রমে log(1+ez) শব্দটি বৃহত্তর z এর জন্য z টিকেট asympotes । সুতরাং, এটি মোটামুটি বাতিল করে - জেড আউট এই নমুনার জন্য প্রায় শূন্যের ব্যয় এবং একটি দুর্বল গ্রেডিয়েন্ট। মডেল ইতিমধ্যে সঠিক বর্গ পূর্বাভাস হিসাবে এটি বোঝা যায়।zz
  • z যখন ছোট হয় (তবে |z| বড়) তখন মডেলটির পূর্বাভাসটি সঠিক ছিল না , যেহেতু Y=1 । ব্যয় কার্যক্রমে, ছোট z এর জন্য log(1+ez) শব্দটি asympotes 0 । সুতরাং, এই নমুনার সামগ্রিক ব্যয় মোটামুটি - z , যার অর্থ গ্রেডিয়েন্ট আর্ট জেড মোটামুটি - 1 । এটি ধ্রুব গ্রেডিয়েন্টটি গ্রহণ করে এর ভিত্তিতে মডেলটির ভুল পূর্বাভাস সংশোধন করা সহজ করে তোলে। এমনকি খুব ছোট z এর জন্যওzzz1z, কোনও স্যাচুরেশন চলছে না, যার ফলে গ্রেডিয়েন্টগুলি বিলুপ্ত হবে।

Y = 0 এর জন্য স্যাচুরেশনY=0

উপরে, আমরা Y=1 কেসে ফোকাস করেছি । জন্য Y=0 , খরচ ফাংশন আচরণ করবে অনুরূপভাবে, শক্তিশালী গ্রেডিয়েন্ট প্রদানের শুধুমাত্র যখন মডেলের ভবিষ্যদ্বাণী ভুল।

এটি ওয়াই = 1 এর জন্য J(z) ব্যয় ফাংশন :Y=1

এখানে চিত্র বর্ণনা লিখুন

এটি অনুভূমিকভাবে উল্টানো সফটপ্লাস ফাংশন। জন্য Y=0 , এটা softplus ফাংশন।

বিকল্প

আপনি লজিস্টিক সিগময়েড ফাংশনের বিকল্পগুলি উল্লেখ করেছেন, উদাহরণস্বরূপ z1+|z|[0,1]P(Y=1|z)=0.5+0.5z1+|z|

Y=1

J(z)=log(0.5+0.5z1+|z|)

যা দেখতে এরকম দেখাচ্ছে:

এখানে চিত্র বর্ণনা লিখুন

z


আপনি "মডেলটি ভুল হলে" লেখার অর্থ কী?
গ্যাব্রিয়েল রোমন

(এক্সআমি,Yআমি)z- র=5Yআমি=0

6

যেহেতু মূল প্রশ্নটি ক্ষয়িষ্ণু গ্রেডিয়েন্ট সমস্যার কথা উল্লেখ করেছে, আমি কেবল এটিই যুক্ত করতে চাই, মধ্যবর্তী স্তরগুলির জন্য (যেখানে আপনাকে শ্রেণিবদ্ধতা বা রিগ্রেশন আউটপুট হিসাবে ক্রিয়াকলাপগুলি ব্যাখ্যা করার দরকার নেই), অন্যান্য অরৈখিকতা প্রায়শই সিগময়েডাল ফাংশনগুলির চেয়ে বেশি পছন্দ করা হয়। সর্বাধিক বিশিষ্ট হ'ল রেকটিফায়ার ফাংশন (যেমন রিলুগুলিতে রয়েছে ), যা ইতিবাচক ডোমেনের তুলনায় লিনিয়ার এবং the ণাত্মক চেয়ে শূন্য। তাদের সুবিধাগুলির মধ্যে একটি হ'ল তারা ক্ষয়িষ্ণু গ্রেডিয়েন্ট সমস্যার তুলনায় কম হ'ল, কারণ ডেরাইভেটিভ ধনাত্মক ডোমেনের চেয়ে ধ্রুবক। রিএলইউগুলি এমন পর্যায়ে জনপ্রিয় হয়ে উঠেছে যে সিগময়েডগুলি সম্ভবত আর ডি-ফ্যাক্টো স্ট্যান্ডার্ড বলা যায় না।

গ্লোরোট এট আল। (2011) । গভীর স্পার্স সংশোধনকারী নিউরাল নেটওয়ার্কগুলি networks


2
হাঁ। আমি মনে করি লজিস্টিক ফাংশনটি এত জনপ্রিয় হওয়ার কারণটি ছিল তার পরিসংখ্যান থেকে আমদানি। আজকাল রেলু প্রচুর ক্ষেত্রগুলিতে সর্বাধিক জনপ্রিয়।
রিকার্ডো ক্রুজ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.