নিউরাল নেটওয়ার্কে ক্রস-এনট্রপি ব্যয় ফাংশন


11

আমি এই টিউটোরিয়ালে পাওয়া ক্রস-এনট্রপি ব্যয়ের ফাংশনটি দেখছি :

সি=-1এনΣএক্স[YLnএকটি+ +(1-Y)Ln(1-একটি)]

আমরা ঠিক কি সংক্ষেপে হয়? এটা অবশ্যই হয়, ওভার এক্স কিন্তু Y এবং একটি সঙ্গে পরিবর্তন করবেন না এক্স । সকল এক্স এর এক মধ্যে ইনপুট হয় একটিএকটি এমনকি সমস্ত W এর এবং এক্স এর যোগফলের সমীকরণ হিসাবে সমীকরণের উপরে অনুচ্ছেদে সংজ্ঞায়িত হয়েছে ।

এছাড়াও, এন এই নির্দিষ্ট নিউরনের ইনপুটগুলির সংখ্যা হিসাবে সংজ্ঞায়িত করা হয়েছে, সঠিক? এটি "প্রশিক্ষণের ডেটাগুলির সামগ্রীর সংখ্যা" হিসাবে শব্দযুক্ত ।


সম্পাদনা:

আমি কি ভেবে সঠিক?

সি=-1এনΣএক্স[YLnএকটি+ +(1-Y)Ln(1-একটি)]

পুরো নেটওয়ার্কের জন্য ব্যয় কাজ হবে, যদিও

সি=[YLnএকটি+ +(1-Y)Ln(1-একটি)]

স্বতন্ত্র নিউরনের জন্য খরচ হবে? যোগফল প্রতিটি আউটপুট নিউরনের উপরে হওয়া উচিত নয়?

উত্তর:


14

আমি এখানে ক্রস-এনট্রপি ক্ষতি কীভাবে প্রকাশ করব তা এখানে :

L(X,Y)=1ni=1ny(i)lna(x(i))+(1y(i))ln(1a(x(i)))

এখানে, প্রশিক্ষণ ডেটাসেটে ইনপুট উদাহরণ সেট, এবং ওয়াই = { Y ( 1 ) , ... , Y ( এন ) } লেবেলের সংশ্লিষ্ট সেট এই ইনপুট উদাহরণগুলির জন্য। একটি ( এক্স ) এর স্নায়ুর নেটওয়ার্ক প্রদত্ত ইনপুট আউটপুট প্রতিনিধিত্ব করে এক্সএক্স={এক্স(1),...,এক্স(এন)}ওয়াই={Y(1),...,Y(এন)}একটি(এক্স)এক্স

প্রতিটি ( i ) হয় 0 বা 1 হয় এবং আউটপুট অ্যাক্টিভেশন a ( x ) সাধারণত লজিস্টিক সিগময়েড ব্যবহার করে খোলা ব্যবধানে (0, 1) সীমাবদ্ধ থাকে । উদাহরণস্বরূপ, এক-স্তর নেটওয়ার্কের জন্য (যা লজিস্টিক রিগ্রেশনের সমতুল্য), অ্যাক্টিভেশনটি একটি ( x ) = 1 দ্বারা দেওয়া হবেY(আমি)একটি(এক্স) যেখানেডাব্লুএকটি ওজন ম্যাট্রিক্স এবংএকটি পক্ষপাতিত্ব ভেক্টর। একাধিক স্তরের জন্য, আপনি ভালো কিছু করার জন্য অ্যাক্টিভেশন ফাংশন প্রসারিত করতেএকটি(এক্স)=1

একটি(এক্স)=11+ +-ওয়াটএক্স-
ওয়াট যেখানেভিএবংসিহ'লপ্রথম স্তরের ওজন ম্যাট্রিক্স এবং পক্ষপাত, এবংজেড(এক্স)হল নেটওয়ার্কে লুকানো স্তরটির সক্রিয়করণ।
একটি(এক্স)=11+ +-ওয়াটz- র(এক্স)-z- র(এক্স)=11+ +-ভীএক্স-
ভীz- র(এক্স)

উদাহরণগুলি বোঝাতে আমি (i) সুপারস্ক্রিপ্ট ব্যবহার করেছি কারণ এন্ড্রু এনগের মেশিন লার্নিং কোর্সে এটি বেশ কার্যকর বলে আমি পেয়েছি; কখনও কখনও লোকেরা ম্যাট্রিক্সে কলাম বা সারি হিসাবে উদাহরণ প্রকাশ করে তবে ধারণাটি একই থাকে।


ধন্যবাদ! সুতরাং এটি আমাদের সমস্ত নমুনার উপরে পুরো নেটওয়ার্কের জন্য আমাদের ত্রুটির জন্য একক সংখ্যা দেবে। পিছনে বংশবিস্তারের জন্য আমাকে এই ফাংশনের আংশিক ডেরাইভেটিভটি চূড়ান্ত স্তরের ওজন ম্যাট্রিক্সের সন্ধান করতে হবে। আমি যে কিভাবে করতে হবে?
আদম 12344

ব্যাকপ্রপ করা হ'ল কৃমির সম্পূর্ণ পৃথক ক্যান! আপনি যে পৃষ্ঠায় লিঙ্ক করেছেন তাতে কম্পিউটারের ডেরিভেটিভস ইত্যাদির বিবরণ রয়েছে এবং স্ট্যাকওভারফ্লো এবং এই সাইটে ব্যাকপ্রপ সম্পর্কে অনেক প্রশ্ন রয়েছে। কিছুটা দেখার চেষ্টা করুন এবং তারপরে ব্যাকপ্রপ সম্পর্কে বিশেষত একটি পৃথক প্রশ্ন পোস্ট করার চেষ্টা করুন।
lmjohns3

ব্যাকপ্রপ বোঝার জন্য এটি আপনার পক্ষে কার্যকর হতে পারে এটি একটি চার স্তরের নিউরাল নেটওয়ার্কের সাথে ক্রিয়াল
গোরো

5

আমরা ঠিক কি সংক্ষেপে হয়?

টিউটোরিয়ালটি আসলে বেশ সুস্পষ্ট:

এন

এক্সΣএকটি

একটি=ΣWএক্স

পরে একই টিউটোরিয়ালে, নীলসন একটি মাল্টি-লেয়ার, মাল্টি-নিউরন নেটওয়ার্কের (ব্যয় function৩) জন্য ব্যয় ফাংশনের জন্য একটি অভিব্যক্তি দেয়:

সি=-1এনΣএক্সΣ[YLnএকটিএল+ +(1-Y)Ln(1-একটিএল)]

এক্স


অন্তর্দৃষ্টি জন্য ধন্যবাদ, একটি প্রশ্ন: আপনি সংক্ষিপ্ত বিবরণ সংজ্ঞা ক্রস এন্ট্রপি না, তাই না?
টমমসো গেরিনি

তিনি তার টিউটোরিয়ালে আরও বলেছিলেন যে "y কখনও কখনও 0 এবং 1 এর মধ্যে মধ্যবর্তী মানগুলি নিতে পারে" তবে তিনি যে ফাংশনটি দিয়েছেন তা সবই y এর উপর এবং কোনও অ্যাক্টিভেশন ইনপুট ছিল না। আমরা কিভাবে স্ট্যান্ড ফাংশনে মধ্যবর্তী মানগুলি প্রয়োগ করতে পারি?
Feras

নীলসনের টিউটোরিয়ালে, যা একটি একক-স্তর পার্সেপট্রন দেখায়, a = \ সিগমা (\ Sum_ {j} w_j x_j) কারণ আপনার আউটপুট স্তরের জন্য সিগময়েড অ্যাক্টিভেশন ফাংশন রয়েছে, একটি = \ Sum_ {j} w_j x_j
আর্ট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.