গভীর শিক্ষায় এমএলই এবং ক্রস এনট্রপির মধ্যে সংযোগ কতটা অর্থপূর্ণ?


12

আমি বুঝি যে একটি সেট দেওয়া m স্বাধীন পর্যবেক্ষণ সর্বাধিক সম্ভাবনা মূল্নির্ধারক (অথবা এবং, equivalently, ফ্ল্যাট দিয়ে মানচিত্রে / অভিন্ন পূর্বে) যে শনাক্ত পরামিতি যে মডেল বন্টন উত্পাদন যা এই পর্যবেক্ষণগুলির সাথে সবচেয়ে ভাল মেলেO={o(1),...,o(m)} পি এম ডি এল (θpmodel(;θ)

θML(O)=pmodel(O;θ)=argmaxθi=1mpmodel(o(i);θ)

বা, আরও সুবিধাজনকভাবে

θML(O)=argminθi=1mlogpmodel(o(i);θ)

এবং মাল্টি-ক্লাস গভীর নিউরাল নেটওয়ার্কগুলির জন্য ক্ষতির ফাংশন নির্ধারণে \ mathbf {θ} _ {এমএল} যে ভূমিকা নিতে পারে সেই ভূমিকাটি দেখুন θML, যেখানে θ s নেটওয়ার্কের প্রশিক্ষণযোগ্য প্যারামিটারগুলির সাথে সামঞ্জস্য করে (যেমন, θ={W,b}) এবং পর্যবেক্ষণগুলি ইনপুট ক্রিয়াকলাপগুলির জোড় are mathbf {x}x এবং y[1,k] , \ mathbf {o এর সাথে সম্পর্কিত সঠিক শ্রেণির লেবেল y the taking ^ {(i)}o(i) = { x(i),y(i) }, গ্রহণ করে

pmodel(o(i);θ)pmodel(y(i)|x(i);θ)


যা আমি বুঝতে পারি না এটি কীভাবে (ভেক্টরাইজড) সঠিক আউটপুট, , এবং নেটওয়ার্কের সম্পর্কিত আউটপুট ক্রিয়াকলাপগুলির সাথে সম্পর্কিত cross যখন প্রশিক্ষণের সময় এরর / ক্ষতি পরিমাপ যে অনুশীলন ব্যবহার করা হয় । বেশ কয়েকটি সম্পর্কিত সমস্যা রয়েছে:y(i)a(x(i);θ)

H(o(i);θ)=y(i)loga(x(i);θ)


ক্রিয়াকলাপ "সম্ভাব্যতা হিসাবে"

এমএলই এবং ক্রস এনট্রপির মধ্যে সম্পর্ক স্থাপনের একটি পদক্ষেপ হ'ল আউটপুট অ্যাক্টিভেশনগুলি "যদি" তারা সম্ভাব্যতা ব্যবহার করে তবে তা ব্যবহার করা। তবে এগুলি আমার কাছে বা কমপক্ষে যে তারা তা আমার কাছে পরিষ্কার নয় ।all

প্রশিক্ষণ ত্রুটির গণনা করার ক্ষেত্রে - বিশেষত, এটিকে "ক্রস এনট্রপি লোকসান" বলার ক্ষেত্রে - এটি ধরে নেওয়া হয় (ক্রিয়াকলাপগুলিকে 1 এর সমান করে দেওয়ার পরে)

(1)pmodel(o(i);θ)ay(i)(x(i);θ)

অথবা

logpmodel(o(i);θ)=logay(i)(x(i);θ)

যাতে আমরা লিখতে পারি

(3)logpmodel(o(i);θ)=y(i)loga(x(i);θ)

এবং এগুলো

θML(O)=argminθi=1mH(o(i);θ)

তবে এটি অবশ্যই সম্ভাবনা তৈরি করে (কিছুতেই যে পরিমাণে রয়েছে), এটি অন্যান্য ক্রিয়াকলাপগুলিতে কোনও বিধিনিষেধ রাখে না।ay(i)(x(i);θML)

সেই ক্ষেত্রে th that কে পিএমএফ বলা যেতে পারে? এমন কি এমন কিছু আছে যা বাস্তব সম্ভাবনাগুলিতে নয় (এবং কেবল তাদের মতো "পছন্দ করে" )?ay(i)(x(i);θML)ay(i)(x(i);θML)


শ্রেণিবদ্ধকরণের সীমাবদ্ধতা

এমএলইকে ক্রস-এন্ট্রপির সাথে সমীকরণের উপরের গুরুত্বপূর্ণ পদক্ষেপটি সম্পূর্ণরূপে one of এর "এক-গরম" কাঠামোর উপর নির্ভর করে যা একটি (একক-লেবেল) বহু-শ্রেণীর শেখার সমস্যাটিকে চিহ্নিত করে। জন্য অন্য কোন কাঠামো এটা অসম্ভব থেকে পেতে হবে থেকে ।y(i)y(i)(1)(3)

এমএলই এবং ক্রস-এন্ট্রপি মিনিমাইজেশনের সমীকরণটি কি সেই ক্ষেত্রে সীমাবদ্ধ যেখানে "" এক-গরম "? y(i)


বিভিন্ন প্রশিক্ষণ এবং পূর্বাভাসের সম্ভাবনা

ভবিষ্যদ্বাণী করার সময়, এটি প্রায় সর্বদা ক্ষেত্রে

(2)pmodel(y(i)|x(i);θ)P(argmaxj[1,k]aj(x(i);θ)=y(i))

যার ফলস্বরূপ সঠিক ভবিষ্যদ্বাণী হওয়ার সম্ভাবনা রয়েছে যা প্রশিক্ষণের সময় শিখে নেওয়া সম্ভাবনার থেকে পৃথক হয় যদি না এটি নির্ভরযোগ্যভাবে হয়

ay(i)(x(i);θML)=P(argmaxj[1,k]aj(x(i);θML)=y(i))

এটি কি কখনও নির্ভরযোগ্যভাবে হয়? এটি সম্ভবত কমপক্ষে সত্য? বা আরও কিছু যুক্তি রয়েছে যা লেবেল পজিশনে শিখে নেওয়া অ্যাক্টিভেশনের মানটির এই সমীকরণকে ন্যায্যতা দেয় যে সম্ভাব্যতার সাথে সেখানে শিখে নেওয়া অ্যাক্টিভেশনের সর্বাধিক মানটি ঘটে?


এন্ট্রপি এবং তথ্য তত্ত্ব

এমনকি অভিমানী যে উপরোক্ত উদ্বেগ সুরাহা করা হয় এবং সক্রিয়করণব্যবস্থা বৈধ PMFs হয় (অথবা করতে অর্থপূর্ণ যেমন চিকিত্সা করা), যাতে ভূমিকা ক্রস এনট্রপি অভিনয় কম্পিউটিং unproblematic হয়, তখন তাতে পরিষ্কার না আমাকে কেন or about) এর এনট্রপি সম্পর্কে কথা বলতে সাহায্য বা অর্থবহ কারণ, শ্যানন এন্ট্রপি একটি নির্দিষ্ট ক্ষেত্রে প্রযোজ্য এ জাতীয় এনকোডিং , যা নেটওয়ার্ক প্রশিক্ষণে ব্যবহৃত হচ্ছে না।θMLa(x(i);θML)

ব্যয় কার্যকারিতা ব্যাখ্যা করার ক্ষেত্রে তথ্য তাত্ত্বিক এনট্রোপি কী ভূমিকা পালন করে, কোনওটিকে গণনা করার জন্য কোনও সরঞ্জাম (ক্রস এনট্রপির আকারে) সরবরাহ করার বিপরীতে (যা এমএলইয়ের সাথে মিলে যায়)?

উত্তর:


5

নিউরাল নেট জরুরীভাবে আউটপুট হিসাবে সম্ভাব্যতা দেয় না, তবে তারা এটি করার জন্য ডিজাইন করা যেতে পারে। সম্ভাব্যতা হিসাবে ব্যাখ্যা করার জন্য, মানগুলির একটি সেট অবশ্যই ননজিটিভ এবং এক হতে হবে to আউটপুট সম্ভাব্যতার জন্য একটি নেটওয়ার্ক ডিজাইন করা সাধারণত এই প্রতিবন্ধকতাগুলি আরোপ করে এমন আউটপুট স্তর বেছে নেওয়ার মতো। উদাহরণস্বরূপ, ক্লাসগুলির সাথে একটি শ্রেণিবিন্যাসের সমস্যায় , একটি সাধারণ পছন্দ হ'ল ইউনিট সহ একটি সফটম্যাক্স আউটপুট স্তর । সফটম্যাক্স ফাংশন আউটপুটগুলিকে nonnegative হতে এবং একসাথে যোগ করতে বাধ্য করে। তম আউটপুট ইউনিট সম্ভাব্যতা যে ক্লাস হয় দেয় । বাইনারি শ্রেণিবদ্ধকরণ সমস্যার জন্য, আরেকটি জনপ্রিয় পছন্দ হ'ল লজিস্টিক সহ একক আউটপুট ইউনিট ব্যবহার করাkkjjঅ্যাক্টিভেশন ফাংশন লজিস্টিক ফাংশনের আউটপুট শূন্য এবং একের মধ্যে হয় এবং ক্লাসটি ১ হওয়ার সম্ভাবনা দেয় the শ্রেণি 0 হওয়ার সম্ভাবনাটি স্পষ্টতই এক বিয়োগে এই মান হয়। যদি নেটওয়ার্কটিতে কোনও গোপন স্তর থাকে না, তবে এই দুটি উদাহরণ যথাক্রমে বহু-জাতীয় লজিস্টিক রিগ্রেশন এবং লজিস্টিক রিগ্রেশন সমতুল্য ।

ক্রস এনট্রপি দুটি সম্ভাব্য বন্টন এবং মধ্যে পার্থক্য পরিমাপ করে । ক্রস এনট্রপি বৈষম্যমূলক ক্লাসিফায়ার জন্য একটি ক্ষতি ফাংশন হিসাবে ব্যবহার করা হয়, তখন এবং বর্গ লেবেল উপর ডিস্ট্রিবিউশন, ইনপুট (অর্থাত একটি নির্দিষ্ট ডাটা পয়েন্ট) দেওয়া হয়। হল 'সত্য' বিতরণ এবং হল মডেল দ্বারা পূর্বাভাস দেওয়া বিতরণ। সাধারণ শ্রেণিবদ্ধকরণ সমস্যাগুলিতে, ডেটাসেটের প্রতিটি ইনপুট সত্য শ্রেণীর প্রতিনিধিত্ব করে একটি পূর্ণসংখ্যার লেবেলের সাথে যুক্ত। এই ক্ষেত্রে, আমরা জন্য অভিজ্ঞতা অভিজ্ঞতা ব্যবহার করি useH(p,q)pqpqpqp। এটি কেবল ডেটা পয়েন্টের প্রকৃত শ্রেণিতে সম্ভাব্যতা 1 এবং অন্যান্য সমস্ত শ্রেণিতে সম্ভাব্যতা 0 প্রদান করে। হ'ল নেটওয়ার্ক দ্বারা পূর্বাভাস করা শ্রেণীর সম্ভাবনার বন্টন (যেমন উপরে বর্ণিত হিসাবে)।q

ডেটা আইডের কথা বলুন, হ'ল বিতরণ, এবং হ'ল পূর্বাভাস প্রাপ্ত বিতরণ ( ম ডাটা পয়েন্টের জন্য)। তারপরে, ক্রস এন্ট্রপি (যেমন ডেটা পয়েন্টগুলির চেয়ে গড় কমিয়ে আনা তথ্যের সম্ভাবনা সর্বাধিক করার সমতুল্য। প্রমাণ তুলনামূলকভাবে সহজ। মূল ধারণাটি দেখানো হয় যে ক্রস এন্ট্রপি ক্ষতি ডেটা পয়েন্টগুলির সম্ভাব্য সম্ভাব্যতাগুলি নেতিবাচক লগের সমানুপাতিক। এটিকে অভিজ্ঞতাগত বিতরণের ফর্মের কারণে ঝরঝরে হয়ে পড়েছে।piqiiH(pi,qi)

ক্রস এন্ট্রপি ক্ষতি আরও সাধারণভাবে প্রয়োগ করা যেতে পারে। উদাহরণস্বরূপ, 'নরম শ্রেণিবদ্ধকরণ' সমস্যাগুলিতে, হার্ড ক্লাস লেবেলের পরিবর্তে ক্লাস লেবেলের উপর আমাদের বিতরণ দেওয়া হয় (সুতরাং আমরা অভিজ্ঞতা অভিজ্ঞতাগুলি ব্যবহার করি না)। আমি এখানে সেই ক্ষেত্রে ক্রস এনট্রপি ক্ষতি কীভাবে ব্যবহার করব তা বর্ণনা করছি

আপনার প্রশ্নে আরও কিছু সুনির্দিষ্ট সমাধানের জন্য:

বিভিন্ন প্রশিক্ষণ এবং পূর্বাভাসের সম্ভাবনা

দেখে মনে হচ্ছে আপনি সর্বাধিক অ্যাক্টিভেশন সহ আউটপুট ইউনিট সন্ধান করছেন এবং এটি ক্লাস লেবেলের সাথে তুলনা করছেন। ক্রস এনট্রপি ক্ষতি ব্যবহার করে প্রশিক্ষণের জন্য এটি করা হয়নি। পরিবর্তে, মডেল দ্বারা সম্ভাব্যতা আউটপুটকে 'সত্য' সম্ভাবনার সাথে তুলনা করা হয় (সাধারণত অভিজ্ঞতা অভিজ্ঞতা হিসাবে নেওয়া হয়)।

শ্যানন এন্ট্রপি একটি নির্দিষ্ট ধরণের এনকোডিংয়ের ক্ষেত্রে প্রযোজ্য, যা নেটওয়ার্ক প্রশিক্ষণে ব্যবহৃত হচ্ছে না।

ক্রস এনট্রপি সঙ্কেতাক্ষরে লিখা ঘটনা সত্য বিতরণ থেকে টানা (গড়ে) প্রয়োজন বার্তা প্রতি বিট সংখ্যা হিসাবে ব্যাখ্যা করা যেতে পারে , বিতরণের জন্য একটি অনুকূল কোড ব্যবহার করে । ক্রস এনট্রপি একটি সর্বনিম্ন মান লাগে (শ্যানন এনট্রপি ) যখন । এবং মধ্যে ম্যাচটি আরও ভালH(p,q)pqH(p)pq=pqp, বার্তার দৈর্ঘ্য কম। ক্রস এন্ট্রপিকে হ্রাস করার জন্য একটি মডেলকে প্রশিক্ষণ দেওয়া সত্যিকারের বন্টনকে আরও আনুমানিক করার জন্য এটি প্রশিক্ষণ হিসাবে দেখা যায়। আমরা যেমন আলোচনা করেছি তত্ত্বাবধানে শেখার সমস্যাগুলিতে, মডেলটি ইনপুটটি দিয়ে সম্ভাব্য আউটপুটগুলিতে সম্ভাব্য বন্টন দেয়। সুস্পষ্টভাবে বিতরণের জন্য অনুকূল কোডগুলি সন্ধান করা প্রক্রিয়ার অংশ নয়।


"ক্রস এনট্রপি ক্ষতি ব্যবহার করে প্রশিক্ষণের জন্য এটি করা হয়নি" " এর মতো এপিআইগুলি ঠিক এটি করে softmax_cross_entropy_with_logits: তারা গণনা করে এবং এইভাবে যা একটি নেটওয়ার্ক "সংজ্ঞা দেয়" সম্ভাব্যতা তৈরি করার জন্য ডিজাইন করে (কমপক্ষে লেবেলের স্থানে)। কোন? argminθi=1mH(o(i);θ)θML(O)
অরোম

হ্যাঁ, ক্রস এনট্রপি হ্রাস করা হয়েছে এবং সম্ভাবনা সর্বাধিক (কমপক্ষে স্থানীয়ভাবে) ally সেই বাক্যে, আমি "বিভিন্ন প্রশিক্ষণ এবং ভবিষ্যদ্বাণী সম্ভাবনা" বিভাগের সমীকরণগুলি উল্লেখ করছি। এটির দিকে তাকালে, এই সমীকরণগুলির সাথে আপনি কী বোঝাতে চাইছেন তা আমার কাছে পরিষ্কার নয়, তাই আমি কেবল বলব: যদি আপনি এমন একটি আউটপুট স্তর ব্যবহার করেন যেখানে প্রতিটি ইউনিট শ্রেণীর সম্ভাবনা দেয় (যেমন সফটম্যাক্স)। প্রশিক্ষণ এবং পূর্বাভাসের সময় মডেলের সম্ভাব্যতাগুলি একই রকম। pmodel(y(i)=jx(i);θ)=aj(x(i);θ)
ব্যবহারকারী20160

আমি বুঝতে পেরেছি যে একই মানগুলি ব্যবহৃত হয় - অর্থাৎ, শিখে নেওয়া পূর্বাভাসে ব্যবহৃত হয় - তবে সেগুলি বিভিন্ন উপায়ে ব্যবহার করা হয়। সম্ভাব্যতা যে জন্য মডেল শেখে প্রকৃতপক্ষে , তবে সম্ভাব্যতা যে the প্রশিক্ষিত মডেল দ্বারা ভবিষ্যদ্বাণী করা হবে একই ইনপুট জবাবে, হয় । (2) সত্য না হলে এগুলি এক নয়। apmodel(y(i)|x(i);θML)ay(i)(x(i);θML)y(i)x(i)P(argmaxj[1,k]aj(x(i);θML)=y(i))
ওরোম

এবং (প্রথম প্রশ্ন) আমি বুঝতে পারি কারণ ভূমিকাটির কারণে, একে সংজ্ঞায়িত হয়েছে। (1), অভিনয় পূর্ণবিস্তার মধ্যে , মান হয় সম্ভাব্যতা (কারণ না সফটম্যাক্সের, যা কেবলমাত্র তারা 1 এ যোগ করবে বলে আশ্বাস দেয়)। তবে এটি অন্যান্য উপর কোনও বাধা দেয় না ; (তারা যোগফল ব্যতীত )। সুতরাং আমি কীভাবে কে পিএমএফ হিসাবে বিবেচনা করা যায় তা দেখছি না। ay(i)(x(i);θ)pmodel(O;θ)ay(i)(x(i);θML)ajjy(i)1ay(i)a(x(i);θML)
ওরোম

প্রথম প্রশ্নের বিন্দু তৈরি করার আরেকটি উপায় হ'ল কেবল কখনও এমএল প্রক্রিয়াতে অংশ নেয় এবং সুতরাং কেবল তাদের সম্ভাব্যতা হিসাবে বিবেচনা করা যেতে পারে। এবং যখন একটি উপযুক্ত অ্যাক্টিভেশন ফাংশন (যেমন সফ্টম্যাক্স) নিশ্চিত করে যে বাকী অ্যাক্টিভেশনগুলির যোগফল একটি সম্ভাবনা হবে, তাদের কারও মধ্যে সম্পর্কের কোনও অর্থ নেই। ay(i)
ওরোম

3

আমি কীভাবে, কখন এবং কেন এনএন আউটপুটকে সম্ভাবনা বন্টন হিসাবে বিবেচনা করতে পারি তার প্রকৃতি সম্পর্কে আমি কিছুটা সাধারণ দৃষ্টিকোণ থেকে উত্তর দেব।

ইন্দ্রিয় softmax enforces যে আউটপুট 1 থেকে যোগফল এবং অ নেতিবাচক হতে, নেটওয়ার্ক আউটপুট হয় ক্লাস উপর একটি বিযুক্ত সম্ভাব্যতা বিতরণের, অথবা অন্তত যেমন ব্যাখ্যা করা যেতে পারে। সুতরাং ক্রস-এন্ট্রপিজ এবং সর্বাধিক সম্ভাবনা সম্পর্কে কথা বলা পুরোপুরি যুক্তিসঙ্গত।

যাইহোক, আমি যা মনে করি আপনি যা দেখছেন (এবং এটি সঠিক) তা হ'ল আউটপুট "সম্ভাব্যতা "গুলির সঠিকতার আসল সম্ভাবনার সাথে কোনও সম্পর্ক নেই । এটি এমএল-তে একটি সুপরিচিত সমস্যা, যাকে ক্যালিব্রেশন বলে । উদাহরণস্বরূপ, যদি আপনার ক্লাসিফায়ার কুকুর এবং বিড়াল বলেছেন , তাহলে আপনি আশা যে আপনি যদি উদাহরণ একটি সেট গ্রহণ যার সকলের , তখন প্রায় 30% ইনপুটগুলি ভুল শ্রেণিবদ্ধ হবে (যেহেতু এটি কেবলমাত্র 70% আত্মবিশ্বাসী)।fθDCfθ(xi,C)=P(xi=C|θ)=0.7S={xj} P(xj=C|θ)=0.7

তবে, দেখা যাচ্ছে যে আধুনিক প্রশিক্ষণ পদ্ধতিগুলি এটিকে মোটেই প্রয়োগ করে না! এর কিছু আলোচনা দেখতে গুও এট আল, মডার্ন নিউরাল নেটওয়ার্কের ক্যালিব্রেশন অন করুন

অন্য কথায়, সফটম্যাক্স থেকে আউটপুটটির "সম্ভাবনা" এর প্রকৃত মডেলের আত্মবিশ্বাসের সাথে ভাল কোনও সম্পর্ক থাকতে পারে । এবং এটি কোনও আশ্চর্যের নয়: আমরা কেবল আমাদের যথার্থতা বাড়িয়ে তুলতে চাই এবং প্রতিটি ইনপুট উদাহরণের এটির টার্গেট শ্রেণি হওয়ার সম্ভাবনা 1 থাকে। এই অধিকারটি পাওয়ার জন্য মডেলটিকে উত্সাহিত করার সামান্যই আছে। যদি অনিশ্চয়তার অনুমান করার প্রয়োজন না হয় তবে তা কেন করা উচিত? ক্রস-এনট্রপি এই সমস্যাটিকে সংশোধন করে না; প্রকৃতপক্ষে, আপনি এটি প্রতিবার একটি ব-দ্বীপ ফাংশনে যেতে বলছেন!

বায়সিয়ান নিউরাল নেটওয়ার্কগুলিতে সাম্প্রতিক প্রচুর কাজ এই সমস্যাটিকে সংশোধন করার জন্য প্রচেষ্টা করে। এই জাতীয় মডেলগুলি প্রদত্ত প্যারামিটারগুলির উপরে বিতরণ নিয়োগ করে , যা প্রকৃত সম্ভাব্যতা বন্টন পাওয়ার জন্য একীভূত করা যেতে পারে । এটি দরকারী অনিশ্চয়তা পরিমাপ এবং আরও ভাল ক্যালিব্রেশন গ্যারান্টি সাহায্য করে। তবে এটি গণনার ক্ষেত্রে আরও সমস্যাযুক্ত।P(θ|X)=P(X|θ)P(θ)/P(X)P(yi|xi,X)=P(yi|θ,xi)P(θ|X)dθ

আশা করি আমি আপনার প্রশ্নটি ভুল বুঝব না!


একটি দুর্দান্ত সম্পর্কিত কাজ: arxiv.org/abs/1711.01297
user3658307

0

ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্কগুলি যথাযথভাবে প্রশিক্ষণ দেওয়া হলে সত্য শ্রেণীর সম্ভাব্যতাগুলি আনুমানিক।

1991-এ, রিচার্ড এবং লিপম্যান প্রমাণ করেছিলেন যে ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্কগুলি পরবর্তী শ্রেণীর সম্ভাব্যতার দিকে এগিয়ে যায়, যখন {0,1} শ্রেণি-সূচক লক্ষ্য বিন্যাস [ রিচার্ড এমডি, এবং লিপ্পম্যান আরপি (1991) দ্বারা প্রশিক্ষিত হয় নিউরাল নেটওয়ার্ক শ্রেণিবদ্ধরা বেয়েসিয়ানকে একটি উত্তরোত্তর সম্ভাবনা বলে অনুমান করে। নিউরাল গণনা, 3, 461– 483. ]। তাদের প্রমাণের লাইনে তারা এক-লুকানো স্তর ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্ক ব্যবহার করে।

ডুডা অ্যান্ড হার্টের গাণিতিক টীকাতে [ ডুদা আরও এবং হার্ট পিই (1973) প্যাটার্ন শ্রেণিবদ্ধকরণ এবং দৃশ্য বিশ্লেষণ, উইলি ] ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্ককে ইনপুট ভেক্টর হিসাবে সরবরাহ করা বৈশিষ্ট্য বিতরণকে হিসাবে) হিসাবে সংজ্ঞায়িত করুন , যেখানে উদাহরণস্বরূপ ডেটা ভেক্টর 4 বৈশিষ্ট্য-ভেরিয়েবল সহ শ্রেণিবিন্যাস কার্যের জন্য সমান । সূচক সম্ভব ইঙ্গিত ক্লাস, ।P(xωi)x=(0.2,10.2,0,2)ini{1,,n}

ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্ক শ্রেণিবদ্ধকারী গ্রেডিয়েন্ট বংশোদ্ভূত দ্বারা প্রশিক্ষিত হলে পরবর্তী সম্ভাবনাগুলি,পছন্দসই আউটপুট প্যাটার্ন চাহিদা উদাহরণস্বরূপ হতে , দুই বর্গ শ্রেণীবিন্যাস সমস্যার জন্য। ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্কটিতে প্রতি ক্লাসে একটি আউটপুট নোড রয়েছে। ভেক্টর নির্দেশ করে যে পর্যবেক্ষণ করা বৈশিষ্ট্য-ভেক্টর 2'শ্রেণীর অন্তর্গত।P^(ωix)o=(0,1)(0,1)


এটাই প্রশ্ন নয়।
ওরোম

0

লগ-সম্ভাবনা আপনার প্রশ্নের প্রসঙ্গে এন্ট্রপির সাথে সরাসরি যুক্ত নয়। মিলটি অতিমাত্রায়: উভয়েরই সম্ভাবনার মতো পরিমাণের লোগারিথমের যোগফল রয়েছে।

লগ-সম্ভাবনা (এমএলই) এ লগারিদম সংখ্যার গণনার কারণে বিশুদ্ধভাবে সম্পন্ন হয়। সম্ভাবনার পণ্যগুলি খুব কম সংখ্যক হতে পারে, বিশেষত যদি আপনার নমুনা বড় হয়। তারপরে সম্ভাবনার পরিধি 1 থেকে অদৃশ্যভাবে কোনও পণ্যটির ছোট মান পর্যন্ত যায়। আপনি লগ পাওয়ার পরে, পণ্যটি একটি যোগফল হয়ে যায় এবং লগ ফাংশনটি আরও কম পরিচালিত ডোমেনে মানের সীমাটিকে সংকুচিত করে। লোগারিদম একটি একঘেয়ে ফাংশন, সুতরাং লগ-সম্ভাবনার সর্বাধিক (মিনিট) সম্ভাবনার একই উত্তর তৈরি করে। সুতরাং, এমএলই প্রকাশের লগের উপস্থিতি গাণিতিক দিক থেকে গুরুত্বপূর্ণ নয় এবং এটি কেবল সুবিধার বিষয়।

এন্ট্রপিতে লগারিদম ফাংশনের উপস্থিতি আরও সুস্পষ্ট এবং এর পরিসংখ্যান পরিসংখ্যানিক মেকানিক্সে রয়েছে, এটি পদার্থবিদ্যার একটি শাখা। এটি বোল্টজমান বিতরণের সাথে যুক্ত , যা গ্যাসের তত্ত্বে ব্যবহৃত হয়। উদাহরণস্বরূপ, আপনি এটি ব্যবহার করে উচ্চতার একটি ফাংশন হিসাবে বায়ুচাপটি অর্জন করতে পারেন।


এই ঠিকানাটির প্রশ্নের কোন অংশটি আপনি হাইলাইট করতে পারেন?
ওরোম

আমি যেমন ওপি তে বলছি, এটা পরিষ্কার যে এমএলই প্রকাশের দ্বিতীয় উপায়ে লগের ব্যবহার কেবল সুবিধার্থে (আপনার প্রথম দুটি অনুচ্ছেদ)। এবং আপনার শেষ অনুচ্ছেদটি কেবল এন্ট্রপির জন্য অভিব্যক্তিতে লগের উপস্থিতি অর্থবোধক বলে মনে হচ্ছে - এনট্রপির প্রসঙ্গে (উল্লেখযোগ্য পদার্থবিজ্ঞান)। তবে কী অনুপস্থিত (এবং এটিই প্রশ্ন) এই দুটি স্বতন্ত্র (এবং সত্য) পর্যবেক্ষণকে লিঙ্ক করার একটি যুক্তিযুক্ত। এমএলইয়ের জন্য দ্বিতীয় সমীকরণটি প্রকাশ করার জন্য একটি কার্যকর উপায় (3) এর পরে সমীকরণটি ছাড়া আমি অন্যটি দেখতে পাচ্ছি না। সম্ভবত আপনি কি বলছেন?
ওরোম

@ অরোম, আপনি অবশ্যই এনট্রোপিকে এনট্রপি গণনা করতে পারেন, তবে ক্রস এনট্রপি ফাংশনটি বেশিরভাগ ক্ষেত্রে বাস্তবে কীভাবে ব্যবহৃত হয় তা তা নয়। আপনি এটিকে অন্য ধরণের ব্যয় ফাংশন হিসাবে ভাবতে পারেন, এটি এখানে এটিই যথেষ্ট to এটি পছন্দসই বৈশিষ্ট্যযুক্ত বলে মনে হয়, এবং এটি দুর্দান্তভাবে প্রতিসম হয়।
আকসকল

হ্যাঁ, তাই এটিকে এনট্রপি বলা বা পরামর্শ দেওয়া উচিত যে অর্থবহ বিভ্রান্তি (যার জন্য "এন্ট্রপি" কোনও অন্তর্দৃষ্টি সরবরাহ করে) বিভ্রান্তিকরay(i)(x(i);θML)
ওরোম

@ আরো, আমি নামটি সম্পর্কে আগ্রহী হব না। এটি "কব্জির ক্ষতি" ফাংশনটির হিঙ্গাদের সাথে খুব কম সম্পর্ক রয়েছে। তারা এটিকে "এন্ট্রপি ক্ষতি" হিসাবে ডাকে কারণ এর কার্যকরী ফর্মটি হ'ল তথ্য এনট্রপি সমীকরণের মতো।
আকসকল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.