ক্রস-এনট্রপি ব্যয়টি কি রিগ্রেশন প্রসঙ্গে বোঝায়?


14

ক্রস-এনট্রপি ব্যয়টি কি রিগ্রেশন প্রসঙ্গে (শ্রেণিবিন্যাসের বিপরীতে) অর্থবোধ করে? যদি তা হয় তবে আপনি টেনসরফ্লো এর মাধ্যমে খেলনার উদাহরণ দিতে পারেন? তা না হলে কেন?

আমি নিউরাল নেটওয়ার্কগুলিতে ক্রস-এনট্রপি এবং মাইকেল নীলসেনের ডিপ লার্নিংয়ের বিষয়ে পড়ছিলাম এবং মনে হয় এটি এমন একটি বিষয় যা স্বাভাবিকভাবেই রিগ্রেশন এবং শ্রেণিবিন্যাসের জন্য ব্যবহার করা যেতে পারে তবে আমি টেনসরফ্লোতে কীভাবে এটি দক্ষতার সাথে প্রয়োগ করব তা আমি বুঝতে পারি না ক্ষতির ফাংশনগুলি লগইট নেয় (যা আমি সত্যিই বুঝতে পারি না) এবং সেগুলি এখানে শ্রেণিবদ্ধের অধীনে তালিকাভুক্ত করা হয়েছে


2
আমি এখানে কোওরে খুঁজে পেয়েছি যা এই প্রশ্নের উত্তর হিসাবে গ্রহণযোগ্যতার চেয়ে আলাদা বলেছিল
সিদ্ধার্থ শাক্য

আপনি যদি পুরো প্রতিক্রিয়াটি পড়েন তবে আপনি দেখতে পাচ্ছেন যে তিনি ক্রস-এন্ট্রপিটির একটি "অবিচ্ছিন্ন সংস্করণ" দিয়েছেন যা দুর্দান্ত,
জ্যাককাউন

উত্তর:


11

না, টেনসরফ্লো ফাংশনগুলি tf.nn.sigmoid_cross_entropy_with_logitsকোনও রিগ্রেশন টাস্কের মতো ব্যবহার করা বোধগম্য নয় । টেনসরফ্লো-তে, "ক্রস-এনট্রপি" শর্টহ্যান্ড (বা জার্গন) "শ্রেণিবদ্ধ ক্রস এনট্রপি" এর জন্য। শ্রেণিবদ্ধ ক্রস এনট্রপি সম্ভাবনার উপর একটি অপারেশন। একটি রিগ্রেশন সমস্যা শ্রেণিবিন্যাসের পরিবর্তে ধারাবাহিক ফলাফলের পূর্বাভাস দেওয়ার চেষ্টা করে।

জার্গন "ক্রস-এন্ট্রপি" সামান্য বিভ্রান্তিকর, কারণ ক্রস-এনট্রপি লোকসানের অনেকগুলি কার্য রয়েছে; তবে, এই নির্দিষ্ট ক্ষতিটিকে "ক্রস-এন্ট্রপি" ক্ষতি হিসাবে উল্লেখ করার জন্য এটি মেশিন লার্নিংয়ের একটি সম্মেলন।

আপনার যদি সংযুক্ত টেনসরফ্লো ফাংশনগুলির বাইরে আমরা যদি দেখি তবে অবশ্যই সেখানে সম্ভাব্য সংখ্যক ক্রস-এন্ট্রপি ফাংশন রয়েছে। এটি কারণ ক্রস-এন্ট্রপির সাধারণ ধারণাটি দুটি সম্ভাব্য বন্টনের তুলনা সম্পর্কে। আপনি যে দুটি সম্ভাব্য বন্টন তুলনা করতে চান তার উপর নির্ভর করে আপনি সাধারণ শ্রেণিবদ্ধ ক্রস-এনট্রপি ক্ষতির চেয়ে আলাদা ক্ষতিতে আসতে পারেন। উদাহরণস্বরূপ, গাউসীয় টার্গেটের ক্রস-এনট্রপিটি কিছু বিবিধ গড়ের সাথে তবে স্থির তির্যক covariance এর অর্থ স্কোয়ার ত্রুটি হ্রাস করে। এই প্রশ্নগুলিতে ক্রস-এন্ট্রপির সাধারণ ধারণাটি আরও বিশদে বর্ণিত হয়েছে:


6
যদিও, এটি উল্লেখ করা উচিত যে বাইনারি ক্রসসেন্ট্রোপিকে একটি রিগ্রেশন টাস্কে ক্ষতির ফাংশন হিসাবে ব্যবহার করা যেখানে আউটপুট মানগুলি পরিমাপের আসল মান হয় [0,1] করণীয় একটি বেশ যুক্তিসঙ্গত এবং বৈধ কাজ।
আজ

@ আজ আমি মনে করি এটি এমন একটি অনুশীলন যা কিছু লোক ব্যবহারিক কারণে গ্রহণ করে (যেমন নিউরাল নেটওয়ার্ক আরও দ্রুত রূপান্তরিত হয়), তবে আমি নিশ্চিত নই যে দুটি সম্ভাবনা বন্টনের তুলনার সাথে এই মডেলটির কোনও সম্পর্ক আছে। সম্ভবত আপনি দেখাতে পারেন যে এবং বাইনারি ক্রস-এন্ট্রপির মধ্যে একটি ধারাবাহিক-মূল্যবান টার্গেটের মধ্যে একটি সম্পর্ক রয়েছে ? [0,1]
সাইকোরাক্স

6

@ সাইকোরাক্সের দেওয়া উত্তরটি সঠিক। যাইহোক, এটি উল্লেখযোগ্য যে (বাইনারি) ক্রম-এনট্রপি ব্যবহার করে এমন কোনও রিগ্রেশন টাস্ক যেখানে আউটপুট মানগুলি সীমার মধ্যে থাকে [0,1] করণীয় একটি বৈধ এবং যুক্তিসঙ্গত কাজ। প্রকৃতপক্ষে, এটি চিত্র স্বয়ংক্রিয়কোডারগুলিতে ব্যবহৃত হয় (যেমন এখানে এবং এই কাগজটি )। আপনি এই উত্তরে কেন এই ক্ষেত্রে এটি কাজ করে তার একটি সাধারণ গাণিতিক প্রমাণ দেখতে আগ্রহী হতে পারেন ।


ক্ষতি ফাংশনগুলি সম্ভাবনা / পোস্টেরিয়ার বা তাদের কিছু একজাতীয় রূপান্তর হিসাবে দেখা যায়। সুতরাং, যদিও এটি সত্য যে কোনও কোনও রিগ্রেশন মডেলগুলিতে ক্রস-এন্ট্রপির অনুরূপ ক্ষতির অর্থ হতে পারে, যেখানে আউটপুটগুলি সীমার মধ্যে রয়েছে এমন কোনও প্রতিরোধের সাথে মোকাবিলা করার পক্ষে যুক্তিসঙ্গত পন্থা হতে পারে না । [0,1]
ইনফপ্রবএসসিএক্স

@ ইনফপ্রবএসসিএক্স " আউটপুটগুলি [0,1] সীমার মধ্যে রয়েছে এমন কোনও প্রতিরোধের সাথে মোকাবিলা করার পক্ষে যুক্তিসঙ্গত পন্থা হতে পারে না ।" সুতরাং "যুক্তিসঙ্গত" কোন অর্থে? অথবা আপনি কোনও নির্দিষ্ট কাজের জন্য ক্ষতির কার্যকারিতার যুক্তিটি কীভাবে সংজ্ঞায়িত করবেন? আমি সন্দেহ করি যে কোনও ক্ষতি কর্মের জন্য বিবৃতিটি সত্য হতে পারে। অবশ্যই "যুক্তিসঙ্গত" সংজ্ঞায়নের পরে কি কোনও ক্ষতির ফাংশন রয়েছে যা অবশ্যই সব ধরণের রিগ্রেশন কাজের জন্য ব্যবহার করা যুক্তিসঙ্গত হবে?
আজ

আমি যুক্তিসঙ্গতভাবে যেভাবে সংজ্ঞা দিচ্ছি তা হ'ল একটি মডেল আইন তৈরি করা। উদাহরণস্বরূপ, মতো কোনও রিগ্রেশন ফ্রেমওয়ার্কে যেখানে আইড ত্রুটি রয়েছে - সাধারণত বিতরণ করুন বলুন, নেতিবাচক লগ-সম্ভাবনা হ'ল বর্গক্ষেত্রের ক্ষতি। একটি সেটিং যেখানে মত মডেল আইন দেখায় , নেতিবাচক লগ-সম্ভাবনা নেই ঠিক বাইনারি ক্রস এনট্রপি। যেখানে আইনটি রন্ধনসম্পর্কীয় একটি রেফারেন্স যেখানে স্বাভাবিকের আগে কফগুলিতে ক্ষতি হয়, লোকসানটি এল 2 জরিমানার সাথে মিলে যায়। যেখানে সম্ভব, আমি একটি আইন তৈরি করব এবং তারপরে একটি ক্ষতি অর্জন করব। ϵ Y B e r n o u l l i ( p θ )Y=fθ(X)+ϵϵYBernoulli(pθ)
ইনফপ্রবএসসিএক্স

@ আইএনএফপ্রবএসসিএক্স আপনার উত্তরের জন্য ধন্যবাদ। সুতরাং যেমনটি আপনি উল্লেখ করেছেন, রিগ্রেশন টাস্ক (এবং ডেটা, ত্রুটি ইত্যাদির বিতরণের উপর অনুমান) এর উপর নির্ভর করে একটি ক্ষতির ফাংশন ব্যবহার করা যুক্তিসঙ্গত হতে পারে না। এবং, যেমনটি আমি বলেছি, ক্রসসেন্ট্রপি সহ সমস্ত ক্ষতির কার্যকারীর ক্ষেত্রে এটি সত্য। অবশ্যই, আমি আপনার বক্তব্যটি দেখছি যে কেবলমাত্র আউটপুট মানগুলি সীমার মধ্যে রয়েছে [0,1] গ্যারান্টি দেয় না যে ক্রসসেন্টরোপিটি অনুকূল পছন্দ লস ফাংশন এবং আমি আমার উত্তরে অন্যথায় জানাতে চেষ্টা করছিলাম না।
আজ

5

গভীর শেখার ফ্রেমওয়ার্কগুলি প্রায়শই মডেল এবং ক্ষতির মিশ্রণ করে এবং একটি বহুজাতিক মডেলের ক্রস-এনট্রপিকে সফটম্যাক্স ননলাইনারিটির সাথে উল্লেখ করে cross_entropy, যা বিভ্রান্তিকর। সাধারণভাবে, আপনি স্বেচ্ছাসেবী মডেলগুলির জন্য ক্রস-এনট্রপি সংজ্ঞায়িত করতে পারেন ।

পরিবর্তিত গড় কিন্তু স্থিরক ত্রিভুজাকার সমান্তরাল সহ গাউসীয় মডেলটির জন্য এটি এমএসই এর সমতুল্য। একটি সাধারণ সহভেদাংক জন্য ক্রস-এনট্রপি একটি ছক মিলা চাই মহলানবিশ দূরত্ব । তাত্পর্যপূর্ণ বিতরণের জন্য, ক্রস-এনট্রপি ক্ষতি মতো দেখাবে যেখানে অবিচ্ছিন্ন তবে অ-নেতিবাচক। সুতরাং হ্যাঁ , ক্রস-এনট্রপিটি রিগ্রেশনের জন্য ব্যবহার করা যেতে পারে।

fθ(x)ylogfθ(x),
y


2

দুর্ভাগ্যক্রমে, এখন পর্যন্ত @ সাইকোরাক্সের গৃহীত উত্তরগুলি বিশদভাবে জানা থাকলেও এটি ভুল।

আসলে, শ্রেণীগত ক্রস এনট্রপি মাধ্যমে রিগ্রেশন একটি প্রধান উদাহরণ - Wavenet - হয়েছে বাস্তবায়িত TensorFlow মধ্যে

নীতিটি হ'ল আপনি নিজের আউটপুট স্পেসকে আলাদা করে দেখেন এবং তারপরে আপনার মডেলটি কেবলমাত্র সম্পর্কিত বাক্সটির পূর্বাভাস দেয়; সাউন্ড মডেলিং ডোমেনের উদাহরণের জন্য কাগজের বিভাগ 2.2 দেখুন । সুতরাং প্রযুক্তিগতভাবে মডেলটি শ্রেণিবদ্ধকরণ সম্পাদন করার সময়, শেষ করা সমাধানটি হ'ল রিগ্রেশন।

একটি স্পষ্টত নেতিবাচকতা হ'ল, আপনি আউটপুট রেজুলেশন হারাবেন। তবে, এটি কোনও সমস্যা নাও হতে পারে (কমপক্ষে আমি মনে করি যে গুগলের কৃত্রিম সহকারী খুব মানবিক কণ্ঠে কথা বলেছেন ) বা আপনি কিছু পোস্ট-প্রসেসিং দিয়ে খেলতে পারেন, উদাহরণস্বরূপ সবচেয়ে সম্ভাব্য বিনের মধ্যে ইন্টারপোলটিং এবং এটি দুটি প্রতিবেশী।

অন্যদিকে, এই পদ্ধতিটি সাধারণ একক-লিনিয়ার-ইউনিট আউটপুটটির তুলনায় মডেলটিকে আরও বেশি শক্তিশালী করে তোলে, অর্থাত্ মাল্টি-মডেল পূর্বাভাসগুলি প্রকাশ করতে বা এর আত্মবিশ্বাসটি মূল্যায়ন করতে দেয়। যদিও দ্রষ্টব্য প্রাকৃতিকভাবে অন্য উপায়ে অর্জন করা যেতে পারে, যেমন ভেরিয়েশনাল অটোরকোডারগুলির মতো একটি স্পষ্ট (লগ) ভেরিয়েন্স আউটপুট থাকার মাধ্যমে।

যাইহোক, এই পদ্ধতিটি আরও মাত্রিক আউটপুটকে ভাল স্কেল করে না, কারণ এরপরে আউটপুট স্তরের আকার তাত্পর্যপূর্ণভাবে বৃদ্ধি পায়, এটি উভয়ই গণনামূলক এবং মডেলিংয়ের ইস্যু করে তোলে ..


1
আপনি যা বলছেন তা আমি দেখতে পাচ্ছি, তবে শ্রেণিবদ্ধকরণ ব্যবহার করে কোনও আধিপত্য সমস্যা যেমন অনুমান করা হচ্ছে ততই আমি ব্যক্তিগতভাবে আপনার আউটপুট স্পেসটিকে "রিগ্রেশন" সম্পাদন হিসাবে বিবেচনা করব না ... তবে আমার ধারণা এটি কেবল পরিভাষা / সম্মেলনের বিষয়।
জ্যাককিউন

1
একমত। 32-বিট ভাসমান স্থানটি যাইহোক বিচ্ছিন্ন :-)
উত্সর্গীকৃত

-1

আমি পূর্বে গৃহীত উত্তরগুলির সাথে আমি একমত না হওয়ায় আমি এই প্রশ্নটি পুনর্বিবেচনা করেছি। ক্রস এনট্রপি লোকসান ব্যবহার করতে পারেন (যদিও এটি সাধারণ নয়)

এটি নীচে নেমে আসে যে ক্রস-এন্ট্রপি এমন একটি ধারণা যা দুটি সম্ভাব্য বন্টনকে তুলনা করার সময় কেবল অর্থবোধ করে। আপনি এমন নিউরাল নেটওয়ার্ক বিবেচনা করতে পারেন যা একটি সাধারণ বিতরণের জন্য তার পূর্বাভাস হিসাবে গড় এবং স্ট্যান্ডার্ড বিচ্যুতিকে ছাড়িয়ে যায়। এরপরে খারাপ ভবিষ্যদ্বাণী সম্পর্কে আরও আত্মবিশ্বাসী হওয়ার জন্য আরও কঠোরভাবে শাস্তি দেওয়া হবে। হ্যাঁ, এটি অর্থবোধ করে, তবে কেবল যদি আপনি কোনও অর্থে বিতরণ আউটপুট করে থাকেন। আমার মূল প্রশ্নের একটি মন্তব্যে @ সিদ্ধার্থশ্যাখ্যার লিঙ্কটি এটি দেখায়।


1
এই উত্তরটি প্রশ্নের উত্তর জিজ্ঞাসার চেয়ে আলাদাভাবে বলে মনে হচ্ছে। আপনি প্রশ্নের সাথে যে ফাংশনগুলি সংযুক্ত করেছেন সেগুলি নির্দিষ্ট ধরণের ক্রস-এনট্রপি লোকসানের ক্ষতি সম্পর্কিত এবং আপনার প্রশ্নটি মনে হচ্ছে যে এই ফাংশনগুলি রিগ্রেশনটিতে ব্যবহার করা যেতে পারে কিনা, এবং আমার উত্তরটি এমনভাবে লেখা হয়েছে যেন আপনি কীভাবে সেই ফাংশনগুলি ব্যবহার করবেন জিজ্ঞাসা করছেন আপনি লিঙ্ক। এখানে উত্তরটি প্রশ্নের উত্তর বলে মনে হচ্ছে "ক্রস-এন্ট্রপিকে শ্রেণিবিন্যাসের বাইরেও সাধারণ করা যেতে পারে?" কিউ সম্পাদনা করলে তা পরিষ্কার হয়ে যাবে যে টেনসরফ্লো ফাংশন কীভাবে ব্যবহার করতে হবে তার চেয়ে ফোকাস না করে গাণিতিক ধারণাগুলি কীভাবে সংজ্ঞায়িত করা হয় তার উপরে ফোকাস।
সাইকোরাক্স মনিকাকে

আমি আপনার আপত্তি বুঝতে পেরেছি, তবে আমি প্রশ্নটি তেমনি রেখে দেওয়ার পরিকল্পনা করছি কারণ এটি আমার আসল প্রশ্নটি উপস্থাপন করে যা আমার মনে হয় যে একই প্রশ্নে মানুষকে সহায়তা করতে পারে। যে কোনও হারে, পুরো পোস্টে সামগ্রিকভাবে পর্যাপ্ত তথ্য থাকতে হবে।
জ্যাকউইন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.