সম্ভাবনার পরিবর্তে সর্বাধিক লগ সম্ভাব্যতা কেন অনুকূল করা যায়


66

সবচেয়ে মেশিন লার্নিং কর্ম যেখানে আপনি কিছু সম্ভাবনা প্রণয়ন করতে পারেন যা বড় করা উচিত, আমরা আসলে লগ সম্ভাব্যতা নিখুত হবে কিছু প্যারামিটার সম্ভাব্যতার পরিবর্তে । যেমন সর্বোচ্চ সম্ভাবনা প্রশিক্ষণ, এটি সাধারণত লগ-সম্ভাবনা like কিছু গ্রেডিয়েন্ট পদ্ধতিতে এটি করার সময়, এটিতে একটি ফ্যাক্টর জড়িত:plogpθ

logpθ=1ppθ

কিছু উদাহরণের জন্য এখানে বা এখানে দেখুন ।

অবশ্যই, অপ্টিমাইজেশন সমতুল্য, তবে গ্রেডিয়েন্টটি পৃথক হবে, সুতরাং যে কোনও গ্রেডিয়েন্ট-ভিত্তিক পদ্ধতি ভিন্ন আচরণ করবে (উদাহরণস্বরূপ স্টোকাস্টিক গ্রেডিয়েন্ট পদ্ধতি)। কোন আত্মপক্ষ সমর্থন এটা কি গ্রেডিয়েন্ট চেয়ে ভাল কাজ করে গ্রেডিয়েন্ট?logpp


3
আপনার লক্ষ্য করা দরকার যে আমরা সাধারণত ডেরাইভেটিভগুলি ব্যবহার করে সম্ভাবনা বাড়িয়ে তুলি। অন্যদিকে অনেক ক্ষেত্রে স্বাধীনতা শর্ত প্রয়োগ করা হয় যার অর্থ সম্ভাবনা কিছু আইড সম্ভাব্যতা ঘনত্ব ফাংশনগুলির উত্পাদন। অনেকগুলি ছোট মান ([0,1] ব্যবধানে) এর খুব অল্প মানের ফলস্বরূপ। এই একটি গণনা অসুবিধা হয়।
TPArrow

@ আলেজান্দ্রো রডরিগেজ আরও উত্তরের জন্য আমার উত্তরটি এখানে দেখুন।
পল

উত্তর:


65

গ্রেডিয়েন্ট পদ্ধতি সাধারণত ভাল নিখুঁত কাজ চেয়ে কারণ গ্রেডিয়েন্ট সাধারণত বেশি হয় ভালভাবে ছোটো । এটির একটি আকার রয়েছে যা ধারাবাহিকভাবে এবং সহায়কভাবে উদ্দেশ্যমূলক ফাংশনের জ্যামিতিকে প্রতিফলিত করে, উপযুক্ত পদক্ষেপের আকারটি নির্বাচন করা আরও কম পদক্ষেপে সর্বোত্তমটিতে পৌঁছানো সহজ করে তোলে।পি ( এক্স ) লগ পি ( এক্স )logp(x)p(x)logp(x)

আমি কী বলতে চাইছি তা দেখতে, এবং জন্য গ্রেডিয়েন্ট অপ্টিমাইজেশন প্রক্রিয়াটি তুলনা করুন । এ যে কোনো স্থানে , এর গ্রেডিয়েন্ট হয়যদি আমরা এটির দ্বারা গুণ করি তবে আমরা এর মূল বিষয় নয়, উত্সের বৈশ্বিক সর্বোত্তম পেতে প্রয়োজনীয় ধাপের আকারটি পাইf ( x ) = log p ( x ) = - x 2 x f ( x ) f ( x ) = - 2 x 1 / 2 এক্স এক্স ( এক্স ) ( এক্স ) এক্সp(x)=exp(x2)f(x)=logp(x)=x2xf(x)

f(x)=2x.
1/2xহয়। এর অর্থ হল একটি ভাল ধাপের আকার (বা এমএল জার্গনে "শেখার হার") পেতে আমাদের খুব বেশি পরিশ্রম করতে হবে না। আমাদের প্রাথমিক পয়েন্টটি যেখানেই হোক না কেন, আমরা কেবলমাত্র আমাদের ধাপটিকে অর্ধেক গ্রেডিয়েন্টে সেট করেছিলাম এবং আমরা এক ধাপে উত্সতে আসব। এবং যদি আমরা প্রয়োজনীয় ফ্যাক্টরটি না জানি তবে আমরা কেবল 1 টির কাছাকাছি একটি পদক্ষেপের আকার বাছাই করতে পারি, কিছুটা লাইন অনুসন্ধান করতে পারি এবং আমরা খুব দ্রুত একটি দুর্দান্ত ধাপের আকার খুঁজে পাব, এটি যে যেখানেই ভাল কাজ করে না কেন one হয় এই সম্পত্তিটি অনুবাদ স্কেলিং এবং স্কেলিংয়ের পক্ষে শক্ত । স্কেলিং ফলে সর্বোত্তম পদক্ষেপের স্কেলিং 1/2 থেকে পৃথক হয়ে উঠবে, কমপক্ষে পদক্ষেপের স্কেলিং সমান হবে যাই হোক না কেন , কেবলমাত্র কার্যকর গ্রেডিয়েন্ট-ভিত্তিক অপ্টিমাইজেশন পাওয়ার জন্য আমাদের কেবল একটি প্যারামিটার খুঁজতে হবে পরিকল্পনা.xf(x)f(x)x

বিপরীতে, এর গ্রেডিয়েন্টের অপ্টিমাইজেশনের জন্য খুব কম গ্লোবাল বৈশিষ্ট্য রয়েছে। আমাদের কাছেএটি পুরোপুরি সুন্দর, ভাল আচরণের গ্রেডিয়েন্ট কে একটি গুণক দিয়ে গুণিত করে যা বাড়ার সাথে সাথে দ্রুত (দ্রুততর) ক্ষয় হয় । এ , আমরা ইতিমধ্যেই আছে , তাই গ্রেডিয়েন্ট ভেক্টর বরাবর একটি পদক্ষেপ সম্পর্কে বার খুবই ছোট। সর্বোত্তমটির দিকে যুক্তিসঙ্গত পদক্ষেপের আকার পেতে, আমাদের সেই প্রতিদান দিয়ে গ্রেডিয়েন্টটি স্কেল করতে হবে, এক বিরাট ধ্রুবকp(x)

p(x)=f(x)p(x)=2xexp(x2).
2xexp(x2)xx=5exp(x2)=1.410111011 পি (এক্স) পি (এক্স)1011। এই ধরনের খারাপভাবে স্কেল করা গ্রেডিয়েন্টটি অপ্টিমাইজেশনের উদ্দেশ্যে অপদার্থের চেয়েও খারাপ বিপরীতে স্কেলিং করে আমাদের পদক্ষেপটি স্থির করার চেয়ে চলাচলের দিকের একক পদক্ষেপের চেষ্টা করাই ভাল ! (অনেকগুলি ভেরিয়েবলে কিছুটা দরকারী হয়ে যায় কারণ আমরা কমপক্ষে গ্রেডিয়েন্টের কাছ থেকে দিকনির্দেশক তথ্য পাই, তবে স্কেলিংয়ের সমস্যাটি রয়ে গেছে))p(x)p(x)

সাধারণভাবে কোনও গ্যারান্টি নেই যে এই খেলনা উদাহরণ হিসাবে দুর্দান্ত গ্রেডিয়েন্ট স্কেলিং বৈশিষ্ট্য থাকবে, বিশেষত যখন আমাদের একাধিক পরিবর্তনশীল থাকে। তবে কোনও অনানুষ্ঠানিক সমস্যার জন্য, হতে চলেছে, চেয়ে ভাল উপায় । এটি হ'ল কারণ সম্ভাবনাগুলি শর্তাদির একটি বৃহত্তর পণ্য এবং লগ সেই পণ্যটিকে একটি যোগফলে পরিণত করে, যেমনটি বেশ কয়েকটি অন্যান্য উত্তরে উল্লিখিত হয়েছে। প্রদত্ত সম্ভাবনার শর্তগুলি একটি অপ্টিমাইজেশন অবস্থান থেকে ভাল আচরণ করা হয়, তাদের লগটি সাধারণত ভাল আচরণ করা হয়, এবং ভাল আচরণিত ফাংশনগুলির যোগফলটি ভাল আচরণ করা হয়। দ্বারা ভালভাবে ভদ্র আমি বলতে চাচ্ছিlogp(x)logp(x)p(x)f(x)খুব বেশি বা খুব দ্রুত পরিবর্তন হয় না, যা প্রায় চতুর্ভুজ ফাংশনের দিকে পরিচালিত করে যা গ্রেডিয়েন্ট পদ্ধতি দ্বারা অনুকূলিতকরণ করা সহজ। একটি ডেরিভেটিভের যোগফলটি ডেরিভেটিভের অর্ডার যাই হোক না কেন, এটি যোগফলের ডেরিভেটিভ, এটি নিশ্চিত করতে সহায়তা করে যে যোগ শর্তগুলির বৃহত স্তূপের একটি খুব যুক্তিসঙ্গত দ্বিতীয় ডেরিভেটিভ রয়েছে!


4
+1 এই উত্তরটি সামনে আসে এবং বিষয়গুলিকে কেন্দ্র করে এমন পয়েন্টগুলিকে জোর দেয়।
হোবার

47

Underflow

কম্পিউটার ভগ্নাংশের একটি সীমাবদ্ধ অঙ্কের ভাসমান পয়েন্ট উপস্থাপনা ব্যবহার করে, এতগুলি সম্ভাবনার গুণমান শূন্যের খুব কাছাকাছি হওয়ার নিশ্চয়তা দেওয়া হয়।

সঙ্গে , আমরা এই সমস্যা হবে না।log


3
সংখ্যাগত স্থিতিশীলতার জন্য +1 - এটি এবং ইউরিলের উত্তরটি এক হওয়া উচিত!
আলেক টিল

1
আপনি লগ-স্পেসে পণ্যটি গণনা করতে পারেন, সুতরাং এটি একটি যোগফল হয়ে যায় এবং তারপরে এটি আবার স্থানান্তর করে। অথবা আপনি কি নিরূপণ যা সমান । সুতরাং, সংখ্যার স্থায়িত্ব প্রশ্ন নয়। logpθppθ
অ্যালবার্ট

1
মনে রাখবেন যে আপনি যে উল্লেখ করেছেন, তা হ'ল নমুনার সমস্ত ইভেন্টের সম্ভাবনার গুণ এবং হল উপাদানটি নিমজ্জিত হয় under pp
উরি গোরেন

5
@ ফিলিপ এই থ্রেডের পরিভাষাটি কিছুটা খারাপ পরামর্শ দেওয়া হয়েছে। আমরা সম্ভাবনার ঘনত্বগুলি নিয়ে আলোচনা করছি , সম্ভাবনাগুলি নয়। ঘনত্বগুলি নির্বিচারে: তারা পরিমাপের ইউনিটের উপর নির্ভর করে। তাছাড়া, যথেষ্ট নমুনা জন্য মাপ একটি স্থিতিমাপ মডেল থেকে কোন সহজ নমুনা সম্ভাব্যতা ঘনত্ব অবশেষে কম হতে হবে । বড় সমস্যায় (কয়েক মিলিয়ন ডেটা সহ), সম্ভাব্যতার ঘনত্বগুলি নিয়মিত বা এর চেয়ে কম হয়। এমনকি আকারের একটি নমুনা আদর্শ সাধারন বন্টনের থেকে একটি সম্ভাব্যতা ঘনত্ব কম আছে প্রায় নিশ্চিত । 212721000000802127
হোবার

4
@ ফিলিপ হাগলুন্ড: হুশিয়ারি সঠিক, তবে এটির ঘনত্ব এখানে গুরুত্বপূর্ণ পর্যবেক্ষণ নয়। আমরা ঠিক পাশাপাশি একটি বিচ্ছিন্ন প্রক্রিয়া নিয়ে আলোচনা করতে পারি এবং প্রকৃত সম্ভাবনার বিষয়ে কথা বলতে পারি (এবং বাস্তবে ওপি এই মামলাটি বাদ দেয় এমন কিছুই বলেনি)। তবে আমরা খুব নির্দিষ্ট ফলাফলের জন্য সম্ভাবনার কথা বলছি (উদাহরণস্বরূপ, লক্ষ লক্ষ পর্যবেক্ষণ কোনও নির্দিষ্ট পথে চলছে)। একটি নির্দিষ্ট সুনির্দিষ্ট ফলাফল অসম্ভাব্য, তবে বায়েশিয়ান অঞ্চলে সম্ভাবনার সম্ভাবনা অনুপাত গুরুত্বপূর্ণ, সুতরাং আমাদের জানতে হবে যে অন্যটির থেকে এক ক্ষুদ্র সম্ভাবনা কতটা বড়।
মেনি রোজেনফিল্ড

34
  1. একাধিক যৌথ সম্ভাবনার সম্ভাবনার সম্ভাবনার লগারিদম পৃথক সম্ভাবনার লগারিদমের যোগফলকে সরল করে তোলে (এবং যোগ বিধি জন্য বিধি বিধি বিধি বিধানের তুলনায় সহজ)

    log(iP(xi))=ilog(P(xi))

  2. ঘৃণ্য সম্ভাবনা বিতরণের পরিবারের সদস্যের লগারিদম (যা সর্বব্যাপী সাধারণ অন্তর্ভুক্ত) পরামিতিগুলিতে বহুপদী (যেমন সর্বাধিক সম্ভাবনা স্বাভাবিক বন্টনের জন্য সর্বনিম্ন-স্কোয়ারে হ্রাস পায় )

    log(exp(12x2))=12x2

  3. পরের ফর্মটি পূর্বের তুলনায় পৃথকতর সংখ্যার তুলনায় স্থিতিশীল এবং প্রতীকীভাবে সহজ।

  4. সর্বশেষে তবে সর্বনিম্ন নয়, লোগারিদম হল একজাতীয় রূপান্তর যা এক্সট্রিমার অবস্থানগুলি সংরক্ষণ করে (বিশেষত, সর্বাধিক সম্ভাবনার মধ্যে অনুমানিত প্যারামিটারগুলি মূল এবং লগ-রূপান্তরিত গঠনের জন্য অভিন্ন)


5
কারণ 2 যথেষ্ট চাপ দেওয়া যাবে না। গাউসিয়ান শোরগোলের সাথে লিনিয়ার মডেলের লগ-সম্ভাবনা সর্বাধিক করতে, আপনাকে কেবল একটি সর্বনিম্ন-স্কোয়ার সমস্যা সমাধান করতে হবে, যা সমীকরণের রৈখিক ব্যবস্থা সমাধানের সমান।
পল

কারণ 1 এবং 3 কেবল এটি কীভাবে গণনা করা যায় তা বর্ণনা করুন। আপনি এটা যে ভাবে নিরূপণ এবং তারপর এটি ফিরিয়ে রূপান্তর করুন (সংখ্যাবৃদ্ধি করতে পারে এমন ) পেতে । সংখ্যার স্থায়িত্বের জন্য লগ-স্পেসে গণনা করা এটি বেশ সাধারণ। আপনি কেন সেই গ্রেডিয়েন্টটি ব্যবহার করেন তা কিন্তু তা ব্যাখ্যা করে না। 4 কারণ গ্রেডিয়েন্ট আরও ভাল হওয়ার কারণ নয় । আপনি এটি অন্যান্য অনেক পরিবর্তন সহও করতে পারেন। কারণ 2 আকর্ষণীয় তবে আমি এখনও ঠিক নিশ্চিত নই যে কেন একটি বহুবর্ষের গ্রেডিয়েন্ট অন্য ফাংশনের গ্রেডিয়েন্টের চেয়ে ভাল। ppθlogp
অ্যালবার্ট

একটি বহুপদী ডেরিভেটিভ @Albert এক ডিগ্রি কম একটি বহুপদী (বিশেষত, দ্বিঘাত রৈখিক যায়) হল, যেহেতু exponentials কেবল না বিভেদ অধীনে না
TemplateRex

@ টেম্পলেটআরেক্স: হ্যাঁ, এটি পরিষ্কার। তবে আমি স্টোকাস্টিক গ্রেডিয়েন্ট পদ্ধতিতে রূপান্তর বৈশিষ্ট্যগুলি সম্পর্কে জিজ্ঞাসা করছি।
অ্যালবার্ট

25

পণ্যটির একটি ডেরাইভেটিভ গ্রহণের চেয়ে লগারিদমের সমষ্টিটির ডেরিভেটিভ নেওয়া অনেক সহজ, এতে বলা যায়, 100 গুণক।


10
এছাড়াও শর্তগুলি খুব ছোট বা বড় হয়ে গেলে আপনি সম্ভাব্য সংখ্যাসূচক সমস্যা হ্রাস করেন।
Björn

8
বিপরীতে, ওপি সুস্পষ্টভাবে ননজেটিভ ফাংশনগুলির যে কোনও পণ্যটির ডেরাইভেটিভ গণনা করার জন্য একটি দুর্দান্ত উপায় সরবরাহ করে: লগের ডেরিভেটিভসের যোগফলকে নিজেই গুণ করে। (লগারিদমের ক্ষেত্রে এই গুণটি সবচেয়ে ভালভাবে পরিচালিত হয়, যা @ বিজন এর মন্তব্যে উল্লিখিত সংখ্যাযুক্ত সমস্যাগুলিও দূর করে)) সুতরাং, "স্বাচ্ছন্দ্য" কোনও প্রকৃত ব্যাখ্যামূলক শক্তি সরবরাহ করে না, বা গ্রেডিয়েন্টগুলির তুলনা সম্পর্কে আরও অর্থবহ প্রশ্নকেও চিহ্নিত করে না ।
হোবার

10

একটি সাধারণ নিয়ম হিসাবে, সর্বাধিক মৌলিক এবং সহজ অপ্টিমাইজেশান সমস্যাটি হল চতুষ্কোণ কার্যটি অপ্টিমাইজ করা। আপনি যেখানেই শুরু করেন না কেন আপনি সহজেই এই জাতীয় ফাংশনের সর্বোত্তম সন্ধান করতে পারেন। এটি কীভাবে উদ্ঘাটিত হয় তা নির্দিষ্ট পদ্ধতির উপর নির্ভর করে তবে আপনার ফাংশনটি চতুষ্কোণের আরও কাছাকাছি, তত ভাল।

টেমপ্লেক্স দ্বারা উল্লিখিত হিসাবে, বিবিধ বিভিন্ন সমস্যায়, সম্ভাব্যতাগুলি ফাংশন গণনা করার ক্ষেত্রে সম্ভাব্যতাগুলি সাধারণ বিতরণ থেকে আসে বা এটি দ্বারা সন্নিবিষ্ট হয়। সুতরাং আপনি যদি লগতে কাজ করেন তবে আপনি একটি দুর্দান্ত চতুর্ভুজ ফাংশন পাবেন। আপনি যদি সম্ভাব্যতাগুলিতে কাজ করেন তবে আপনার একটি ফাংশন রয়েছে

  1. উত্তল নয় (সর্বত্রই অপ্টিমাইজেশনের অ্যালগরিদমের উদ্দীপনা)
  2. একাধিক স্কেলগুলি দ্রুত ক্রস করে এবং এর ফলে খুব সংকীর্ণ পরিসীমা থাকে যেখানে ফাংশনের মানগুলি কোথায় আপনার সন্ধানকে নির্দেশ করবে সে নির্দেশক।

যা ফাংশানে আপনি বরং, নিখুত হবে এই , বা এই ?

(এটি আসলে একটি সহজ ছিল; ব্যবহারিক অ্যাপ্লিকেশনগুলিতে আপনার সন্ধানটি সর্বোত্তমভাবে শুরু করতে পারে যে ফাংশনের মান এবং গ্রেডিয়েন্টগুলি, আপনি যদি তাদের সংখ্যায় গুণতে সক্ষম হন, তবে 0 থেকে পৃথক হয়ে যায় এবং অপ্টিমাইজেশনের উদ্দেশ্যে অকেজো হয় না অ্যালগোরিদম। তবে চতুর্ভুজ ফাংশনে রূপান্তরকরণ এটি কেকের টুকরো করে তোলে))

দ্রষ্টব্য যে এটি ইতিমধ্যে উল্লিখিত সংখ্যাগত স্থিতিশীলতার সমস্যার সাথে সম্পূর্ণ সুসংগত। লগ স্কেলটি এই ফাংশনটির সাথে কাজ করার জন্য প্রয়োজনীয় কারণটি হুবহু একই কারণ হ'ল লগের সম্ভাবনাটি আসলটির তুলনায় অনেক ভাল আচরণ করা (অপ্টিমাইজেশন এবং অন্যান্য উদ্দেশ্যে)।

আপনি এই অন্যভাবে যেতে পারে। এমনকি লগের কোনও সুবিধা না থাকলেও (যা রয়েছে) - আমরা ডেরিভেশন এবং গণনার জন্য লগ স্কেলটি যেভাবেই ব্যবহার করব, সুতরাং কেবল গ্রেডিয়েন্টটি গণনার জন্য এক্সপ্রেস ট্রান্সফর্মেশনটি প্রয়োগ করার কী কারণ আছে? আমরা পাশাপাশি লগ সঙ্গে সামঞ্জস্য থাকতে পারে।


@ টেম্পলেটআরেক্স: একটি (নিম্নগামী) উত্তল পজিটিভ ফাংশনের লগটি উত্তল, তবে রূপান্তরটি সত্য নয়। সম্ভাবনাগুলি উত্তল নয় তাই তাদের সংরক্ষণের মতো কিছুই নেই তবে লগটি উত্তল। আমি সংযুক্ত গ্রাফগুলি দেখুন - এক্সপ্রেস (-10x obvious 2) স্পষ্টতই নন-উত্তল, তবে -10x ^ 2 হয়।
মেনি রোজেনফিল্ড

4

ব্যবহার করে আমরা অপ্টিমাইজেশন অ্যালগরিদমের গতিশীল পরিসর বাড়িয়ে তুলি। অ্যাপ্লিকেশন সাধারণত ফাংশন একটি পণ্য। উদাহরণস্বরূপ, সর্বাধিক সম্ভাবনা অনুমানের ক্ষেত্রে এটি , যেখানে হচ্ছে ঘনত্বের ক্রিয়া, যা হতে পারে বৃহত্তর বা 1 এর চেয়ে কম, বিটিডব্লিউ।lnppL(x|θ)=Πi=1nf(xi|θ)f(.)

সুতরাং যখন খুবই বড়, বড় নমুনা অর্থাৎ, আপনার সম্ভাবনা ফাংশন সাধারণত পর্যন্ত 1 থেকে দূরে: এটা হয় খুব ছোট বা খুব বড়, কারণ এটি একটি ক্ষমতা ফাংশন ।nL(.)Lf(.)n

একটি লগ নিয়ে আমরা কেবল কোনও অপ্টিমাইজেশন অ্যালগরিদমের গতিশীল পরিসর উন্নত করি, এটি একইভাবে অত্যন্ত বড় বা ছোট মানগুলির সাথে কাজ করতে দেয় allowing


0

ইতিমধ্যে কিছু সুন্দর উত্তর দেওয়া হয়েছে। তবে আমি সম্প্রতি একটি নতুন মুখোমুখি হয়েছি:

প্রায়শই, আপনি একটি বিশাল প্রশিক্ষণ ডেটা সেট দেওয়া হয় , এবং আপনি কিছু সম্ভাব্য মডেল সংজ্ঞায়িত , এবং আপনার জন্য সম্ভাবনা সর্বাধিক চান । এগুলি স্বতন্ত্র বলে ধরে নেওয়া হয়, যেমন আপনার কাছে এখন, আপনি প্রায়শই কিছুটা স্টোকাস্টিক (মিনি-ব্যাচ) গ্রেডিয়েন্ট-ভিত্তিক প্রশিক্ষণ করেন, অর্থাত প্রতিটি পদক্ষেপে আপনার ক্ষতির জন্য , আপনি for এর জন্য অনুকূলিত করেন , অর্থাৎ Xp(x|θ)xX

p(X|θ)=xXp(x|θ).
LL(X|θ)XX
θ:=θxXL(x|θ)θ.
এখন, এই স্টোকাস্টিক পদক্ষেপগুলি additively জমে। এজন্য আপনি সেই সম্পত্তিটি চান যা সাধারণভাবে এটি
L(X|θ)=xXL(x|θ).
L(x|θ)=logp(x|θ).

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.