প্রত্যাশা সর্বাধিকতা অ্যালগরিদমের প্রেরণা


20

EM অ্যালগরিদম পদ্ধতির মধ্যে আমরা জেনসেনের অসমতা ব্যবহার করে

logp(x|θ)logp(z,x|θ)p(z|x,θ(k))dzlogp(z|x,θ)p(z|x,θ(k))dz

এবং দ্বারাθ(k+1)

θ(k+1)=argmaxθlogp(z,x|θ)p(z|x,θ(k))dz

আমি ইএম পড়ি সমস্ত কিছুই কেবল এটি বন্ধ করে দেয় তবে কেন ইএম অ্যালগরিদম স্বাভাবিকভাবে উত্থিত হয় তার ব্যাখ্যা না দিয়ে আমি সবসময় অস্বস্তি বোধ করেছি। আমি বুঝতে পেরেছি যে হওয়ার সম্ভাবনা সাধারণত গুনের পরিবর্তে সংযোজন করার সাথে মোকাবিলা করা হয় তবে \ থিতা ^ {(কে + 1) এর সংজ্ঞা in উপস্থিতি আমার কাছে একরকম অনুভূত হয়। কেন একজন বিবেচনা করা উচিত \ লগ ইন করুন এবং অন্যান্য একঘেয়ে ফাংশন না? বিভিন্ন কারণে আমি সন্দেহ করি যে প্রত্যাশা সর্বাধিকের পিছনে "অর্থ" বা "অনুপ্রেরণা" তথ্য তত্ত্ব এবং পর্যাপ্ত পরিসংখ্যানের ক্ষেত্রে এক ধরণের ব্যাখ্যা রয়েছে has যদি এমন ব্যাখ্যা থাকে যা কেবল একটি বিমূর্ত অ্যালগরিদমের চেয়ে অনেক বেশি সন্তুষ্ট হবে।loglogθ(k+1)log


3
প্রত্যাশা সর্বাধিকতা অ্যালগরিদম কি? , প্রকৃতি বায়োটেকনোলজি 26 : 897–899 (২০০৮) এর একটি সুন্দর ছবি রয়েছে যা চিত্রিত করে যে অ্যালগোরিদম কীভাবে কাজ করে।
chl

@ সিএইচএল: আমি নিবন্ধটি দেখেছি। আমি যে বিন্দুটির বিষয়ে জিজ্ঞাসা করছি তা হ'ল নোটিশটি কোথাও এটি ব্যাখ্যা করে না যে কেন একটি লগ-অন পদ্ধতির কাজ করতে পারে না
ব্যবহারকারী 78222220

উত্তর:


10

ইএম অ্যালগরিদমের বিভিন্ন ব্যাখ্যা রয়েছে এবং বিভিন্ন অ্যাপ্লিকেশনে বিভিন্ন আকারে উত্থিত হতে পারে।

এটি সমস্ত সম্ভাবনা ফাংশন দিয়ে শুরু হয় বা সমতুল্যভাবে লগ-সম্ভাবনা ফাংশন আমরা সর্বাধিক করতে চাই। (আমরা সাধারণত লোগারিদম ব্যবহার করি যেমন এটি গণনা সহজ করে তোলে: এটি কঠোরভাবে একঘেয়ে, অবতল, এবং, ।) একটি আদর্শ বিশ্বে এর মান কেবলমাত্র মডেল প্যারামিটারের উপর নির্ভর করে , তাই আমরা স্পেসের মাধ্যমে অনুসন্ধান করতে পারি এবং সর্বাধিকীকরণকারী একটি পাই ।লগ পি ( x | θ ) লগ ( বি ) = লগ a + লগ বি পি θ θ পিp(x|θ)logp(x|θ)log(ab)=loga+logbp θθp

তবে, অনেক আকর্ষণীয় বাস্তব-জগত অ্যাপ্লিকেশনগুলিতে জিনিসগুলি আরও জটিল, কারণ সমস্ত ভেরিয়েবলগুলি পালন করা হয় না। হ্যাঁ, আমরা সরাসরি পর্যবেক্ষণ করতে পারি তবে কিছু অন্যান্য ভেরিয়েবল । ভেরিয়েবলের করার কারণে আমরা এক ধরণের মুরগি ও ডিমের পরিস্থিতি: ছাড়াz z z θ θ zxz zz আছি আমরা প্যারামিটার এবং ছাড়া অনুমান করতে পারি না যে এর মান কী হতে পারে তা আমরা অনুমান করতে পারি না।θθz

এটি থেকেই ইএম অ্যালগরিদম খেলতে আসে। আমরা মডেল পরামিতিগুলির একটি প্রাথমিক অনুমান দিয়ে শুরু করি এবং অনুপস্থিত ভেরিয়েবল প্রত্যাশিত মানগুলি অর্জন করি (অর্থাত্, ই পদক্ষেপ)। যখন আমাদের এর মান থাকে , আমরা প্যারামিটারগুলি (যেমন, এম পদক্ষেপ,z z θ আরগ সর্বাধিক θ z z θ θθzzθargmax সমস্যা বিবৃতিতে সমীকরণের সাথে সম্পর্কিত) পারি। এই- আমরা এর নতুন প্রত্যাশিত মানগুলি অর্জন করতে পারি (অন্য একটি পদক্ষেপ), এবং আরও অনেক কিছু। অন্য কথায়, প্রতিটি পদক্ষেপে আমরা এবং উভয়ের মধ্যে একটির অনুমান করিθzzθ, পরিচিত. সম্ভাবনা আর বাড়ানো না যাওয়া পর্যন্ত আমরা এই পুনরাবৃত্তি প্রক্রিয়াটি পুনরাবৃত্তি করি।

সংক্ষেপে এটি ইএম অ্যালগরিদম। এটি সুপরিচিত যে এই পুনরাবৃত্ত EM প্রক্রিয়া চলাকালীন সম্ভাবনা কখনই হ্রাস পাবে না। তবে মনে রাখবেন যে ইএম অ্যালগরিদম গ্লোবাল সর্বোত্তম হওয়ার গ্যারান্টি দেয় না। এটি হ'ল এটির সম্ভাবনা ফাংশনের স্থানীয় সর্বোত্তমতার সাথে শেষ হতে পারে।

the এর সমীকরণের উপস্থিতি অনিবার্য, কারণ এখানে আপনি যে ফাংশনটি সর্বাধিক করতে চান তা লগ-সম্ভাবনা হিসাবে লেখা হয়।θ ( কে + 1 )logθ(k+1)


আমি দেখতে পাচ্ছি না কীভাবে এটি প্রশ্নের উত্তর দেয়।
ব্রোনকোএবিয়ার্তো

9

সম্ভাবনা বনাম লগ-সম্ভাবনা

যেমনটি ইতিমধ্যে বলা হয়েছে, সর্বাধিক সম্ভাবনা হিসাবে প্রবর্তিত হয় কেবল কারণ পণ্যগুলির চেয়ে অঙ্কগুলি অনুকূল করা সহজ। আমরা অন্যান্য মনোটোনিক ফাংশনগুলি বিবেচনা না করার কারণ হ'ল লগারিদম হল পণ্যগুলিকে অঙ্কে পরিণত করার সম্পত্তি সহ একটি অনন্য ফাংশনlog

লগারিদমকে উত্সাহিত করার আরেকটি উপায় নিম্নরূপ: আমাদের মডেলের অধীনে ডেটার সম্ভাবনা সর্বাধিক করার পরিবর্তে আমরা সমানভাবে ডেটা বিতরণ, মধ্যে কুলব্যাক-লেবলার বিভাজনকে হ্রাস করার চেষ্টা করতে পারি the মডেল বিতরণ, ,পি ( এক্স θ )pdata(x)p(xθ)

DKL[pdata(x)∣∣p(xθ)]=pdata(x)logpdata(x)p(xθ)dx=constpdata(x)logp(xθ)dx.

ডানদিকে প্রথম শব্দটি পরামিতিগুলিতে স্থির থাকে। যদি আমাদের ডেটা বিতরণ (আমাদের ডেটা পয়েন্ট) থেকে নমুনা থাকে তবে আমরা ডেটার গড় লগ-সম্ভাবনার সাথে দ্বিতীয় শব্দটি আনুমানিক করতে পারি ,N

pdata(x)logp(xθ)dx1Nnlogp(xnθ).

ইএম এর বিকল্প দৃষ্টিভঙ্গি

আমি নিশ্চিত নই যে এটি আপনি যে ধরণের ব্যাখ্যা খুঁজছেন তা হতে চলেছে, তবে আমি জেনসেনের অসমতার মাধ্যমে তার অনুপ্রেরণার চেয়ে প্রত্যাশা সর্বাধিকীকরণের নীচের দৃষ্টিভঙ্গিটি পেয়েছি (আপনি নিল অ্যান্ড হিন্টন (1998) এ বিশদ বিবরণ পেতে পারেন ) অথবা ক্রিস বিশপের পিআরএমএল বইতে, অধ্যায় 9.3)।

এটি দেখাতে অসুবিধা হয় না

logp(xθ)=q(zx)logp(x,zθ)q(zx)dz+DKL[q(zx)∣∣p(zx,θ)]

যে কোনও । আমরা যদি ডান হাতের এফ ( কিউ , θ ) এ প্রথম শব্দটি কল করি , তবে এটি বোঝায়q(zx)F(q,θ)

F(q,θ)=q(zx)logp(x,zθ)q(zx)dz=logp(xθ)DKL[q(zx)∣∣p(zx,θ)].

যেহেতু কেএল ডাইভারজেনটি সর্বদা ইতিবাচক থাকে , প্রতিটি নির্দিষ্ট q এর জন্য লগ-সম্ভাবনার উপর একটি নিম্ন সীমাবদ্ধ । এখন, ই.এম. পর্যায়ক্রমে বাড়ানোর যেমন দেখা যাবে এফ থেকে সম্মান সঙ্গে কুই এবং θ । বিশেষত, ই-ধাপে q ( z x ) = p ( z x , θ ) সেট করে আমরা ডান হাতের কেএল ডাইভার্জেনশনকে কমিয়ে আনি এবং এইভাবে F সর্বাধিক করি ।F(q,θ)qFqθq(zx)=p(zx,θ)F


পোস্টের জন্য ধন্যবাদ! যদিও প্রদত্ত দস্তাবেজটি লগারিদমটি না বলে পণ্যগুলিকে অঙ্কগুলিতে পরিণত করে the এটি বলে যে লোগারিদম হ'ল একমাত্র ক্রিয়া যা একই সাথে তিনটি তালিকাভুক্ত বৈশিষ্ট্য পূরণ করে
ওয়েইওইইই

@ ওয়েইওয়েই: ঠিক আছে, তবে প্রথম শর্তটি মূলত প্রয়োজন যে ফাংশনটি অবিচ্ছিন্ন হয়। অবশ্যই, f (x) = 0 এও f (x + y) = f (x) f (y) বোঝায় তবে এটি একটি উদ্বেগজনক ঘটনা। তৃতীয় শর্ত জিজ্ঞেস করে যে 1 ব্যুৎপন্ন 1, যা বেস লগারিদম কেবল সত্য । এই সীমাবদ্ধতাটি ফেলে দিন এবং আপনি বিভিন্ন ঘাঁটিতে লগারিদম পান, তবে এখনও লগারিদমে। e
লুকাস

4

প্রত্যাশা-সর্বাধিককরণের বিষয়ে যে কাগজটি আমি স্পষ্ট করে দেখতে পেয়েছি তা হ'ল ওয়েলিং ও কুড়িহার "ম্যাক্সিমাইজেশন-এক্সপেকটেশন" অ্যালগরিদম (পিডিএফ) হিসাবে বায়েশিয়ান কে-মিনস

ধরুন আমাদের কাছে এক্স পর্যবেক্ষণ, z লুকানো এলোমেলো ভেরিয়েবল এবং মোট θ পরামিতি সহ একটি সম্ভাব্য মডেল রয়েছে । আমাদের একটি ডেটাসেট ডি দেওয়া হয় এবং p ( z , θ | D ) স্থাপন করতে বাধ্য করা হয় (উচ্চতর শক্তি দ্বারা )p(x,z,θ)xzθDp(z,θ|D)

1. গিবস নমুনা

স্যাম্পলিং করে আমরা আনুমানিক । গীবস নমুনা পর্যায়ক্রমে পি ( জেড , θ | ডি ) দেয় :p(z,θ|D)p(z,θ|D)

θp(θ|z,D)zp(z|θ,D)

2. ভেরিয়েন্টাল বয়েস

পরিবর্তে, আমরা একটি ডিস্ট্রিবিউশন এবং q ( z ) স্থাপন করার চেষ্টা করতে পারি এবং p ( θ , z | D ) এর পরে আমরা যে বিতরণ করি তার সাথে পার্থক্য হ্রাস করতে পারি । বিতরণের মধ্যে পার্থক্যটির একটি সুবিধাজনক অভিনব নাম, কেএল-ডাইভারজেন্স রয়েছে। মিনিমাইজ করতে কে এল [ কুই ( θ ) কুই ( z- র ) | | p ( θ , z | D ) ] আমরা আপডেট করি:q(θ)q(z)p(θ,z|D)KL[q(θ)q(z)||p(θ,z|D)]

q(θ)exp(E[logp(θ,z,D)]q(z))q(z)exp(E[logp(θ,z,D)]q(θ))

৩. প্রত্যাশা-সর্বাধিকীকরণ

এবং θ উভয়ের জন্য সম্পূর্ণ সম্ভাব্য বন্টন নিয়ে আসা চরম বলে বিবেচিত হতে পারে। আমরা এর পরিবর্তে এর মধ্যে একটির জন্য একটি বিন্দু অনুমান বিবেচনা করি না এবং অন্যটিকে সুন্দর এবং সংবেদনশীল রাখি। ই.এম. মাপদণ্ড θ (সর্বোচ্চ আরোহী) মান তার মানচিত্রে একটি পূর্ণ বিতরণের এক হচ্ছে মূল্যহীন, এবং সেট হিসাবে স্থাপন করা হয়, θ *zθθθ

θ=argmaxθE[logp(θ,z,D)]q(z)q(z)=p(z|θ,D)

এখানে আসলে একটি ভাল স্বরলিপি হবে: argmax অপারেটর একাধিক মান ফিরে আসতে পারেন। তবে আসুন নিটপিক করি না। বৈকল্পিক বায়েসের সাথে তুলনা করে আপনি দেখতে পাচ্ছেন যে এক্সপ দ্বারা লগের জন্য সংশোধন করার ফলে ফলাফল পরিবর্তন হয় না, সুতরাং এটি আর প্রয়োজন হয় না।θargmaxlogexp

৪. সর্বাধিক-প্রত্যাশা

সেখানে বিবেচনা করার কোন কারণ নেই একটি পয়মাল শিশুর মতো। আমরা শুধু পাশাপাশি বিন্দু অনুমান ব্যবহার করতে পারেন z- র * আমাদের গোপন ভেরিয়েবলের জন্য এবং পরামিতি দিতে θ একটি পূর্ণ বিতরণের বিলাসিতা।zzθ

z=argmaxzE[logp(θ,z,D)]q(θ)q(θ)=p(θ|z,D)

যদি আমাদের লুকানো ভেরিয়েবল নির্দেশক ভেরিয়েবল হয় তবে ক্লাস্টারের সংখ্যার উপর অনুমান করার জন্য আমাদের কাছে হঠাৎ একটি গণনামূলক সস্তা পদ্ধতি রয়েছে। এটি অন্য কথায়: মডেল নির্বাচন (বা স্বয়ংক্রিয় প্রাসঙ্গিক সনাক্তকরণ বা অন্য কোনও অভিনব নাম কল্পনা করুন)।z

5. শর্তযুক্ত মোড পরিলক্ষিত

অবশ্যই, আনুমানিক অনুমান এর পোস্টার শিশু উভয় প্যারামিটার পয়েন্ট হিসেব ব্যবহার করা পর্যবেক্ষণ সেইসাথে z- রθz

θ=argmaxθp(θ,z,D)z=argmaxzp(θ,z,D)

ম্যাক্সিমাইজেশন-প্রত্যাশা কীভাবে কার্যকর হয় তা দেখার জন্য আমি নিবন্ধটি অত্যন্ত প্রস্তাব দিই। আমার মতে, এই নিবন্ধটির শক্তি তবে কোনও মিয়ানস বিকল্পের জন্য প্রয়োগ নয় , তবে এই সুদৃ .় এবং সংক্ষিপ্ত বিবরণটি সংক্ষেপে প্রকাশ করা হয়েছে।k


(+1) এটি সমস্ত পদ্ধতির একটি সুন্দর সংক্ষিপ্তসার।
কেদার্পস

4

ইএম অ্যালগরিদমের অন্তর্নিহিত একটি দরকারী অপ্টিমাইজেশন কৌশল রয়েছে। তবে এটি সাধারণত সম্ভাবনা তত্ত্বের ভাষায় প্রকাশিত হয় তাই এটি দেখতে মুশকিল যে মূলটি এমন একটি পদ্ধতি যা সম্ভাবনা এবং প্রত্যাশার সাথে কোনও সম্পর্ক রাখে না।

পূর্ণবিস্তার সমস্যা বিবেচনা (অথবা equivalently লগ ইন করুন গ্রাম ( এক্স ) ) থেকে সম্মান সঙ্গে এক্স । যদি আপনি g ( x ) এর জন্য একটি অভিব্যক্তি লিখে এবং এটি শূন্যের সমান সেট করেন তবে আপনি প্রায়শই সমাধানের জন্য একটি ট্রান্সেন্ডেন্টাল সমীকরণ দিয়ে শেষ করতে পারেন। এগুলি কদর্য হতে পারে।

g(x)=iexp(fi(x))
logg(x)xg(x)

এখন ধরুন যে এক সাথে এই অর্থে ভাল খেলি যে এর মধ্যে রৈখিক সংমিশ্রণগুলি আপনাকে অনুকূলকরণের জন্য সহজ কিছু দেয়। উদাহরণস্বরূপ, সব যদি আমি ( এক্স ) মধ্যে দ্বিঘাত হয় এক্স তারপর একটি রৈখিক সমন্বয় আমি ( এক্স ) এছাড়াও নিখুত দ্বিঘাত, তাই সহজ হবে।fifi(x)xfi(x)

এই অনুমান রয়েছে, যদি শীতল, নিখুত অনুক্রমে হতে চাই আমরা একরকম এলোমেলো পারে লগ গত Σ এটা এত পূরণ পারে মেপুঃ s এবং নিষ্কাশন তাদের। তারপর আমি একসাথে খেলতে পারে। তবে আমরা তা করতে পারি না।logg(x)=logiexp(fi(x))logexpfi

এর পরের সেরা কাজটি করা যাক। আমরা অন্য ফাংশন করব যে অনুরূপ । এবং আমরা তা রৈখিক সমন্বয় আউট করব আমিhgfi

ধরা যাক একটি অনুকূল মানের জন্য অনুমান। আমরা এটি উন্নত করতে চাই। আসুন অন্য ফাংশন এটি মিল এবং তার ব্যুৎপন্ন এক্স 0 , অর্থাত্ গ্রাম ( এক্স 0 ) = ( এক্স 0 ) এবং জি ' ( এক্স 0 ) = ' ( এক্স 0 ) । যদি আপনি x 0 এর একটি ছোট প্রতিবেশে h এর একটি গ্রাফ প্লট করেন তবে এটি জি এর অনুরূপ দেখাবে ।x0hgx0g(x0)=h(x0)g(x0)=h(x0)hx0g

আপনি যে আমরা এক্স 0 এ এর সাথে মেলে এমন কিছু চাই । একটি প্রাকৃতিক পছন্দ রয়েছে: h ( x ) = ধ্রুবক + i f i ( x ) এক্সপ্রেস ( f i ( x 0 ) )

g(x)=ifi(x)exp(fi(x)).
x0
h(x)=constant+ifi(x)exp(fi(x0)).
আপনি এ তাদের মিল দেখতে পাচ্ছেন । আমরা h ( x ) = i f i ( x ) এক্সপ্রেস ( f i ( x 0 ) ) পাই যেহেতু এক্স 0 একটি ধ্রুবক হিসাবে আমাদের এফ আইয়ের একটি সাধারণ রৈখিক সংমিশ্রণ রয়েছে যার ডেরিভেটিভ জি । আমরা শুধু ধ্রুবক চয়ন করতে করতে ( এক্স 0 ) = (x=x0
h(x)=ifi(x)exp(fi(x0)).
x0fighg(x0)=h(x0)

x0h(x)g(x)x0hh

h

h(x)g(x)h(x)xgg(x0)hgh

exp


3

যেমনটি আপনি বলেছেন, আমি প্রযুক্তিগত বিশদে যাব না। বেশ কয়েকটি খুব সুন্দর টিউটোরিয়াল আছে। আমার পছন্দের একটি হ'ল অ্যান্ড্রু এনগের বক্তৃতা নোটএখানে উল্লেখ দেখুন ।

  1. K

    p(x)=i=1KπiN(x|μi,Σi)
    πixμiΣiπiith উপাদানটি সেই নমুনার জন্য অ্যাকাউন্ট করতে পারে এমন সম্ভাবনাগুলি উপস্থাপন করে) এবং ওজনফলকে নিয়ে যাবে। একটি দৃ concrete় উদাহরণ হিসাবে, কল্পনা করুন যে আপনি টেক্সট ডকুমেন্টগুলি গুচ্ছ করতে চান। ধারণাটি ধরে নেওয়া যায় যে প্রতিটি নথিই কোনও বিষয় (বিজ্ঞান, ক্রীড়া, ...) এর সাথে সম্পর্কিত যা আপনি আগে জানেন না !. সম্ভাব্য বিষয়গুলি হিডেন ভেরিয়েবল। তারপরে আপনাকে কয়েকটি দলিল দেওয়া হবে এবং এন-গ্রাম বা আপনি যে বৈশিষ্ট্যগুলি বের করে নিচ্ছেন তা গণনা করে আপনি সেই ক্লাস্টারগুলি সন্ধান করতে এবং প্রতিটি নথিটি কোন ক্লাস্টারের অন্তর্ভুক্ত তা দেখতে চান। ইএম একটি প্রক্রিয়া যা এই সমস্যাটিকে ধাপে ধাপে আক্রমণ করে: প্রত্যাশা পদক্ষেপটি এখনও পর্যন্ত প্রাপ্ত নমুনাগুলির কার্যকারিতা উন্নত করার চেষ্টা করে। সর্বাধিকীকরণ পদক্ষেপটি মিশ্রণের পরামিতিগুলি উন্নত করে, অন্য কথায়, গুচ্ছগুলির ফর্ম।
  2. পয়েন্টটি মনোটোনিক ফাংশনগুলি নয় তবে উত্তল ক্রিয়াকলাপগুলি ব্যবহার করছে। এবং কারণ হ'ল জেনসেনের বৈষম্য যা নিশ্চিত করে যে ইএম অ্যালগরিদমের অনুমান প্রতিটি পদক্ষেপে উন্নত হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.