সীমাবদ্ধ বল্টজম্যান মেশিন (আরবিএম) এর পিছনে অন্তর্দৃষ্টি


15

আমি জিওফ হিন্টনের নিউরাল নেটওয়ার্ক কোর্সায়ার কোর্সে গিয়েছিলাম এবং সীমাবদ্ধ বল্টজম্যান মেশিনগুলির সাথে পরিচয় করিয়ে দিয়েছিলাম , তখনও আমি আরবিএমগুলির পিছনে অন্তর্দৃষ্টি বুঝতে পারি নি।

আমাদের কেন এই যন্ত্রটিতে শক্তি গণনা করা দরকার? এবং এই মেশিনে সম্ভাবনার ব্যবহার কী? আমি এই দেখে ভিডিও । ভিডিওতে, তিনি কেবল গণনার পদক্ষেপের আগে সম্ভাবনা এবং শক্তি সমীকরণ লিখেছিলেন এবং এটি কোথাও ব্যবহার করার জন্য উপস্থিত হন নি।

উপরের সাথে যুক্ত করে, আমি নিশ্চিত নই যে সম্ভাবনা কার্যটি কী?


আমি প্রশ্নটি পরিষ্কার করার চেষ্টা করেছি, তবে আমার মনে হয় এর আরও কাজ করা দরকার। আপনি কী বোঝেন তা আপনাকে ব্যাখ্যা করতে হবে এবং আপনি কোথায় আটকে আছেন তা আরও নির্দিষ্ট করে বলা উচিত, অন্যথায় প্রশ্নটি খুব বিস্তৃত।
নিল স্লেটার

কেবল যে জিনিসটি মাথায় এসেছিল তা হল তিনটি ধাপ, প্রথম ধনাত্মক পর্ব, তারপরে নেতিবাচক পর্ব যা ওজন পুনর্নির্মাণের পরে অনুসরণ করা হয়। কিন্তু, শক্তি এবং সম্ভাব্যতা ফাংশন সম্পর্কে কী? এখানে ব্যবহার কি? এবং এই প্রক্রিয়াটি আমাদের কতবার করতে হবে (ইতিবাচক পর্ব -> নেতিবাচক পর্যায়> ওজন পুনর্নির্মাণ)?
জন্ম

উত্তর:


5

আরবিএম এর একটি আকর্ষণীয় জন্তু। আপনার প্রশ্নের উত্তর দিতে এবং সেগুলিতে আমার স্মৃতি জাগ্রত করতে আমি আরবিএমগুলি গ্রহণ করব এবং ডেরাইভেশনটির মাধ্যমে কথা বলব। আপনি উল্লেখ করেছেন যে আপনি সম্ভাবনা নিয়ে বিভ্রান্ত হয়ে পড়েছেন, সুতরাং আমার বিকাশ সম্ভাবনা সর্বাধিক করার চেষ্টা করার দৃষ্টিকোণ থেকে হবে। সুতরাং শুরু করা যাক।

আরবিএমগুলিতে নিউরনের দুটি পৃথক সেট রয়েছে, দৃশ্যমান এবং লুকানো, আমি তাদের যথাক্রমে এবং বোঝাতে চাই । এবং এর একটি নির্দিষ্ট কনফিগারেশন দেওয়া , আমরা এটি সম্ভাবনার স্থানটি ম্যাপ করি।vhvh

p(v,h)=eE(v,h)Z

সংজ্ঞা দেওয়ার মতো আরও কয়েকটি জিনিস রয়েছে। সম্ভাব্য স্থানটিতে একটি নির্দিষ্ট কনফিগারেশন থেকে মানচিত্রের জন্য আমরা যে সারোগেট ফাংশনটি ব্যবহার করি তাকে এনার্জি ফাংশন । ধ্রুবক একটি নিয়মমাফিককরণ ফ্যাক্টর তা নিশ্চিত করার জন্য আমরা আসলে সম্ভাব্যতা স্থান থেকে মানচিত্র। এখন আসুন আমরা যা খুঁজছি তা পাওয়া যাক; দৃশ্যমান নিউরনগুলির সেটগুলির সম্ভাবনা, অন্য কথায়, আমাদের ডেটার সম্ভাবনা। E(v,h)Z

Z=vVhHeE(v,h)
p(v)=hHp(v,h)=hHeE(v,h)vVhHeE(v,h)

যদিও এই সমীকরণে প্রচুর পদ রয়েছে তবে এটি সঠিক সম্ভাবনার সমীকরণগুলি লেখার ক্ষেত্রে নেমে আসে। আশা করা যায়, এ পর্যন্ত, এটি আপনাকে উপলব্ধি করতে সহায়তা করেছে যে আমাদের সম্ভাবনা গণনা করার জন্য কেন শক্তি ফাংশন প্রয়োজন হয়, বা সাধারণভাবে অস্বাভাবিক সম্ভাবনা । অস্বাভাবিক সম্ভাবনা ব্যবহার করা হয় কারণ পার্টিশন ফাংশন জেড গণনা করা খুব ব্যয়বহুল।p(v)ZZ

এবার আসুন আরবিএমের আসল শেখার পর্যায়ে। সম্ভাব্যতা বাড়ানোর জন্য, প্রতিটি ডেটা পয়েন্টের জন্য, আমাদের তৈরির জন্য গ্রেডিয়েন্ট পদক্ষেপ নিতে হবে । গ্রেডিয়েন্ট এক্সপ্রেশন পেতে এটি কিছু গাণিতিক অ্যাক্রোব্যাটিকস লাগে। প্রথম জিনিসটি আমরা পি ( ভি ) এর লগ গ্রহণ করি । গণিতকে সম্ভাব্য করে তোলার জন্য আমরা এখন থেকে লগ সম্ভাব্যতার জায়গাতে কাজ করব।p(v)=1p(v)

আসুন সম্মান সঙ্গে গ্রেডিয়েন্ট নেওয়া পি মধ্যে প্যারামিটার ( v )

log(p(v))=log[hHeE(v,h)]log[vVhHeE(v,h)]
p(v)

log(p(v))θ=1hHeE(v,h)hHeE(v,h)E(v,h)θ+1vVhHeE(v,h)vVhHeE(v,h)E(v,h)θ

এখন আমি কাগজে এটি করেছি এবং সেমিফাইনাল সমীকরণটি লিখেছিলাম যাতে এই সাইটে প্রচুর জায়গা নষ্ট না হয়। আমি আপনাকে এই সমীকরণগুলি নিজেই উত্সাহিত করার পরামর্শ দিচ্ছি। এখন আমি কিছু সমীকরণ লিখে রাখব যা আমাদের উপার্জন অব্যাহত রাখতে সহায়তা করবে। দ্রষ্টব্য: , পি ( ভি ) = এইচ এইচ পি ( ভি , এইচ ) এবং যে পি ( এইচ | ভি ) =Zp(v,h)=eE(v,h)p(v)=hHp(v,h)p(h|v)=p(v,h)p(h)

log(p(v))θ=1p(v)hHp(v,h)E(v,h)θ+vVhHp(v,h)E(v,h)θlog(p(v))θ=hHp(h|v)E(v,h)θ+vVhHp(v,h)E(v,h)θ

এবং সেখানে আমরা চলেছি, আমরা আরবিএম-এর সর্বাধিক সম্ভাবনা অনুমান করেছি, যদি আপনি চান তবে আপনি তাদের সংশ্লিষ্ট শর্তাদি (শর্তসাপেক্ষ, এবং যৌথ সম্ভাবনা) প্রত্যাশার মাধ্যমে শেষ দুটি পদ লিখতে পারেন।

শক্তি ফাংশন এবং নিউরনের stochasticity নোটস।

আপনি আমার ডাইরিভেশনটিতে উপরে দেখতে পাচ্ছেন, আমি শক্তি ফাংশনটির সংজ্ঞাটি অস্পষ্ট রেখে দিয়েছি। এবং এটি করার কারণটি হ'ল আরবিএমের বিভিন্ন সংস্করণ বিভিন্ন শক্তি ফাংশন প্রয়োগ করে। উপরে লিঙ্কিত বক্তৃতায় হিন্টন যে বর্ণনা করেছেন এবং @ লরেনস-মিয়াস দেখিয়েছেন তা হল:

E(v,h)=aTvbThvTWh.

প্রত্যাশা ফর্মের মাধ্যমে উপরে গ্রেডিয়েন্ট শর্তাদি সম্পর্কে যুক্তি করা সহজ হতে পারে।

log(p(v))θ=Ep(h|v)E(v,h)θ+Ep(v,h)E(v,h)θ

প্রথম পদটির প্রত্যাশাটি গণনা করা সত্যই সহজ এবং এটি ছিল আরবিএমগুলির পিছনে বুদ্ধিমান। সংযোগটি সীমাবদ্ধ করে শর্তসাপেক্ষ প্রত্যাশা কেবল দৃশ্যমান ইউনিটগুলি ক্ল্যাম্প সহ আরবিএমের সামনের দিকে এগিয়ে যায় becomes এটি বল্টজম্যান মেশিনগুলির তথাকথিত ওয়েক ফেজ। এখন দ্বিতীয় পদটি গণনা করা আরও শক্ত এবং সাধারণত মন্টি কার্লো পদ্ধতিগুলি এটি ব্যবহার করতে ব্যবহৃত হয়। মন্টি কার্লো গড় দিয়ে গ্রেডিয়েন্ট রচনা:

log(p(v))θE(v,h)θp(h|v)+E(v,h)θp(v,h)

প্রথম শব্দটির গণনা করা শক্ত নয়, যেমন উপরে বর্ণিত হয়েছে, সুতরাং মন্টে-কার্লো দ্বিতীয় মেয়াদে সম্পন্ন হয়। মন্টি কার্লো পদ্ধতিগুলি প্রত্যাশা (যোগফল বা অখণ্ড) গণনা করতে বন্টনটির এলোমেলোভাবে ক্রমাগত নমুনা ব্যবহার করে। ক্লাসিকাল আরবিএম-এর এই এলোমেলো নমুনাটিকে একটি ইউনিটকে তার সম্ভাব্যতার উপর ভিত্তি করে 0 বা 1 হিসাবে সেট করা হিসাবে সংজ্ঞায়িত করা হয়, অন্য কথায়, এটি এলোমেলো ইউনিফর্ম নম্বর পান, যদি এটি নিউরনের সম্ভাবনার চেয়ে কম হয় তবে এটি সেট করে 1 এটি 0 তে সেট করার চেয়ে বড়।


আমরা কীভাবে গোপন স্তরটিকে বাইনারি তৈরি করব? অ্যাক্টিভেশন ফাংশন অপারেশনের পরে Bcoz, আমরা 0 এবং 1 এর মধ্যে সীমার মান
পাব

এটি সাধারণত অ্যাক্টিভেশন থ্রেশহোল্ডিং দ্বারা করা হয়। 0.5 এর উপরে যে কোনও কিছু 1 হয়ে যাবে, নীচের যে কোনও কিছুই শূন্য হবে।
আর্মেন ​​অহজানিয়ান

তবে এই লিঙ্কে , ৩.১ বিভাগে: হিন্টন বলেছেন "যদি এই সম্ভাবনাটি 0 এবং 1 এর মধ্যে অভিন্নভাবে বিতরণ করা এলোমেলো সংখ্যার চেয়ে বেশি হয় তবে লুকানো ইউনিট চালু হয়"। এর আসলে কী অর্থ? এবং এই লিঙ্কটিতেও তারা বলেছে যে "0 এবং 1 এর মধ্যে অভিন্ন বিতরণ করা এলোমেলো সংখ্যা বেছে নেওয়ার পরে আমরা দেখতে পাই যে এর মান সিগ [জে] এর চেয়ে কম। অন্যথায় এটি বন্ধ আছে।" আমি এটি পেলাম না।
জন্ম

????? সেই নির্দিষ্ট ইউনিটটি চালু বা বন্ধ কিনা তা কীভাবে বলা যায়?
জন্ম

আমি একটি সম্পাদনা যুক্ত করেছি। আমি মন্টি কার্লো পদ্ধতিগুলি পড়ার পরামর্শ দিচ্ছি কারণ এই অ্যালগরিদমের স্টোকাস্টিটি সেখান থেকে নেওয়া হয়েছে।
আর্মেন ​​অহজানিয়ান

5

বিদ্যমান উত্তরগুলি ছাড়াও, আমি এই শক্তির ফাংশন এবং এর পিছনে স্বজ্ঞাতটি সম্পর্কে কিছু বলতে চাই। দুঃখিত যদি এটি কিছুটা দীর্ঘ এবং শারীরিক হয় Sorry

শক্তি ফাংশন একটি তথাকথিত ইসিং মডেলকে বর্ণনা করে , যা পরিসংখ্যানীয় মেকানিক্স / কোয়ান্টাম মেকানিক্সের দিক থেকে ফেরোম্যাগনেটিজমের একটি মডেল। পরিসংখ্যানীয় মেকানিক্সগুলিতে আমরা কোয়ান্টাম-মেকানিকাল সিস্টেমের শক্তি বর্ণনা করতে একটি তথাকথিত হ্যামিল্টনীয় অপারেটর ব্যবহার করি। এবং একটি সিস্টেম সর্বদা সর্বনিম্ন শক্তি সহ রাজ্যে থাকার চেষ্টা করে।

এখন, ইসিং মডেলটি বাহ্যিক চৌম্বকীয় ক্ষেত্রের h এর উপস্থিতিতে মূলত +1 বা -1 এর স্পিন দিয়ে বৈদ্যুতিনগুলির মধ্যে মিথস্ক্রিয়াকে বর্ণনা করে । দুটি ইলেকট্রন i এবং j এর মধ্যে মিথস্ক্রিয়াটি একটি সহগ J I j দ্বারা বর্ণিত । এই হ্যামিল্টনিয়ান (অথবা শক্তি ফাংশন) হয় এইচ = Σ আমি , জে আমি σ আমি σ - μ Σσ যেখানে এইচσkhijJij

H^=i,jJijσiσjμjhjσj
H^হ্যামিলটোনীয়কে বোঝায়। একটি আদর্শ পদ্ধতি সম্ভাব্যতা একটি শক্তি ফাংশন থেকে পেতে, যে একটি সিস্টেম একটি প্রদত্ত রাজ্যের (অর্থাত এখানে: যেমন ঘূর্ণন একটি কনফিগারেশন, ) ব্যবহার করতে হয় বোল্টসম্যান বন্টন, যেখানে বলা আছে যে একটি তাপমাত্রায় টি , সম্ভাব্যতা P আমি সিস্টেমের একটি রাষ্ট্র হতে আমি শক্তি আমি দেওয়া হয় পি আমি = Exp ( - আমি /টিσ1=+1,σ2=1,...TpiiEi এই মুহুর্তে, আপনাকে চিনতে উচিত যে এই দুই সমীকরণ Hinton দ্বারা ভিডিও হিসেবে সঠিক একই সমীকরণ এবং হয়Armen Aghajanyan দ্বারা উত্তর। এটি আমাদের প্রশ্নের দিকে নিয়ে যায়:
pi=exp(Ei/kT)iexp(Ei/kt)

ফেরব্যাগনেটিজমের এই কোয়ান্টাম-মেকানিক্যাল মডেলের সাথে আরবিএমের কী সম্পর্ক রয়েছে?

আমাদের একটি চূড়ান্ত শারীরিক পরিমাণ ব্যবহার করা দরকার: এনট্রপি। যেমনটি আমরা থার্মোডিনামিকস থেকে জানি, একটি সিস্টেম রাজ্যে ন্যূনতম শক্তি সহ স্থিতিস্থাপিত হবে, যা সর্বাধিক এনট্রপির সাথেও রাজ্যের সাথে মিলে যায়।

HXX

H(X)=iP(xi)logP(xi)
XH

অবশেষে , এই যেখানে আমরা RBMs ফিরে পাবেন: মূলত, আমরা যেমন সঙ্কেতাক্ষরে লিখা এই RBM চান অনেক যতটা সম্ভব তথ্য। সুতরাং, যেহেতু আমাদের আরবিএম-সিস্টেমে (তথ্য-তাত্ত্বিক) এনট্রপিটি আমাদের সর্বোচ্চ করতে হবে । 1982 সালে হপফিল্ডের প্রস্তাবিত হিসাবে আমরা তথ্য-তাত্ত্বিক এনট্রোপিকে ঠিক শারীরিক এনট্রপির মতোই বাড়িয়ে তুলতে পারি: উপরের আইসিং মডেলের মতো আরবিএমকে মডেলিং করে এবং শক্তিটি হ্রাস করতে একই পদ্ধতিগুলি ব্যবহার করতে পারি। আর এজন্যই আমাদের আরবিএমের জন্য আমাদের এই অদ্ভুত শক্তি ফাংশনটি প্রয়োজন!

আর্মেন ​​অহজান্যানের উত্তরের চমৎকার গাণিতিক উত্স আমাদের শক্তি আরম্ভ করার জন্য আমাদের যা করতে হবে তা দেখায়, এভাবে আমাদের আরবিএম-এ যতটা সম্ভব এনট্রপি এবং স্টোরিং / যতটা সম্ভব তথ্য সংরক্ষণ করা যায়।

পিএস: দয়া করে প্রিয় পদার্থবিদগণ, এই ইঞ্জিনিয়ারের উত্সের যে কোনও ত্রুটিগুলি ক্ষমা করুন। অকার্যকর (বা এমনকি ভুল) মন্তব্য করতে বা নির্দ্বিধায় নির্দ্বিধায়।


আমি এই ভিডিওটি দেখেছি , কেবল সেই দিক থেকে ভিডিওটি দেখুন। আপনি কিভাবে এই নমুনা নম্বর পেতে? আমরা মাতলাব এ কেবল র্যান্ড () রান করে তা পেয়েছি কিনা? এবং তারপরে এটি প্রতিটি এইচ (i) এর জন্য আলাদা হবে। ওহ নুও! আমি মনে করি না মেশিন সঠিকভাবে শিখবে।
জন্ম

@ Born2Code এটি অন্য প্রশ্ন is আপনি কি এই সাইটে একটি নতুন প্রশ্ন হিসাবে পোস্ট করতে পারেন? আপনি যে নতুন সমীকরণের বিষয়ে কথা বলছেন সেগুলি নতুন প্রশ্নের সাথে যুক্ত করার চেষ্টা করুন এবং কোন অংশটি আপনি বুঝতে পারছেন না তা ব্যাখ্যা করুন।
hbaderts


0

@ আরমানের উত্তর নিজেকে অনেক অন্তর্দৃষ্টি দিয়েছে। একটি প্রশ্নের অবশ্য উত্তর দেওয়া হয়নি।

vvh

E(v,h)=aTvbThvTWh

abW


আমরা কীভাবে গোপন স্তরটিকে বাইনারি তৈরি করব? অ্যাক্টিভেশন ফাংশন অপারেশনের পরে Bcoz, আমরা 0 এবং 1 এর মধ্যে সীমার মান
পাব

hvh_bin = (rand() < h_val) ? 1 : 0

@ নিলস্লেটার: তবে কেন এলোমেলো নম্বর? এছাড়াও, প্রতিটি পুনরাবৃত্তির জন্য এলোমেলো উত্পন্ন করা উচিত বা সমস্ত পুনরাবৃত্তির জন্য একই নম্বর ব্যবহার করা উচিত? আরও একটি গুরুতর সন্দেহ, কতগুলি পুনরাবৃত্তি করতে হবে? আমার একটি প্রশিক্ষণ সেট ভি আছে, যার কেবলমাত্র একটি ভেক্টর রয়েছে, অর্থাৎ ভি 1। ভি 1 এর সাথে আমার কতবার পুনরাবৃত্তি করতে হবে?
জন্ম

@ নীলস্লেটার: আরও একটি সন্দেহ হ'ল, একই র্যান্ডম সংখ্যাকে গোপন স্তরের সমস্ত মানের সাথে তুলনা করতে হবে কিনা? আমি জানি এটি এমন একটি
বোকামি

1
এটি একটি এলোমেলো সংখ্যা কারণ এটিই আপনি বাইনারি মানগুলির জন্য সম্ভাব্যতাগুলি সমাধান করেন। এটি প্রতিটি নিউরনের অভ্যন্তরের জন্য একটি পৃথক সংখ্যা hবা v- আপনি বা "বাইনারি মানগুলির একটি ভেক্টরকে নমুনা তৈরি করছেন যাতে hবা v" উদাহরণস্বরূপ "নেটওয়ার্ক" উপস্থিত রয়েছে "- উদাহরণস্বরূপ যার প্রতিনিধি হওয়ার উচ্চ পরিসংখ্যানগত সম্ভাবনা রয়েছে প্রশিক্ষণ সেট. প্রশিক্ষণের সময়, আপনি নির্ধারণ করেন যে এটি বিদ্যমান প্রশিক্ষণের উদাহরণের সাথে কতটা ভাল মেলে এবং সেই অনুযায়ী ওজন সামঞ্জস্য করে।
নিল স্লেটার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.