নিউরাল নেটওয়ার্কগুলি ব্যবহার করে কি-লার্নিং সম্পর্কিত প্রশ্নাবলী


14

আমি বর্ণিত হিসাবে কিউ-লার্নিং বাস্তবায়ন করেছি,

http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf

আনুমানিক করার জন্য। প্রশ্ন (এস, এ) আমি নীচের মতো একটি নিউরাল নেটওয়ার্ক কাঠামো ব্যবহার করি,

  • অ্যাক্টিভেশন সিগময়েড
  • অ্যাকশন নিউরনগুলির জন্য ইনপুটগুলি, ইনপুটগুলির সংখ্যা +1 (সমস্ত ইনপুট 0-1 স্কেলড)
  • আউটপুট, একক আউটপুট। কিউ-মূল্য
  • এম লুকানো স্তরগুলির এন নম্বর।
  • অন্বেষণের পদ্ধতিটি এলোমেলোভাবে 0 <র্যান্ড () <প্রস্তাবনা এক্সপ্লোর

নিম্নলিখিত সূত্রটি ব্যবহার করে প্রতিটি শেখার পুনরাবৃত্তিতে,

এখানে চিত্র বর্ণনা লিখুন

আমি একটি কি-টার্গেট মান গণনা করি তারপরে ব্যবহার করে একটি ত্রুটি গণনা করি,

error = QTarget - LastQValueReturnedFromNN

এবং ফিরে নিউরাল নেটওয়ার্ক মাধ্যমে ত্রুটি প্রচার।

প্র 1, আমি কি সঠিক পথে রয়েছি? আমি কিছু কাগজপত্র দেখেছি যা প্রতিটি ক্রিয়াকলাপের জন্য একটি আউটপুট নিউরন সহ একটি এনএন বাস্তবায়ন করে।

কিউ 2, আমার পুরষ্কারের ক্রিয়াকলাপটি -1 এবং 1 এর মধ্যে একটি নম্বর প্রদান করে যখন সক্রিয়করণ ফাংশন সিগময়েড হয় তখন কি -1 এবং 1 এর মধ্যে একটি নম্বর ফেরত দেওয়া ঠিক হবে (0 1)?

প্র 3, পর্যাপ্ত প্রশিক্ষণের উদাহরণ দেওয়া এই পদ্ধতিটি সম্পর্কে আমার বোঝার থেকে এটি একটি সর্বোত্তম নীতিমালা চালানোর জন্য পৃথক হওয়া উচিত? এক্সওআরটির প্রশিক্ষণ যখন কখনও কখনও 2k পুনরাবৃত্তির পরে এটি শিখতে পারে তবে কখনও কখনও এটি 40k 50k পুনরাবৃত্তির পরেও শিখতে পারে না।


কৌতূহলের বাইরে, আপনি কীভাবে রাষ্ট্রের ইনপুটটিকে ক্রিয়াকলাপের সাথে একত্রে দুজনকে খাওয়ানোর জন্য ক্রিয়া ইনপুটটির সাথে সংযুক্ত করলেন? আপনার কাছে কি কোডের এই অংশটি সর্বজনীনভাবে উপলব্ধ? ধন্যবাদ!
পেড্রো লোপস

উত্তর:


9

চতুর্থাংশ 1। আপনি অবশ্যই সঠিক পথে রয়েছেন তবে কয়েকটি পরিবর্তন অতীব সহায়তা করতে পারে। কিছু লোক ক্রিয়াকলাপের জন্য একটি আউটপুট ইউনিট ব্যবহার করেন যাতে ক্রিয়া নির্বাচনের জন্য তাদের কেবল একবার তাদের নেটওয়ার্ক চালাতে হবে (প্রতিটি সম্ভাব্য ক্রিয়াকলাপের জন্য আপনাকে একবার নিজের নেট চালাতে হবে)। তবে শেখার ক্ষেত্রে এটির সাথে কোনও তাত্পর্য হওয়া উচিত নয় এবং যদি আপনি আপনার মডেলটিকে উল্লেখযোগ্যভাবে বাড়িয়ে তোলার পরিকল্পনা করছেন তবে তা কার্যকর করার উপযুক্ত।

Q2 এর। সাধারণত, লোকেরা তাদের নিউরাল নেটওয়ার্কের শেষ স্তরের জন্য বিশেষতঃ পুনর্বহাল শেখার জন্য একটি লিনিয়ার অ্যাক্টিভেশন ফাংশন ব্যবহার করে । এর বিভিন্ন কারণ রয়েছে, তবে সর্বাধিক প্রাসঙ্গিক হ'ল একটি লিনিয়ার অ্যাক্টিভেশন ফাংশন আপনাকে আউটপুট হিসাবে রিয়েল সংখ্যার পুরো পরিসীমা উপস্থাপন করতে দেয়। সুতরাং, আপনি যদি নিজের কাজের জন্য পুরষ্কারের সীমাটি জানেন না, তবুও আপনি এখনও এই ব্যাপ্তির প্রতিনিধিত্ব করতে সক্ষম হওয়ার গ্যারান্টিযুক্ত।

চতুর্থাংশ 3। দুর্ভাগ্যক্রমে, পুনর্বহাল শেখার সাথে নিউরাল নেটওয়ার্কগুলি (এবং সাধারণভাবে অ-লিনিয়ার ফাংশন আনুমানিক) সংযুক্ত করার জন্য তাত্ত্বিক গ্যারান্টিগুলি প্রায় অনেকটা অস্তিত্বহীন। রিইনফোর্সমেন্ট লার্নিংয়ের কয়েকটি ফ্যানসিয়ার ভার্সন রয়েছে (মূলত সুতান ল্যাব থেকে বাইরে) যে ধরণের রূপান্তরিত দাবি আপনি উল্লেখ করেছেন তা করতে পারে, কিন্তু আমি সত্যিই কখনই সেই অ্যালগোরিদমকে 'বন্যের মধ্যে প্রয়োগ করা' দেখিনি। এর কারণ হ'ল দুর্দান্ত পারফরম্যান্সের প্রতিশ্রুতি দেওয়া যায় না, তবে এটি সাধারণত অনুশীলনে প্রাপ্ত হয়, হাইপার-প্যারামিটার এবং প্রাথমিক অবস্থার প্রতি যথাযথ মনোযোগ দিয়ে।

একটি চূড়ান্ত বিষয় যা সাধারণভাবে নিউরাল নেটওয়ার্কগুলির জন্য উল্লেখ করা হয়: প্রচুর গোপন স্তরযুক্ত নেটওয়ার্কগুলির জন্য সিগময়েড অ্যাক্টিভেশন ফাংশন ব্যবহার করবেন না! তারা 'বিলুপ্ত গ্রেডিয়েন্টস' এর সমস্যায় অভিশপ্ত; ত্রুটি সংকেত খুব কমই আগের স্তরগুলিতে পৌঁছেছে (ফাংশনটির ডেরাইভেটিভের দিকে তাকালে এটি স্পষ্ট হওয়া উচিত যে এটি কেন হয়)। পরিবর্তে, রেক্টিফাইড লিনিয়ার ইউনিট (RELU) বা 'সফট প্লাস' ইউনিট ব্যবহার করার চেষ্টা করুন, কারণ তারা সাধারণত গভীর নেটওয়ার্কগুলিতে আরও ভাল পারফরম্যান্স প্রদর্শন করে।

শক্তিবৃদ্ধি শেখার প্রশিক্ষণপ্রাপ্ত নিউরাল নেটওয়ার্কগুলির দুর্দান্ত বাস্তবায়নের জন্য এই কাগজটি দেখুন:

মনিহ, ভলডোমায়ার, ইত্যাদি। "গভীর শক্তিবৃদ্ধি শেখার সাথে আটারি খেলছে।" আরএক্সিভ প্রিপ্রিন্ট আরএক্সিভ: 1312.5602 (2013)।


0

অ্যাক্টিভেশন ফাংশনের জন্য, ম্যাক্সআউটটিও ভাল কাজ করে। গভীর নেটওয়ার্কগুলির জন্য যথাযথ প্রশিক্ষক ব্যবহার করা অত্যন্ত গুরুত্বপূর্ণ, আমি বিভিন্ন প্রশিক্ষক চেষ্টা করেছিলাম কিন্তু আরএমএসপ্রপের সাথে লেগে থাকার সিদ্ধান্ত নিয়েছিলাম এবং এটি দুর্দান্ত দেখাচ্ছে!


1
সাইটটিতে আপনাকে স্বাগতম, @ user3355911। এটি সম্ভবত একটি উত্তর এখানে খুব বিরল। আপনি কি এটিকে আরও প্রসারিত করতে পারেন এবং আরও ভাল করে তুলতে পারেন?
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.