যখন ক্রিয়াকলাপের জন্য একটি আউটপুট ইউনিট থাকে তখন নিউরাল নেটওয়ার্কগুলির সাথে কি-লার্নিং কতটা দক্ষ?


9

পটভূমি:
আমি আমার শক্তিবৃদ্ধি শেখার কাজে নিউরাল নেটওয়ার্ক কিউ-মান আনুমানিক ব্যবহার করছি। দৃষ্টিভঙ্গি এই প্রশ্নের বর্ণিত হিসাবে ঠিক একই , তবে প্রশ্নটি নিজেই আলাদা।

এই পদ্ধতির আউটপুটগুলির সংখ্যাটি আমরা গ্রহণ করতে পারি এমন ক্রিয়াকলাপ। এবং সহজ কথায়, অ্যালগরিদমটি নিম্নলিখিত: ক্রিয়া A করুন, পুরষ্কারটি অন্বেষণ করুন, NN কে সমস্ত সম্ভাব্য ক্রয়ের জন্য Q মানগুলি পূর্বাভাস দিতে, সর্বাধিক Q মান চয়ন করুন, নির্দিষ্ট ক্রিয়া A এর জন্য Q গণনা করুন R + max(new_state_Q)। পূর্বাভাসিত Q মানগুলির উপর ফিট মডেল যার মধ্যে কেবল একটি প্রতিস্থাপন করে R + max(new_state_Q)

প্রশ্ন: আউটপুট সংখ্যা বড় হলে এই পদ্ধতির কতটা দক্ষ?

প্রয়াস: ধরা যাক যে আমরা 10 টি পদক্ষেপ নিতে পারি। প্রতিটি পদক্ষেপে আমরা মডেলকে 10 টি মান বাছাই করতে বলি, মডেলের প্রাথমিক বয়সে এই পূর্বাভাসটি মোটামুটি গোলযোগ। তারপরে আমরা আউটপুটটির 1 মান পরিবর্তন করব এবং এই মানগুলিতে মডেলটি ফিট করব।

এই পদ্ধতির পক্ষে আমার পক্ষে দুটি বিপরীত ধারণা রয়েছে - কোনটি সঠিক তা সিদ্ধান্ত নিতে পারছি না:

  • এক দৃষ্টিকোণ থেকে, আমরা প্রতিটি নিউরনকে এলোমেলো উপাত্তে 9 বার এবং সত্যিকারের নিকটবর্তী ডেটাতে একবার প্রশিক্ষণ দিচ্ছি। যদি এনএন স্টেট এস-তে ক্রিয়াকলাপের জন্য 5 এর পূর্বাভাস দেয় তবে আসল মান -100 হয় আমরা 5 মান সহ এনএন 9 বার এবং তারপরে একবার মান -100 এর সাথে ফিট করব। মনে হচ্ছে পাগল।
  • অন্য দৃষ্টিকোণ থেকে, নিউরাল নেটওয়ার্কের শিখনটি একটি ত্রুটির পিছনে প্রচার হিসাবে প্রয়োগ করা হয় , সুতরাং যখন মডেল 5 টি ভবিষ্যদ্বাণী করেছে এবং আমরা 5 এ প্রশিক্ষণ দিচ্ছি তবে ত্রুটিটি 0 হওয়ার কারণে ওজন নতুন কিছু শিখবে না We । এবং কেবলমাত্র যখন আমরা -100 গণনা করব এবং এটি মডেলটির সাথে ফিট করব, এটি ওজন পুনরুদ্ধার করবে।

কোন বিকল্পটি সঠিক? আমি আমলে নিচ্ছি না এমন আরও কিছু আছে কি?

আপডেট: "কতটা দক্ষ" দ্বারা আমার অর্থ একটি আউটপুটের সাথে একটি পদ্ধতির সাথে তুলনা করা - পূর্বাভাস প্রাপ্ত পুরষ্কার। অবশ্যই, পদক্ষেপটি এই ক্ষেত্রে ইনপুটটির একটি অংশ হবে। সুতরাং # 1 পদ্ধতির কোনও কোনও রাষ্ট্রের ভিত্তিতে সমস্ত ক্রিয়াকলাপের জন্য ভবিষ্যদ্বাণী করা হয়, # 2 পদ্ধতির কোনও কোনও রাজ্যে নেওয়া নির্দিষ্ট পদক্ষেপের জন্য পূর্বাভাস দেয়।


বর্তমান প্রশ্নের আকারে এই প্রশ্নের একটি যথাযথ উত্তর দেওয়া খুব কঠিন: "এই পদ্ধতিটি কতটা কার্যকর?" ঠিক আছে, এটা নির্ভর করে ... কিসের তুলনায়? আপনি কোন বিকল্প পদ্ধতির প্রস্তাব করবেন যা আরও কার্যকর হতে পারে বা নাও হতে পারে?
ডেনিস সুমারস

হাই @ ডেনিসসোমার্স আপনার প্রশ্নের জন্য ধন্যবাদ। আমি আমার পোস্ট আপডেট করেছি। মূলত, বিকল্প পদ্ধতির একটি আউটপুট হচ্ছে - পুরষ্কার। এবং সমস্ত সম্ভাব্য কর্মের জন্য অতিরিক্ত এন ইনপুট। প্রধান পন্থা হল ইনপুট (রাজ্য) এবং আউটপুট (এন ক্রিয়াকলাপগুলির জন্য এন রিওয়ার্ডস)। বিকল্প হ'ল আমি (রাজ্য + অ্যাকশন) এবং ও (পুরষ্কার)।
সেরিহি

উত্তর:


1

সুতরাং দুটি বিকল্পের সাথে আমরা তুলনা করতে চাই:

  1. ইনপুটস = ​​রাষ্ট্রের প্রতিনিধিত্ব, ফলাফল অনুসারে আউটপুট = 1 নোড
  2. ইনপুটস = ​​রাষ্ট্রের উপস্থাপনা + ক্রিয়াকলাপগুলির এক-গরম এনকোডিং, আউটপুট = 1 নোড

আমার নিজের স্বজ্ঞাতসারে গিয়ে আমি সন্দেহ করি যে এই দুটি বিকল্পের মধ্যে প্রতিনিধিত্ব শক্তি বা শেখার গতির ক্ষেত্রে (পুনরাবৃত্তির দিক দিয়ে) একটি উল্লেখযোগ্য পার্থক্য রয়েছে।

প্রতিনিধিত্বের শক্তির জন্য, প্রথম বিকল্পটি ইনপুটগুলির কাছে সামান্য '' ছোট '' নেটওয়ার্ক এবং আউটপুটগুলির কাছে একটি '' বৃহত্তর '' নেটওয়ার্ক দেয়। যদি কোনও কারণে উদাহরণস্বরূপ ইনপুট নোডগুলির কাছে আরও ওজন রাখা উপকারী হয় তবে এটি প্রথম লুকানো স্তরটিকে (ইনপুটগুলির নিকটে) কিছুটা বড় করেও অর্জন করা যায়।

শেখার গতি হিসাবে, যে উদ্বেগটি আপনার কাছে মনে হয় তা মূলত কেবল আউটপুটগুলির মধ্যে একটির জন্য সঠিক শিখনের সংকেত রয়েছে, অন্যদের জন্য নয়। দ্বিতীয় বিকল্পের সাহায্যে ইনপুট নোডের সাথে যুক্ত ওজনগুলির জন্য ঠিক একই কথা বলা যেতে পারে, তাই আমি সন্দেহ করি সেখানে একটি উল্লেখযোগ্য পার্থক্য রয়েছে।

আমি যেমন উল্লেখ করেছি, উপরের সমস্তগুলি কেবল আমার স্বজ্ঞাততার উপর ভিত্তি করে নির্মিত হয়েছে, তবে এর উপর আরও বিশ্বাসযোগ্য উল্লেখগুলি আকর্ষণীয় হবে।

আমি প্রথম বিকল্পটির জন্য একটি গুরুত্বপূর্ণ সুবিধা দেখতে পাচ্ছি তা হল গণনার গতি; ধরুন আপনি কোন ক্রিয়াটি নির্বাচন করবেন তা সিদ্ধান্ত নেওয়ার জন্য আপনি সমস্ত ক্রিয়ের জন্য মানগুলি গণনা করতে চান ; একটি একক সামনে নেটওয়ার্কের মাধ্যমে পাস, আপনি সমস্ত দান একবারে -values, আরো অনেক কিছু দক্ষ গণনা থাকার চেয়ে থাকবে আলাদা ফরোয়ার্ড (আকার একটি কর্ম সেট পাসের )।প্রশ্নঃপ্রশ্নঃএনএন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.