কেন-লার্নিং পরীক্ষার সময় অ্যাপসিলন-লোভী ব্যবহার করে?


18

আটারি ভিডিও গেমসের জন্য ডিপ কিউ-লার্নিংয়ের ডিপমাইন্ডের গবেষণাপত্রে ( এখানে ), তারা প্রশিক্ষণের সময় অনুসন্ধানের জন্য একটি অ্যাপসিলন-লোভী পদ্ধতি ব্যবহার করে। এর অর্থ হ'ল প্রশিক্ষণে কোনও ক্রিয়া বাছাই করা হয়, এটি হয় হয় সর্বাধিক Q-মান, বা একটি এলোমেলো ক্রিয়া সহ ক্রিয়া হিসাবে বেছে নেওয়া হয়। এই দুটিয়ের মধ্যে নির্বাচন করা এলোমেলো এবং এপসিলনের মানের উপর ভিত্তি করে, এবং প্রশিক্ষণ চলাকালীন এপসিলনকে বর্ধিত করা হয় যে প্রাথমিকভাবে প্রচুর এলোমেলো পদক্ষেপ নেওয়া হয় (এক্সপ্লোরেশন), তবে প্রশিক্ষণের অগ্রগতির সাথে সাথে সর্বোচ্চ কিউ-মানগুলির সাথে প্রচুর ক্রিয়া নেওয়া হয় (শোষণ).

তারপরে, পরীক্ষার সময়, তারা এই এপসিলন-লোভী পদ্ধতিটিও ব্যবহার করে তবে এপসিলন সহ খুব কম মূল্যে, যেমন অন্বেষণের উপর শোষণের প্রতি দৃ strong় পক্ষপাত রয়েছে, এলোমেলো কর্মের চেয়ে সর্বোচ্চ Q-মান সহ ক্রিয়াটি বেছে নেওয়ার পক্ষে। যাইহোক, এলোমেলো ক্রিয়াগুলি এখনও মাঝে মধ্যে বেছে নেওয়া হয় (সময়ের 5%)।

আমার প্রশ্নগুলি: প্রশিক্ষণ ইতিমধ্যে সম্পন্ন হয়ে গিয়েছে কেন এই মুহুর্তে কোনও অন্বেষণ প্রয়োজন? যদি সিস্টেমটি সর্বোত্তম নীতি শিখে থাকে, তবে কেন ক্রিয়াকে সর্বদা সর্বোচ্চ Q- মানযুক্ত হিসাবে বেছে নেওয়া যায় না? শুধুমাত্র প্রশিক্ষণে অন্বেষণ করা উচিত নয় এবং তারপরে একবার সর্বোত্তম নীতি শিখলে এজেন্ট কেবল বারবার অনুকূল কর্ম বেছে নিতে পারে?

ধন্যবাদ!


এটি কোনওভাবে এএলই পরিবেশের নির্বিচার প্রকৃতির সাথে সংযুক্ত থাকতে পারে। যদি আপনি মূল্যায়নের সময় এলোমেলো ক্রিয়া না করেন তবে আপনি সর্বদা ক্রমের একই ক্রম করবেন (যেহেতু রাজ্যের ক্রমটি একই)। এগুলি এলোমেলোভাবে শুরু হয় - 30 টি ফ্রেম পর্যন্ত অপেক্ষা করুন এই কারণে কিছু না করে।
yobibyte

উত্তর:


10

প্রকৃতির কাগজে তারা উল্লেখ করেছে:

প্রশিক্ষিত এজেন্টদের প্রতিটি প্রারম্ভিক বিভিন্ন র্যান্ডম শর্ত ('নুপ'; এক্সটেন্ডেড ডেটা টেবিল 1 দেখুন) এবং এপসিলন 0.05 সহ একটি ই-লোভী নীতি সহ প্রতিটি সময় 30 বার 5 মিনিটের জন্য খেলে মূল্যায়ন করা হয়েছিল। মূল্যায়ন চলাকালীন অত্যধিক মানসিকতার সম্ভাবনা কমাতে এই পদ্ধতিটি গৃহীত হয়।

আমি মনে করি তাদের অর্থ হ'ল 'ওভার / আন্ডার ফিটিংয়ের নেতিবাচক প্রভাবগুলি বাতিল করা'। 0 এর এপসিলন ব্যবহার করা সম্পূর্ণরূপে শোষণমূলক (যেমন আপনি উল্লেখ করেছেন) পছন্দ এবং একটি দৃ strong় বিবৃতি দেয়।

উদাহরণস্বরূপ, এমন একটি গোলকধাঁধা খেলা বিবেচনা করুন যেখানে এজেন্টের বর্তমান কিউ-অনুমানগুলি একটি গ্রিড বাদে অনুকূল নীতিতে রূপান্তরিত হয়, যেখানে এটি লোভজনকভাবে একটি গণ্ডির দিকে যেতে পছন্দ করে যা ফলাফল একই গ্রিডে অবশিষ্ট থাকে। যদি এজেন্ট এ জাতীয় কোনও অবস্থাতে পৌঁছে এবং এটি ম্যাক্স কিউ অ্যাকশনটি বেছে নিচ্ছে তবে তা সেখানে অনন্তকাল আটকে থাকবে। তবে, তার নীতিতে একটি অস্পষ্টভাবে শোষণকারী / স্টোকাস্টিক উপাদান রাখার ফলে (ক্ষুদ্র পরিমাণের অ্যাপসিলনের মতো) এটি এ জাতীয় রাজ্য থেকে বেরিয়ে আসতে পারে।

যা বলেছি, কোডটি প্রয়োগের মাধ্যমে আমি অনুশীলনের কর্মক্ষমতা দেখেছি (এবং নিজেকে কোড করে দিয়েছি) প্রায়শই লোকেদের নীতির সাথে পরিমাপ করা হয় আপনি আপনার প্রশ্নের সঠিক কারণগুলির জন্য।



2

আমি মনে করি পরীক্ষার উদ্দেশ্য হ'ল সিস্টেমটি বাস্তব-বিশ্বের পরিস্থিতিতে কীভাবে প্রতিক্রিয়া জানায় a


ε

বিকল্প 2:
যদি তারা খর্বক হওয়ার বিষয়ে চিন্তিত হয়, কম "আধ্যাত্মিক যুক্তিযুক্ত" খেলোয়াড়ের বিরুদ্ধে খেলতে থাকে তবে তাদের অতিরিক্ত অনুমান না করার জন্য তারা তাদের প্রশিক্ষণের স্কোরগুলি "অ্যানিলিং" করতে পারে।

বিকল্প 3:
এটি তাদের যাদু ধোঁয়া। এটির টুকরো হতে চলেছে তারা ভাগ করতে চায় না এবং চায় না। তারা এগুলি প্রকাশ করতে পারে যাতে তারা তাদের ব্যবসায়ের জন্য মালিকানাধীন বা ব্যতিক্রমীভাবে প্রাসঙ্গিক কিছু অস্পষ্ট করতে পারে যা তারা ভাগ করতে চায় না।

বিকল্প 4:
তারা সিস্টেমে "ফ্যাট" কত আছে তা পরীক্ষা করার জন্য বারবার পরীক্ষা করা এবং অ্যাপসিলনের বিভিন্ন মান ব্যবহার করতে পারে। যদি তাদের দুর্বল র্যান্ডমাইজেশন, বা এতগুলি নমুনা ছিল যে এমনকি একটি ন্যায্য র্যান্ডমাইজেশন নিজেই পুনরাবৃত্তি শুরু করে, তবে পদ্ধতিটি সিউডো-র্যান্ডম পক্ষপাতদুষ্ট করার জন্য একটি অসত্য আচরণ "শিখতে" পারে। এটি পরীক্ষার পর্যায়ে এটি যাচাইয়ের অনুমতি দিতে পারে।

আমি নিশ্চিত যে আরও অর্ধ-ডজন অন্যান্য অর্থবহ কারণ রয়েছে তবে এগুলিই আমি ভাবতে পারি।

সম্পাদনা: স্ব নোট করুন, আমি সত্যিই "ভঙ্গুর" চিন্তাকে পছন্দ করি। আমি মনে করি এটি প্রথম-জেনার ইন্টারমিডিয়েট এআইয়ের অস্তিত্বের দুর্বলতা হতে পারে।


1

ε

εε=0.05

বিশেষত যেহেতু প্রিপ্রোসেসড ইনপুটটিতে পূর্বের সম্মুখীন হওয়া ইতিহাস রয়েছে তার উদ্বেগটি হ'ল, অন্তর্নিহিত গেমপ্লেটিতে সাধারণীকরণের পরিবর্তে এজেন্ট কেবল সেই নির্দিষ্ট গেমের জন্য অনুকূল ট্র্যাজেক্টরিগুলি মুখস্ত করে এবং পরীক্ষার পর্যায়ে এগুলি পুনরায় প্রতিস্থাপন করে; এটিই "মূল্যায়নের সময় অত্যধিক মানসিকতার সম্ভাবনা" বলতে বোঝায় । নির্জনবাদী পরিবেশের জন্য এটি সুস্পষ্ট তবে স্টোকাস্টিক স্টেট ট্রানজিশন মুখস্তকরণের জন্য (অর্থাত্ ওভারফিটিং )ও ঘটতে পারে। পরীক্ষার পর্যায়ে র্যান্ডমাইজেশন ব্যবহার করে, খেলা চলাকালীন এলোমেলো দৈর্ঘ্যের কোনও অপ-সূচনা এবং সেইসাথে এলোমেলো ক্রিয়াগুলির একটি অংশ, অ্যালগরিদমকে অপ্রত্যাশিত রাজ্যগুলির সাথে মোকাবিলা করতে বাধ্য করে এবং তাই কিছুটা সাধারণীকরণের প্রয়োজন হয়।

εε=0পরীক্ষার সময় সম্ভাব্য পারফরম্যান্সের উন্নতি করতে পারে তবে পয়েন্টটি এখানে সাধারণকরণের দক্ষতা দেখানো show তদুপরি, বেশিরভাগ আটারি গেমগুলিতে রাজ্যটিও কোনও অনিঃপক্ষে উন্নত হয় এবং তাই যদি এমনটি ঘটে থাকে তবে এজেন্টটি স্বাভাবিকভাবেই "আনস্টাক" পেতে পারে। অন্যত্র উল্লিখিত গোলকধাঁধা উদাহরণ বিবেচনা করে যেখানে পরিবেশটি নো-অপ্সের উপরে বিকশিত হয় না, এজেন্ট দ্রুত শিখতে পারে যে পুরষ্কারটি সঠিকভাবে আকার দেওয়া হলে দেয়ালে চলে যাওয়া ভাল ধারণা নয় (উদাহরণস্বরূপ প্রতিটি পদক্ষেপের জন্য -১); বিশেষত আশাবাদী প্রাথমিক মানগুলি ব্যবহার করার সময় প্রয়োজনীয় অনুসন্ধান স্বাভাবিকভাবেই ঘটে। যদি আপনি এখনও দেখতে পান যে আপনার অ্যালগরিদম কখনও কোনও পরিস্থিতিতে আটকা পড়েছে তবে এর অর্থ আপনার ক্রিয়াকলাপের ক্ষেত্রে কিছু সহায়ক র্যান্ডমাইজেশন প্রবর্তনের পরিবর্তে প্রশিক্ষণের সময় বাড়ানো দরকার (অর্থাত্ আরও পর্বগুলি চালানো)।

তবে আপনি যদি কোনও পরিবেশে বিবর্তিত সিস্টেম গতিবিদ্যা নিয়ে চলতে থাকেন (এটি অন্তর্নিহিত রাষ্ট্রীয় রূপান্তর বা সময়ের সাথে সাথে পুরষ্কারের পরিবর্তন) তবে পরিবর্তনগুলি বজায় রাখতে আপনাকে অবশ্যই কিছুটা অনুসন্ধান চালিয়ে যেতে হবে এবং সেই অনুযায়ী আপনার নীতি আপডেট করতে হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.