কেন-লার্নিং পরীক্ষার সময় অ্যাপসিলন-লোভী ব্যবহার করে?

18

আটারি ভিডিও গেমসের জন্য ডিপ কিউ-লার্নিংয়ের ডিপমাইন্ডের গবেষণাপত্রে ( এখানে ), তারা প্রশিক্ষণের সময় অনুসন্ধানের জন্য একটি অ্যাপসিলন-লোভী পদ্ধতি ব্যবহার করে। এর অর্থ হ'ল প্রশিক্ষণে কোনও ক্রিয়া বাছাই করা হয়, এটি হয় হয় সর্বাধিক Q-মান, বা একটি এলোমেলো ক্রিয়া সহ ক্রিয়া হিসাবে বেছে নেওয়া হয়। এই দুটিয়ের মধ্যে নির্বাচন করা এলোমেলো এবং এপসিলনের মানের উপর ভিত্তি করে, এবং প্রশিক্ষণ চলাকালীন এপসিলনকে বর্ধিত করা হয় যে প্রাথমিকভাবে প্রচুর এলোমেলো পদক্ষেপ নেওয়া হয় (এক্সপ্লোরেশন), তবে প্রশিক্ষণের অগ্রগতির সাথে সাথে সর্বোচ্চ কিউ-মানগুলির সাথে প্রচুর ক্রিয়া নেওয়া হয় (শোষণ).

তারপরে, পরীক্ষার সময়, তারা এই এপসিলন-লোভী পদ্ধতিটিও ব্যবহার করে তবে এপসিলন সহ খুব কম মূল্যে, যেমন অন্বেষণের উপর শোষণের প্রতি দৃ strong় পক্ষপাত রয়েছে, এলোমেলো কর্মের চেয়ে সর্বোচ্চ Q-মান সহ ক্রিয়াটি বেছে নেওয়ার পক্ষে। যাইহোক, এলোমেলো ক্রিয়াগুলি এখনও মাঝে মধ্যে বেছে নেওয়া হয় (সময়ের 5%)।

আমার প্রশ্নগুলি: প্রশিক্ষণ ইতিমধ্যে সম্পন্ন হয়ে গিয়েছে কেন এই মুহুর্তে কোনও অন্বেষণ প্রয়োজন? যদি সিস্টেমটি সর্বোত্তম নীতি শিখে থাকে, তবে কেন ক্রিয়াকে সর্বদা সর্বোচ্চ Q- মানযুক্ত হিসাবে বেছে নেওয়া যায় না? শুধুমাত্র প্রশিক্ষণে অন্বেষণ করা উচিত নয় এবং তারপরে একবার সর্বোত্তম নীতি শিখলে এজেন্ট কেবল বারবার অনুকূল কর্ম বেছে নিতে পারে?

ধন্যবাদ!

— Karnivaurus
সূত্র

এটি কোনওভাবে এএলই পরিবেশের নির্বিচার প্রকৃতির সাথে সংযুক্ত থাকতে পারে। যদি আপনি মূল্যায়নের সময় এলোমেলো ক্রিয়া না করেন তবে আপনি সর্বদা ক্রমের একই ক্রম করবেন (যেহেতু রাজ্যের ক্রমটি একই)। এগুলি এলোমেলোভাবে শুরু হয় - 30 টি ফ্রেম পর্যন্ত অপেক্ষা করুন এই কারণে কিছু না করে।

— yobibyte

10

প্রকৃতির কাগজে তারা উল্লেখ করেছে:

প্রশিক্ষিত এজেন্টদের প্রতিটি প্রারম্ভিক বিভিন্ন র্যান্ডম শর্ত ('নুপ'; এক্সটেন্ডেড ডেটা টেবিল 1 দেখুন) এবং এপসিলন 0.05 সহ একটি ই-লোভী নীতি সহ প্রতিটি সময় 30 বার 5 মিনিটের জন্য খেলে মূল্যায়ন করা হয়েছিল। মূল্যায়ন চলাকালীন অত্যধিক মানসিকতার সম্ভাবনা কমাতে এই পদ্ধতিটি গৃহীত হয়।

আমি মনে করি তাদের অর্থ হ'ল 'ওভার / আন্ডার ফিটিংয়ের নেতিবাচক প্রভাবগুলি বাতিল করা'। 0 এর এপসিলন ব্যবহার করা সম্পূর্ণরূপে শোষণমূলক (যেমন আপনি উল্লেখ করেছেন) পছন্দ এবং একটি দৃ strong় বিবৃতি দেয়।

উদাহরণস্বরূপ, এমন একটি গোলকধাঁধা খেলা বিবেচনা করুন যেখানে এজেন্টের বর্তমান কিউ-অনুমানগুলি একটি গ্রিড বাদে অনুকূল নীতিতে রূপান্তরিত হয়, যেখানে এটি লোভজনকভাবে একটি গণ্ডির দিকে যেতে পছন্দ করে যা ফলাফল একই গ্রিডে অবশিষ্ট থাকে। যদি এজেন্ট এ জাতীয় কোনও অবস্থাতে পৌঁছে এবং এটি ম্যাক্স কিউ অ্যাকশনটি বেছে নিচ্ছে তবে তা সেখানে অনন্তকাল আটকে থাকবে। তবে, তার নীতিতে একটি অস্পষ্টভাবে শোষণকারী / স্টোকাস্টিক উপাদান রাখার ফলে (ক্ষুদ্র পরিমাণের অ্যাপসিলনের মতো) এটি এ জাতীয় রাজ্য থেকে বেরিয়ে আসতে পারে।

যা বলেছি, কোডটি প্রয়োগের মাধ্যমে আমি অনুশীলনের কর্মক্ষমতা দেখেছি (এবং নিজেকে কোড করে দিয়েছি) প্রায়শই লোকেদের নীতির সাথে পরিমাপ করা হয় আপনি আপনার প্রশ্নের সঠিক কারণগুলির জন্য।

— Zhubarb
সূত্র

3

$\epsilon\ = 0.05$

— papabiceps
সূত্র

2

আমি মনে করি পরীক্ষার উদ্দেশ্য হ'ল সিস্টেমটি বাস্তব-বিশ্বের পরিস্থিতিতে কীভাবে প্রতিক্রিয়া জানায় a

$\epsilon$

বিকল্প 2:
যদি তারা খর্বক হওয়ার বিষয়ে চিন্তিত হয়, কম "আধ্যাত্মিক যুক্তিযুক্ত" খেলোয়াড়ের বিরুদ্ধে খেলতে থাকে তবে তাদের অতিরিক্ত অনুমান না করার জন্য তারা তাদের প্রশিক্ষণের স্কোরগুলি "অ্যানিলিং" করতে পারে।

বিকল্প 3:
এটি তাদের যাদু ধোঁয়া। এটির টুকরো হতে চলেছে তারা ভাগ করতে চায় না এবং চায় না। তারা এগুলি প্রকাশ করতে পারে যাতে তারা তাদের ব্যবসায়ের জন্য মালিকানাধীন বা ব্যতিক্রমীভাবে প্রাসঙ্গিক কিছু অস্পষ্ট করতে পারে যা তারা ভাগ করতে চায় না।

বিকল্প 4:
তারা সিস্টেমে "ফ্যাট" কত আছে তা পরীক্ষা করার জন্য বারবার পরীক্ষা করা এবং অ্যাপসিলনের বিভিন্ন মান ব্যবহার করতে পারে। যদি তাদের দুর্বল র্যান্ডমাইজেশন, বা এতগুলি নমুনা ছিল যে এমনকি একটি ন্যায্য র্যান্ডমাইজেশন নিজেই পুনরাবৃত্তি শুরু করে, তবে পদ্ধতিটি সিউডো-র্যান্ডম পক্ষপাতদুষ্ট করার জন্য একটি অসত্য আচরণ "শিখতে" পারে। এটি পরীক্ষার পর্যায়ে এটি যাচাইয়ের অনুমতি দিতে পারে।

আমি নিশ্চিত যে আরও অর্ধ-ডজন অন্যান্য অর্থবহ কারণ রয়েছে তবে এগুলিই আমি ভাবতে পারি।

সম্পাদনা: স্ব নোট করুন, আমি সত্যিই "ভঙ্গুর" চিন্তাকে পছন্দ করি। আমি মনে করি এটি প্রথম-জেনার ইন্টারমিডিয়েট এআইয়ের অস্তিত্বের দুর্বলতা হতে পারে।

— EngrStudent - মনিকা পুনরায় স্থাপন করুন
সূত্র

1

$\epsilon$

$\epsilon$ $\epsilon = 0.05$

বিশেষত যেহেতু প্রিপ্রোসেসড ইনপুটটিতে পূর্বের সম্মুখীন হওয়া ইতিহাস রয়েছে তার উদ্বেগটি হ'ল, অন্তর্নিহিত গেমপ্লেটিতে সাধারণীকরণের পরিবর্তে এজেন্ট কেবল সেই নির্দিষ্ট গেমের জন্য অনুকূল ট্র্যাজেক্টরিগুলি মুখস্ত করে এবং পরীক্ষার পর্যায়ে এগুলি পুনরায় প্রতিস্থাপন করে; এটিই "মূল্যায়নের সময় অত্যধিক মানসিকতার সম্ভাবনা" বলতে বোঝায় । নির্জনবাদী পরিবেশের জন্য এটি সুস্পষ্ট তবে স্টোকাস্টিক স্টেট ট্রানজিশন মুখস্তকরণের জন্য (অর্থাত্ ওভারফিটিং )ও ঘটতে পারে। পরীক্ষার পর্যায়ে র্যান্ডমাইজেশন ব্যবহার করে, খেলা চলাকালীন এলোমেলো দৈর্ঘ্যের কোনও অপ-সূচনা এবং সেইসাথে এলোমেলো ক্রিয়াগুলির একটি অংশ, অ্যালগরিদমকে অপ্রত্যাশিত রাজ্যগুলির সাথে মোকাবিলা করতে বাধ্য করে এবং তাই কিছুটা সাধারণীকরণের প্রয়োজন হয়।

$\epsilon$ $\epsilon = 0$ পরীক্ষার সময় সম্ভাব্য পারফরম্যান্সের উন্নতি করতে পারে তবে পয়েন্টটি এখানে সাধারণকরণের দক্ষতা দেখানো show তদুপরি, বেশিরভাগ আটারি গেমগুলিতে রাজ্যটিও কোনও অনিঃপক্ষে উন্নত হয় এবং তাই যদি এমনটি ঘটে থাকে তবে এজেন্টটি স্বাভাবিকভাবেই "আনস্টাক" পেতে পারে। অন্যত্র উল্লিখিত গোলকধাঁধা উদাহরণ বিবেচনা করে যেখানে পরিবেশটি নো-অপ্সের উপরে বিকশিত হয় না, এজেন্ট দ্রুত শিখতে পারে যে পুরষ্কারটি সঠিকভাবে আকার দেওয়া হলে দেয়ালে চলে যাওয়া ভাল ধারণা নয় (উদাহরণস্বরূপ প্রতিটি পদক্ষেপের জন্য -১); বিশেষত আশাবাদী প্রাথমিক মানগুলি ব্যবহার করার সময় প্রয়োজনীয় অনুসন্ধান স্বাভাবিকভাবেই ঘটে। যদি আপনি এখনও দেখতে পান যে আপনার অ্যালগরিদম কখনও কোনও পরিস্থিতিতে আটকা পড়েছে তবে এর অর্থ আপনার ক্রিয়াকলাপের ক্ষেত্রে কিছু সহায়ক র্যান্ডমাইজেশন প্রবর্তনের পরিবর্তে প্রশিক্ষণের সময় বাড়ানো দরকার (অর্থাত্ আরও পর্বগুলি চালানো)।

তবে আপনি যদি কোনও পরিবেশে বিবর্তিত সিস্টেম গতিবিদ্যা নিয়ে চলতে থাকেন (এটি অন্তর্নিহিত রাষ্ট্রীয় রূপান্তর বা সময়ের সাথে সাথে পুরষ্কারের পরিবর্তন) তবে পরিবর্তনগুলি বজায় রাখতে আপনাকে অবশ্যই কিছুটা অনুসন্ধান চালিয়ে যেতে হবে এবং সেই অনুযায়ী আপনার নীতি আপডেট করতে হবে।

— একজন অতিথি
সূত্র