ফাংশন আনুমানিকতা ব্যবহার করার সময় কেন প্রশ্ন-শেখার একত্রিত হয় না?


12

সারণী কিউ-লার্নিং অ্যালগরিদম অনুকূল খুঁজে পাওয়ার গ্যারান্টিযুক্ত Q ফাংশন, Q, প্রদত্ত শিক্ষার হার সম্পর্কিত নিম্নলিখিত শর্তগুলি ( রব্বিনস-মনরো শর্তাবলী ) সন্তুষ্ট

  1. tαt(s,a)=
  2. tαt2(s,a)<

কোথায় αt(s,a) মানে আপডেট করার সময় ব্যবহৃত শিক্ষার হার Q রাষ্ট্রের সাথে সম্পর্কিত মান s এবং কর্ম a সময় ধাপে t, কোথায় 0αt(s,a)<1 সমস্ত রাষ্ট্রের জন্য সত্য বলে ধরে নেওয়া হয় s এবং ক্রিয়া a

স্পষ্টতই, যে দেওয়া 0αt(s,a)<1, দুটি শর্ত সত্য হওয়ার জন্য, সমস্ত রাষ্ট্র-কর্ম যুগলকে প্রায়শই অনন্তকালীন পরিদর্শন করতে হবে: এটি রিইনফোর্সমেন্ট লার্নিং বইয়ের একটি বিবরণেও বলা হয়েছে যে এটি ব্যাপকভাবে জানা উচিত এবং এটি যৌক্তিক কারণ ব্যবহার পিছনেϵপ্রশিক্ষণের সময় লোভী নীতি (বা অনুরূপ নীতি)।

একটি সম্পূর্ণ প্রমাণ যা এটি দেখায় Qইলেক্ট্রনিক্স অনুকূল খুঁজে পায় Qফাংশনটি কিউ-শিক্ষার কনভার্জেন্সে কাগজে পাওয়া যায় : একটি সাধারণ প্রুফ (ফ্রান্সিসকো এস মেলো দ্বারা)। তিনি অনুকূলটি সংজ্ঞায়িত করতে সংকোচনের মানচিত্রের মতো ধারণা ব্যবহার করেনQফাংশন (আরও দেখুন পুনর্বহাল শেখার বেলম্যান অপারেটর কী? ), যা এই সংকোচনের অপারেটরের একটি নির্দিষ্ট পয়েন্ট। তিনি রূপান্তরিত এলোমেলো প্রক্রিয়া সম্পর্কিত একটি উপপাদ্য (এন। 2 )ও ব্যবহার করেন0কয়েকটি অনুমান দেওয়া হয়েছে। (আপনি গণিতের লোক না হলে প্রমাণটি অনুসরণ করা সহজ হতে পারে না))

যদি একটি নিউরাল নেটওয়ার্কটি প্রতিনিধিত্ব করতে ব্যবহৃত হয় Q ফাংশন, এর কনভার্জেন্স গ্যারান্টি না Qইলেক্ট্রিং এখনও ধরে? ফাংশন আনুমানিককরণ ব্যবহার করার সময় কেন (বা না) প্রশ্ন-শেখার একত্রিত হয়? এরকম রূপান্তরহীনতার কোনও আনুষ্ঠানিক প্রমাণ রয়েছে কি?Qফাংশন আনুমানিক ব্যবহার করে বিদ্যুতায়ন?

আমি বিভিন্ন ধরণের উত্তরগুলির সন্ধান করছি, যাঁদের অ-রূপান্তরকরণের পিছনে কেবল অন্তর্দৃষ্টি দেয় তাদের কাছ থেকে Qআনুষ্ঠানিক প্রমাণ (বা একটি প্রথাগত প্রমাণ সহ একটি কাগজের লিঙ্ক) প্রদান করে তাদের ফাংশন সান্নিধ্য ব্যবহার করার সময় আলোকপাত।


2
দুর্দান্ত প্রশ্ন!
জন ডুয়েস্ট

আপনি যে বইটি উল্লেখ করেছেন সেই বইটি 11 অধ্যায়ে এই সমস্যাটি সম্পর্কে আলোচনা করেছে যাতে আপনি এটি পড়তে পারেন। এছাড়াও, আমি মনে করি না কেন এটি ঘটে যায় তার কোনও আনুষ্ঠানিক প্রমাণ আছে তবে কয়েকটি উদাহরণ রয়েছে যা সাধারণ পরিবেশেও বিচ্যুতি দেখায় (উদাঃ সিতসিক্লিস এবং ভ্যান রায়)।
ব্রেলে

উত্তর:


8

এখানে একটি স্বজ্ঞাত বিবরণের উত্তর:

যে কোনও প্যারামিটারাইজেবল ফাংশন সহ ফাংশন আনুমানিককরণ করা যেতে পারে। ক এর সমস্যা বিবেচনা করুনQ(s,a) স্থান যেখানে s ইতিবাচক বাস্তবতা, a হয় 0 অথবা 1, এবং সত্য Q- ফাংশন হয় Q(s,0)=s2, এবং Q(s,1)=2s2সমস্ত রাজ্যের জন্য। যদি আপনার ফাংশন আনুমানিক হয়Q(s,a)=ms+na+b, এমন কোনও পরামিতি নেই যা সঠিকভাবে সত্যকে উপস্থাপন করতে পারে Qফাংশন (আমরা একটি চতুর্ভুজ ফাংশন একটি লাইন ফিট করার চেষ্টা করছি)। ফলস্বরূপ, এমনকি যদি আপনি একটি ভাল শিক্ষার হার বেছে নিয়ে থাকেন এবং সমস্ত রাজ্যের অসীম দর্শন করেন, আপনার অনুমানের ফাংশন কখনই সত্যে রূপান্তরিত করতে পারে নাQ ফাংশন।

এবং এখানে আরও কিছু বিশদ:

  1. নিউরাল নেটওয়ার্কগুলি আনুমানিক ফাংশন। একটি ফাংশন আরও বেশি কম জটিল বহুবর্ষ ব্যবহার করে এটি প্রায় আনুমানিক করতে আরও বৃহত্তর বা কম ডিগ্রীতে অনুমান করা যায়। আপনি যদি টেলর সিরিজের আনুমানিকতার সাথে পরিচিত হন তবে এই ধারণাটি বেশ স্বাভাবিক মনে হবে। যদি তা না হয় তবে বিরতিতে সাইন-ওয়েভের মতো কোনও ক্রিয়া সম্পর্কে ভাবুন [0-π/2)। আপনি একটি সরল রেখা দ্বারা এটি (খারাপভাবে) আনুমানিক করতে পারেন। চতুর্ভুজ বক্ররেখার সাথে আপনি এটি আরও ভাল আনুমানিক করতে পারেন। বক্ররেখার আনুমানিক ব্যবহারের জন্য আমরা বহুভিত্তিক ডিগ্রি বৃদ্ধি করে আমরা এমন কিছু পেতে পারি যা বক্ররেখাকে আরও ঘনিষ্ঠভাবে ফিট করে।
  2. নিউরাল নেটওয়ার্ক সার্বজনীন ফাংশন approximators । এর অর্থ হ'ল, যদি আপনার কোনও ফাংশন থাকে তবে আপনি এমন একটি নিউরাল নেটওয়ার্কও তৈরি করতে পারেন যা গভীর বা যথেষ্ট প্রশস্ত যে এটি আপনি নির্ধারিতভাবে সুনির্দিষ্ট ডিগ্রীতে তৈরি ফাংশনটি অনুমান করতে পারে। তবে, আপনি বেছে নিন এমন কোনও নির্দিষ্ট নেটওয়ার্ক টপোলজি সমস্ত ফাংশন শিখতে অক্ষম হবে , যতক্ষণ না এটি অসীম প্রশস্ত বা অসীম গভীর হয়। এটি কীভাবে অনুরূপ, যদি আপনি সঠিক পরামিতিগুলি চয়ন করেন তবে একটি লাইন কোনও দুটি পয়েন্ট ফিট করতে পারে তবে কোনও 3 পয়েন্ট নয়। আপনি যদি নির্দিষ্ট সীমাবদ্ধ প্রস্থ বা গভীরতার কোনও নেটওয়ার্ক চয়ন করেন তবে আমি সর্বদা একটি ফাংশন তৈরি করতে পারি যা সঠিকভাবে ফিট করার জন্য আরও কয়েকটি নিউরন প্রয়োজন।

  3. কি-লার্নিংয়ের সীমানা কেবল তখনই থাকে যখন কি-ফাংশনের প্রতিনিধিত্ব সঠিক হয় । কেন তা দেখার জন্য, ধরুন যে আপনি আপনার Q- ফাংশনটিকে লিনিয়ার ইন্টারপোলেশন দিয়ে আনুমানিক বেছে নিয়েছেন। সত্যিকারের ফাংশনটি যদি কোনও আকার নিতে পারে, তবে স্পষ্টতই আমাদের এক্সপোলেশনের ত্রুটিটি একটি এক্সওআর-এর মতো কি-ফাংশন ফাংশনটি তৈরি করে সীমিতভাবে বড় করা যায় এবং অতিরিক্ত পরিমাণ সময় বা ডেটা আমাদের এই ত্রুটি হ্রাস করতে দেয় না । আপনি যদি কোনও ফাংশন আনুমানিকর ব্যবহার করেন, এবং আসল ফাংশনটি আপনি ফিট করার চেষ্টা করছেন তা নয়ফাংশনটি নির্বিচারে ভালভাবে আনতে পারে এমন কিছু, তারপরে আপনার মডেলটি সঠিকভাবে রূপান্তর করবে না, এমনকি একটি সুনির্বাচিত শেখার হার এবং অন্বেষণের হারের সাথেও। কম্পিউটেশনাল লার্নিং থিওরির পরিভাষা ব্যবহার করে আমরা বলতে পারি যে কিউ-লার্নিংয়ের কনভার্জেনশন প্রুফগুলি সুস্পষ্টভাবে ধরে নিয়েছে যে আসল কি-ফাংশন এমন হাইপোথিসিস স্পেসের একটি সদস্য যেখানে আপনি আপনার মডেলটি নির্বাচন করবেন।


আমি যে প্রমাণটি উল্লেখ করেছি তার থেকে আমরা কোথায় দেখতে পাব যে "কি-লার্নিংয়ের সীমানা কেবল তখনই থাকে যখন কি-ফাংশনের প্রতিনিধিত্ব সঠিক হয়" সত্য?
nbro

সুতরাং, আমরা কিছু নিউরাল নেটওয়ার্ক (আর্কিটেকচার) ব্যবহার করে যে কোনও (যুক্তিসঙ্গত) ফাংশন আনুমানিক করতে পারি, তবে, একটি নির্দিষ্ট নিউরাল নেটওয়ার্ক আর্কিটেকচার দেওয়া হয়েছে Z (যা আমাদের প্রশিক্ষণের পর্বের শুরুতে বেছে নেওয়া দরকার Q-learning), Qবিদ্যুতায়ন নির্দিষ্ট যে আর্কিটেকচার ব্যবহার করে রূপান্তর করতে পারে না Z, কারণ Z উপস্থাপনের জন্য যথেষ্ট পরিমাণে ভাব প্রকাশ নাও করতে পারে Q
nbro

@ এনব্রো প্রমাণটি স্পষ্টভাবে বলে না, তবে এটি Q- ফাংশনের একটি সঠিক প্রতিনিধিত্ব অনুমান করে (এটি হ'ল প্রতিটি মান / রাষ্ট্রের কর্মের জন্য সঠিক মানগুলি গণনা করা হয় এবং সংরক্ষণ করা হয়)। অসীম রাষ্ট্রীয় স্থানগুলির জন্য, এটি স্পষ্ট যে এই সঠিক প্রতিনিধিত্বটি সবচেয়ে খারাপ ক্ষেত্রে অসীম আকারে বড় হতে পারে (সাধারণ উদাহরণ: Q (s, a) = পাই এর sth অঙ্ক)। আপনার দ্বিতীয় মন্তব্য এটির যোগফল দেয়। আরও আনুষ্ঠানিকভাবে, সত্যিকারের অনুমানের প্রশ্নটি যদি আপনি হাইপোথিসিসের স্থান এইচ এর উপাদান না হন যা থেকে আপনি একটি মডেল নির্বাচন করছেন, আপনি অসীম সময় বা ডেটা সহ, কিউ * তে রূপান্তর করতে পারবেন না।
জন ডুয়েস্ট

4

আমি যতদূর সচেতন, ঠিক কেন / কখন আমাদের একীকরণের ঘাটতি ঘটে - বা আরও খারাপ কিছু সময় বিচ্যুত হওয়ার আশঙ্কা রয়েছে তা সম্পর্কে একটি সত্যই পরিষ্কার, আনুষ্ঠানিক বোঝা পাওয়া এখনও কিছুটা উন্মুক্ত সমস্যা। এটি সাধারণত "মারাত্মক ত্রয়ী" হিসাবে চিহ্নিত করা হয় ( সুতান এবং বার্তোর বইয়ের দ্বিতীয় সংস্করণের ১১.৩ দেখুন) এর সংমিশ্রণ:

  1. ফাংশন আনুমানিক, এবং
  2. বুটস্ট্র্যাপিং (আমাদের প্রশিক্ষণ লক্ষ্যসমূহের গণনায় আমাদের নিজস্ব মূল্য অনুমান ব্যবহার করে, যেমনটি করা হয় Qবিদ্যুতায়ন), এবং
  3. অফ-পলিসি প্রশিক্ষণ (Qবিদ্যুতায়ন প্রকৃতপক্ষে অফ-পলিসি)।

এটি কেবলমাত্র আমাদের কেসেসের অভাব এবং / অথবা বিচ্যুতির ঝুঁকির মধ্যে আছে এমন একটি ক্ষেত্রে (সম্ভবত অবহিত নয়) বিবরণ দেয় তবে এখনও কেন আমাদের জানায় না যে সেসব ক্ষেত্রে কেন এটি ঘটে।


জন এর উত্তর ইতিমধ্যে অন্তর্দৃষ্টি প্রদান করে যে সমস্যার অংশটি হ'ল ফাংশন সান্নিধ্যের ব্যবহার সহজেই এমন পরিস্থিতিতে পরিচালিত করতে পারে যেখানে আপনার ফাংশন আনুমানিকটি সত্য উপস্থাপনের পক্ষে যথেষ্ট শক্তিশালী নাQ ফাংশন, সর্বদা আনুমানিক ত্রুটি থাকতে পারে যা আলাদা ফাংশন আনুমানিকের দিকে স্যুইচ না করে পরিত্রাণ পাওয়া অসম্ভব।

ব্যক্তিগতভাবে, আমি মনে করি এই স্বজ্ঞাততাটি বুঝতে সাহায্য করে যে কেন অ্যালগরিদম সর্বোত্তম সমাধানে সংহতকরণের গ্যারান্টি দিতে পারে না, তবে আমি এখনও স্বজ্ঞাতভাবে আশা করব যে এটি সম্ভবত "স্থিতিশীল" সমাধানে "রূপান্তর" করতে সক্ষম হবে যা সর্বোত্তম সম্ভাব্য সীমাবদ্ধতা given নির্বাচিত ফাংশন উপস্থাপনার অন্তর্নিহিত বিধিনিষেধগুলি। প্রকৃতপক্ষে, আমরা অন-পলিসি প্রশিক্ষণে (যেমন, সরসা) স্যুইচ করার সময় আমরা বাস্তবে এটি পর্যবেক্ষণ করি, অন্তত ক্ষেত্রে লিনিয়ার ফাংশন আনুমানিকর ক্ষেত্রে।


এই প্রশ্নের সাথে আমার নিজের স্বজ্ঞাততাটি সাধারণত ছিল যে সমস্যার একটি গুরুত্বপূর্ণ উত্স হচ্ছে সাধারণীকরণ । সারণী সেটিংয়ে, আমাদের সম্পূর্ণ বিচ্ছিন্ন এন্ট্রি রয়েছেQ(s,a) সবার জন্য (s,a)জোড়া। যখনই আমরা একটি এন্ট্রির জন্য আমাদের অনুমান আপডেট করি তখন এটি অন্য সমস্ত এন্ট্রিগুলিকে অবিচলিতভাবে ছেড়ে দেয় (কমপক্ষে প্রাথমিকভাবে - আপডেটের নিয়মে বুটস্ট্র্যাপিংয়ের কারণে ভবিষ্যতের আপডেটগুলিতে অন্যান্য এন্ট্রিগুলিতে কিছু প্রভাব থাকতে পারে)। পছন্দ মতো অ্যালগরিদমের জন্য নিয়ম আপডেট করুনQআলিয়ারিং এবং সারসা কখনও কখনও "দুর্ভাগ্যজনক" হয়ে গেলে "ভুল" দিকের দিকে আপডেট হতে পারে তবে প্রত্যাশায় তারা সাধারণত সঠিক "দিকনির্দেশ" এর দিকে আপডেট হয়। স্বজ্ঞাতভাবে, এর অর্থ এটি হ'ল টেবিলার সেটিংয়ে, প্রত্যাশায় আমরা আস্তে আস্তে, ধীরে ধীরে বিচ্ছিন্নভাবে কোনও প্রবেশিকায় কোনও ভুল সংশোধন করব, সম্ভবত অন্যান্য এন্ট্রিগুলির ক্ষতি না করেই।

ফাংশন সান্নিধ্য সঙ্গে, যখন আমরা আমাদের আপডেট করি Q(s,a) এক জন্য অনুমান (s,a)যুগল, এটা সম্ভাব্য এছাড়াও প্রভাবিত করতে পারে সব আমাদের অন্যান্য অনুমান জন্য সব অন্যান্য রাষ্ট্রীয় কর্ম জোড়া। স্বজ্ঞাতভাবে, এর অর্থ হ'ল আমাদের আর সারণীর সেটিংয়ের মতো এন্ট্রিগুলির সুন্দর বিচ্ছিন্নতা নেই এবং একটি এন্ট্রিতে "ফিক্সিং" ভুলের অন্যান্য এন্ট্রিতে নতুন ভুল যুক্ত হওয়ার ঝুঁকি থাকতে পারে। যাইহোক, জন এর উত্তর মত, এই সম্পূর্ণ স্বজ্ঞাত সত্যিকার অর্থে অন-পলিসি অ্যালগরিদমগুলিতে প্রযোজ্য হবে, তাই এটি এখনও বিশেষ কী তা ব্যাখ্যা করে নাQবিদ্যুতায়ন (এবং অন্যান্য অফ-পলিসি পদ্ধতি)।


এই বিষয়ে একটি খুব আকর্ষণীয় সাম্প্রতিক কাগজ হ'ল অ-বিভ্রান্তিকর কিউ-লার্নিং এবং মান আইট্রেশন । তারা অ্যালগরিদমে "বিভ্রান্তিকর পক্ষপাতিত্ব" এর একটি সমস্যা নির্দেশ করে যা একটি সম্পর্কিত জড়িত আপডেটের নিয়মের সাথে ফাংশন সান্নিধ্যকে একত্রিত করেmax অপারেটর, যেমন কিউ-লার্নিং (এটি সম্ভবত এর পক্ষে অনন্য নয় max অপারেটর, তবে সম্ভবত অফ-পলিসিতে সাধারণভাবে প্রযোজ্য?)।

নিম্নরূপ সমস্যা হয়। ধরুন আমরা এটি চালাইQস্টেট-অ্যাকশন জুটির জন্য হালনাগাদ আপডেট (s,a):

Q(s,a)Q(s,a)+α[maxaQ(s,a)Q(s,a)].

মান অনুমান maxaQ(s,a) এখানে ব্যবহৃত অনুমানের উপর ভিত্তি করে আমরা আমাদের পুরানো সংস্করণগুলির প্রতি সম্মানযুক্ত লোভী এমন একটি নীতি কার্যকর করি Qএকটি উপর সম্ভবত অনুমান - সম্ভবত খুব দীর্ঘ - ট্র্যাজেক্টরি। পূর্ববর্তী কয়েকটি উত্তরে যেমন ইতিমধ্যে আলোচনা করা হয়েছে, আমাদের ফাংশন আনুমানিকর একটি সীমিত উপস্থাপনা ক্ষমতা রয়েছে এবং এক রাজ্য-অ্যাকশন জুটির আপডেটগুলি অন্য রাজ্য-কর্ম যুগলগুলির জন্য মূল্য অনুমানকে প্রভাবিত করতে পারে। এটির অর্থ আমাদের আপডেটটি ট্রিগার করার পরেপ্রশ্নঃ(গুলি,একটি), আমাদের ফাংশন approximator আর একযোগে নীতি প্রকাশ করতে সক্ষম হতে পারে যে উচ্চ আয় বাড়ে আমাদেরসর্বোচ্চএকটি'প্রশ্নঃ(গুলি',একটি')অনুমান উপর ভিত্তি করে ছিল । এই কাগজের লেখকরা বলেছেন যে অ্যালগরিদমটি "বিভ্রান্তিকর"। এটি এই ধারণার অধীনে একটি আপডেট সম্পাদন করে যে, লাইনটি নিচে, এটি এখনও বড় আয় করতে পারে, তবে এটি ফাংশন আনুমানিকের পরামিতিগুলির নতুন সংস্করণ সহ সেই রিটার্নগুলি পাওয়ার পক্ষে আর শক্তিশালী হতে পারে না।


অবশেষে, আমি সন্দেহ করি যে আরও একটি (আরও সাম্প্রতিক) কাগজ এই প্রশ্নের সাথে প্রাসঙ্গিক , ডিপ কিউ-লার্নিং অ্যালগরিদমগুলিতে ডায়াগনস বোতলেনিকস , তবে দুর্ভাগ্যক্রমে আমার এখনও এটি পর্যাপ্ত বিবরণে পড়ার এবং পর্যাপ্তরূপে সংক্ষিপ্তসার করার সময় হয়নি।


1
তবে নির্দিষ্ট কিছু রাজ্যের প্রতিটির সাথে খুব মিল রয়েছে এমন ধারণা নিয়েও নিউরাল নেটওয়ার্ক ব্যবহার হচ্ছে না? খুব অনুরূপ রাজ্য (যেমন একটি গেমের ধারাবাহিক ফ্রেম) প্রায়শই খুব অনুরূপ (বা একই) সর্বোত্তম ক্রিয়া থাকে, তাই আমি নিশ্চিত নই যে প্রথম গবেষণাপত্রে ব্যাখ্যাটি বৈধ কিনা (আমি তাদের মূল বিষয়গুলি সম্পূর্ণরূপে বুঝতে এটি পড়া উচিত)।
nbro

1
@ এনব্রো হ্যাঁ, প্রায়শই সাধারণীকরণকে কারণ হিসাবে সঠিকভাবে কোনও সমস্যার চেয়ে বরং একটি সুবিধা হিসাবে বিবেচনা করা হয় । যদি এটি "উদ্দিষ্ট" হিসাবে কাজ করে তবে এটি খুব শক্তিশালী এবং শিক্ষার গতি বাড়িয়ে তুলতে পারে কারণ আমরা বিচ্ছিন্নভাবে প্রতিটি সামান্য ভিন্ন রাষ্ট্র / ক্রিয়াকলাপের পরিবর্তে অনুরূপ রাজ্য / অনুরূপ ক্রিয়ায় যা কিছু শিখি তা স্থানান্তর করি। তবে এটি সমস্যা সৃষ্টি করতে পারে, বিশেষত তত্ত্বের ক্ষেত্রেও বাস্তবেও। আমি মনে করি এটি একটি "দ্বি-ধারার তরোয়াল" এর মতো।
ডেনিস সুমারস

1
@ ডেনিসসোমারের সুপার আকর্ষণীয় উত্তর অ-বিভ্রান্তিকর কি-লার্নিং পয়েন্টটি একটি টনকে বোঝায়। সঠিক কি-ফাংশন সন্ধানের অর্থ আপনার আপডেটের নিয়মের জন্য একটি নির্দিষ্ট পয়েন্ট সন্ধান করা, তবে এটি নিশ্চিতভাবে মনে হয় যে ফাংশনটির সান্নিধ্যকরণ কিউ-লার্নিংয়ে সাইক্লিক আপডেটের দিকে নিয়ে যেতে পারে যদি আপনি এইভাবে এভাবে চিন্তা করেন।
জন ডুয়েস্ট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.