সর্বোত্তম শিক্ষায় কোন পুরষ্কারের ফলাফল হয়?


13

আসুন নিম্নলিখিত পরিস্থিতিগুলি সম্পর্কে ভাবি:

  • আপনি একটি রোবটকে পিং পং খেলতে শেখাচ্ছেন
  • আপনি স্কয়ার রুট গণনা করার জন্য একটি প্রোগ্রাম শিখিয়ে দিচ্ছেন
  • আপনি স্কুলে একটি বাচ্চাকে গণিত শেখাচ্ছেন

এই পরিস্থিতিগুলি (অর্থাত্ তত্ত্বাবধানে পড়াশুনা) এবং অন্য অনেকের মধ্যে একটি জিনিস রয়েছে (অন্যদের মধ্যে) সাধারণ: শেখার তার কার্য সম্পাদনের ভিত্তিতে একটি পুরষ্কার পায়।

আমার প্রশ্নটি হল, পুরষ্কারটির কাজটি কেমন হওয়া উচিত? একটি "সেরা" উত্তর আছে, বা এটি পরিস্থিতির উপর নির্ভর করে? যদি এটি পরিস্থিতির উপর নির্ভর করে তবে কোনটি কোন পুরষ্কারটি বেছে নেবে তা নির্ধারণ করবে?

উদাহরণস্বরূপ, নিম্নলিখিত তিনটি পুরষ্কার ফাংশন নিন:

এখানে চিত্র বর্ণনা লিখুন

  • ফাংশন Aবলে:
    • একটি নির্দিষ্ট বিন্দু নীচে, খারাপ বা খারাপ একই: আপনি কিছুই পাবেন না
    • প্রায় ভাল এবং নিখুঁত মধ্যে একটি স্পষ্ট পার্থক্য আছে
  • ফাংশন Bবলে:
    • আপনি আপনার পারফরম্যান্সের সাথে আনুপাতিক আনুপাতিক পুরষ্কার পাবেন
  • ফাংশন Cবলে:
    • যদি আপনার অভিনয় খারাপ হয়, ঠিক আছে, আপনি আপনার সেরাটি করেছেন: আপনি এখনও কিছু পুরষ্কার পান still
    • নিখুঁত এবং প্রায় ভাল মধ্যে খুব বেশি পার্থক্য নেই

স্বজ্ঞাতভাবে, আমি ভেবেছিলাম যে Aরোবটটি খুব মনোযোগী করে তুলবে এবং সঠিক প্যাটার্নটি শিখবে, তবে অনুরূপ নিদর্শনগুলির সাথে কাজ করার সময় বোকা হয়ে উঠবে, তবে Cপরিপূর্ণতা হারাতে গিয়ে পরিবর্তনটিকে আরও অভিযোজিত করে তুলবে।

কেউ আরও জটিল ফাংশন সম্পর্কেও ভাবতে পারে, কেবল দেখানোর জন্য তবে কয়েকটি:

এখানে চিত্র বর্ণনা লিখুন

সুতরাং, কোনটি কীভাবে বেছে নিতে পারে তা জানবে? জানা যা আচরণ থেকে (অন্তত) উদ্ভূত হবে মৌলিক A, Bএবং Cফাংশন?


এক পক্ষের প্রশ্নটি কি এটি রোবট এবং মানব বাচ্চাদের জন্য মূলত আলাদা হবে?


আমি সন্দেহ করি যে সাইবারনেটিক না হয়ে কোনও রোবট একই বা অনুরূপ কাজ বারবার করে মূর্খ হয়ে উঠবে।
অট--

@ সর্বোপরি, আমি যা বোঝাতে চাইছিলাম তা তা নয়। আমি যা বোঝাতে চেয়েছিলাম তার সাথে পুরষ্কারের মতোই কাজটি ছিল Aরোবটটি সঠিক টাস্কে খুব ভাল হয়ে উঠতে পারে, তবে সেই কাজগুলিতে ভয়ানক যা একই রকম তবে কিছুটা আলাদা। যদিও এটি আমার অনুমান মাত্র।
শাহবাজ

আহ, ঠিক আছে, আমি দেখছি। আপনি টেনিসের কথা ভাবছেন যেমন
ott--

সম্ভবত এর পেছনের তত্ত্বটি জটিল হতে পারে তবে একটি উত্তর যা বলে যে "আমি অনেক রোবটের কাছে বিভিন্ন কাজ চিন্তা করেছি এবং প্রায়শই Xআমাকে ফাংশন দিয়েছিলাম তার সেরা ফলাফল দেয়", এমনকি পুরোপুরি সঠিক না হলেও, এটি থাম্বের দুর্দান্ত নিয়ম দেয়।
শাহবাজ

উত্তর:


5

সংক্ষিপ্ত উত্তর: সবচেয়ে শক্তিশালী শক্তিবৃদ্ধি প্রভাব অন্তর্বর্তী (এলোমেলো) সময়সূচীতে মূল্যবান পুরষ্কার প্রদান থেকে আসে।

দীর্ঘতর সংস্করণ: আপনার প্রশ্নের একটি দিক অপারেটর কন্ডিশনার সম্পর্কে , কমপক্ষে এটি কোনও জটিল জীবকে গণিত শেখানোর ক্ষেত্রে প্রযোজ্য। এটি মেশিন লার্নিংয়ে প্রয়োগ করা রিইনফোর্সমেন্ট লার্নিং হিসাবে পরিচিত ।

অর্থনীতি ( jwpat7 এর উত্তর অনুসারে ) কেবলমাত্র একটি অংশকে শক্তিবৃদ্ধির গল্প বলে addresses ইউটিলিটি ফাংশন আপনাকে জানায় যে প্রদত্ত প্রসঙ্গে সবচেয়ে পুরষ্কারের সবচেয়ে শক্তিশালী প্রয়োগের (আচরণের উপর বৃহত্তম প্রভাব) কী রয়েছে reward এটা কি প্রশংসা? চকলেট? কোকেন? মস্তিষ্কের নির্দিষ্ট অঞ্চলে সরাসরি বৈদ্যুতিক উদ্দীপনা? বেশিরভাগই আমার উত্তরটি প্রদত্ত পুরষ্কারের ইউটিলিটি ধরে ধরে প্রসঙ্গের প্রভাব সম্পর্কে।

জটিল জীব / আচরণের জন্য, পুরষ্কারের সময়সূচি কমপক্ষে পুরষ্কারের ইউটিলিটি হিসাবে গুরুত্বপূর্ণ:

  • একটি নির্দিষ্ট পরিমাণের পুরষ্কারের সাথে আচরণটি পরিবর্তন করার একটি "স্থির-বিরতি পুরষ্কার সময়সূচী" হ'ল সর্বনিম্ন কার্যকর উপায় ( যদি আপনি আপনার শয়নকক্ষটি পরিষ্কার রাখেন তবে আমি আপনাকে প্রতি সপ্তাহে 10 ডলার দেব )। ডোল বুল্ডার ভাবুন।
  • ফিক্সড অনুপাত পুরস্কার সময়সূচী (আমি তোমাকে দিব $ 10 প্রতি সাত দিন আপনি একটি পরিপাটি শয়নকক্ষ আছে) সংশোধন করা হয়েছে অন্তর চেয়ে বেশি কার্যকর, কিন্তু তারা কার্যকারিতা সিলিং এক ধরনের আছে (বিষয় তাদের রুম সাতবার যখন তারা ক্ষুধার্ত পরিপাটি হবে $ 10, তবে অন্যথায় নয়)। ভাবেন ভাড়াটে।
  • প্রদত্ত পুরষ্কারকে "ভেরিয়েবল ইন্টারভাল রিইনফোর্সমেন্ট শিডিউল" দিয়ে দেওয়ার সর্বাধিক প্রভাবশালী উপায় (উদাহরণস্বরূপ প্রতিদিন আপনি নিজের শয়নকক্ষকে পরিপাটি করে আপনার প্রতি 10 ডলার পাওয়ার 1/3 সুযোগ রয়েছে)। পোকার মেশিনটি ভাবুন।

যদি আপনি একটি নির্দিষ্ট পুরষ্কার বাজেট সহ কোনও শিক্ষণ তত্ত্বাবধায়ক হন, প্রদত্ত শিক্ষার পরিস্থিতির জন্য, পুরষ্কারের আকার (ইউটিলিটি) এবং ফ্রিকোয়েন্সিটির সর্বোত্তম ব্যালেন্স থাকবে। এটি খুব উচ্চ ফ্রিকোয়েন্সিতে পুরষ্কারের খুব সামান্য টুকরো নয় বা পুরস্কারের খুব বড় অংশ খুব কমই সরবরাহ করা হয়। এটি এমনকি এলোমেলো আকারের একটি এলোমেলো আকারের পুরষ্কার হতে পারে - সর্বোত্তমটি সাধারণত কোনও নির্দিষ্ট পরিস্থিতির জন্য পরীক্ষামূলকভাবে নির্ধারিত হয়।

অবশেষে, "সর্বোত্তম" সময়সূচী (এলোমেলো ফ্রিকোয়েন্সি, এলোমেলো পরিমাণ {পি (পুরষ্কার), পি (মান)}) শেখার প্রক্রিয়াটিতে বিভিন্ন পর্যায়ে সম্ভবত পৃথক হবে। উদাহরণস্বরূপ, একটি নতুন ছাত্র "প্রাইমিকি" প্রভাবের সাপেক্ষে হতে পারে (স্বাগত! একটি জেলি শিম রয়েছে) যা আপনি যদি পুনরাবৃত্তি করেন তবে দ্রুত স্থির-বিরতি পুরষ্কার হয়ে যায়। "রিসেন্টি" প্রভাব থাকতে পারে যা খুব শেষ পরীক্ষায় বিতরণ করা পুরষ্কার থেকে আরও দৃ a়তর মান পায় ("উচ্চ নোটে সমাপ্তি")। এর মধ্যে, একটি জমে থাকা "বিশ্বাসের প্রভাব" থাকতে পারে যেখানে একজন শিক্ষার্থী আরও অভিজ্ঞ হয়ে ওঠার সাথে সাথে সর্বোত্তমটি সময়ের সাথে সাথে কম সম্ভাবনা, উচ্চতর উপযোগিতার দিকে চলে যেতে পারে। আবার, আপনার পরিস্থিতিতে অভিজ্ঞতার সাথে নির্ধারণ করার জন্য আরও স্টাফ।


খুব আকর্ষণীয় উত্তর। এটা ধারণা অনেক তোলে।
শাহবাজ

আমি এই উত্তরটি আবার পড়ছি, এবং আমি আবার বলতে চাই যে এই উত্তরটি কত দুর্দান্ত! আসলে, আমি আপনাকে কিছু অনুদান দিতে দিন!
শাহবাজ

6

"অনুকূল পড়াশোনা" একটি অত্যন্ত অস্পষ্ট শব্দ এবং এটি আপনি যে নির্দিষ্ট সমস্যার উপর কাজ করছেন তার উপর সম্পূর্ণ নির্ভর করে। আপনি যে শব্দটির সন্ধান করছেন তা হ'ল " অত্যধিক মাননীয় ": এখানে চিত্র বর্ণনা লিখুন

(সবুজ লাইনটি প্রশিক্ষণের ডেটাতে ফলাফলটি পূর্বাভাস দেওয়ার ক্ষেত্রে ত্রুটি, বেগুনি রেখার মডেলটির গুণমান এবং লাল রেখাটি "উত্পাদনে" ব্যবহৃত শিখা মডেলটির ত্রুটি)

অন্য কথায়: যখন আপনার জ্ঞাত আচরণকে অনুরূপ পরীক্ষার সাথে মানিয়ে নেওয়ার কথা আসে, আপনি আপনার সিস্টেমকে যেভাবে পুরস্কৃত করেছিলেন তার চেয়ে কম গুরুত্বপূর্ণ আপনি কতবার পুরস্কৃত করেছিলেন - আপনি প্রশিক্ষণের ডেটাতে ত্রুটিগুলি হ্রাস করতে চান, তবে প্রশিক্ষণে রাখছেন না তাই দীর্ঘকাল এটি একই ধরণের মডেলগুলিতে কাজ করার ক্ষমতা হারাবে।

এই সমস্যার সমাধানের একটি পদ্ধতি হ'ল আপনার প্রশিক্ষণের ডেটা অর্ধেক করে কেটে নিন: শিখতে একটি অর্ধেক এবং অন্য অর্ধেকটি প্রশিক্ষণকে বৈধতা দেওয়ার জন্য ব্যবহার করুন। আপনি যখন অতিরিক্ত ফিট করতে শুরু করেন এটি আপনাকে সনাক্ত করতে সহায়তা করে।

অ-লিনিয়ার পুরষ্কার ফাংশন

সর্বাধিক তত্ত্বাবধানে শেখার অ্যালগরিদম আশা করে যে পুরষ্কারের ফাংশনের প্রয়োগটি উত্তল আউটপুট তৈরি করবে। অন্য কথায়, সেই বক্ররেখাতে স্থানীয় মিনিমা থাকা আপনার সিস্টেমকে যথাযথ আচরণে রূপান্তরিত করতে বাধা দেবে। এই ভিডিওটিতে ব্যয় / পুরষ্কারের পিছনে কিছু গণিত দেখানো হয়েছে


3

অর্থনীতিতে ইউটিলিটি ফাংশনগুলির অধ্যয়ন দ্বারা এই বিষয়গুলি কিছুটা হলেও সমাধান করা হয়েছে। একটি ইউটিলিটি ফাংশন একটি জিনিসের কার্যকর বা বোধিত মানগুলিকে অন্যটির শর্তে প্রকাশ করে। (যদিও প্রশ্নটিতে প্রদর্শিত বাঁকগুলি পুরষ্কারের কাজগুলি এবং বিভিন্ন পারফরম্যান্স স্তরের জন্য কত পুরষ্কার দেওয়া হবে তা প্রকাশ করে, অনুরূপ দেখাচ্ছে ইউটিলিটি ফাংশনগুলি বিভিন্ন পুরষ্কারের স্তর থেকে কতটা পারফরম্যান্স ফলাফল প্রকাশ করতে পারে তা প্রকাশ করতে পারে))

পুরষ্কারের কাজটি কী সর্বোত্তমভাবে কাজ করবে তা প্রদানকার এবং অভিনয়কারীর মধ্যে সাম্যতার উপর নির্ভর করে। উইকিপিডিয়া চুক্তির বক্ররেখা নিবন্ধ এজেওয়ার্থ বাক্সগুলির সাথে চিত্রিত করে যে কীভাবে পেরেটো দক্ষ বরাদ্দগুলি খুঁজে পাওয়া যায়। ভন নিউম্যান-মরগেনস্টার্ন ইউটিলিটি উপপাদ্য অবস্থার যে নিশ্চিত করুন যে এজেন্ট VNM-মূলদ এবং একটি ইউটিলিটি ফাংশন হিসাবে চিহ্নিত করা যেতে পারে delineates। উইকিপিডিয়ায় হাইপারবোলিক পরম ঝুঁকি বিপর্যয় নিবন্ধের "HARA ইউটিলিটি থেকে প্রাপ্ত আচরণগত ভবিষ্যদ্বাণী" নির্দিষ্ট ইউটিলিটি ফাংশনের আচরণগত পরিণতি বর্ণনা করে।

সংক্ষিপ্তসার: এই বিষয়গুলি অর্থনীতি এবং মাইক্রোঅকোনমিক্সের প্রচুর পরিমাণে অধ্যয়নের বিষয় হয়েছে। দুর্ভাগ্যক্রমে, একটি সংক্ষিপ্ত এবং দরকারী সংক্ষিপ্তসার উত্তোলন করা যা আপনার প্রশ্নের উত্তর দেয় তার জন্য প্রচুর পরিমাণে কাজের প্রয়োজন হতে পারে বা আমার চেয়ে আরও বিশেষজ্ঞের দৃষ্টি আকর্ষণ করতে পারে।


এটি বেশ জটিল, আমি বুঝতে পারছি কিনা তা নিশ্চিত নই। তবে আপনি কি নিশ্চিত যে অর্থনীতির ইউটিলিটি ফাংশনটি রোবোটিকের ক্ষেত্রেও প্রযোজ্য? তত্ত্বাবধানে শেখার ক্ষেত্রে (একটি রোবটের), প্রদানকারী আসলে কিছুই হারাবেন না। পুরষ্কারটি প্রায়শই কেবল রোবটকে জানিয়ে দেয় যে তারা কাজটি কতটা ভাল করেছে।
শাহবাজ

1

সর্বোত্তম পুরষ্কারের কাজটি শেখার উদ্দেশ্য, অর্থাৎ কী শিখতে হবে তার উপর নির্ভর করে। সাধারণ সমস্যার জন্য অনুকূল পুরষ্কারের জন্য বদ্ধ ফর্মের প্রতিনিধিত্ব খুঁজে পাওয়া সম্ভব হতে পারে। আসলে খুব সাধারণ সমস্যার জন্য আমি নিশ্চিত যে এটি সম্ভব, যদিও আমি এটি করার কোনও আনুষ্ঠানিক পদ্ধতি সম্পর্কে জানি না (আমি সন্দেহ করি ইউটিলিটি থিওরি এই প্রশ্নের সমাধান করবে)। আরও জটিল সমস্যার জন্য আমি যুক্তি দিয়ে বলব যে একটি বদ্ধ ফর্ম সমাধান পাওয়া সম্ভব নয়।

অনুকূল ফাংশনটি সন্ধানের পরিবর্তে আমরা একটি ভাল পুরষ্কারের জন্য একটি বিশেষজ্ঞের সন্ধান করতে পারি। এটি করার জন্য একটি পদ্ধতি হ'ল ইনভার্স রিইনফোর্সমেন্ট লার্নিং (আইআরএল) নামে পরিচিত একটি কৌশল। এটি একটি শক্তিবৃদ্ধি শেখার সমস্যা হিসাবে একটি শেখার সমস্যার সূত্র দেয় যেখানে পুরষ্কারের কাজটি অজানা এবং শেখার প্রক্রিয়াটির উদ্দেশ্য। পিটার অ্যাবেল এবং অ্যান্ড্রু এনজি দ্বারা ইনভার্স রিইনফোর্সমেন্ট লার্নিংয়ের মাধ্যমে পেপার অ্যাপ্রেন্টিসিপ লার্নিং আইআরএল সম্পর্কে শেখা শুরু করার জন্য একটি ভাল জায়গা।


0

তত্ত্বাবধানে শেখার যে কোনও রূপ হ'ল নীতি স্থানের মধ্যে নির্দেশিত অনুসন্ধান। আপনি নীতিটি সন্ধান করার চেষ্টা করেছেন - যাতে কোন পদক্ষেপ নেওয়া যায় - যা সর্বাধিক পুরষ্কারের প্রত্যাশা সরবরাহ করে। আপনার প্রশ্নে আপনি পারফরম্যান্সের ফাংশন হিসাবে পুরষ্কার দিন। যতক্ষণ এই ফাংশনটি একঘেয়ে থাকে তবে যে কোনও পদ্ধতি রূপান্তর করে তা শেষ পর্যন্ত আপনাকে সর্বাধিক কর্মক্ষমতা দেয় (খুব বেশি আপনার পরিভাষার সাথে থাকুন) will

পদ্ধতিটি কীভাবে দ্রুত রূপান্তরিত হয় তা অন্য একটি বিষয় এবং এটি বাঁকটির উপর নির্ভর করে। তবে আমি মনে করি এটি পদ্ধতি থেকে পদ্ধতিতে আলাদা হবে।

সম্পূর্ণ ভিন্ন সমস্যা হ'ল আরও জটিল পরিস্থিতিগুলির জন্য পারফরম্যান্স কোনও সাধারণ স্কেলার নয়, এবং এটি নির্ধারণ করা বেশ কঠিন হতে পারে। গণিতে ভাল থাকার জন্য পুরষ্কারের কাজটি কী?


পদ্ধতিটি কীভাবে দ্রুত রূপান্তরিত হয় তা অন্য একটি বিষয় এবং এটি বাঁকটির উপর নির্ভর করে। , ভালো অবশ্যই. আমি বুঝতে চেষ্টা করছিলাম কীভাবে বক্ররেখা পড়াশোনাকে প্রভাবিত করে (এবং যদি তা হয় না তবে , কারণ আমি ইতিমধ্যে জানি যে এটি করে) does
শাহবাজ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.