আসুন নিম্নলিখিত পরিস্থিতিগুলি সম্পর্কে ভাবি:
- আপনি একটি রোবটকে পিং পং খেলতে শেখাচ্ছেন
- আপনি স্কয়ার রুট গণনা করার জন্য একটি প্রোগ্রাম শিখিয়ে দিচ্ছেন
- আপনি স্কুলে একটি বাচ্চাকে গণিত শেখাচ্ছেন
এই পরিস্থিতিগুলি (অর্থাত্ তত্ত্বাবধানে পড়াশুনা) এবং অন্য অনেকের মধ্যে একটি জিনিস রয়েছে (অন্যদের মধ্যে) সাধারণ: শেখার তার কার্য সম্পাদনের ভিত্তিতে একটি পুরষ্কার পায়।
আমার প্রশ্নটি হল, পুরষ্কারটির কাজটি কেমন হওয়া উচিত? একটি "সেরা" উত্তর আছে, বা এটি পরিস্থিতির উপর নির্ভর করে? যদি এটি পরিস্থিতির উপর নির্ভর করে তবে কোনটি কোন পুরষ্কারটি বেছে নেবে তা নির্ধারণ করবে?
উদাহরণস্বরূপ, নিম্নলিখিত তিনটি পুরষ্কার ফাংশন নিন:
- ফাংশন
A
বলে:- একটি নির্দিষ্ট বিন্দু নীচে, খারাপ বা খারাপ একই: আপনি কিছুই পাবেন না
- প্রায় ভাল এবং নিখুঁত মধ্যে একটি স্পষ্ট পার্থক্য আছে
- ফাংশন
B
বলে:- আপনি আপনার পারফরম্যান্সের সাথে আনুপাতিক আনুপাতিক পুরষ্কার পাবেন
- ফাংশন
C
বলে:- যদি আপনার অভিনয় খারাপ হয়, ঠিক আছে, আপনি আপনার সেরাটি করেছেন: আপনি এখনও কিছু পুরষ্কার পান still
- নিখুঁত এবং প্রায় ভাল মধ্যে খুব বেশি পার্থক্য নেই
স্বজ্ঞাতভাবে, আমি ভেবেছিলাম যে A
রোবটটি খুব মনোযোগী করে তুলবে এবং সঠিক প্যাটার্নটি শিখবে, তবে অনুরূপ নিদর্শনগুলির সাথে কাজ করার সময় বোকা হয়ে উঠবে, তবে C
পরিপূর্ণতা হারাতে গিয়ে পরিবর্তনটিকে আরও অভিযোজিত করে তুলবে।
কেউ আরও জটিল ফাংশন সম্পর্কেও ভাবতে পারে, কেবল দেখানোর জন্য তবে কয়েকটি:
সুতরাং, কোনটি কীভাবে বেছে নিতে পারে তা জানবে? জানা যা আচরণ থেকে (অন্তত) উদ্ভূত হবে মৌলিক A
, B
এবং C
ফাংশন?
এক পক্ষের প্রশ্নটি কি এটি রোবট এবং মানব বাচ্চাদের জন্য মূলত আলাদা হবে?
A
রোবটটি সঠিক টাস্কে খুব ভাল হয়ে উঠতে পারে, তবে সেই কাজগুলিতে ভয়ানক যা একই রকম তবে কিছুটা আলাদা। যদিও এটি আমার অনুমান মাত্র।
X
আমাকে ফাংশন দিয়েছিলাম তার সেরা ফলাফল দেয়", এমনকি পুরোপুরি সঠিক না হলেও, এটি থাম্বের দুর্দান্ত নিয়ম দেয়।