টেনসরফোর্সের মতো কাঠামো ব্যবহার করে রাষ্ট্র পরিচালিত নিয়মের উপর নির্ভরশীল অ্যাকশন স্পেসের উপর নির্দিষ্ট সীমাবদ্ধতা রয়েছে এমন একটি নীতিগত অপ্টিমাইজেশন উপাদান ডিজাইন করা উদ্দেশ্য objective
প্রশ্নে নকশার বিকল্পগুলি তালিকাভুক্ত
নীচের প্রাথমিক বিশ্লেষণটি পড়ার সময় এই বিকল্পগুলি এখানে দ্রুত রেফারেন্সের জন্য তালিকাভুক্ত করা হয়।
- অভ্যন্তরীণ_সেটের উপর নির্ভর করে প্রতিটি পদক্ষেপে ক্রিয়া স্থান পরিবর্তন করুন। আমি ধরে নিলাম এটি বাজে।
- কিছুই করবেন না: মডেলটি বুঝতে দিন যে অনুপলব্ধ ক্রিয়াটি বেছে নেওয়ার কোনও প্রভাব নেই।
- করণীয়- কিছুই নয়: মডেলটি অনুপলব্ধ ক্রিয়াটি চয়ন করলে পুরস্কারটিকে কিছুটা নেতিবাচকভাবে প্রভাবিত করে।
- মডেলটিকে সহায়তা করুন: রাজ্য / পর্যবেক্ষণের জায়গাতে একটি পূর্ণসংখ্যার অন্তর্ভুক্ত করে যা অভ্যন্তরীণ_সেটের মান + বুলেট পয়েন্ট 2 বা 3 এর মডেলটিকে জানিয়ে দেয়
প্রাথমিক বিশ্লেষণ
প্রতিটি পদক্ষেপের জন্য ক্রিয়া স্থান পরিবর্তন করা সত্যই বুদ্ধিমান। এটি প্রকৃতপক্ষে বলা হয়েছে যে সমস্যার জন্য যথাযথ উপস্থাপনা এবং মানুষ যেভাবে খেলা করে এবং যেভাবে কম্পিউটার দাবা এবং গোতে মানুষকে পরাজিত করে।
এই ধারণার আপাত বুদ্ধিহীনতা কেবল টেনসরফোর্স প্রকল্পের রাস্তা মানচিত্রের অগ্রগতি এবং শক্তিবৃদ্ধি তত্ত্বের পাশাপাশি অগ্রগতির একটি বড় চিত্র, এটি উভয়ই বড় চিত্র। টেনসরফোর্স ডকুমেন্টেশন এবং এফএকিউ পড়ার পরে, এমনটি উপস্থিত হয় না যে ক্রিয়া স্পেসটি নির্ধারণের জন্য ফ্রেমওয়ার্কটি কোনও নিয়ম ইঞ্জিনে প্লাগ করার জন্য তৈরি করা হয়েছিল। এটি মুক্ত উত্সের কোনও ঘাটতি নয়। নিয়ম-শর্তযুক্ত মার্কভ চেইন সিদ্ধান্ত নেওয়ার জন্য তত্ত্ব সরবরাহ বা অ্যালগরিদমগুলির প্রস্তাব দেওয়ার কোনও কাগজপত্র উপস্থিত নেই।
না-কিছুই বিকল্প হ'ল সাহিত্যে প্রতিনিধিত্ব করা বর্তমান উপলব্ধ কৌশলগুলির সাথে ফিট করে। প্রায়-কিছুই-না-করা সম্ভবত এমন পদ্ধতির কারণ আরও নির্ভরযোগ্য এবং সম্ভবত আরও তাত্ক্ষণিক পছন্দসই আচরণ করে।
মডেলটিকে সহায়তা করার ধারণাটি নিয়ে সমস্যাটি হ'ল এটি মডেলটি প্রসারিত করার চেয়ে শক্ত ধারণা নয়। মুক্ত উত্সে, এটি মডেলকে উপস্থাপন করে এমন ক্লাসগুলি বাড়িয়ে দিয়ে করা হবে, যার কোডিংয়ের আগে কিছু তাত্ত্বিক কাজ প্রয়োজন
a. Represent rule-conditioned learning in nomenclature
b. Represent convergence mathematically using the new nomenclature
c. Determining a method of convergence
d. Proving convergence
e. Rechecking
f. Defining a smooth and efficient algorithm
g. Providing PAC learning information for planning
f. Peer review
g. Extending the classes of the library
h. Proof of concept with the current problem above
i. Additional cases and metrics comparing the approach with the others
j. Extending the library flexibility to support more such dev
নিয়ম-সীমাবদ্ধ কেসটি কাভার করার জন্য লার্নিং সিস্টেমের প্রসারিত করা পিএইচডি থিসিসের জন্য একটি দুর্দান্ত ধারণা এবং অনেকগুলি সম্ভাব্য অ্যাপ্লিকেশন সহ একটি প্রকল্পের প্রস্তাব হিসাবে গবেষণাগারগুলিতে উড়তে পারে। সমস্ত পদক্ষেপটি গবেষককে অসন্তুষ্ট করতে দেবেন না। তারা মূলত কোনও পিএইচডি থিসিস বা অর্থায়িত এআই পরীক্ষাগার প্রকল্পের পদক্ষেপের তালিকা're
একটি স্বল্পমেয়াদী সমাধানের জন্য, মডেলটিকে কাজ করতে পারে এমন ক্ষেত্রে সহায়তা করা, তবে শক্তিবৃদ্ধি শেখার পথে বরাবর এআই এর ধারণাগুলি এগিয়ে নেওয়ার পক্ষে এটি দৃ sound় কৌশল নয়। একটি নির্দিষ্ট সমস্যার জন্য একটি স্বল্পমেয়াদী সমাধান হিসাবে এটি ঠিক কাজ করতে পারে। প্রায়-কিছুই-না-করা ধারণাটি আরও দৃ be় হতে পারে, যেহেতু এটি রূপান্তর প্রমাণগুলির মধ্যে ফিট করে যা নির্দিষ্ট প্রয়োগের দিকে পরিচালিত করে টেনসরফোর্স সম্ভবত ব্যবহার করবে using
সহায়তা-রূপান্তরকে সহায়তার জন্য প্রায়-কিছুই-এর থেকে নামকরণ করা চেষ্টা করার আগে সঠিক দৃষ্টিভঙ্গি বিকাশে সহায়তা করতে পারে। আপনি শিখতে পারেন যে আপনি শেখার হারের মতো ওভারশুট এড়াতে কনভার্সেন্সের কাছে যাওয়ার সময় আপনাকে সহায়তাটি আরও কমাতে হবে।