প্রশ্নপত্রটি কি-লার্নিংয়ে কেন বেছে নেওয়া হয়েছিল?


17

প্রশ্নপত্রটি কি-লার্নিংয়ের নামে কেন বেছে নেওয়া হয়েছিল?

সর্বাধিক অক্ষর যেমন একটি সমাহার হিসেবে নির্বাচিত করা হয় নীতি এবং জন্য স্থায়ী বনাম মান জন্য দাঁড়িয়েছে। তবে আমি মনে করি না যে প্রশ্নটি কোনও শব্দের সংক্ষেপণ।πv


1
আমার রূপক বোঝার মধ্যে, Q হল এমন একটি ফাংশন যা প্রদত্ত অবস্থায় একটি ক্রিয়াকলাপের জন্য একটি পরিমাণকে যুক্ত করে (এটিকে পুরষ্কার, ব্যয় বা অন্য যে কোনও কিছুই অনুকূলিত করা হয়) বলে।
নক

1
@ সাইকোরাক্স মূল প্রশ্নটি কিউ-লার্নিংয়ের বোঝাপড়াকে বোঝায় এবং ব্যাখ্যা দেওয়ার জন্য, এটি প্রসঙ্গ যুক্ত করতে সহায়তা করবে। কোনও ভিত্তি স্থাপন না করে ওপি কোনও ব্যাখ্যা দিয়ে হারিয়ে যাবে।
নক করুন

রূপক প্রশ্ন = পরিমাণ সাহায্য করে? আমি এটিকে প্রদত্ত রাষ্ট্রগুলির পদক্ষেপের পরিমাণ হিসাবে ভাবি

উত্তর:


35

আমি সবাইকে হতাশ করার জন্য দুঃখিত, তবে কি কিছুতেই দাঁড়ায় না :)

১৯৯৯ সালে ওয়াটকিন্স তাঁর পিএইচডি থিসিসে কি-লার্নিংয়ের প্রস্তাব করেছিলেন , দেখুন p.96। সেই পৃষ্ঠায় সমীকরণের Q টি প্রতিটি ধাপে নির্দিষ্ট উপায়ে আপডেট করা হয়। প্রশ্নটি প্রদত্ত অবস্থায় ক্রিয়া থেকে প্রত্যাশিত প্রত্যাশা , p.46-তে Q এর সংজ্ঞা দেখুন see রিটার্নটি একটি অর্থনৈতিক বা গেমের তত্ত্বের অর্থে, অর্থাত্ ছাড়যুক্ত সম্ভাব্যতা ওজনিত পুরষ্কারগুলি, কোনও কম্পিউটার বিজ্ঞানের শর্ত নয় যা কোনও ফাংশন থেকে ফেরতের মতো।

লক্ষ্য করুন, তিনি ইতিমধ্যে কীভাবে সম্ভাব্যতার জন্য পি এবং পুরস্কারের জন্য আর ব্যবহার করেছেন, তাই তিনি ফেরতের জন্য কিউকে ধরলেন। এটাই. প্রশ্ন বাছাইয়ের জন্য কোন গভীর অর্থ নেই Q


3
কোন গভীর অর্থ কিন্তু এটা নয় একটি অর্থ (যে P এবং বর্ণমালায় আর সঙ্গে প্রশ্ন তড়কা) এবং ঘোরা কিছু
সেক্সটাস এম্পেরিকাস

2
@ মার্তিজজন ওয়েটারিংস এটি মোটেই অর্থ নয়। এটি চিঠির একটি নিখুঁত বাক্যগত পছন্দ, যা সম্পর্কে কোনও অর্থগত বিবেচনা নেই।
ডেভিড রিচার্বি

অবশ্যই, কয়েকটি শব্দার্থিক বিবেচনা থাকতে পারে (এবং এটি নিয়ে বিতর্ক হতে পারে কারণ লাতিন বা গ্রীক বর্ণগুলির মধ্যে পার্থক্য, বর্ণমালার বিভিন্ন অবস্থানের অক্ষর বা ছোট হাতের তুলনায় বড় হাতের সিন্থেটিকস এবং শব্দার্থবিজ্ঞানের মধ্যে ধূসর অঞ্চল তৈরি হতে পারে)। আমি কিউ'র পছন্দটিকে 'অর্থবহ' হিসাবে বিবেচনা করি কারণ চিঠির ফর্মটি (যা কিছুটা স্বেচ্ছাচারী) কিছুতে পরিবর্তনশীল / পরামিতিটির অর্থ প্রসারিত করে। অর্থটি চিঠি নির্বাচনের সাথে সম্পর্কিত। যখন u বা বনাম হবে নির্বাচিত করা হয়েছে একটি ভাল পছন্দ আছে হতো না, অথবা আমি, J, K বা X, Y, Z বা α,β,γ
সেক্সটাস এম্পেরিকাস

@MartijnWeterings কিউ একটি মত শোনাচ্ছে কিউ , যা খুব কিছুটা প্রাসঙ্গিক দ্যোতনা এনেছে
Aksakal

@ আকসাল, এটি সম্ভবত কিউর ব্যবহারকে আরও শক্তিশালী করছিল তবে আমি মনে করি এটি শক্তিশালী নয়। আমি এই বিষয় সম্পর্কে অনেক কিছু জানি না, কিন্তু আমার যে থিসিস এক নজরে এটা খুব বিশ্বাসযোগ্য মনে হচ্ছে যে চিঠি মত একটি পরিমাণ জন্য ব্যবহার করা হয়েছে Σ আমি আর আমি পি আমি বা Σ আমি V আমি পি আমি । অবশেষে 'অ্যাকশন-ভ্যালু'র মতো' কিছু নাম 'এটিকে দেওয়া হয়েছিল তবে থিসিসে ব্যবহৃত সেই অক্ষরগুলি বর্ণমালায় আরও বেশি লেগে থাকে বলে মনে হয়। যেমন কাজকর্মের জন্য x Y জন্য ভেরিয়েবল ভী ইউ মান ফাংশন জন্য এবং এটি আনুমানিক আছে। ইত্যাদিQiRiPiiViPif g hx yV U
সেক্সটাস এম্পেরিকাস

0

প্রশ্ন-লার্নিং এর কারণটি বলা হয় কারণ এটি অনুমানগুলি তৈরি করতে Q মান ব্যবহার করে। সাধারন শেখার নিয়ম হল, এবং এটিকে কেন-লার্নিং বলা হয় তা পরিষ্কার হওয়া উচিত।Q(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

তবে আমার মতে আসল প্রশ্নটি কেন-লার্নিংকে বলা হয়। যদিও সন্তোষজনক উত্তর বলে মনে হচ্ছে না, এই লিঙ্কটিতে উল্লেখ করা হয়েছে যে মডার্ন রিইনফোর্সমেন্ট লার্নিংয়ের অন্যতম প্রতিষ্ঠাতা অ্যান্ড্রু বার্তো মনে করেন যে কোয়ালিটির পক্ষে দাঁড়িয়েছে, কারণ এটি একটি বাহু টানার ফলাফলের পক্ষে কতটা ভাল ফলাফলের বৈশিষ্ট্যযুক্ত থাকা.Q


2
থিসিসটি পড়ুন এবং আমাকে বলুন যে "গুণমান" কীভাবে প্রত্যাশিত প্রত্যাবর্তনের প্রসঙ্গে একটি ধারণা তৈরি করে
আকসকল

যদিও আমি আপনার সাথে একমত, ওয়াটকিন্স অ্যান্ডির সাথে বেশ কয়েকটি বিষয়ে পরামর্শ করার পরে থিসিসটি লেখা হয়েছিল। অ্যান্ডির আপনার ধারণা থেকে তার চেয়ে ভাল ধারণা থাকতে পারে।
অমিত দেশপাণ্ডে

শেখার ক্ষেত্রে স্বতন্ত্র ধারণা হিসাবে গুণমানেরও অস্তিত্ব নেই। শব্দটি আপনি ইংরেজি থেকে অবশ্যই এর সাধারণ অর্থে ব্যবহার করতে পারেন। অন্যদিকে প্রত্যাশিত প্রত্যাবর্তনটি গেম তত্ত্বে খুব ভালভাবে সংজ্ঞায়িত হয়েছে, কোয়ালিটির মতো অস্পষ্ট ধারণাগুলি সংযুক্ত করে এটিকে পাতলা করার দরকার নেই। আপনি গুণমানকে সর্বাধিক করে তুলছেন না, আপনি উপযুক্ত সম্ভাবনার পরিমাপের অধীনে ছাড় ছাড়ের পুরষ্কারগুলি সর্বাধিক করছেন। আপনি যদি আরও কিছুটা বিস্তৃত হতে চান তবে আপনি ইউটিলিটিটি সর্বোচ্চতর করতে পারেন।
আকসকল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.