পুনরাবৃত্তি শক্তিবৃদ্ধি শেখা কি


20

আমি সম্প্রতি "পুনরাবৃত্তি পুনর্বহাল শেখা" শব্দটি পেয়েছি। আমি "পুনরাবৃত্ত নিউরাল নেটওয়ার্ক" কী এবং "রিইনফোর্সমেন্ট লার্নিং" কী তা বুঝতে পেরেছি, তবে "পুনরুত্পূর্ণ শক্তিবৃদ্ধি শিক্ষা" কী তা সম্পর্কে খুব বেশি তথ্য খুঁজে পাইনি।

কেউ আমাকে ব্যাখ্যা করতে পারেন যে "পুনরুক্ত পুনর্বহাল শেখা" কী এবং "পুনরুক্ত পুনর্বহাল শেখা" এবং কিউ-লার্নিং অ্যালগরিদমের মতো সাধারণ "রিইনফোর্সমেন্ট লার্নিং" এর মধ্যে পার্থক্য কী।

উত্তর:


15

একটি "পুনরাবৃত্তি পুনর্বহাল শেখার" কি?

নিউরাল নেটওয়ার্ক ট্রেডিং সিস্টেমগুলি প্রশিক্ষণের জন্য ১৯৯ in সালে সর্বপ্রথম পুনরাবৃত্তি পুনর্বহালনের শিক্ষা ( আরআরএল ) চালু করা হয়েছিল। "পুনরুক্ত" এর অর্থ পূর্ববর্তী আউটপুটটিকে ইনপুটটির অংশ হিসাবে মডেলটিতে খাওয়ানো হয়। এটি শীঘ্রই একটি এফএক্স বাজারে ট্রেডিং প্রসারিত হয়েছিল।

RRL কৌশল আর্থিক লেনদেন সিস্টেম্স গড়ে তোলার একটি সফল মেশিন লার্নিং কৌশল হতে পাওয়া গেছে।

"পুনরাবৃত্তী শক্তিবৃদ্ধি শেখা" এবং সাধারণ "রিইনফোর্সমেন্টস লার্নিং" (কিউ-লার্নিং অ্যালগরিদমের মতো) মধ্যে পার্থক্য কী?

RRL পদ্ধতির থেকে পরিষ্কারভাবে পৃথক গতিশীল প্রোগ্রামিং এবং শক্তিবৃদ্ধি আলগোরিদিম যেমন টিডি-শেখার এবং প্রশ্ন-লার্নিং , যা একটি অনুমান করার জন্য প্রচেষ্টা মান ফাংশন নিয়ন্ত্রণ সমস্যার জন্য।

RRL ফ্রেমওয়ার্ক সহজ এবং মার্জিত সমস্যা উপস্থাপনা তৈরি করতে অনুমতি দেয়, এড়াতে মাত্রা এর বেলম্যান অভিশাপ এবং দক্ষতা অনেক শক্তিশালী সুবিধা অফার:

আর-আর-এ প্রাক -প্রশ্ন-শিক্ষায় বিচক্ষণতার পদ্ধতি অবলম্বন না করে প্রাকৃতিকভাবে মূল্যবান ক্রিয়া (পোর্টফোলিও ওজন) উত্পাদন করে ।

কোলাহলী ডেটাসেটের সংস্পর্শে আসার সাথে সাথে আর - আরআর -কি-লার্নিংয়ের তুলনায় আরও স্থিতিশীল কর্মক্ষমতা রয়েছে । গতিশীল অপ্টিমাইজেশনের পুনরাবৃত্ত সম্পত্তির কারণে কি-লার্নিং অ্যালগরিদম মান ফাংশন নির্বাচনের (সম্ভবত) আরও সংবেদনশীল, যখন আরআরএল অ্যালগরিদম উদ্দেশ্যমূলক ফাংশন বাছাই এবং গণনার সময় সাশ্রয় করতে আরও নমনীয়।

আরআরএল এর সাহায্যে ট্রেডিং সিস্টেমগুলি "লাভ" (লেনদেনের ব্যয়ের পরে প্রত্যাবর্তন), "সম্পদ", সম্পদের ইউটিলিটি ফাংশন বা "শার্প রেশিও" এর মতো ঝুঁকির সাথে সামঞ্জস্যপূর্ণ পারফরম্যান্স অনুপাতের মতো পারফরম্যান্স ফাংশন, , সর্বাধিকীকরণের মাধ্যমে অনুকূল করা যেতে পারে optimইউ()

এখানে আপনি আরআরএল অ্যালগরিদমের একটি মতলব বাস্তবায়ন পাবেন।


তথ্যসূত্র

ট্রেডিংয়ের জন্য শক্তিবৃদ্ধি শেখা

ট্রেডিং সিস্টেম এবং পোর্টফোলিওগুলির জন্য শক্তিবৃদ্ধি শেখা

পুনরাবৃত্তি পুনর্বহাল শেখার মাধ্যমে এফএক্স ট্রেডিং

পুনরুক্ত পুনর্বহাল শেখার (আরআরএল) সাথে স্টক ট্রেডিং

অ্যালগরিদম ট্রেডিং কিউ-লার্নিং এবং পুনরাবৃত্তি পুনর্বহাল শেখার ব্যবহার করে

স্বয়ংক্রিয় এফএক্স ব্যবসায়ের জন্য অ্যালগরিদগুলি অন্বেষণ করা - একটি হাইব্রিড মডেলটি তৈরি করা


@ অ্যান্টনডানিলভ আমি নিশ্চিত নই যে আপনি এ সম্পর্কে অবগত আছেন কিনা। যে লোকটি এই ধারণাটি নিয়ে এসেছিল (আপনার প্রথম রেফ।, জে মুডি) এই আলগো ব্যবহার করে একটি তহবিল পরিচালনা করছে - এবং তার অভিনয় দর্শনীয় থেকে অনেক দূরে been
horaceT

সুতরাং, জেনে রাখা ভাল তবে কীভাবে এই পরিবর্তনটি উত্তর দেয়
আন্তন ড্যানিলভ

2

(গভীর) পুনরাবৃত্তী আরএল এর পার্থক্য হ'ল এজেন্টদের পর্যবেক্ষণকে এর আউটপুট ক্রিয়াতে ম্যাপিং করা ফাংশনটি একটি পুনরাবৃত্ত নিউরাল নেটওয়ার্ক।

একটি পুনরাবৃত্ত নিউরাল নেটওয়ার্ক হ'ল এক ধরণের নিউরাল নেটওয়ার্ক যা প্রতিটি পর্যবেক্ষণের জন্য প্রতিটি পর্যায়ক্রমে একই পদ্ধতিতে প্রক্রিয়াজাত করে।

মূল কাগজ: আংশিক পর্যবেক্ষণযোগ্য এমডিপিগুলির জন্য গভীর পুনরাবৃত্তি কিউ-লার্নিং

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.