তত্ত্বাবধানে পড়াশোনা, নিরীক্ষণযোগ্য শিখন এবং পুনর্বহাল শেখার: কর্মপ্রবাহের বুনিয়াদি


30

তত্ত্বাবধান শেখা

  • 1) একজন ইনপুট এবং আউটপুট ডেটার উপর ভিত্তি করে একটি শ্রেণিবদ্ধ তৈরি করে
  • 2) এই শ্রেণিবদ্ধকারী ডেটা একটি প্রশিক্ষণ সেট সঙ্গে প্রশিক্ষিত হয়
  • 3) যে শ্রেণিবদ্ধকারী তথ্য পরীক্ষার সেট দিয়ে পরীক্ষা করা হয়
  • 4) আউটপুট সন্তোষজনক হলে স্থাপনা

যখন এই ডেটাটিকে শ্রেণিবদ্ধ করতে হয় তা আমি যখন জানতাম তখন এটিকে বাছাই করার জন্য আপনাকে কেবল (শ্রেণিবদ্ধ) প্রয়োজন "

পদ্ধতির বিন্দু: শ্রেনী লেবেলে বা আসল সংখ্যা উত্পাদন করতে

নিরীক্ষণশিক্ষা

  • 1) একজন মানুষ ইনপুট ডেটার উপর ভিত্তি করে একটি অ্যালগরিদম তৈরি করে
  • ২) সেই অ্যালগরিদমটি ডেটাগুলির একটি পরীক্ষার সেট দিয়ে পরীক্ষা করা হয় (এতে অ্যালগরিদম শ্রেণিবদ্ধকারী তৈরি করে)
  • 3) শ্রেণিবদ্ধ সন্তোষজনক হলে মোতায়েন

যখন এই ডেটাটিকে শ্রেণিবদ্ধ করবেন আমার কোনও ধারণা নেই তখন আপনি কী ব্যবহার করতে পারবেন, আপনি কি (অ্যালগরিদম) আমার জন্য একটি শ্রেণিবদ্ধ তৈরি করতে পারেন? "

পদ্ধতির পয়েন্ট: শ্রেণিবদ্ধ লেবেলে বা পূর্বাভাস (পিডিএফ)

শক্তিবৃদ্ধি শেখা

  • 1) একজন মানুষ ইনপুট ডেটার উপর ভিত্তি করে একটি অ্যালগরিদম তৈরি করে
  • 2) যে অ্যালগরিদম উপহার একটি রাষ্ট্র উপর নির্ভরশীল ইনপুট ডেটা যা একটি ব্যবহারকারী পুরষ্কার বা মাধ্যমে অ্যালগরিদম শাস্তি কর্ম অ্যালগরিদম গ্রহণ, এই সময়ের চলতে
  • 3) সেই অ্যালগরিদম পুরষ্কার / শাস্তি থেকে শিখে এবং নিজেই আপডেট হয়, এটি অবিরত থাকে
  • ৪) এটি সর্বদা উত্পাদনে থাকে, রাজ্যগুলি থেকে ক্রিয়াকলাপ উপস্থাপন করতে সক্ষম হওয়ার জন্য এটি সত্যিকারের ডেটা শেখার প্রয়োজন

যখন এই ডেটাটিকে শ্রেণিবদ্ধ করা হবে আমার কোনও ধারণা নেই, তখন আপনি কী ব্যবহার করতে পারেন, আপনি কি এই ডেটাটিকে শ্রেণিবদ্ধ করতে পারেন এবং আমি যদি এটি সঠিক হয় তবে আপনাকে পুরষ্কার দেব বা যদি তা না হয় তবে আমি আপনাকে শাস্তি দেব।

এই ধরণের অনুশীলনের এই প্রবাহ কি, তারা কী করে সে সম্পর্কে আমি অনেক কিছু শুনি, তবে ব্যবহারিক এবং অনুকরণীয় তথ্য ভীতিজনকভাবে অল্পই!


আপনি আপনার প্রশ্নটি যেভাবে উপস্থাপন করেছেন তা সত্যিই পছন্দ হয়েছে। আমি এই উত্তরটি সহায়ক বলে খুঁজে পেয়েছি: stats.stackexchange.com/a/522/92255
কুমার সিংহ

উত্তর:


3

এটি বেসিক আইডিয়াসগুলির একটি খুব সুন্দর কমপ্যাক্ট ভূমিকা!

শক্তিবৃদ্ধি শেখা

আমি মনে করি আপনার প্রয়োগের প্রয়োগের শক্তিবৃদ্ধি শেখার ক্ষেত্রে বর্ণনাটি ঠিক সঠিক নয়। শ্রেণিবদ্ধ শব্দটি উপযুক্ত নয়। আরও ভাল বিবরণ হবে:

আমি জানি না এই পরিবেশে কীভাবে অভিনয় করতে হবে, আপনি কি একটি ভাল আচরণ খুঁজে পেতে পারেন এবং এর মধ্যে আমি আপনাকে প্রতিক্রিয়া জানাব ।

অন্য কথায়, লক্ষ্যটি হ'ল কিছু ভালকে শ্রেণীবদ্ধ করার চেয়ে ভাল কিছু নিয়ন্ত্রণ করা

ইনপুট

  • পরিবেশ যার দ্বারা সংজ্ঞায়িত করা হয়
    • সমস্ত সম্ভাব্য রাজ্য
    • রাজ্যে সম্ভাব্য ক্রিয়া
  • পুরস্কার ফাংশন রাষ্ট্র এবং / অথবা কর্মের উপর নির্ভরশীল

অ্যালগরিদম

  • প্রতিনিধি
    • একটি রাজ্যে হয়
    • অন্য রাজ্যে স্থানান্তরিত করার জন্য একটি পদক্ষেপ নেয়
    • রাজ্যে কর্মের জন্য একটি পুরষ্কার পায়

আউটপুট

  • এজেন্ট একটি অনুকূল নীতি সন্ধান করতে চায় যা পুরষ্কারকে সর্বাধিক করে তোলে

2

দাবি অস্বীকার: আমি কোনও বিশেষজ্ঞ নই এবং আমি এমনকি পুনর্বিকরণ শেখার মাধ্যমে এখনও কিছু করি নি (এখনও), তাই কোনও প্রতিক্রিয়া স্বাগত হবে ...

এখানে একটি উত্তর যা আপনার তালিকায় কিছু ক্ষুদ্র গাণিতিক নোট এবং কখন কী ব্যবহার করবেন সে সম্পর্কে কিছু আলাদা চিন্তাভাবনা যুক্ত করে। আমি আশা করি গণনাটি যথেষ্ট পরিমাণে স্বতন্ত্র

তত্বাবধানে থাকা

  1. আমাদের কাছে ডেটাD={(x0,y0),(x1,y1),,(xn,yn)}
  2. আমরা এমন একটি মডেল যা সমস্ত পয়েন্ট জন্য কিছু লোকসান / ব্যয় পরিমাপ হ্রাস করেgL(yi,g(xi))0i<l
  3. মডেলটি কতটা করে তোলে তার ধারণা পাওয়ার জন্য আমরা বাকী ডেটা ( ) এর জন্য ক্ষতি / ব্যয় গণনা করে মডেলটিকে মূল্যায়নLlin

আমরা উদাহরণ দিতে পারি, তবে আমরা ইনপুট থেকে আউটপুট পেতে একটি অ্যালগরিদম দিতে পারি না

শ্রেণিবদ্ধকরণ এবং প্রতিরোধের জন্য সেট করা হচ্ছে

unsupervised

  1. আমাদের কাছে ডেটাD={x0,x1,,xn}
  2. আমরা এমন একটি মডেল খুঁজছি যা আমাদের ডেটাতে কিছুটা অন্তর্দৃষ্টি দেয়।g
  3. আমরা দরকারী / আকর্ষণীয় কিছু করেছি কিনা তা বলার মতো আমাদের কোনও পদক্ষেপ নেই

আমাদের কাছে কিছু ডেটা রয়েছে তবে দরকারী / আকর্ষণীয় জিনিসগুলি কোথায় সন্ধান করতে হবে তা আমাদের কোনও ধারণা নেই

গুচ্ছকরণের জন্য সেট করা, মাত্রিকতা হ্রাস, লুকানো কারণগুলি খুঁজে পাওয়া, জেনারেটরি মডেল ইত্যাদি etc.

শক্তিবৃদ্ধি

  1. আমাদের কাছে কোনও ডেটা নেই
  2. আমরা একটি মডেল গঠন করা যে ডেটা উত্পন্ন (প্রায়ই ক্রিয়া বলা হয়), যা পরিমাপ এবং / অথবা পূর্ববর্তী কর্মের উপর ভিত্তি করে করা যেতে পারে কিছু পুরস্কার পরিমাপ বাড়ানোর লক্ষ্যে একটি প্রয়াস, , যা সাধারণত মডেলের পরিচিত নয় (এটি পাশাপাশি শিখতে হবে)।gxiR(xi)
  3. কিছুটা সময় পাওয়ার পরে আমরা পুরষ্কারটির মাধ্যমে তা মূল্যায়ন করি।

কীভাবে কিছু করা যায় সে সম্পর্কে আমাদের ধারণা নেই তবে আমরা এটি বলতে পারি যে এটি সঠিক হয়েছে বা ভুল হয়েছে

এটি অনুক্রমিক সিদ্ধান্তের কাজের জন্য বিশেষত কার্যকর বলে মনে হচ্ছে।

তথ্যসূত্র:
সি, জে।, বার্তো, এ। পাওয়েল, ডাব্লু। ও উনসচ, ডি। (২০০৪) রিবারফোর্স লার্নিং এবং তদারকি করা শিক্ষার সাথে এর সম্পর্ক, হ্যান্ডবুক অফ লার্নিং এন্ড আনুমানিক ডায়নামিক প্রোগ্রামিংয়ে, জন উইলি অ্যান্ড সন্স, ইনক।, হোবোকেন, এনজে, মার্কিন যুক্তরাষ্ট্র। doi: 10.1002 / 9780470544785.ch2

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.