নিরীক্ষণ করা, তদারকি করা এবং আধা তত্ত্বাবধানে পড়াশোনা করা


27

মেশিন লার্নিংয়ের প্রসঙ্গে, এর মধ্যে পার্থক্য কী

  • অকার্যকর শেখা
  • তদারকি শেখা এবং
  • আধা তত্ত্বাবধানে শেখা?

এবং দেখার জন্য প্রধান কয়েকটি অ্যালগরিদমিক পদ্ধতির কী কী?


8
প্রথম, উইকির দুটি লাইন: "কম্পিউটার বিজ্ঞানে, আধা-তত্ত্বাবধানে পড়াশোনা মেশিন লার্নিং কৌশলগুলির একটি শ্রেণি যা প্রশিক্ষণের জন্য লেবেলযুক্ত এবং লেবেলযুক্ত উভয় ডেটা ব্যবহার করে - সাধারণত অল্প পরিমাণে লেবেলযুক্ত ডেটা একটি বিশাল পরিমাণে লেবেলযুক্ত ডেটা। আধা-তত্ত্বাবধানে পড়াশুনা নিরীক্ষণযোগ্য শেখার (কোনও লেবেলযুক্ত প্রশিক্ষণের ডেটা ছাড়াই) এবং তদারকি করা শেখার (সম্পূর্ণ লেবেলযুক্ত প্রশিক্ষণের ডেটা সহ) মধ্যে পড়ে "" এটা কি সাহায্য করে?

"অ্যালগরিদমিক পদ্ধতির" সাথে আপনার কী মনে আছে? আমি আমার উত্তরে অ্যাপ্লিকেশনগুলির কয়েকটি উদাহরণ দিয়েছি, এটি কি আপনি সন্ধান করছেন?
পিটার স্মিট

উত্তর:


20

সাধারণত, মেশিন লার্নিংয়ের সমস্যাগুলি শ্রেণিবিন্যাস, পূর্বাভাস বা মডেলিংয়ের জন্য ফাংশন অনুমানের প্রকরণ বিবেচনা করা যেতে পারে।

ইন তত্ত্বাবধানে থাকা শেখার এক ইনপুট (সঙ্গে সজ্জিত করা হয় , , ...,) এবং আউটপুট ( , , ...,) এবং একটি ফাংশন যে একটি generalizable ফ্যাশন এই আচরণ পরিমাপক খোঁজার সঙ্গে চ্যালেঞ্জ করছে। আউটপুটটি একটি শ্রেণিবদ্ধ লেবেল (শ্রেণিবদ্ধে) বা একটি আসল সংখ্যা (প্রতিরোধের ক্ষেত্রে) হতে পারে - তদারকি শিক্ষায় এগুলি "তদারকি"।x1x2y1y2

ক্ষেত্রে তত্ত্বাবধান ছাড়াই লার্নিং , বেস ক্ষেত্রে, আপনি ইনপুট পায় , , ..., কিন্তু কেউই লক্ষ্য আউটপুট, কিংবা তার পরিবেশ থেকে পুরষ্কার প্রদান করা হয়। সমস্যা (শ্রেণিবদ্ধ, বা ভবিষ্যদ্বাণী করা) এবং নমুনাযুক্ত স্থানের আপনার পটভূমি জ্ঞানের ভিত্তিতে আপনি বিভিন্ন পদ্ধতি ব্যবহার করতে পারেন: ঘনত্বের অনুমান (পূর্বাভাসের জন্য কিছু অন্তর্নিহিত পিডিএফ অনুমান করা), কে-মানে ক্লাস্টারিং (লেবেলযুক্ত আসল মূল্যবান ডেটা শ্রেণিবদ্ধকরণ), কে- মোড ক্লাস্টারিং (শিরোনামহীন শ্রেণিবদ্ধ ডেটা শ্রেণিবদ্ধকরণ), ইত্যাদিx1x2

আধা-তত্ত্বাবধানে শেখার মধ্যে লেবেলযুক্ত এবং লেবেলযুক্ত ডেটা সম্পর্কিত ফাংশন অনুমান জড়িত। এই পদ্ধতির মাধ্যমে এই বিষয়টি প্রেরণা পায় যে লেবেলযুক্ত ডেটা তৈরি করা প্রায়শই ব্যয়বহুল, যদিও লেবেলযুক্ত ডেটা সাধারণত হয় না। এখানে চ্যালেঞ্জটি বেশিরভাগ ক্ষেত্রে এই ফ্যাশনে মিশ্রিত ডেটা কীভাবে আচরণ করা যায় তার প্রযুক্তিগত প্রশ্ন জড়িত। আধা তত্ত্বাবধানে শেখার পদ্ধতি সম্পর্কে আরও তথ্যের জন্য এই আধা-তত্ত্বাবধানে পড়াশুনা সাহিত্য জরিপটি দেখুন।

লার্নিং এই ধরনের ছাড়াও, সেখানে যেমন অন্যদের হয় শক্তিবৃদ্ধি শেখার যেখানে উৎপাদন কর্মের দ্বারা তার পরিবেশের সঙ্গে লার্নিং পদ্ধতি মিথস্ক্রিয়া , । । .. যা পুরষ্কার বা শাস্তি দেয় , , ...a1a2r1r2


1
আপনার উত্তর ধরণের ইঙ্গিত দেয় যে তত্ত্বাবধানে পড়াশোনা আধা-তত্ত্বাবধানে শেখার চেয়ে পছন্দনীয়, যেখানে কখনও সম্ভব হয় as এটা কি ঠিক? যদি তা না হয় তবে আধা তত্ত্বাবধানে পড়াশোনা কখন ভাল হতে পারে?
naught101

@ naught101 আপনি তার উত্তর থেকে এটি কীভাবে পড়বেন? জন যা বলেছেন তার সাথে আমি একমত, তবে আপনি যা বলবেন তার বিপরীতে আমি বলব, যথা সম্ভব যেখানেই আধা তত্ত্বাবধানে পড়াশোনা তদারকি করা শিক্ষার চেয়ে বেশি পছন্দনীয়। এটি হ'ল যদি আপনার কাছে কিছু লেবেলযুক্ত ডেটা এবং কিছু লেবেলযুক্ত ডেটা থাকে (সাধারণত লেবেলযুক্ত ডেটার পরিমাণের তুলনায় অনেক বেশি) আপনি কেবলমাত্র লেবেলযুক্ত ডেটা ব্যবহার করতে পারলে আপনি যদি সমস্ত ডেটা ব্যবহার করতে পারতেন তবে আপনি আরও ভাল করতে পারেন। আধা-তত্ত্বাবধানে শেখার ব্যবহারের পুরো বিষয়টি হ'ল তত্ত্বাবধানে পড়াশুনা বা নিরীক্ষণমূলক শেখার মাধ্যমে প্রাপ্ত পারফরম্যান্সকে ছাড়িয়ে যাওয়া।
হ্যালো গুডবাই

@ হেলো গুডবি: কারণ আধা-তত্ত্বাবধানে শেখার জন্য নির্দিষ্ট করা একমাত্র সুবিধা হ'ল এটি কিছু ক্ষেত্রে সস্তায়, তবে এটি আরও চ্যালেঞ্জের হওয়ার সাথে যুক্ত ড্র-ব্যাক পেয়েছে। আমার কাছে এটি যুক্তিসঙ্গত বলে মনে হচ্ছে যে আরও স্থল সত্যের ডেটা সরবরাহ করা হয়েছে, পুরোপুরি তদারকি করা শেখা আরও সহজ এবং আরও সঠিক (অন্য সমস্ত বিষয় সমান হচ্ছে)। সুতরাং আমি কেবল উদাহরণের জন্য জিজ্ঞাসা করছিলাম যেখানে দুটিয়ের মধ্যে অর্ধ-তত্ত্বাবধানের পছন্দকে প্রাধান্য দেওয়া হবে। আপনি মন্তব্যটি কোনও অর্থবোধ করে না, তবে এমন কোনও মামলা রয়েছে যেখানে সমস্ত ডেটা লেবেলযুক্ত এবং আপনি এখনও আধা তত্ত্বাবধানে পছন্দ করতে চান?
nnot101

@ নট 101 আমি অনুমান করি যে সমস্ত ডেটা লেবেলযুক্ত থাকলে আপনি সাধারণ তত্ত্বাবধানে শেখা ব্যবহারের পরিবর্তে আধা-তত্ত্বাবধানে লার্নিং ব্যবহার করে খুব বেশি জয়লাভ করতে পারবেন না। যখন আপনার কাছে অনেক লেবেলযুক্ত ডেটা থাকে এবং আধা-তত্ত্বাবধানে পড়াশোনা করা হয়, তখন আপনি উন্নত পারফরম্যান্স দেখানোর মূল কারণ হ'ল আপনি ট্রান্সফার লার্নিং করেন এবং লেবেলযুক্ত ডেটা থেকেও অভিজ্ঞতা আঁকতে সক্ষম হন।
হ্যালো গুডবাই

@ naught101 তবে, আউটপুট ডেটা থেকে যথাসম্ভব ইনপুট ডেটা পুনরায় উত্পাদনের কাজটি নেটওয়ার্ককে দিয়ে (অর্থাত্ একটি অটেনকোডার কার্যকর করা, যা এক ধরণের নিরীক্ষণযোগ্য শিক্ষণ), নেটওয়ার্কটি ডেটাটির ভাল প্রতিনিধিত্ব শিখতে বাধ্য হয়। এটি এক ধরণের নিয়মিতকরণ হিসাবে কাজ করতে পারে যা ফলস্বরূপ উপকারীও প্রমাণ করতে পারে। সুতরাং সমস্ত তাত্পর্যযুক্ত লেবেলযুক্ত এমনকি, এমনকি তদারকি করা সাধারণ তত্ত্বাবধানের পরিবর্তে আধা-তত্ত্বাবধানে শেখার ব্যবহারের ক্ষেত্রে একটি ছোট্ট জয় হতে পারে। এই প্রভাবটি কতটা বড়, তা আমি জানি না।
হ্যালো গুডবাই

13

নিরীক্ষণশিক্ষা

প্রশিক্ষণ দেওয়ার জন্য যখন আপনার কাছে কোনও লেবেলযুক্ত ডেটা উপলব্ধ নেই তখন অসমীক্ষিত শেখা is এর উদাহরণগুলি প্রায়শই ক্লাস্টারিং পদ্ধতি।

তত্ত্বাবধানে পড়াশোনা

এক্ষেত্রে আপনার প্রশিক্ষণের ডেটা লেবেলযুক্ত ডেটার বাইরে রয়েছে। আপনি যে সমস্যাটি এখানে সমাধান করেন তা প্রায়শই লেবেল ছাড়াই ডেটা পয়েন্টের জন্য লেবেলগুলির পূর্বাভাস দেয়।

আধা-তত্ত্বাবধানে পড়াশোনা

এই ক্ষেত্রে লেবেলযুক্ত ডেটা এবং লেবেলযুক্ত ডেটা উভয়ই ব্যবহৃত হয়। উদাহরণস্বরূপ এটি গভীর বিশ্বাস নেটওয়ার্কগুলিতে ব্যবহার করা যেতে পারে, যেখানে কিছু স্তর তথ্যের কাঠামো (আনসারভিজড) শিখছে এবং শ্রেণিবিন্যাস তৈরি করার জন্য একটি স্তর ব্যবহৃত হয় (তদারকি করা ডেটা দিয়ে প্রশিক্ষিত)


7

আমি মনে করি না যে তত্ত্বাবধানে / নিরীক্ষণ করা এটি সম্পর্কে চিন্তা করার সেরা উপায়। বেসিক ডেটা মাইনিংয়ের জন্য, আপনি কী করার চেষ্টা করছেন সে সম্পর্কে ভাবা ভাল। চারটি প্রধান কাজ রয়েছে:

  1. ভবিষ্যদ্বাণী। যদি আপনি একটি আসল সংখ্যার পূর্বাভাস দিচ্ছেন তবে এটিকে বলা হয় রিগ্রেশন। আপনি যদি একটি পুরো সংখ্যা বা শ্রেণীর পূর্বাভাস দিচ্ছেন তবে এটিকে শ্রেণিবিন্যাস বলা হয়।

  2. মডেলিং। মডেলিং ভবিষ্যদ্বাণী হিসাবে একই, কিন্তু মডেল মানুষের দ্বারা বোধগম্য। নিউরাল নেটওয়ার্ক এবং সমর্থন ভেক্টর মেশিন দুর্দান্ত কাজ করে, তবে বোধগম্য মডেল তৈরি করে না [1]। সিদ্ধান্ত গাছ এবং ক্লাসিক লিনিয়ার রিগ্রেশন হ'ল বোঝা সহজ মডেলগুলির উদাহরণ।

  3. আদল। আপনি যদি বৈশিষ্ট্যের প্রাকৃতিক দলগুলি সন্ধান করার চেষ্টা করছেন তবে এটিকে ফ্যাক্টর বিশ্লেষণ বলা হয়। যদি আপনি পর্যবেক্ষণগুলির প্রাকৃতিক গোষ্ঠীগুলি সন্ধান করার চেষ্টা করছেন তবে এটিকে ক্লাস্টারিং বলা হয়।

  4. সংঘ. এটি অনেকটা পারস্পরিক সম্পর্কের মতো, তবে প্রচুর বাইনারি ডেটাসেটের জন্য।

[1] স্পষ্টতই গোল্ডম্যান শ্যাশ ভবিষ্যদ্বাণী করার জন্য প্রচুর সংখ্যক দুর্দান্ত নিউরাল নেটওয়ার্ক তৈরি করেছিলেন, কিন্তু তখন কেউ তাদের বুঝতে পারেনি, তাই তাদের নিউরাল নেটওয়ার্কগুলি ব্যাখ্যা করার জন্য অন্যান্য প্রোগ্রাম লিখতে হয়েছিল।


আপনি জিএস গল্পে আরও তথ্য দিতে পারেন? (কেন আমি আপনার মন্তব্যে সরাসরি মন্তব্য করতে পারি না তা নিশ্চিত নয়)
YA

আমি কোথায় পড়েছি তা ঠিক মনে করতে পারছি না, তবে এখানে এআই @ জিএস সম্পর্কে আরও কিছু তথ্য রয়েছে: hplusmagazine.com/2009/08/06/…
নিল ম্যাকগুইগান

আমার এই অনুভূতি আছে যে 1,2 তত্ত্বাবধানে থাকা সেটিংয়ে শিখার বর্ণনা দেয় এবং 3,4 টি নিরীক্ষণযোগ্য সেটিংয়ে থাকে। এছাড়াও: আপনি যদি ভবিষ্যদ্বাণী করার জন্য মিলগুলি সন্ধান করেন? এটি কি মডেলিং হিসাবে বিবেচনা করা হয়?
মিঃ Tsjolder
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.