দূরত্বের তদারকি, স্ব-প্রশিক্ষণ, স্ব-তত্ত্বাবধানে শেখা, এবং দুর্বল তদারকির মধ্যে কোনও পার্থক্য রয়েছে কি?


12

আমি যা পড়েছি তা থেকে:


দূর তদারকি :

A Distant supervision algorithm usually has the following steps: 
1] It may have some labeled training data 
2] It "has" access to a pool of unlabeled data 
3] It has an operator that allows it to sample from this unlabeled 
   data and label them and this operator is expected to be noisy in its labels 
4] The algorithm then collectively utilizes the original labeled training data
    if it had and this new noisily labeled data to give the final output.

স্ব-প্রশিক্ষণ :

এখানে চিত্র বর্ণনা লিখুন


স্ব-শিক্ষণ ( ইয়েটস, আলেকজান্ডার, ইত্যাদি। "পাঠ্যকর্মকর্তা: ওয়েবে তথ্য উন্মুক্তকরণ।" মানব ভাষা প্রযুক্তিগুলির কার্যবিবরণী: অ্যাসোসিয়েশন ফর কমপিটেশনাল ল্যাঙ্গিস্টিক্সের উত্তর আমেরিকান অধ্যায়ের বার্ষিক সম্মেলন: বিক্ষোভের জন্য। সংযুক্তি ভাষাবিজ্ঞান, 2007. ):

লার্নার দুটি পদক্ষেপে কাজ করে। প্রথমত, এটি স্বয়ংক্রিয়ভাবে তার নিজস্ব প্রশিক্ষণ ডেটাটিকে ইতিবাচক বা নেতিবাচক হিসাবে লেবেল করে। দ্বিতীয়ত, এটি একটি লেভেল ডেটা কোনও নাইভ বেয়েস শ্রেণিবদ্ধ প্রশিক্ষণার্থে ব্যবহার করে।


দুর্বল তদারকি (হফম্যান, রাফেল, ইত্যাদি। "ওভারল্যাপিং সম্পর্কের তথ্য আহরণের জন্য জ্ঞান-ভিত্তিক দুর্বল তদারকি।" কমপিটেশনাল ভাষাতত্ত্বের জন্য অ্যাসোসিয়েশনের ৪৯ তম বার্ষিক সভার কার্যক্রিয়া: মানব ভাষা প্রযুক্তি-খণ্ড ১. কম্পিউটেশনাল ভাষাতত্ত্বের সমিতি, ২০১১ ।):

একটি আরও প্রতিশ্রুতিবদ্ধ পদ্ধতির, যা প্রায়শই "দুর্বল" বা "দূর" তদারকি বলা হয়, তাত্পর্যপূর্ণভাবে একটি পাঠ্যসূচীর সাথে সম্পর্কিত পাঠ্যের সাথে মেলামেশার মাধ্যমে নিজস্ব প্রশিক্ষণ ডেটা তৈরি করে।


লেবেলিং হিউরিস্টিক প্রশিক্ষিত শ্রেণিবদ্ধকারী হিসাবে স্ব-প্রশিক্ষণটি কিছুটা আলাদা বলে মনে হচ্ছে ব্যতিক্রম ব্যতীত আমার কাছে এটি সমস্তই একরকম লাগে and এবং লেবেলিং পর্ব এবং শ্রেণিবদ্ধ প্রশিক্ষণ পর্বের মধ্যে একটি লুপ রয়েছে। তবে ইয়াও, লিমিন, সেবাস্তিয়ান রিডেল এবং অ্যান্ড্রু ম্যাককালাম। " লেবেলযুক্ত ডেটা ছাড়াই সমষ্টিগত ক্রস-ডকুমেন্ট রিলেশন এক্সট্রাকশন " "প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণের অনুশীলন পদ্ধতিগুলির উপর ২০১০ সালের সম্মেলনের কার্যক্রম। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল ভাষাতত্ত্ব, 2010. দাবি করেছেন যে দূরবর্তী তদারকি == স্ব প্রশিক্ষণ == দুর্বল তদারকি ision

এছাড়াও, অন্যান্য প্রতিশব্দ আছে ?


আকর্ষণীয় প্রশ্ন। এটি কি ডেটা সায়েন্সের অন্তর্ভুক্ত?
goangit

@goangit সম্ভবত, এই ওয়েবসাইটের একটি ভাল অংশের মতো;)
ফ্রাঙ্ক ডারননকোর্ট

উত্তর:


7

আপনার দেওয়া সমস্ত বিবিধ শর্তের দুটি দিক রয়েছে: 1] প্রশিক্ষণের ডেটা প্রাপ্তির প্রক্রিয়া 2] বা শ্রেণিবদ্ধ প্রশিক্ষণকারী অ্যালগরিদম

প্রশিক্ষণের ডেটা কীভাবে প্রাপ্ত হয় তা নির্বিশেষে যে এ্যালগরিদম প্রশিক্ষণ দেয় তা তদারকি করা হয়। দূরত্বের তদারকি, স্ব-শেখা, স্ব-তত্ত্বাবধানে বা দুর্বল তত্ত্বাবধানের মধ্যে পার্থক্যটি ঠিক কীভাবে প্রশিক্ষণের ডেটা প্রাপ্ত হয় তার মধ্যে রয়েছে।

Ditionতিহ্যগতভাবে, তত্ত্বাবধানে পড়াশুনার বিষয়ে যে কোনও মেশিন লার্নিং পেপারে, একটি আবিষ্কার করবে যে কাগজটি স্পষ্টতই ধরে নিয়েছে যে প্রশিক্ষণের ডেটা পাওয়া যায় এবং তার মূল্য কী, এটি সাধারণত ধরে নেওয়া হয় যে লেবেলগুলি সুনির্দিষ্ট, এবং লেবেলে কোনও অস্পষ্টতা নেই যা প্রশিক্ষণের ডেটাতে দৃষ্টান্তগুলিতে দেওয়া হয়। তবে, দূরের / দুর্বল তদারকির কাগজপত্রের সাহায্যে লোকেরা বুঝতে পেরেছিল যে তাদের প্রশিক্ষণের ডেটাগুলিতে সঠিক লেবেল রয়েছে এবং তারা সাধারণত তাদের কাজগুলিতে হাইলাইট করতে চায় তা হ'ল খাঁটি লেবেলগুলি ব্যবহার করার স্পষ্ট ত্রুটি থাকা সত্ত্বেও তারা ভাল ফলাফল অর্জন করে (এবং তাদের অন্যান্য অ্যালগোরিদমিক উপায় থাকতে পারে) অতিরিক্ত ফিল্টারিং প্রক্রিয়া ইত্যাদি দ্বারা যথাযথ লেবেলগুলির সমস্যা কাটিয়ে ওঠা এবং সাধারণত কাগজপত্রগুলি এই অতিরিক্ত প্রক্রিয়াগুলি গুরুত্বপূর্ণ এবং দরকারী বলে হাইলাইট করতে চাইবে)। এটি "দুর্বল" পদগুলিতে উত্থান দিয়েছে বা "দূরবর্তী" নির্দেশ করে যে প্রশিক্ষণের ডেটাতে থাকা লেবেলগুলি সঠিক নয়। নোট করুন যে এটি প্রয়োজনীয়ভাবে শ্রেণিবদ্ধের শেখার দিকগুলিকে প্রভাবিত করে না। এই ছেলেরা এখনও শ্রেণিবদ্ধকারীগুলি স্পষ্টতই ধরে নেয় যে লেবেলগুলি সুনির্দিষ্ট এবং প্রশিক্ষণের অ্যালগরিদম খুব কমই পরিবর্তিত হয়েছে।

অন্যদিকে স্ব-প্রশিক্ষণ সে দিক থেকে কিছুটা বিশেষ। আপনি ইতিমধ্যে পর্যবেক্ষণ করেছেন, এটি তার নিজস্ব শ্রেণিবদ্ধ থেকে তার লেবেলগুলি গ্রহণ করে এবং সংশোধন করার জন্য একটি প্রতিক্রিয়া লুপ রয়েছে। সাধারণত, আমরা "ইনডাকটিভ" অ্যালগোরিদমগুলির সামান্য বড় পরিমণ্ডলের অধীনে তত্ত্বাবধানযুক্ত শ্রেণিবদ্ধদের অধ্যয়ন করি, যেখানে শ্রেণিবদ্ধটি শিখেছে তা পুরো ডেটা সম্পর্কে প্রশিক্ষণের ডেটা থেকে তৈরি একটি সূচক in লোকেরা অন্য একটি ফর্ম অধ্যয়ন করেছে, যাকে আমরা ট্রান্সডেটিভ ইনফারেন্স হিসাবে ডেকে আছি, যেখানে সাধারণ ইনডাকটিভ ইনফারেন্স অ্যালগরিদমের আউটপুট নয়, তবে অ্যালগোরিদম সম্মিলিতভাবে প্রশিক্ষণ ডেটা এবং পরীক্ষার ডেটা উভয়কে ইনপুট হিসাবে গ্রহণ করে এবং পরীক্ষার ডেটাতে লেবেল তৈরি করে। তবে, লোকেরা বুঝতে পেরেছিল যে বৃহত্তর প্রশিক্ষণের ডেটা সহ শ্রেণিবদ্ধী পেতে প্ররোচিত শিক্ষার মধ্যে ট্রান্সডেস্টিভ ইনফারেন্সটি ব্যবহার করবেন না।

আশা করি, আমি আপনাকে আর বিভ্রান্ত করি নি, বিনা দ্বিধায় মন্তব্য করতে এবং প্রয়োজনে আরও স্পষ্টতা চাই।

[1] দরকারী হতে পারে - http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/pdf2527.pdf


ধন্যবাদ, আপনার উত্তরটি খুব আকর্ষণীয়! স্ব-শিক্ষার বিষয়ে কীভাবে? দূরের / দুর্বল তদারকি হিসাবে একই?
ফ্রাঙ্ক ডারননকোর্ট

1
হ্যাঁ. আমি স্ব-শিক্ষার এবং দূরের / দুর্বল তদারকির মধ্যে বিশেষত পার্থক্য দেখতে পাই না, যেহেতু লেবেলগুলি একটি অনর্থক উত্স থেকে পৃথকভাবে প্রাপ্ত হয় এবং তারপরে তত্ত্বাবধানে শ্রেণিবদ্ধকে খাওয়ানো হয়।
তেরালিরামান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.