ব্যাকপ্রসারণের মাধ্যমে কীভাবে একটি এসভিএমকে প্রশিক্ষণ দেওয়া যায়?


11

আমি ভাবছিলাম যে কোনও এসভিএমকে প্রশিক্ষণ দেওয়া (কোনও লিনিয়ার বলতে, জিনিসগুলিকে সহজ করে তোলা) ব্যাকপ্রোপেশন ব্যবহার করে কী সম্ভব?

বর্তমানে, আমি একটি রাস্তা ব্লক আছি কারণ আমি শুধুমাত্র লেখা সম্পর্কে মনে করতে পারেন ক্লাসিফায়ার এর আউটপুট হিসাবে

f(x;θ,b)=sgn(θx(b+1))=sgn(g(x;θ,b))

অতএব, আমরা যখন "ব্যাকওয়ার্ড পাস" (প্রচারিত ত্রুটি) চেষ্টা করি এবং গণনা করি তখন আমরা পাই

Ex=Ef(x;θ,b)f(x;θ,b)x=Ef(x;θ,b)sgn(g(x;θ,b))g(x;θ,b)g(x;θ,b)x=δdsgn(z)dzθ=δ0θ=0
যেহেতু ডেরিভেটিভ sgn(x) হয়
dsgn(x)dx={0if x02δ(x)if x=0

একইভাবে, আমরা দেখতে যে E /θ = E /b = 0 , যার অর্থ আমরা কোনও তথ্য ফেরত দিতে পারি না, বা গ্রেডিয়েন্ট আপডেট করতে পারি না!E/θ=E/b=0

কি দেয়?

উত্তর:


14

আপনি ঠিক বলেছেন যে আপনি যদি প্রশিক্ষণের ক্ষেত্রে এসভিএমের যথার্থতাটিকে সরাসরি অনুকূল করতে চেষ্টা করেন তবে 0-1 ক্ষতিও বলা হয়, গ্রেডিয়েন্ট অদৃশ্য হয়ে যায়। এই কারণেই লোকেরা তা করে না। :)

আপনি যা করার চেষ্টা করছেন তা আসলে কোনও এসভিএম নয় ; এটি বরং কেবল একটি সাধারণ লিনিয়ার শ্রেণিবদ্ধী। বিশেষত একটি এসভিএম উত্থাপিত হয় যখন আপনি কব্জা ক্ষতি হিসাবে পরিচিত উত্তল সারোগেটের সাথে 0-1 ক্ষতি ফাংশনটি প্রতিস্থাপন করেন ; এটি মার্জিন সর্বাধিকীকরণের ধারণার মতো যা একটি এসভিএমের ধারণার মূল। এই ক্ষতির ফাংশন (প্রায়) পার্থক্যযোগ্য; একমাত্র সমস্যাটি হ'ল কোনও আউটপুট হিঞ্জ পয়েন্টে হ'ল, যা (ক) সবচেয়ে যুক্তিসঙ্গত অনুমানের অধীনে সম্ভাব্যতা শূন্যের সাথে ঘটে এবং (খ) তারপরে আপনি কেবল 0 বা 1টিকে ডেরাইভেটিভ (বা এর মধ্যে কিছু) হিসাবে ব্যবহার করতে পারেন, কোন ক্ষেত্রে আপনি প্রযুক্তিগতভাবে সাবগ্রেডিয়েন্ট বংশোদ্ভূত করছেন।

যেহেতু আপনি ব্যাকপ্রসারণের কথা বলছেন, তাই আমি ধরে নেব যে আপনি নিউরাল নেটওয়ার্কগুলি অনুকূল করার সাথে কমপক্ষে কিছুটা পরিচিত। একই সমস্যা নিউরাল নেটওয়ার্ক শ্রেণিবদ্ধীদের সাথেও ঘটে; এই কারণেই লোকেরা সেখানে অন্যান্য ক্ষতির ফাংশন ব্যবহার করে।


Ax+b

1
হ্যাঁ, একটি লিনিয়ার এসভিএম মূলত আউটপুট নোডে রৈখিক সক্রিয়করণ সহ 1-স্তর এনএন এর সমতুল্য এবং কব্জ হ্রাসের মাধ্যমে প্রশিক্ষিত হয়।
ডগল

5

আপনি যদি কেবল লিনিয়ার ক্ষেত্রে আগ্রহী হন তবে লজিস্টিক রিগ্রেশন (এলআর) আরও ভাল পছন্দ, কারণ এটি উত্তল এবং বিশ্লেষক উভয়ই (আপনি যদি নিয়মিতকরণে আগ্রহী হন তবে আপনি এটি রিজ করতে চাইতে পারেন)। তবে যখন আপনি অ-লিনিয়ারে যান তখন সেখানে কৌতুকপূর্ণ অংশটি ছবিতে আসে। লিনিয়ার ক্ষেত্রে ক্ষেত্রে উত্তেজক এবং বিশ্লেষক উভয়কেই রাখার কোনও যুক্তিসঙ্গত উপায় নেই আপনার দুটির একটিরও ত্যাগ করতে হবে ne নিউরাল নেটগুলিতে আপনি জঞ্জালতা উত্সর্গ করেন এবং এসএমএসে আপনি হোমোমর্ফিজম ত্যাগ করেন।

কঠোরভাবে বলতে গেলে এলআর এবং এসভিএমের মধ্যে কোনও পার্থক্য নেই, এসএমএসগুলি কেবল রেখাটির কোন দিকে একটি পয়েন্ট মিথ্যা বলেছে, এলআরগুলি সীমানা থেকে কতটা দূরে থাকে তাও বিবেচনায় রাখে (সীমানা-মার্জিন লাইনে সিগময়েড আপনাকে সম্ভাব্যতা দেয় 0.5 এলআর ক্ষেত্রে)। এসভিএমগুলি এই আপোস করতে বাধ্য হয় কারণ লিনিয়ার কার্নেলগুলির জন্য একটি বাঁকা-হাইপারপ্লেন থেকে দূরত্বের অন্তর্নিহিততা (বীজগণিতের জাতটি আরও ভাল শব্দ) লিনিয়ার ক্ষেত্রে একই নয়, আসলে হাইপার পৃষ্ঠ থেকে স্বল্পতম দূরত্ব সমাধানের সমস্যা একটি নির্দিষ্ট বিন্দু খুব শক্ত (এসভিএম নিজেই তুলনায় শক্ত), কিন্তু অন্যদিকে Vapnik কেবল অনুমান করতে পেরেছিলেন যে সীমানার কোন দিকে একটি বিন্দু মিথ্যা বলতে ও (1) সময়ের মতো খুব সহজ। এটি এসভিএমের পিছনে প্রকৃত অন্তর্দৃষ্টি, এটি পরিসংখ্যান শেখার তত্ত্বের একমাত্র উপলভ্য উত্তল অপ্টিমাইজেশনের বিকল্প হিসাবে তৈরি করে। তবে আমার অনুভূতি হ'ল আপনি কিছুটা বেশি ত্যাগ করেছেন, হোলোমর্ফিিজম এবং সম্ভাব্যতা উভয়ই নষ্ট হয়ে গেছে। তবে গ্রাউন্ড-ট্রুথিংয়ের মতো নির্দিষ্ট ক্ষেত্রে যেমন এসভিএমগুলি খুব নির্ভরযোগ্য এবং এটির অবরুদ্ধ বিকল্পগুলির তুলনায় সম্পূর্ণরূপে মিথ্যা বৈজ্ঞানিক মডেলও রয়েছে।

টিএলডিআর: হ্যাঁ, গড় মূল্য উপপাদ্য অ অ্যানালিটিক্যাল ফাংশনগুলির জন্য উদ্ধার করতে আসে con উত্তল-অ্যানালিটিক ক্ষেত্রে ক্ষেত্রে গড় মান থোরিয়ামটি একটি অসামতায় রূপান্তরিত করে উপ-গ্রেডিয়েন্টগুলিতে কিছু সীমানা শর্ত নির্ধারণ করে এটি একটি সাব গ্রেডিয়েন্ট শালীন ব্যবহার করে


1
এলআর আপনাকে কী বোঝায়?
সাইকোরাক্স মনিকাকে

@ সাইকোরাক্স লজিস্টিক রিগ্রেশন
ফ্রাঙ্ক ডারননকোর্ট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.