নিউরাল নেটওয়ার্কগুলির সাথে গ্রেডিয়েন্ট বংশদ্ভুত কেন ব্যবহার করবেন?


22
  1. ব্যাক-প্রসারণ অ্যালগরিদম ব্যবহার করে কোনও নিউরাল নেটওয়ার্ক প্রশিক্ষণ দেওয়ার সময়, গ্রেডিয়েন্ট বংশদ্ভুত পদ্ধতি ওজন সম্পর্কিত আপডেটগুলি নির্ধারণ করার জন্য ব্যবহৃত হয়। আমার প্রশ্নটি হ'ল ধীরে ধীরে নির্দিষ্ট ওজনের ক্ষেত্রে ন্যূনতম বিন্দুটি সনাক্ত করতে গ্রেডিয়েন্ট বংশদ্ভুত পদ্ধতি ব্যবহার করার পরিবর্তে, আমরা কেন কেবল ডেরাইভেটিভ ডি সেট করি না ( ত্রুটি )d(Error)dw=0, এবং ওজন মান খুঁজেwযা ভুল ছোট?

  2. এছাড়াও, আমরা কেন নিশ্চিত যে পিছনে প্রচারের ক্ষেত্রে ত্রুটি ফাংশনটি সর্বনিম্ন হবে? এটি ত্রুটি ফাংশন সর্বাধিক হয় কি চালু করতে পারবেন না? স্কোয়াশিং ফাংশনগুলির একটি নির্দিষ্ট সম্পত্তি রয়েছে যা গ্যারান্টি দেয় যে যথেচ্ছ ওজন এবং ইনপুট ভেক্টর সহ যে কোনও সংখ্যক লুকানো নোডযুক্ত নেটওয়ার্ক সর্বদা কিছু মিনিমাযুক্ত ত্রুটি ফাংশন দেয়?


2
সমস্ত ক্যাপের শিরোনামগুলি এখানে স্ট্যান্ডার্ড নয় (দয়া করে আপনার চারপাশে দেখুন) এবং এখানে এবং অন্য কোথাও ব্যাপকভাবে অবাঞ্ছিত শোটিং হিসাবে অবহেলিত।
নিক কক্স

@ নিক কক্স আমার ক্ষমাপ্রার্থী
মিনাজ

লুকানো বা সুপ্ত পরিবর্তনশীলগুলি যখনই মেশিন লার্নিং মডেলগুলিতে ব্যবহৃত হয় তা দেখার বিষয় আকর্ষণীয়, অপ্টিমাইজেশন (প্রায়?) সর্বদা অ-রৈখিক, নন-উত্তল এবং অপ্টিমাইজ করা শক্ত হয়ে যায়।
ভ্লাদিস্লাভস ডভগ্যালিক্স

উত্তর:


30
  1. কারণ আমরা পারি না। ওজন ডাব্লু একটি ফাংশন হিসাবে অপ্টিমাইজেশন পৃষ্ঠ S(w)w ননলাইনার এবং ডি এস ( ডাব্লু ) এর জন্য কোনও বদ্ধ ফর্ম সমাধান বিদ্যমান নেইdS(w)dw=0

  2. সংজ্ঞা অনুসারে গ্রেডিয়েন্ট বংশোদ্ভূত। যদি আপনি নামার পরে কোনও স্থির জায়গায় পৌঁছান তবে এটি একটি (স্থানীয়) ন্যূনতম বা একটি স্যাডল পয়েন্ট হতে হবে তবে কোনও স্থানীয় সর্বাধিক নয়।


যদি ফাংশনটি অবতল থাকে তবে ধীরে ধীরে শালীনতা চিরতরে অবতরণ করবে কারণ একমাত্র রাস্তাটি নীচের দিকে। আপনি কি বলছেন যে ত্রুটি পৃষ্ঠটি অবতল না হওয়ার গ্যারান্টিযুক্ত? এছাড়াও, এটি ত্রুটি ফাংশনের ডেরিভেটিভের কোনও বদ্ধ ফর্ম সমাধান কেন হবে তা আমার কাছে পরিষ্কার নয়। কে - 1 ফর্মটির ত্রুটি নেই যেখানে K ধ্রুবক? এই ফাংশনটি মোটামুটি পার্থক্যজনক এবং ফলস্বরূপ প্রকাশটি বিশ্লেষণযোগ্যভাবে সমাধানযোগ্য looks আমি স্পষ্টভাবে দেখতে ব্যর্থ কিছু আছে কারণ দয়া করে আমাকে পরিষ্কার করতে সাহায্য করুন। K11+eΣwx
মিনাজ

8
এটি ঘটতে পারে না, কারণ সমস্ত ব্যবহৃত ত্রুটিযুক্ত ফাংশনগুলির একটি কঠোর তাত্ত্বিক ন্যূনতম 0 থাকে ত্রুটিগুলি কখনও নেতিবাচক হয়ে উঠতে পারে না।
মার্ক ক্লেসেন

2
1 এর অন্য একটি সম্ভাব্য ব্যাখ্যা হ'ল "আমরা ঠিক এটিই করি, গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করে সমীকরণটি সমাধান করা হয়।"
ম্যাথু ড্রুরি

1
গ্রেডিয়েন্টের জন্য স্পষ্টভাবে একটি বদ্ধ ফর্ম রয়েছে (আমরা দক্ষতার সাথে গ্রেডিয়েন্ট বংশোদ্ভূত কীভাবে এটি করি)। সমস্যাটি গ্রেডিয়েন্ট = 0
seanv507

@ Seanv507 এটাই আমি বলতে চেয়েছিলাম, বিভ্রান্তির জন্য দুঃখিত। আমার পোস্ট সম্পাদনা।
মার্ক ক্লেসেন

10

মার্ক ক্লেসেনের উত্তর সম্পর্কে, আমি বিশ্বাস করি যে গ্রেডিয়েন্ট বংশোদ্ভূত পারে পরিস্থিতিতে একটি স্থানীয় সর্বাধিক থামবে যেখানে আপনি একটি স্থানীয় সর্বাধিক আরম্ভ অথবা আপনি শুধু দুর্ভাগ্য বা mistuned হার প্যারামিটার কারণে সেখানে শেষ করতে ঘটে। স্থানীয় সর্বাধিকের শূন্য গ্রেডিয়েন্ট এবং আলগোরিদিম মনে করবে এটি রূপান্তরিত হয়েছে। এ কারণেই আমি প্রায়শই বিভিন্ন সূচনা পয়েন্টগুলি থেকে একাধিক পুনরাবৃত্তি চালিত করি এবং পথে মানগুলি ট্র্যাক করি।


1
আমি আপনার উপস্থাপিত মন্তব্যটি সম্পাদনা করেছি, কারণ দেখে মনে হচ্ছে আপনি ইতিমধ্যে কিছু উত্স আকর্ষণ করছেন! সাইটে স্বাগতম!
ম্যাথু ড্রুরি

ধন্যবাদ! আমি নিশ্চিত ছিলাম না যে এটি কোনও মন্তব্য বা উত্তর হওয়া উচিত এবং আমার প্রথম উত্তরটি কেবলমাত্র সেই একাকী ভিত্তিতে বিস্মৃত হওয়ার দিকে অগ্রাহ্য হওয়া চাই না।
জ্যারেড বেকসফোর্ট

6

নিউটন-জাতীয় পদ্ধতিতে, প্রতিটি পদক্ষেপে একটি ডি ( ত্রুটি ) সমাধান করে(এরর)W=0

  • একজনকে দ্বিতীয় ডেরিভেটিভ (হেসিয়ান, বিশেষত হেসিয়ান-ভেক্টর পণ্য) নিয়ে কাজ করতে হবে।
  • "সমাধানের পদক্ষেপ" খুব কম্পিউটেশনাল ব্যয়বহুল: সময়টি সমাধান করতে যে সময় লাগে তা অনেকগুলি গ্রেডিয়েন্ট বংশোদ্ভূত পুনরাবৃত্তি করতে পারত।

যদি কেউ হেসিয়ান সমাধানের জন্য ক্রিলোভ পদ্ধতি ব্যবহার করে এবং কেউ হেসিয়ানের জন্য ভাল পূর্বশর্ত ব্যবহার করে না, তবে ব্যয়গুলি মোটামুটিভাবে ব্যালেন্স হয়ে যায় - নিউটনের পুনরাবৃত্তিগুলি আরও বেশি সময় নেয় তবে আরও অগ্রগতি করে, এমনভাবে যাতে মোট সময় মোটামুটি গ্রেডিয়েন্ট বংশোদ্ভুতের তুলনায় একই বা ধীর। অন্যদিকে, কারও যদি ভাল হেসিয়ান পূর্বশর্ত থাকে তবে নিউটনের পদ্ধতিটি বড়-সময় জিততে পারে।

এটি বলেছিল, আস্থাভাজন অঞ্চল নিউটন-ক্রিলোভ পদ্ধতিগুলি আধুনিক বৃহত আকারের অপ্টিমাইজেশনের স্বর্ণ-মান, এবং আমি কেবলমাত্র আগামী বছরগুলিতে নিউরাল জালগুলিতে তাদের ব্যবহার বৃদ্ধি পাবে বলে আশা করি মানুষ বড় এবং বৃহত্তর সমস্যার সমাধান করতে চায়। (এবং সংখ্যাসূচক অপ্টিমাইজেশনের আরও বেশি লোক মেশিন লার্নিংয়ে আগ্রহী হন)


আমি আপনি ভুল মনে হয়। 90 এর দশক থেকে লোকেরা নেট ব্যবহার করে আসছে এবং তারা দ্বিতীয় আদেশের পদ্ধতিগুলি সম্পর্কে ভালভাবে অবগত। সমস্যাটি অবশ্যই স্পষ্টভাবে বলা যায় যে অনেকগুলি ডেটা থাকলে নেটগুলি সফল হয়, যা পরে প্রচুর পরিমাণে প্যারামিটার সমর্থন করে যে ক্ষেত্রে দ্বিতীয় আদেশের পদ্ধতিগুলির সময় এবং মেমরির সীমাবদ্ধতা অকার্যকর হয়। যেমন leon.bottou.org/publications/pdf/compstat-2010.pdf
seanv507

পছন্দ করেছেন সেই কাগজে দ্বিতীয় ক্রম পদ্ধতিগুলির আলোচনার অনেকগুলি ত্রুটি রয়েছে, যাতে তারা ধরে নেয় যে দ্বিতীয় অর্ডার পদ্ধতিগুলি ব্যবহার করার জন্য একজনকে অবশ্যই পুরো ঘন হেসিয়ান তৈরি করতে হবে এবং এটি উল্টাতে হবে। এটি আধুনিক বৃহত আকারের সংখ্যাসূচক অপ্টিমাইজেশনে কীভাবে করা হয় তা কেবল এটি নয়। আধুনিক দ্বিতীয় ক্রম পদ্ধতিতে একজন ওয়েস্টারদের উপর হেসিয়ানের ক্রিয়াটি স্থগিতকারী সমস্যাগুলি সমাধানের মাধ্যমে গণনা করে এবং তাদের পুনরাবৃত্তির (ক্রাইলোভ) সলভারের মধ্যে ব্যবহার করে। সাধারণত প্রথম অভ্যন্তরীণ পুনরাবৃত্তিটি গ্রেডিয়েন্ট দিকটি দেয় এবং পরবর্তী পুনরাবৃত্তিগুলি এটি উন্নত করে।
নিক

যদিও আমি সেই কাগজের বিশেষ অনুরাগী নই, তবে আমি এটি সত্য বলে মনে করি না। তিনি এর আগে আলোচনা করেছেন / বাস্তবায়িত করেছেন তির্যক এবং হেসিয়ানের র‌্যাঙ্কের অনুমানকে কমিয়ে দিয়েছেন। এবং পার্সেলমুটারের 1994-এর কাগজটি হেসিয়ান দ্বারা দ্রুত গুনের কী হবে?
seanv507

ঠিক। একবার আপনি দ্রুত হেসিয়ান অ্যাপ্লিকেশনগুলি (পার্লমুটারের মাধ্যমে বা আপনার কী আছে তা) হয়ে গেলে, আপনি নিখুঁতভাবে করতে পারেন হেসিয়ান কনজুগেট গ্রেডিয়েন্টের মতো ক্রিলোভ পদ্ধতিতে সমাধান করে। এটি করার মাধ্যমে, কেউ অসুস্থ-কন্ডিশনার অসুবিধাগুলিকে অ-রেখাযুক্ত পুনরাবৃত্তিমূলক অপটিমাইজার থেকে দূরে সরিয়ে লিনিয়ার বীজগণিত পুনরাবৃত্তীয় দ্রাবকটিতে স্থানান্তরিত করে যেখানে কারও কাছে সমস্যা সমাধানের জন্য প্রচুর যন্ত্রপাতি ও পূর্বশর্ত কৌশল উপলব্ধ। একটি ভাল রেফারেন্স হল নোসেডাল এবং রাইটের ক্লাসিক "সংখ্যাসূচক অপ্টিমাইজেশন" এর আস্থা অঞ্চল সিজি-স্টিহাগের উপর বিভাগ।
নিক

আমার বক্তব্যটি হেসিয়ান এবং কনজুগেট গ্রেডিয়েন্টগুলির দ্বারা এই গুণটি ১৯৯৪ সাল থেকে নেটস সম্প্রদায়ের মধ্যে পরিচিত। )
seanv507
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.