গভীর নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য কীভাবে তাড়াতাড়ি থামানো সঠিকভাবে ব্যবহার করবেন?


20

আমার একটি গভীর নিউরাল নেটওয়ার্ক মডেল রয়েছে এবং আমার এটি আমার ডেটাসেটে প্রশিক্ষণ দেওয়া দরকার যা প্রায় 100,000 উদাহরণ নিয়ে গঠিত, আমার বৈধতার ডেটাতে প্রায় 1000 উদাহরণ রয়েছে। যেহেতু প্রতিটি উদাহরণকে প্রশিক্ষণের জন্য সময় লাগে (প্রতিটি উদাহরণের জন্য প্রায় 0.5s) এবং অতিরিক্ত ফিট এড়ানোর জন্য, আমি অযৌক্তিক গণনা রোধ করতে শীঘ্রই স্টপিং প্রয়োগ করতে চাই। তবে আমি নিশ্চিত না যে কীভাবে আমার নিউরাল নেটওয়ার্ককে প্রাথমিকভাবে থামানো দিয়ে প্রশিক্ষণ দেওয়া যায়, বেশ কয়েকটি বিষয় যা আমি এখন বেশ বুঝতে পারি না:

  • একটি ভাল বৈধতা ফ্রিকোয়েন্সি কি হবে? প্রতিটি যুগের শেষে আমার বৈধতা ডেটাতে আমার মডেলটি পরীক্ষা করা উচিত? (আমার ব্যাচের আকার 1)

  • এটি কি এমন পরিস্থিতি যে প্রথম কয়েকটি যুগের আরও ভাল মানের রূপান্তরিত হওয়ার আগে খারাপ ফলাফল হতে পারে? সেক্ষেত্রে তাড়াতাড়ি থামার জন্য পরীক্ষা করার আগে আমাদের নেটওয়ার্ককে বেশ কয়েকটি যুগের প্রশিক্ষণ দেওয়া উচিত?

  • কীভাবে মামলা পরিচালনা করবেন যখন বৈধতা হ্রাস এবং উপরের দিকে যেতে পারে? সেক্ষেত্রে, তাড়াতাড়ি থামানো আমার মডেলটিকে আরও শিখতে বাধা দিতে পারে, তাই না?

তুমাকে অগ্রিম ধন্যবাদ.


আমি দৃ strongly়ভাবে এক এর চেয়েও বেশি ব্যাচের আকারের প্রস্তাব দিই। স্বাভাবিক মাপ 32, 64, এবং 128. হয়
ComputerScientist

উত্তর:


20

একটি ভাল বৈধতা ফ্রিকোয়েন্সি কি হবে? প্রতিটি যুগের শেষে আমার বৈধতা ডেটাতে আমার মডেলটি পরীক্ষা করা উচিত? (আমার ব্যাচের আকার 1)

কোনও স্বর্ণের নিয়ম নেই, প্রতিটি যুগের পরে বৈধতা ত্রুটির গণনা করা বেশ সাধারণ। যেহেতু আপনার বৈধতা আপনার প্রশিক্ষণের সেটের তুলনায় অনেক ছোট সেট হয়েছে তাই প্রশিক্ষণটি খুব একটা ধীর করবে না।

এটি কি এমন পরিস্থিতি যে প্রথম কয়েকটি যুগের আরও ভাল মানের রূপান্তরিত হওয়ার আগে খারাপ ফলাফল হতে পারে?

হ্যাঁ

সেক্ষেত্রে তাড়াতাড়ি থামার জন্য পরীক্ষা করার আগে আমাদের নেটওয়ার্ককে বেশ কয়েকটি যুগের প্রশিক্ষণ দেওয়া উচিত?

আপনি পারতেন, তবে তারপরে সমস্যাটি হ'ল আপনাকে কতগুলি যুগের এড়িয়ে চলা উচিত। সুতরাং অনুশীলনে, বেশিরভাগ সময় লোকেরা কোনও যুগকে এড়িয়ে যায় না।

কীভাবে মামলা পরিচালনা করবেন যখন বৈধতা হ্রাস এবং উপরের দিকে যেতে পারে? সেক্ষেত্রে, তাড়াতাড়ি থামানো আমার মডেলটিকে আরও শিখতে বাধা দিতে পারে, তাই না?

লোকেরা সাধারণত ধৈর্যকে সংজ্ঞায়িত করে, যেমন বৈধতা সেটটিতে কোনও অগ্রগতি না হলে প্রারম্ভিক স্টপের আগে অপেক্ষা করার জন্য পর্বগুলির সংখ্যা। ধৈর্য প্রায়শই 10 এবং 100 (10 বা 20 এর মধ্যে বেশি সাধারণ) কোথাও সেট করা থাকে তবে এটি আপনার ডেটাসেট এবং নেটওয়ার্কের উপর নির্ভর করে।

ধৈর্যের সাথে উদাহরণ = 10:

এখানে চিত্র বর্ণনা লিখুন


প্রারম্ভিক বন্ধ হয়ে যাওয়ার পরে মডেলটি ব্যবহার করা উচিত বা মডেলটি patienceবন্ধ হওয়ার আগে পর্বে চলে যাওয়া উচিত ('উন্নত' যার কোনও উন্নতি নেই)?
stackunderflow

2
@ ডিসপ্লে নাম ধৈর্য বন্ধ হওয়ার আগেই শুরু হয়
ফ্রাঙ্ক ডারননকোর্ট

11

আমি সম্প্রতি "আর্লি স্টপিং - তবে কখন?" শিরোনামে একটি পেপার পেয়েছিলাম ? লুটজ প্রিচেল্ট লিখেছেন যে এর প্রতিটি কী করে তার সুস্পষ্ট ব্যাখ্যা এবং তাদের জন্য সূত্রগুলি কীভাবে তাড়াতাড়ি থামিয়ে ব্যবহার করতে হবে তার অনেক দুর্দান্ত উদাহরণ রয়েছে।

আশা করি এটি একবার দেখে নিলে সহায়তা হতে পারে।


কাগজটি একটি অদ্ভুত শৈলীতে লেখা তবে তথ্যটি সহায়ক ছিল।
জোশিয়ার

3

অন্যান্য দুর্দান্ত উত্তরের সাথে যুক্ত করতে, আপনিও - থামাতে পারবেন না। আমি সাধারণত:

  • এনএন চালান আরও বেশি সময় ধরে আমি ভাবতাম বোধগম্য,
  • মডেল ওজনকে প্রতিটি এন পর্বগুলি সংরক্ষণ করুন এবং
  • যখন আমি দেখি প্রশিক্ষণের ক্ষতি স্থিতিশীল হয়ে গেছে তখন আমি কেবলমাত্র সর্বনিম্ন বৈধতা ক্ষতি সহ মডেলটি বেছে নিয়েছি।

অবশ্যই এটি তখনই বোধগম্য হয় যখন আপনি মিনিট দ্বারা অর্থ প্রদান করেন না (বা ব্যয়টি যথেষ্ট কম) এবং যখন আপনি নিজে প্রশিক্ষণ বন্ধ করতে পারেন। উলটো দিকটি হ'ল ইন্ডাস্টাইটের সর্বনিম্ন বৈধতা ত্রুটি নির্ধারণ করা আরও সহজ।


1
আমিও এটি করি যদিও আপনার মত আমি সচেতন এটি একটি বিলাসিতা। যখন মডেলগুলি প্রচুর স্থান গ্রহণ শুরু করে, আমি দেখতে পেলাম যে পূর্ববর্তী ক্ষতি এবং এফ-স্কোর পরিসংখ্যানগুলি ব্যবহার করে আমি পূর্ববর্তী মডেলগুলিও কখন মুছতে হবে তা আমি প্রোগ্রামগতভাবে নির্ধারণ করতে পারি - সুতরাং আপনি প্রার্থী সেরা মডেলের একটি চলমান উইন্ডোটি দিয়ে শেষ করেন যা মোটামুটি গ্রাস করে consume তারা হার্ড হতে পারে হিসাবে অনেক হার্ড ডিস্ক স্পেস।
কিউএ কালেক্টিভ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.