টিএল; ডিআর: খুব বড় একটি মিনি-ব্যাচের আকার সাধারণত কম নির্ভুলতার দিকে নিয়ে যায় !
আগ্রহীদের জন্য, এখানে একটি ব্যাখ্যা দেওয়া হয়েছে।
গতির দুটি ধারণা রয়েছে:
- গণনার গতি
- একটি অ্যালগরিদমের রূপান্তর গতি
গণনার গতি হ'ল হার্ডওয়ারে সংখ্যার গণনা সম্পাদনের গতি। যেমনটি আপনি বলেছেন, এটি সাধারণত বড় মিনি-ব্যাচের আকারের চেয়ে বেশি। এর কারণ লিনিয়ার বীজগণিত গ্রন্থাগারগুলি ভ্যাক্টর এবং ম্যাট্রিক্স অপারেশনের জন্য আরও মেমরি ব্যবহার করে ব্যয় করে ভেক্টরাইজেশন ব্যবহার করে। লাভ একটি বিন্দু অবধি গুরুত্বপূর্ণ হতে পারে। আমার অভিজ্ঞতা থেকে, এমন একটি পয়েন্ট রয়েছে যার পরে গতিতে কেবল প্রান্তিক লাভ রয়েছে, যদি থাকে তবে। পয়েন্টটি ডেটা সেট, হার্ডওয়্যার এবং একটি লাইব্রেরির উপর নির্ভর করে যা সংখ্যামূলক গণনা (হুডের নীচে) জন্য ব্যবহৃত হয়।
তবে, আসুন ভুলে যাবেন না যে গতির অন্য ধারণাটিও রয়েছে, যা আমাদের অ্যালগরিদমকে কত দ্রুত রূপান্তরিত করে তা বলে।
প্রথমত, আমাদের অ্যালগরিদমটি রূপান্তরিত করার অর্থ কী? ওয়েল, বৈধকরণ সেটটিতে গণনা করা আমরা যখন কোন নির্ভুলতা বা কোনও ত্রুটির সাথে সন্তুষ্ট হই তখন সংজ্ঞায়িত করা এবং সিদ্ধান্ত নেওয়া আমাদের উপর নির্ভর করে। আমরা হয় এটিকে আগে থেকেই সংজ্ঞায়িত করতে পারি এবং আলগোরিদমটি সেই পর্যায়ে আসার জন্য অপেক্ষা করতে পারি, বা আমরা যখন প্রশিক্ষণের প্রক্রিয়াটি পর্যবেক্ষণ করতে পারি এবং বৈধতা ত্রুটি উল্লেখযোগ্যভাবে বৃদ্ধি পেতে শুরু করে তখন এটি বন্ধ করার সিদ্ধান্ত নিতে পারি (মডেলটি ডেটা সেটটিকে উপভোগ করতে শুরু করে)। আমাদের এখনই এটি বন্ধ করা উচিত নয়, প্রথম মুহূর্তে ত্রুটিটি বাড়তে শুরু করে, যদি আমরা মিনি ব্যাচগুলির সাথে কাজ করি, কারণ আমরা স্টোকাস্টিক গ্রেডিয়েন্ট ডেসেন্ট, এসজিডি ব্যবহার করি। (পূর্ণ ব্যাচ) গ্রেডিয়েন্ট বংশোদ্ভূত ক্ষেত্রে, প্রতিটি যুগের পরে, অ্যালগরিদম ন্যূনতম স্থলে স্থির হবে, সে স্থানীয় বা বিশ্বব্যাপী। এসজিডি সত্যিই কখনই ন্যূনতম স্থানে স্থির হয় না। এটি চারপাশে দোদুল্যমান থাকে। এটি অনির্দিষ্টকালের জন্য যেতে পারে,
এখন, সমস্ত তত্ত্বের পরে, একটি "ক্যাচ" রয়েছে যা আমাদের মনোযোগ দিতে হবে। একটি ছোট ব্যাচের আকার ব্যবহার করার সময়, আমরা বৃহত্তর ব্যাচের আকার ব্যবহার করার চেয়ে ত্রুটির গণনায় আরও শব্দ হয়। একজন বলবেন, আচ্ছা, খারাপ, তাই না? বিষয়টি হ'ল, এই শব্দটি অ্যালগরিদমকে খারাপ স্থানীয় সর্বনিম্ন থেকে বেরিয়ে যেতে সহায়তা করতে পারে এবং আরও ভাল স্থানীয় ন্যূনতম সন্ধানের আরও সম্ভাবনা থাকতে পারে, বা আশা করা যায় যে সর্বনিম্ন সর্বনিম্ন।
সুতরাং, আমরা যদি কেবলমাত্র "অযাচিত" শব্দের সাহায্যে একটি বৃহত্তর পরিবর্তে একটি ছোট ব্যাচের আকার ব্যবহার করে আরও দ্রুততর সমাধান খুঁজে পেতে পারি, তবে আমাদের অ্যালগরিদমকে সন্তোষজনক সন্ধান করতে মোট সময় লাগে তার মধ্যে আমরা সুর করতে পারি সমাধান এবং একটি উচ্চতর নির্ভুলতা।
আমি যা বলতে চাই তা হল, নির্দিষ্ট প্রদত্ত নির্ভুলতার জন্য (বা ত্রুটি), ছোট ব্যাচের আকারের ফলে ছোট প্রশিক্ষণের আরও কম সময় হতে পারে, যতক্ষণ না অনেকে বিশ্বাস করেন।
বা, যদি আমরা আগের মতো একই প্রশিক্ষণের সময়টি রাখার সিদ্ধান্ত নিই তবে আমরা একটি ছোট ব্যাচের আকারের সাথে কিছুটা উচ্চতর নির্ভুলতা পেতে পারি এবং সম্ভবত আমরা যদি আমাদের শিক্ষার হারটি যথাযথভাবে বেছে নিয়ে থাকি তবে তা সম্ভবত আমরা করব।
আপনার যদি সময় থাকে তবে এই কাগজটি দেখুন:
বিশেষত চিত্রাবলীতে সিএনএন অগ্রযাত্রার পদ্ধতিগত মূল্যায়ন "3.7। ব্যাচের আকার এবং শিক্ষার হার", এবং চিত্র 8 দেখুন You আপনি দেখতে পাবেন যে বড় মিনি-ব্যাচের আকারগুলি আরও খারাপ নির্ভুলতার দিকে পরিচালিত করে এমনকি, যদি একটি হিউরিস্টিকের কাছে শেখার হার টিউন করা হয়।
সাধারণভাবে, ৩২ এর ব্যাচের আকারটি একটি ভাল প্রারম্ভিক বিন্দু, এবং আপনার 64৪, 128, এবং 256 দিয়েও চেষ্টা করা উচিত Other অন্যান্য মান (নিম্ন বা উচ্চতর) কিছু ডেটা সেটের জন্য ভাল হতে পারে তবে প্রদত্ত পরিসরটি সাধারণত সর্বোত্তম সঙ্গে পরীক্ষা শুরু। যদিও, 32 বছরের কম বয়সী, কম পরিসংখ্যানগত গতির কারণে পুরো পরিমাণে ভেক্টরাইজেশনকে ব্যবহার না করার কারণে এটি খুব ধীর হতে পারে। যদি আপনি একটি "মেমরির বাইরে" ত্রুটি পান তবে আপনার মিনি-ব্যাচের আকারটি হ্রাস করার চেষ্টা করা উচিত।
সুতরাং, এটি মেমরির সাথে খাপ খায় এমন বৃহত্তম সম্ভাব্য মিনি-ব্যাচের আকারটি ব্যবহার করার বিষয়ে নয়।
আপনার প্রশ্নের উপসংহার এবং উত্তর দেওয়ার জন্য, একটি ছোট মিনি-ব্যাচের আকার (খুব ছোট নয়) সাধারণত একটি বড় ব্যাচের আকারের চেয়ে কেবল একটি প্রশিক্ষণের অ্যালগোরিদমের সংখ্যার পুনরাবৃত্তির দিকে পরিচালিত করে না, তবে সামগ্রিকভাবে উচ্চতর নির্ভুলতায়ও আসে, যেমন, একটি নিউরাল নেটওয়ার্ক যা প্রশিক্ষণের সময়, বা তার চেয়ে কম পরিমাণে আরও ভাল পারফর্ম করে।
ভুলে যাবেন না যে উচ্চতর শব্দটি এটিকে আটকে রাখার চেয়ে খারাপ স্থানীয় সর্বনিম্ন থেকে লাফিয়ে উঠতে সহায়তা করতে পারে।