গভীর শেখার জন্য কতটা ডেটা?

আমি গভীর শিখন (বিশেষত সিএনএন) সম্পর্কে শিখছি, এবং কীভাবে অতিরিক্ত চাপ দেওয়া রোধ করতে সাধারণত এটির প্রচুর ডেটা প্রয়োজন। যাইহোক, আমাকে আরও বলা হয়েছে যে কোনও মডেলের উচ্চতর ক্ষমতা / আরও বেশি পরামিতি, ওভারফিটিং প্রতিরোধের জন্য আরও বেশি ডেটা প্রয়োজন। অতএব, আমার প্রশ্নটি হল: আপনি কেন কেবল গভীর নিউরাল নেটওয়ার্কে স্তর প্রতি স্তর / নোডের সংখ্যা হ্রাস করতে পারেন না এবং এটি একটি অল্প পরিমাণে ডেটা দিয়ে কাজ করতে পারেন? কোনও মৌলিক "ন্যূনতম সংখ্যার পরামিতি" আছে যা নিউরাল নেটওয়ার্কের "কিক ইন" না হওয়া পর্যন্ত প্রয়োজন? নির্দিষ্ট সংখ্যক স্তরগুলির নীচে, নিউরাল নেটওয়ার্কগুলি হ্যান্ড-কোডেড বৈশিষ্ট্যগুলির পাশাপাশি কার্য সম্পাদন করার কথা মনে হয় না।

— Karnivaurus
সূত্র

এটি একটি দুর্দান্ত প্রশ্ন এবং আপনার উল্লিখিত ক্ষমতা / গভীরতার সমস্যাগুলি মোকাবেলায় আসলে কিছু গবেষণা হয়েছে।

অনেক প্রমাণ রয়েছে যে কনভোলশনাল নিউরাল নেটওয়ার্কগুলির গভীরতা আরও সমৃদ্ধ এবং আরও বৈচিত্র্যযুক্ত বৈশিষ্ট্যক্রমিক স্তরক্রমকে শিখতে পরিচালিত করেছে। উত্সর্গীয়ভাবে আমরা দেখতে পাই যে সর্বোত্তম পারফরম্যান্স নেটগুলি "গভীর" হতে থাকে: অক্সফোর্ড ভিজিজি-নেট এর 19 স্তর ছিল, গুগল ইনসেপশন আর্কিটেকচার গভীর, মাইক্রোসফ্ট ডিপ রেসিডুয়াল নেটওয়ার্কের একটি রিপোর্ট করা 152 স্তর রয়েছে এবং এই সমস্তগুলি খুব চিত্তাকর্ষক ইমেজনেট বেঞ্চমার্ক অর্জন করছে ফলাফল নেই।

সরেজমিনে, এটি এমন একটি সত্য যে উচ্চতর ক্ষমতার মডেলগুলির যদি আপনি কিছু ধরণের নিয়ামক ব্যবহার না করেন তবে তার চেয়ে বেশি মানিয়ে নেওয়ার প্রবণতা রয়েছে। খুব গভীর নেটওয়ার্কগুলির অতিমাত্রায় পারফরম্যান্সকে আঘাত করতে পারে এমন একটি উপায় তারা খুব অল্প সংখ্যক প্রশিক্ষণ পর্বগুলিতে খুব কম প্রশিক্ষণের ত্রুটির কাছে চলে আসবে, অর্থাৎ আমরা ডেটাসেটের মধ্য দিয়ে বিপুল সংখ্যক পাসের জন্য নেটওয়ার্কটিকে প্রশিক্ষণ দিতে পারি না। ড্রপআউটের মতো কৌশল, একটি স্টোকাস্টিক নিয়ন্ত্রন কৌশল, আমাদের দীর্ঘ সময় ধরে খুব গভীর জাল প্রশিক্ষণ দিতে দেয়। এটি কার্যকরভাবে আমাদের আরও ভাল বৈশিষ্ট্যগুলি শিখতে এবং আমাদের শ্রেণিবিন্যাসের নির্ভুলতার উন্নতি করতে দেয় কারণ আমরা প্রশিক্ষণের ডেটা দিয়ে আরও পাস করি।

আপনার প্রথম প্রশ্নের সাথে:

আপনি কেন কেবল গভীর নিউরাল নেটওয়ার্কে স্তর প্রতি স্তর / নোডের সংখ্যা হ্রাস করতে পারেন না এবং এটি একটি অল্প পরিমাণে ডেটা দিয়ে কাজ করতে পারেন?

যদি আমরা প্রশিক্ষণের সেট আকারটি হ্রাস করি তবে কীভাবে এটি সাধারণীকরণের কার্যকারিতাকে প্রভাবিত করবে? যদি আমরা একটি ছোট প্রশিক্ষণের সেট আকার ব্যবহার করি তবে এর ফলে ছোট বিতরণ করা বৈশিষ্ট্যের উপস্থাপনা শিখতে পারে এবং এটি আমাদের সাধারণীকরণের ক্ষমতাকে ক্ষতিগ্রস্থ করতে পারে। শেষ পর্যন্ত, আমরা ভালভাবে সাধারণীকরণে সক্ষম হতে চাই। একটি বৃহত্তর প্রশিক্ষণ সেট থাকা আমাদের আরও বেশি বিস্তৃত বিতরণ বৈশিষ্ট্য শ্রেণিবদ্ধতা শিখতে দেয়।

আপনার দ্বিতীয় প্রশ্নের সাথে:

কোনও মৌলিক "ন্যূনতম সংখ্যার পরামিতি" আছে যা নিউরাল নেটওয়ার্কের "কিক ইন" না হওয়া পর্যন্ত প্রয়োজন? নির্দিষ্ট সংখ্যক স্তরগুলির নীচে, নিউরাল নেটওয়ার্কগুলি হ্যান্ড-কোডেড বৈশিষ্ট্যগুলির পাশাপাশি কার্য সম্পাদন করার কথা মনে হয় না।

এখন আসুন গভীরতা ইস্যু সম্পর্কে উপরোক্ত আলোচনায় কিছু উপযোগ যুক্ত করুন। এটি উপস্থিত হয়, যেখানে এখন আমরা শিল্পের বর্তমান অবস্থার সাথে এখনই আছি, স্ক্র্যাচ থেকে উচ্চতর পারফরম্যান্স কনভ নেটটি প্রশিক্ষণের জন্য, একরকম গভীর আর্কিটেকচার ব্যবহৃত হয়েছে।

তবে ফলাফলের একটি স্ট্রিং রয়েছে যা মডেল সংকোচনের উপর দৃষ্টি নিবদ্ধ করে । সুতরাং এটি আপনার প্রশ্নের সরাসরি উত্তর নয়, তবে এটি সম্পর্কিত। মডেল সংক্ষেপণ নিম্নলিখিত প্রশ্নে আগ্রহী: একটি উচ্চ পারফরম্যান্স মডেল দেওয়া (আমাদের ক্ষেত্রে একটি গভীর সমাবলীর নেট বলুন), আমরা কী মডেলটি সংকোচন করতে পারি, এর গভীরতা বা এমনকি পরামিতি গণনা হ্রাস করতে পারি, এবং একই অভিনয়টি ধরে রাখতে পারি?

আমরা শিক্ষক হিসাবে উচ্চ কার্যকারিতা, উচ্চ ক্ষমতা কনফি নেট দেখতে পারি । আমরা আরও কমপ্যাক্ট ছাত্র মডেল প্রশিক্ষণের জন্য শিক্ষককে ব্যবহার করতে পারি ?

আশ্চর্যজনক এর জবাব হচ্ছে, হ্যাঁ । ফলাফলের ধারাবাহিকতা রয়েছে, কনফিউট নেট দৃষ্টিকোণের জন্য একটি ভাল নিবন্ধটি রিচ কারুয়ানা এবং জিমি বা ডি ডিপ নেটগুলি সত্যই গভীর হওয়া দরকার? । পারফরম্যান্সে খুব অল্প ক্ষতি সহ তারা গভীরতর মডেলের অনুকরণে অগভীর মডেলকে প্রশিক্ষণ দিতে সক্ষম হয় । এই বিষয়টিতে আরও কিছু কাজ হয়েছে, উদাহরণস্বরূপ:

অন্যান্য কাজের মধ্যে। আমি নিশ্চিত যে আমি আরও কয়েকটি ভাল নিবন্ধ মিস করছি।

আমার কাছে এই প্রকারের ফলাফলগুলি প্রশ্ন করে যে এই অগভীর মডেলগুলির আসলে কতটা ক্ষমতা রয়েছে। কারুয়ানা, বা নিবন্ধে, তারা নিম্নলিখিত সম্ভাবনাটি বর্ণনা করেছেন:

"ফলাফলগুলি সুপারিশ করে যে গভীর আর্কিটেকচার এবং বর্তমান প্রশিক্ষণের পদ্ধতিগুলির মধ্যে একটি ভাল ম্যাচ থেকে গভীর শিক্ষার শক্তি উত্থাপিত হতে পারে এবং আরও সঠিক অগভীর ফিড-ফরোয়ার্ড জাল প্রশিক্ষণের জন্য আরও ভাল শিক্ষার অ্যালগরিদম তৈরি করা সম্ভব a প্যারামিটারের সংখ্যা, গভীরতা পড়াশোনা সহজ করে তুলতে পারে তবে সর্বদা প্রয়োজনীয় নাও হতে পারে "

এটি পরিষ্কার হওয়া জরুরী: কারুয়ানা, বা প্রবন্ধে, তারা শিল্পের পারফরম্যান্সের অবস্থা অর্জনের জন্য স্ক্র্যাচ থেকে একটি অগভীর মডেলকে প্রশিক্ষণ দিচ্ছে না, অর্থাত কেবল ক্লাস লেবেলদের প্রশিক্ষণ দিচ্ছে না। পরিবর্তে, তারা একটি উচ্চ কার্যকারিতা গভীর মডেলকে প্রশিক্ষণ দেয় এবং এই মডেল থেকে তারা প্রতিটি ডেটাপয়েন্টের জন্য লগ সম্ভাব্যতাগুলি বের করে। এরপরে আমরা এই লগ সম্ভাবনার পূর্বাভাস দেওয়ার জন্য একটি অগভীর মডেলকে প্রশিক্ষণ দিই। সুতরাং আমরা ক্লাস লেবেলে অগভীর মডেলটিকে প্রশিক্ষণ দিই না, বরং এই লগ সম্ভাব্যতাগুলি ব্যবহার করে।

যাইহোক, এটি এখনও বেশ আকর্ষণীয় ফলাফল। যদিও এটি আপনার প্রশ্নের সরাসরি উত্তর সরবরাহ করে না, এখানে কিছু আকর্ষণীয় ধারণা রয়েছে যা খুব প্রাসঙ্গিক।

মৌলিকভাবে: এটি সর্বদা মনে রাখা গুরুত্বপূর্ণ যে কোনও মডেলের তাত্ত্বিক "ক্ষমতা" এবং আপনার মডেলের একটি ভাল কনফিগারেশন সন্ধানের মধ্যে পার্থক্য রয়েছে। পরেরটি আপনার অপ্টিমাইজেশান পদ্ধতির উপর নির্ভর করে।

— ইন্ডি এআই
সূত্র