ওজনের চেয়ে কম প্রশিক্ষণের নমুনা দিয়ে একজন (তাত্ত্বিকভাবে) একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণ দিতে পারেন?


12

প্রথমত: আমি জানি, একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য প্রয়োজনীয় কোনও নমুনা আকারের সংখ্যা নেই। এটি কাজের জটিলতা, ডেটাতে গোলমাল ইত্যাদির মতো অনেকগুলি কারণের উপর নির্ভর করে। আমার কাছে যত বেশি প্রশিক্ষণের নমুনা রয়েছে, তত ভাল আমার নেটওয়ার্ক হবে।

তবে আমি ভাবছিলাম: আমি যদি আমার কাজটিকে যথেষ্ট "সরল" বলে ধরে নিই তবে ওজনের চেয়ে কম প্রশিক্ষণের নমুনা সহ কোনও নিউরাল নেটওয়ার্ককে প্রশিক্ষণ দেওয়া কি তাত্ত্বিকভাবে সম্ভব? এটি কাজ করে এমন কোনও উদাহরণ কি কেউ জানেন? বা এই নেটওয়ার্কটি প্রায় নিশ্চিতভাবেই খারাপ সম্পাদন করবে?

যদি আমি বিবেচনা করি, উদাহরণস্বরূপ, বহুবর্ষীয় রিগ্রেশন, আমি কেবল 4 ডেটা পয়েন্টে 4 ডিগ্রি (অর্থাত্ 5 ফ্রি প্যারামিটার সহ) বহন করতে পারি না। আমার ওজনকে নিখরচায় প্যারামিটারের সংখ্যা হিসাবে বিবেচনা করে নিউরাল নেটওয়ার্কগুলির জন্য কি একই জাতীয় নিয়ম রয়েছে?


হ্যাঁ: যদি ওজন এলোমেলোভাবে শুরু করা হয় তবে তাত্ত্বিকভাবে শূন্য প্রশিক্ষণের নমুনা থাকা সত্ত্বেও নিখুঁতভাবে প্রশিক্ষিত নিউরাল নেটওয়ার্ক পাওয়া সম্ভব। (একটি মন্তব্য হিসাবে পোস্ট করা, একটি উত্তর নয়, কারণ আমি জানি এটি আসলে যা আপনি জিজ্ঞাসা করছেন তা নয়))
ড্যারেন কুক

উত্তর:


17

লোকেরা সর্বদা বৃহত নেটওয়ার্কগুলির সাথে এটি করে। উদাহরণস্বরূপ, বিখ্যাত অ্যালেক্সনেট নেটওয়ার্কের প্রায় 60 মিলিয়ন প্যারামিটার রয়েছে, যখন ইমেজনেট আইএলএসভিআরসি এটির উপর প্রাথমিকভাবে প্রশিক্ষিত হয়েছিল মাত্র 1.2 মিলিয়ন চিত্র।

4 ডেটা পয়েন্টের জন্য আপনি 5-প্যারামিটারের বহুমুখী ফিট না করার কারণটি হ'ল এটি সর্বদা আপনার ডেটা পয়েন্টের সাথে ঠিক ফিট করে এমন একটি ফাংশন খুঁজে পেতে পারে তবে অন্য কোথাও অযৌক্তিক জিনিসগুলি করে। ঠিক আছে, যেমনটি সম্প্রতি উল্লেখ করা হয়েছে , অ্যালেক্সনেট এবং অনুরূপ নেটওয়ার্কগুলি ইমেজনেটে প্রয়োগ করা নির্বিচারে এলোমেলো লেবেলগুলি ফিট করতে পারে এবং কেবলমাত্র সেগুলি সমস্ত মুখস্ত করতে পারে সম্ভবতঃ কারণ তাদের প্রশিক্ষণের পয়েন্টগুলির চেয়ে অনেক বেশি পরামিতি রয়েছে। তবে স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত অপ্টিমাইজেশন প্রক্রিয়াটির সাথে মিলিত নেটওয়ার্কের প্রিয়ার্স সম্পর্কে কিছু অর্থ হ'ল বাস্তবে, আপনি যখন বাস্তব লেবেলগুলি দেবেন তখন এই মডেলগুলি এখনও নতুন ডেটা পয়েন্টগুলিতে ভাল করতে পারে। কেন এখনও ঘটে তা আমরা সত্যই বুঝতে পারি না।


2
+1 টি। বহুবৃত্তীয় রিগ্রেশনের সাথে তুলনার জন্য আমি যুক্ত করতে পারি যে, নমুনাগুলি অত্যন্ত মাত্রিক are ইমেজনেটে ​​গড় চিত্রের রেজোলিউশন প্রায় 469x387 পিক্সেল, যদি 256x256 এ কাটা হয় তবে আমাদের কাছে 1.2 মিলিয়ন 65 কে ইনপুট প্যারামিটার রয়েছে, যা প্রতিটি নমুনার মধ্যে অত্যন্ত সংযুক্ত থাকে, এইভাবে নিউরাল নেটওয়ার্ককে আরও অনেক বেশি তথ্য সরবরাহ করা হয় (এবং বিশেষত একটি কনভোলিউশনাল এনএন) বহুপদী রিগ্রেশন ক্ষেত্রে তুলনায়।
jjmontes

3
@ জাজমোনটস সত্য, তবে মূল রহস্যটি হ'ল এই নেটওয়ার্কগুলির মুখস্ত এবং সাধারণকরণ (ভাল) উভয়ই করার ক্ষমতা রয়েছে। অন্য কথায়, তারা এলোমেলো লেবেল সহ প্রশিক্ষণ ডেটা ছিন্ন করতে পারে এবং এখনও ভাল জেনারেলাইজ করতে পারে। এটি প্রথাগত এমএল পদ্ধতিতে দেখে এমন কিছু নয় one
আমেলিও ওয়াজকেজ-রেইনা

6

আপনি যদি ডেটা ব্যতীত অন্য কোনও বাধা চাপান না তবে আন্ডারডেটরাইমিন্ডড সিস্টেমগুলি কেবলমাত্র সীমাবদ্ধ হয়। আপনার উদাহরণের সাথে আঁকিয়ে রাখুন, 4-ডিগ্রি পয়েন্টে 4-ডিগ্রি বহুবচন ফিট করার অর্থ আপনার কাছে এক ডিগ্রি স্বাধীনতা রয়েছে যা তথ্য দ্বারা সীমাবদ্ধ নয়, যা আপনাকে সমানভাবে ভাল সমাধানের একটি রেখা (সহগুণ স্থানে) রেখে দেয়। তবে সমস্যাটিকে ট্র্যাটেবল করে তুলতে আপনি বিভিন্ন নিয়মিতকরণ কৌশল ব্যবহার করতে পারেন। উদাহরণস্বরূপ, সহগের এল 2-আদর্শ (অর্থাত্ স্কোয়ারের যোগফল) এর উপর জরিমানা চাপিয়ে আপনি নিশ্চিত করেছেন যে সর্বদা সর্বোচ্চ ফিটনেসের সাথে একটি অনন্য সমাধান রয়েছে।

নিউরাল নেটওয়ার্কগুলির জন্য নিয়মিতকরণ কৌশলগুলিও বিদ্যমান, তাই আপনার প্রশ্নের সংক্ষিপ্ত উত্তর হ্যাঁ, আপনি পারেন। বিশেষ আগ্রহের মধ্যে একটি হ'ল "ড্রপআউট" নামক একটি কৌশল, যাতে ওজনের প্রতিটি আপডেটের জন্য, আপনি এলোমেলোভাবে নেটওয়ার্ক থেকে নোডের একটি নির্দিষ্ট উপসেট 'ড্রপ' করেন। এটি হল, লার্নিং অ্যালগরিদমের সেই নির্দিষ্ট পুনরাবৃত্তির জন্য, আপনি ভান করছেন যে এই নোডের অস্তিত্ব নেই। ড্রপআউট ছাড়াই নেট ইনপুটটির খুব জটিল উপস্থাপনা শিখতে পারে যা ঠিক সমস্ত ডান একসাথে কাজ করা সমস্ত নোডের উপর নির্ভর করে। এ জাতীয় উপস্থাপনাগুলি প্রশিক্ষণের ডেটা সাধারণ করে তোলার পরিবর্তে প্রশিক্ষণের ডেটা 'মুখস্ত' করতে পারে। ড্রপআউট নিশ্চিত করে যে প্রশিক্ষণ ডেটা ফিট করার জন্য নেটওয়ার্ক একবারে সমস্ত নোড ব্যবহার করতে পারে না; কিছু নোড অনুপস্থিত থাকা অবস্থায়ও এটি উপাত্তকে উপস্থাপন করতে সক্ষম হতে হবে,

এছাড়াও নোট করুন যে ড্রপআউট ব্যবহার করার সময়, প্রশিক্ষণের সময় যে কোনও নির্দিষ্ট সময়ে স্বাধীনতার ডিগ্রি আসলে প্রশিক্ষণের নমুনার সংখ্যার চেয়ে কম হতে পারে যদিও মোট আপনি প্রশিক্ষণের নমুনার চেয়ে বেশি ওজন শিখছেন।


2
এটি সম্ভবত গভীর জালগুলিতে স্পষ্টত নিয়মিতকরণের ভূমিকাটিকে ছাড়িয়ে যায়: এই জবাবটি আমি আমার উত্তরে উল্লেখ করেছি যে ড্রপআউট এবং নিয়মিতকরণের অন্যান্য ফর্মগুলি দেখায় যে নেটওয়ার্ক কতটা মুখস্ত করতে পারে তার কেবলমাত্র ছোট প্রভাব রয়েছে। যদিও এটি হতে পারে আপনার মূল গল্পটি সঠিক তবে নাটকটিতে প্রধান নিয়মিতকরণ হ'ল এসজিডি থেকে অন্তর্ভুক্ত; এগুলি এখনও কিছুটা বেমানান।
ডগল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.