গোলমাল কীভাবে জেনারালাইজেশনকে প্রভাবিত করে?

11

ডেটাতে গোলমাল বাড়ানো কি কোনও নেটওয়ার্কের শেখার ক্ষমতা উন্নত করতে সহায়তা করে? এটি কোনও পার্থক্য করে নাকি সমস্যা সমাধানের উপর নির্ভর করে? এটি সামগ্রিকভাবে সাধারণীকরণ প্রক্রিয়াটিকে কীভাবে প্রভাবিত করবে?

— kenorb
সূত্র

9

একটি যুক্তিসঙ্গত পরিমাণে উপাত্তের আওয়াজ, নেটওয়ার্কটিকে আরও ভালতর করতে সহায়তা করতে পারে। কখনও কখনও, এটি বিপরীত প্রভাব আছে। এটি আংশিকভাবে গোলমালের ধরণের উপর নির্ভর করে ("সত্য" বনাম কৃত্রিম)।

ANN উপর এআই প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী একটি ভাল ওভারভিউ দেয়। উদ্ধৃতাংশ:

প্রকৃত উপাত্তগুলিতে কোলাহল কখনও ভাল জিনিস হয় না, কারণ এটি সাধারণীকরণের যথার্থতাকে সীমাবদ্ধ করে যে প্রশিক্ষণের সেটটি যতই বিস্তৃত হোক না কেন অর্জন করা যায়। অন্যদিকে, প্রশিক্ষণ চলাকালীন ইনপুটগুলিতে কৃত্রিম গোলমাল (জিটার) ইনজেকশন করা আপনার যখন একটি ছোট প্রশিক্ষণের সেট থাকে তখন মসৃণ ফাংশনগুলির জন্য সাধারণীকরণের উন্নতি করার বেশ কয়েকটি উপায়।

কম্পিউটারের দৃষ্টিভঙ্গির মতো কিছু ক্ষেত্রে, কিছু নমুনা অনুলিপি করে এবং কিছু শব্দ বা অন্যান্য রূপান্তর যোগ করে প্রশিক্ষণের সেটটি বাড়ানো সাধারণ।

— ফ্রাঙ্ক ডারনকোর্ট
সূত্র

8

আমরা সাধারণত মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণ ডেটার দুটি পৃথক অংশ মডেলিং হিসাবে ভাবি - অন্তর্নিহিত সাধারণকরণযোগ্য সত্য (সংকেত), এবং সেই ডেটাসেট (গোলমাল) এর সাথে নির্দিষ্ট এলোমেলোতা।

এই দুটি অংশই ফিট করা প্রশিক্ষণের সেটের যথার্থতা বাড়ায়, তবে সংকেত ফিট করেও টেস্ট সেট যথার্থতা (এবং রিয়েল-ওয়ার্ল্ড পারফরম্যান্স) বাড়িয়ে তোলে এবং শব্দটি উভয়ই হ্রাস হ্রাস করে। তাই আমরা শব্দ নিয়ন্ত্রণের ক্ষেত্রে আরও শক্ত করে তুলতে নিয়মিতকরণ এবং ড্রপআউট এবং অনুরূপ কৌশলগুলি ব্যবহার করি এবং সংকেত ফিট করার সম্ভাবনা বেশি likely

প্রশিক্ষণের তথ্যগুলিতে কেবল শব্দের পরিমাণ বাড়ানো এ জাতীয় একটি পদ্ধতি, তবে এটি কার্যকর হিসাবে কার্যকর বলে মনে হয় না। এ্যাডভারসিয়াল বুস্টিংয়ের সাথে এলোমেলো জিটারের তুলনা করুন, উদাহরণস্বরূপ; প্রথমটি ধীরে ধীরে এবং অপ্রত্যক্ষভাবে দৃust়তার উন্নতি করবে যেখানে পরেরটি নাটকীয়ভাবে এবং সরাসরি এটিকে উন্নত করবে।

— ম্যাথু গ্রেভস
সূত্র

1

পিএস: এখানে ইতিমধ্যে কিছু খুব ভাল উত্তর সরবরাহ করা হয়েছে, আমি কেবল এই উত্তরগুলিতে যুক্ত করব যে কেউ এই কার্যকারিতা পাবেন:

একটি ডেটাসেটের সাথে শব্দের পরিচয় করিয়ে দেওয়া কোনও মডেলের পক্ষে সত্যই ইতিবাচক প্রভাব ফেলতে পারে। বস্তুত এই একই জিনিস যে আপনি সাধারণত দিয়ে কি করেন করছেন হিসেবে দেখা যেতে পারে regularizers মত ঝরে পড়া । এটি করার উদাহরণগুলির মধ্যে কয়েকটি হ'ল জুর এট.এল , কায়ারাস্যাট.াল যেখানে লেখকরা ওভার-ফিটিং হ্রাস করার জন্য ডেটাসেটটিতে সাফল্যের সাথে শব্দ প্রবর্তন করেছিলেন।

ধরা পড়ার পরিমাণটি কী পরিমাণে খুব বেশি তা জানার মধ্যে রয়েছে। আপনি যদি খুব বেশি শব্দ যোগ করেন তবে এটি আপনার ডেটাসেটকে অকেজো বলে উপস্থাপন করতে পারে যে ফলস্বরূপ ডেটাসেটটিতে আর মূল ডেটাসেটের সাথে পর্যাপ্ত সাদৃশ্য থাকতে পারে না, তাই আপনি পাশাপাশি সম্পূর্ণ ভিন্ন ডেটাসেটের প্রশিক্ষণও নিতে পারেন। সুতরাং অত্যধিক শোরগোল খুব উচ্চ ড্রপআউট হারের মতো, আন্ডার-ফিটিংয়ের কারণ হতে দেখা যায়।

কথা যায়; ~~পরিবর্তন~~ ভারসাম্য জীবনের মশলা :)।

— তশিলিদজী মুদাউ
সূত্র