নিয়মিতকরণ কেন ডেটার জন্য গভীর নিউরাল নেট ক্ষুধা সমাধান করে না?


37

সাধারণভাবে নিউরাল নেটওয়ার্ক এবং বিশেষত ডিপ নিউরাল নেটওয়ার্কগুলির প্রসঙ্গে যে বিষয়টি আমি প্রায়শই সামনে এনেছি তা হ'ল তারা "ডেটা ক্ষুধার্ত" - এটি হ'ল আমাদের কাছে একটি বড় ডেটা সেট না করা পর্যন্ত তারা ভাল পারফর্ম করবেন না is নেটওয়ার্ক প্রশিক্ষণ যা দিয়ে।

আমার বোধগম্যতা হ'ল এননেটস, বিশেষত ডিপ এননেটসের বিপুল সংখ্যক স্বাধীনতা রয়েছে fact সুতরাং একটি মডেল হিসাবে, একটি এননেটের খুব বড় সংখ্যক প্যারামিটার রয়েছে এবং যদি মডেলটির পরামিতিগুলির সংখ্যা প্রশিক্ষণের ডেটা পয়েন্টগুলির সংখ্যার তুলনায় বড় হয় তবে ওভার ফিটের প্রবণতা বৃদ্ধি পায়।

তবে কেন এই সমস্যা নিয়মিতকরণের মাধ্যমে সমাধান করা হচ্ছে না? আমি যতদূর জানি এননেটস এল 1 এবং এল 2 নিয়মিতকরণ ব্যবহার করতে পারে এবং ড্রপআউটের মতো নিজস্ব নিয়মিতকরণ পদ্ধতিও ব্যবহার করতে পারে যা নেটওয়ার্কের পরামিতিগুলির সংখ্যা হ্রাস করতে পারে।

আমরা কী আমাদের নিয়মিতকরণের পদ্ধতিগুলি বেছে নিতে পারি যে তারা পার্সিমনি প্রয়োগ করে এবং নেটওয়ার্কের আকারকে সীমাবদ্ধ করে?


আমার চিন্তাভাবনা স্পষ্ট করার জন্য: বলুন আমরা আমাদের ডেটা মডেল করার চেষ্টা করার জন্য একটি বৃহত ডিপ এন নেট ব্যবহার করছি, তবে ডেটা সেটটি ছোট এবং আসলে লিনিয়ার মডেল দ্বারা মডেল করা যেতে পারে। তাহলে কেন নেটওয়ার্ক ওজন এমনভাবে একত্রিত হয় না যে কোনও নিউরন লিনিয়ার রিগ্রেশনকে সিমুলেট করে এবং অন্য সমস্ত জিরোতে রূপান্তর করে? কেন এটি নিয়মিতকরণ সহায়তা করে না?


7
"তাহলে কেন নেটওয়ার্ক ওজন এমনভাবে একত্রিত হয় না যে কোনও নিউরন লিনিয়ার রিগ্রেশনকে অনুকরণ করে এবং অন্যরা জিরোতে রূপান্তর করে? কেন নিয়মিতকরণ এটির সাহায্য করে না?" আমি আসলেই মনে করি এটি সত্যিই একটি আকর্ষণীয় কাগজ তৈরি করবে: সেই নেটওয়ার্ক এবং সমস্যা তৈরি করুন এবং তারপরে কী হবে তা মূল্যায়ন করুন।
সাইকোরাক্স বলছেন মনিকা পুনরায় ইনস্টল করুন

ভাল, আপনার নিয়মিত হওয়ার পরেও নেটওয়ার্কগুলির গভীর স্তরগুলিতে পরে গ্রেডিয়েন্টগুলি হ্রাস করার সমস্যা রয়েছে। এই কারণেই লোকেরা আপনার বর্ণনা অনুযায়ী কার্যকরভাবে ব্যাচকে ব্যাচ নরমালাইজেশন ব্যবহার করে। অন্যান্য পন্থাগুলি ইতিমধ্যে এর জন্য অ্যাকাউন্ট করে (এলএসটিএম এর মতো) এবং এমন কিছু জিনিস রয়েছে যা অনাহার যেমন ড্রপআউট মোকাবেলায় সহায়তা করতে পারে।
বেনিয়ামিন গ্রুইনবাউম


@ ক্লিফাব নীচের উত্তর হিসাবে, আপনার কর্মক্ষমতা উন্নত করার জন্য নিয়মিতকরণ যা করা দরকার তা নয়। এটিকে সহজভাবে বলতে গেলে, একগুচ্ছ ঘোরানো বিড়ালের চিত্রগুলি নিয়মিতকরণের সাথে একক বিড়ালের চিত্রের মতো নয়।
seanv507

1
আমি মোটেও অবাক হই না। কাজের সময় আমি যে ধরণের টাইম সিরিজ নিয়ে কাজ করি তার সাথে এখনও আমি এমন একটি পদ্ধতি খুঁজে পাইনি যা পুরানো স্কুল টাইম সিরিজের পদ্ধতিগুলিকে মারধর করে, তবে আমি চেষ্টা চালিয়ে যাচ্ছি :)
আকসকল

উত্তর:


43

এটির ব্যাখ্যা করার সহজ উপায় হ'ল নিয়মিতকরণ শব্দের সাথে খাপ খায় না, এটি সংকেতের আকার নির্ধারণের ক্ষেত্রে খুব বেশি কিছু করে না। যদি আপনি কোনও বিশালাকার গৌরবময় ফাংশন আনুষঙ্গিক হিসাবে গভীর শিক্ষার কথা ভাবেন, তবে বুঝতে পারবেন জটিল সংকেতের আকার নির্ধারণ করতে এটির প্রচুর ডেটা প্রয়োজন।

যদি কোনও আওয়াজ না পাওয়া যায় তবে এনএন এর ক্রমবর্ধমান জটিলতা আরও ভালভাবে অনুমান করতে পারে। এনএন আকারে কোনও জরিমানা থাকত না, প্রতিটি ক্ষেত্রে আরও ভাল হত been একটি টেলর অনুমান হিসাবে বিবেচনা করুন, অ-বহুবচন ফাংশনের জন্য (সংখ্যাসম্য নির্ভুলতার বিষয়টি উপেক্ষা করে) আরও শর্তাবলী সর্বদা ভাল।

এটি একটি গোলমালের উপস্থিতিতে ভেঙে যায়, কারণ আপনি আওয়াজকে ফিট করতে শুরু করেন। সুতরাং, সাহায্যের জন্য এখানে নিয়মিতকরণ এসেছে: এটি শব্দদ্বারে ফিটনেস হ্রাস করতে পারে, এইভাবে আমাদের অরৈখিক সমস্যার জন্য আরও বড় এনএন তৈরির সুযোগ দেয় ।

নিম্নলিখিত আলোচনাটি আমার উত্তরের জন্য অত্যাবশ্যক নয়, তবে আমি কিছু মন্তব্যের উত্তর দিতে এবং উপরের উত্তরের মূল অংশটিকে অনুপ্রাণিত করতে কিছু অংশ যুক্ত করেছি। মূলত, আমার বাকী উত্তরটি ফ্রেঞ্চ আগুনের মতো যা বার্গারের খাবারের সাথে আসে, আপনি এড়িয়ে যেতে পারেন।

(ইর) প্রাসঙ্গিক কেস: বহুবর্ষীয় রিগ্রেশন

আসুন একটি বহুবর্ষীয় রিগ্রেশন এর খেলনা উদাহরণটি দেখুন। এটি অনেক ফাংশনের জন্য বেশ ভাল আনুমানিকরও। আমরা অঞ্চলে in ফাংশনটি দেখব । যেমন আপনি নীচে এর টেলর সিরিজটি থেকে দেখতে পাচ্ছেন যে সপ্তম অর্ডার প্রসারণটি ইতিমধ্যে বেশ ভাল ফিট so তাই আমরা আশা করতে পারি যে 7+ ক্রমের একটি বহুপদীও খুব ভাল ফিট হওয়া উচিত:পাপ(এক্স)এক্স(-3,3)

এখানে চিত্র বর্ণনা লিখুন

এরপরে, আমরা পর্যবেক্ষণের সাথে 7 টি পর্যবেক্ষণের সাথে সেট করা একটি খুব খুব কোলাহলযুক্ত ডেটাতে ক্রমবর্ধমান উচ্চতর অর্ডার সহ বহুভুজ ফিট করতে চলেছি:

এখানে চিত্র বর্ণনা লিখুন

বহু লোকের কাছ থেকে জানার মধ্যে আমরা বহু লোককে কী বলেছি তা আমরা পর্যবেক্ষণ করতে পারি: তারা অস্থির এবং বহুবর্ষের ক্রম বৃদ্ধি করে বন্যভাবে দোলন শুরু করে।

যাইহোক, সমস্যাটি নিজেরাই বহুবচন নয়। সমস্যা হ'ল গোলমাল। যখন আমরা কোলাহলিত তথ্যে বহুবর্ষগুলি মাপসই করি তখন ফিটগুলির অংশটি শোনার জন্য, সংকেতকে নয়। এখানে একই সঠিক পলিনোমিয়ালগুলি একই ডেটা সেটটিতে ফিট করে কিন্তু শব্দদণ্ডের সাথে সম্পূর্ণভাবে মুছে ফেলা হয়। ফিটগুলি দুর্দান্ত!

পাপ(এক্স)

এখানে চিত্র বর্ণনা লিখুন

এছাড়াও লক্ষ্য করুন যে উচ্চতর অর্ডার বহুভুক্তগুলি অর্ডার 6 এর পাশাপাশি ফিট করে না, কারণ এগুলি সংজ্ঞায়িত করার মতো পর্যাপ্ত পর্যবেক্ষণ নেই। সুতরাং, আসুন 100 পর্যবেক্ষণের সাথে কী ঘটে তা দেখুন। নীচের চার্টে আপনি দেখতে পাচ্ছেন যে কোনও বৃহত্তর ডেটা সেট কীভাবে আমাদের উচ্চতর অর্ডার বহুত্বগুলি ফিট করতে দেয়, এভাবে আরও ভাল ফিট করে!

এখানে চিত্র বর্ণনা লিখুন

দুর্দান্ত, তবে সমস্যাটি হ'ল আমরা সাধারণত গোলমাল সংক্রান্ত ডেটা নিয়ে কাজ করি। আপনি যদি খুব গোলমালী তথ্যের 100 টি পর্যবেক্ষণের সাথে একই মাপসই হন তবে কী ঘটে তা দেখুন, নীচের চার্টটি দেখুন। আমরা আবার এক স্কোয়ারে ফিরে এসেছি: উচ্চতর অর্ডার বহুতলগুলি ভয়ঙ্কর দোলনা ফিট উত্পাদন করে। সুতরাং, ডেটা সেট বাড়ানো তথ্যকে আরও ভালভাবে ব্যাখ্যা করার জন্য মডেলের জটিলতা বাড়ানোর পক্ষে তেমন কোনও সহায়তা করেনি। এটি আবারও, কারণ জটিল মডেলটি কেবলমাত্র সংকেত আকারে নয়, গোলমালের আকারকেও আরও ভাল ফিট করে।

এখানে চিত্র বর্ণনা লিখুন

অবশেষে, আসুন এই সমস্যাটির জন্য কিছু খোঁড়া নিয়মিত করার চেষ্টা করি। নীচের চার্টটি নিয়মিতকরণ দেখায় (বিভিন্ন জরিমানা সহ) 9 বহুপদী রিগ্রেশন অর্ডার করার জন্য প্রয়োগ করা হয়। উপরের আদেশের জন্য এটিকে তুলনা করুন (পাওয়ার) 9 বহুপথীয় ফিট: নিয়মিতকরণের একটি উপযুক্ত স্তরে উচ্চতর অর্ডার বহুবর্ষগুলি শোরগোলের ডেটাতে ফিট করা সম্ভব।

এখানে চিত্র বর্ণনা লিখুন

কেবল যদি এটি পরিষ্কার ছিল না: আমি বহুবর্ষীয় রিগ্রেশনটি এভাবে ব্যবহার করার পরামর্শ দিচ্ছি না। পলিনোমিয়ালগুলি স্থানীয় ফিটগুলির জন্য ভাল, সুতরাং একটি টুকরা অনুসারে বহুভুজ একটি ভাল পছন্দ হতে পারে। তাদের সাথে পুরো ডোমেনটি ফিট করা প্রায়শই একটি খারাপ ধারণা, কারণ তারা আওয়াজের প্রতি সংবেদনশীল, প্রকৃতপক্ষে, এটি উপরের প্লটগুলি থেকে স্পষ্ট হওয়া উচিত। শব্দটি সংখ্যাসূচক হোক বা অন্য কোনও উত্স থেকে এই প্রসঙ্গে গুরুত্বপূর্ণ নয়। শব্দটি গোলমাল, এবং বহুভুজগুলি এতে আবেগের সাথে প্রতিক্রিয়া জানাবে।


8
এবং যখন আপনার ডেটাসেটটি ছোট হয়, শব্দ এবং অ-শোনার মধ্যে পার্থক্য করা খুব কঠিন।
অ্যালেক্স আর।

3
আসলে নিয়মিতকরণ একটি আছে করতে পারবেন বৃহত্তর overfitting ছাড়া এন এন
Aksakal

6
@ অ্যালেক্স - কেন এটি একটি সহজ মডেলের ডিফল্ট হবে? অব্যবহৃত পরিবর্তনশীলতা রয়েছে যা জটিলতার উত্থাপন করে এখনও ফিট হতে পারে! এবং ... লক্ষ্যটি যতটা সম্ভব অব্যবহৃত পরিবর্তনশীলতা হ্রাস করা ... যদি তা না হয় তবে এনএন সবচেয়ে সহজ সম্ভাব্য মডেল হিসাবে নামকরণ করবে, যথা, "0"। কিন্তু, যেমন Aksakal, লিখিত করেছে এন এন ডেটা যে অব্যাখ্যাত পরিবর্তনশীলতা আরো এবং আরো কমিয়ে দেয়, এটি ঝুলানো হচ্ছে অবর্ণনীয় পরিবর্তনশীলতা, অর্থাত্, overfitting - অত: পর নিয়মিতকরণ প্রয়োজনীয়তার।
জোবোম্যান

2
আরেকটি জিনিস: ধরুন আপনি অন্তর্নিহিত প্রক্রিয়াটি মডেল করছেন যা হৈচৈ, যেমন মানুষের ভোটদানের আচরণ বা এমন কিছু স্বাস্থ্য ফলাফল যা পূর্বাভাস দেওয়া কঠিন। এও বলুন যে আপনার ডেটা সমস্ত ধরণের পরিমাপ ত্রুটি এবং এমনকী কিছু নির্বাচনের পক্ষপাতিত্বের সাথেও ছাঁটাইয়াছে। পরিবেশকে সংকেত দেওয়ার জন্য এইরকম উচ্চ আওয়াজে আমি নিয়মিতকরণের সাথে কেবল একটি সহজ মডেলটিকেই পছন্দ করব না। আমি এমনকি কম ডেটা পছন্দ করতে পারি যাতে আমি সমস্ত নিয়মিতকরণের প্রচেষ্টা সত্ত্বেও খুব গুছিয়ে শব্দের পরিমাপ শেষ না করি।
ব্রাশ ভারসাম্য

2
@ ব্র্যাশএকিলিব্রিয়াম - একটি দুর্দান্ত পয়েন্ট। আমরা ১৫০ টি ফিচারের আশেপাশে গ্রেডিয়েন্ট বুস্টিং মেশিন ব্যবহার করে কিছু বড় আকারের পূর্বাভাস দিচ্ছি, যার মধ্যে বেশিরভাগের উচ্চ স্তরের শব্দ রয়েছে (তবে এখনও পূর্বাভাসের গুণমান উন্নতি হয়), এবং আবিষ্কার করেছি যে প্রশিক্ষণের জন্য জিবিএমকে 20% ডেটা দেওয়া হচ্ছে 50% বা আরও বেশি প্রদানের চেয়ে আরও ভাল পূর্বাভাসের ফলাফলগুলিতে, এমনকি অন্যান্য সমস্ত নিয়মিতকরণ পদ্ধতি প্রয়োগ করা হলেও।
জোবোম্যান

7

এই মুহুর্তে, কখন এবং কেন কিছু নিয়মিতকরণ পদ্ধতি সফল এবং ব্যর্থ হয় তা এটি ভালভাবে বোঝা যায় না। আসলে, গভীর শিক্ষাগুলি কেন প্রথম স্থানে কাজ করে তা এগুলি কিছুতেই বোঝা যায় নি।

পর্যাপ্ত গভীর নিউরাল নেট বেশিরভাগ ভাল আচরণগত প্রশিক্ষণের ডেটা নিখুঁতভাবে মুখস্থ করতে পারে এই বিষয়টি বিবেচনা করে, কোনও নির্দিষ্ট গভীর জালের জন্য সঠিক হওয়ার চেয়ে যথেষ্ট বেশি ভুল সমাধান রয়েছে। নিয়মিতকরণ, বিস্তৃতভাবে বলা, এই "ভুল" সমাধানগুলির জন্য মডেলের প্রকাশের সীমাবদ্ধ করার একটি প্রচেষ্টা - যেখানে "ভুল" সংজ্ঞাটি হিউরিস্টিক্স দ্বারা সংজ্ঞায়িত করা হয় যা আমরা মনে করি যে একটি নির্দিষ্ট ডোমেনের জন্য গুরুত্বপূর্ণ । তবে প্রায়শই এটি তাত্পর্যপূর্ণ সংজ্ঞা দেওয়া শক্ত যে আপনি এটির সাথে "সঠিক" প্রকাশটি হারাবেন না। এর একটি দুর্দান্ত উদাহরণ এল 2 জরিমানা।

নিয়মিতকরণের একটি রূপ হিসাবে বিবেচিত হবে এমন খুব কম পদ্ধতি সাধারণত এমএল এর সমস্ত প্রয়োগের ক্ষেত্রে প্রযোজ্য। দৃষ্টি, এনএলপি এবং কাঠামোগত পূর্বাভাস সমস্যাগুলির সকলেরই নিয়মিতকরণের কৌশলগুলির নিজস্ব কুকবুক রয়েছে যা সেই নির্দিষ্ট ডোমেনগুলির জন্য পরীক্ষামূলকভাবে কার্যকর হওয়ার জন্য প্রদর্শিত হয়েছে। এমনকি সেই ডোমেনগুলির মধ্যেও এই কৌশলগুলি নির্দিষ্ট পরিস্থিতিতে কেবল কার্যকর। উদাহরণস্বরূপ, গভীর অবশিষ্টাংশের নেটওয়ার্কগুলিতে ব্যাচের নরমালাইজেশন ড্রপআউটকে রিডানডেন্ট হিসাবে দেখায়, যদিও উভয়কেই স্বাধীনভাবে সাধারণীকরণের উন্নতি দেখানো হয়েছে।

একটি পৃথক নোটে, আমি মনে করি নিয়ামকরণ শব্দটি এতই বিস্তৃত যে এটিকে সম্পর্কে কিছুই বুঝতে অসুবিধা বোধ করে। পিক্সেলগুলির প্রতি শ্রদ্ধাবোধগুলি প্যারামিটারের স্থানটিকে তাত্পর্যপূর্ণভাবে সীমাবদ্ধ করে এ বিষয়টি বিবেচনা করে আপনি কনভোলশনাল নিউরাল নেটওয়ার্ক ভ্যানিলা নিউরাল নেটকে একধরণের নিয়মিতকরণ হিসাবে বিবেচনা করতে পারেন।


আমি আপনার প্রথম অনুচ্ছেদের সাথে একমত কিনা তা নিশ্চিত নই।
আন্ডার বিগুড়ি

3
এটি সম্পর্কে 500 টি চরিত্রে কথা বলা শক্ত, তবে বিশ্বের শীর্ষ গবেষকরা দাবি করেন যে এসজিডির সাফল্য ভালভাবে বোঝা যায় না। উদাহরণস্বরূপ, ওপেনএআইএ থেকে ইলিয়া এসকে নিন: youtube.com/watch?v=RvEwFvl-TrY&feature=youtu.be&t=339
অস্টিন শিন

সম্পূর্ণরূপে একমত - সম্ভবত যে কারণে আসল জালের চেয়ে বহুপক্ষীয় উপসংহারের সাথে যুক্তি করা আরও সহজ ...
P-Gn

3

এক শ্রেণির উপপাদ্য যা এই সমস্যাটি মৌলিক তা দেখায় তা হ'ল নো ফ্রি লাঞ্চ উপপাদ্য । সীমাবদ্ধ নমুনাগুলির প্রতিটি সমস্যার ক্ষেত্রে যেখানে একটি নির্দিষ্ট নিয়মিতকরণ সহায়তা করে, সেখানে আরও একটি সমস্যা রয়েছে যেখানে একই নিয়মিতকরণ বিষয়টিকে আরও খারাপ করে দেবে। অস্টিন যেমন উল্লেখ করেছেন, আমরা সাধারণত দেখতে পাই যে এল 1 / এল 2 নিয়মিতকরণ অনেক বাস্তব-বিশ্বের সমস্যার জন্য সহায়ক, তবে এটি কেবল একটি পর্যবেক্ষণ এবং এনএফএল তত্ত্বগুলির কারণে, কোনও সাধারণ গ্যারান্টি থাকতে পারে না।


3

আমি বলব যে উচ্চ স্তরে, ডিএনএন (ডিপ নিউরাল নেটওয়ার্ক) এর প্ররোচিত পক্ষপাতটি শক্তিশালী তবে কিছুটা আলগা বা পর্যাপ্ত মতামতযুক্ত নয়। এর অর্থ আমার অর্থ এই যে ডিএনএনগুলি কী চলছে সে সম্পর্কে প্রচুর পৃষ্ঠার পরিসংখ্যান ক্যাপচার করে তবে গভীর কার্যকারণ / রচনাগত উচ্চ স্তরের কাঠামোতে পেতে ব্যর্থ হয়। (আপনি কোনও দরিদ্র ব্যক্তিকে প্ররোচিত পক্ষপাতিত্বের স্পেসিফিকেশন হিসাবে কনভোলশনগুলি দেখতে পারেন)।

তদতিরিক্ত, মেশিন লার্নিং সম্প্রদায়ের মধ্যে এটি বিশ্বাস করা হয় যে সাধারণকরণের সর্বোত্তম উপায় (অল্প ডেটা দিয়ে ভাল ইনফারেন্স / ভবিষ্যদ্বাণী করা) হ'ল সংক্ষিপ্ততম প্রোগ্রামটি যা ডেটা বৃদ্ধি করেছিল find তবে প্রোগ্রাম আনয়ন / সংশ্লেষ শক্ত এবং আমাদের এটি দক্ষতার সাথে করার কোনও ভাল উপায় নেই। সুতরাং পরিবর্তে আমরা ঘনিষ্ঠতার উপর নির্ভর করি যা সার্কিট অনুসন্ধান এবং আমরা জানি যে কীভাবে ব্যাকপ্রোপেশন হয়। এখানে , ইলিয়া সটসকেভার সেই ধারণাটির একটি ওভারভিউ দেয়।


গভীর শিক্ষার মডেল বনাম বাস্তব প্রোগ্রাম হিসাবে উপস্থাপিত মডেলগুলির সাধারণীকরণ শক্তির পার্থক্যের চিত্রিত করার জন্য, আমি এই গবেষণাপত্রে একটিটি দেখাব: শারীরিক দৃশ্যের বোঝার ইঞ্জিন হিসাবে সিমুলেশন

এখানে চিত্র বর্ণনা লিখুন

(ক) আইপিই [স্বজ্ঞাত পদার্থবিজ্ঞান ইঞ্জিন] মডেল ইনপুট নেয় (উদাহরণস্বরূপ, উপলব্ধি, ভাষা, স্মৃতি, চিত্র ইত্যাদি) যা দৃশ্যের (1) উপর একটি বিতরণ ইনস্ট্যান্ট করে তোলে, তারপরে বিতরণে পদার্থবিজ্ঞানের প্রভাবগুলি সিমুলেট করে (2), এবং তারপরে ফলাফলটি অন্য সংবেদক এবং জ্ঞানীয় অনুষদে (3) একত্রিত করে

এখানে চিত্র বর্ণনা লিখুন

(খ) Exp। 1 (এটি পড়বে?) টাওয়ার উদ্দীপনা। লাল সীমানা সহ টাওয়ারটি প্রকৃতপক্ষে সূক্ষ্মভাবে ভারসাম্যযুক্ত, এবং অন্য দুটি একই উচ্চতা, তবে নীল-সীমান্তবর্তী একটিটি মডেল এবং লোকজন দ্বারা পড়ার সম্ভাবনা খুব কম বিবেচিত হয়।

(গ) সম্ভাব্য আইপিই মডেল (এক্স অক্ষ) বনাম মানব রায় গড় (y অক্ষ) এক্সপ্রেসে। 1. values ​​এবং ϕ এর অন্যান্য মানগুলির সাথে সম্পর্কের জন্য চিত্র S3 দেখুন ϕ প্রতিটি পয়েন্ট একটি টাওয়ার (এসইএম সহ) উপস্থাপন করে এবং তিনটি বর্ণযুক্ত বৃত্ত বি এর তিনটি টাওয়ারের সাথে মিলে যায়

(৩) গ্রাউন্ড ট্রুথ (ননপ্রোবিলিস্টিক) বনাম মানব রায় (সমাপ্তি ১) কারণ এটি অনিশ্চয়তার প্রতিনিধিত্ব করে না, এটি আমাদের প্রচুর উদ্দীপনা যেমন বি এর লাল-সীমানা টাওয়ারের জন্য জনগণের রায়গুলি ক্যাপচার করতে পারে না (নোট করুন যে প্রাকৃতিক দৃশ্যে এই ঘটনাগুলি বিরল হতে পারে, যেখানে কনফিগারেশনগুলি আরও স্পষ্টভাবে স্থিতিশীল হতে থাকে বা অস্থির এবং আইপিই আমাদের উদ্দীপনার তুলনায় স্থল সত্যের সাথে আরও ভাল সম্পর্ক স্থাপন করবে বলে আশা করা যায়))

এখানে আমার বক্তব্যটি হ'ল সি-তে ফিটটি আসলেই বেশ ভাল, কারণ মানুষ কীভাবে শারীরিক রায় দেয় সে সম্পর্কে মডেল সঠিক বায়াসগুলি ক্যাপচার করে। কারণ এটি মডেলের প্রকৃত পদার্থবিদ্যা (মনে রাখবেন যে এটা এই বড় অংশ রয়েছে হয় একটি প্রকৃত পদার্থবিদ্যা ইঞ্জিন) এবং অনিশ্চয়তার সাথে মোকাবিলা করতে পারেন।

এখন স্পষ্ট প্রশ্ন হ'ল আপনি কি গভীর শিক্ষার মাধ্যমে তা করতে পারেন? লেয়ার এট আল এই কাজটিতে এটি করেছেন: উদাহরণ দিয়ে ব্লক টাওয়ারগুলির শারীরিক স্বীকৃতি

তাদের মডেল: এখানে চিত্র বর্ণনা লিখুন

তাদের মডেলটি কার্যত টাস্কটিতে আসলে বেশ ভাল (পতনশীল ব্লকের সংখ্যা এবং তাদের পতনের দিকনির্দেশনা)

এখানে চিত্র বর্ণনা লিখুন

তবে এটি দুটি প্রধান ত্রুটিগুলি ভুগছে:

  • সঠিকভাবে প্রশিক্ষণের জন্য এটি বিপুল পরিমাণে ডেটা প্রয়োজন
  • সাধারণভাবে কেবল অগভীর উপায়ে: আপনি আরও বাস্তববাদী চিত্রগুলিতে স্থানান্তর করতে পারেন, 1 বা 2 টি ব্লক যুক্ত বা সরাতে পারেন। তবে এর বাইরে আর কিছু না পারফরম্যান্স বিপর্যয়করভাবে নেমে আসে: 3 বা 4 টি ব্লক যুক্ত করুন, পূর্বাভাসের কার্যটি পরিবর্তন করুন ...

এই দুটি পদ্ধতির সম্পর্কে টেনেনবামের ল্যাব দ্বারা একটি তুলনা সমীক্ষা করা হয়েছিল: মানব শারীরিক দৃশ্য বোঝার অ্যাকাউন্ট হিসাবে আনুমানিক সম্ভাব্য সিমুলেশন এবং ডিপ নিউরাল নেটওয়ার্কগুলির একটি তুলনামূলক মূল্যায়ন

আলোচনার অংশটি উদ্ধৃত করে:

প্রশিক্ষণের ডেটা কম থাকায় সিএনএনগুলির কার্যকারিতা হ্রাস পায়। যদিও অ্যালেক্সনেট (প্রাক-প্রশিক্ষিত নয়) 200,000 প্রশিক্ষণ চিত্রের সাথে আরও ভাল অভিনয় করে তবে এটি ডেটার অভাব থেকেও বেশি ক্ষতিগ্রস্থ হয়, অন্যদিকে প্রাক-প্রশিক্ষিত অ্যালেক্সনেট অল্প পরিমাণ প্রশিক্ষণ চিত্র থেকে আরও ভাল শিখতে সক্ষম হয়। আমাদের কাজের জন্য, উভয় মডেলের আইপিই মডেল এবং মানুষের সাথে তুলনীয় হওয়ার জন্য তাদের পারফরম্যান্সের জন্য প্রায় 1000 টি চিত্রের প্রয়োজন।

সিএনএন-তে এমনকি ক্ষুদ্র দৃশ্যের বিভিন্নতা যেমন ব্লকের সংখ্যা পরিবর্তন করার ক্ষেত্রেও সীমিত সাধারণকরণের ক্ষমতা রয়েছে। বিপরীতে, আইপিই মডেলগুলি প্রাকৃতিকভাবে সাধারণভাবে স্ট্যাকের ব্লকের সংখ্যার সাথে মানুষের বিচারের নির্ভুলতা হ্রাস করে capture

একসাথে নেওয়া, এই ফলাফলগুলি মানবিক জ্ঞান সম্পর্কে মৌলিক কিছুটির দিকে ইঙ্গিত করে যে নিউরাল নেটওয়ার্কগুলি (বা কমপক্ষে সিএনএন) বর্তমানে ক্যাপচার করছে না: বিশ্বের কার্যকারণ প্রক্রিয়াগুলির একটি মানসিক মডেলের অস্তিত্ব। গুণগতভাবে উপন্যাসের পরিস্থিতিতে কী ঘটবে তা পূর্বাভাস দেওয়ার জন্য কার্যকারণীয় মানসিক মডেলগুলি অনুকরণ করা যেতে পারে এবং বিস্তৃতভাবে সাধারণকরণের জন্য তাদের বিস্তৃত এবং বিচিত্র প্রশিক্ষণের ডেটা প্রয়োজন হয় না, তবে তারা কিছুটা ত্রুটি সহজাত সহজাত হয় (যেমন, রাষ্ট্রের কারণে অনিশ্চয়তার প্রচার এবং ডায়নামিক্স শোরগোল) সিমুলেশন দ্বারা চালিত করার গুণে।

আমি যে পয়েন্টটি তৈরি করতে চাইছি ফিরে যান: নিউরাল নেটওয়ার্কগুলি শক্তিশালী মডেল হলেও তাদের কার্যকারিতা, গঠনমূলক এবং জটিল কাঠামোর প্রতিনিধিত্ব করার দক্ষতার অভাব বলে মনে হয়। এবং তারা প্রচুর প্রশিক্ষণের ডেটা প্রয়োজনের জন্য এটি তৈরি করে।

এবং আপনার প্রশ্নের পিছনে: আমি উদ্যোগ নেব যে ব্রড ইন্ডাকটিভ বায়াস এবং স্নায়বিক নেটওয়ার্কগুলি কার্যকারিতা / কম্পোজিশনেটি মডেল করে না সে কারণেই তাদের এত প্রশিক্ষণের ডেটা প্রয়োজন need তারা যেভাবে সাধারণীকরণ করেন সে কারণে নিয়মিতকরণ কোনও দুর্দান্ত ফিক্স নয়। তাদের পক্ষপাতিত্ব পরিবর্তন করা আরও ভাল সমাধান হবে, যেমন পুরো / অংশের জ্যামিতি মডেলিংয়ের জন্য ক্যাপসুলগুলির সাথে হিন্টন চেষ্টা করছেন বা মডেলিং সম্পর্কের জন্য ইন্টারঅ্যাকশন নেটওয়ার্কগুলি


2

প্রথমত, গভীর শিক্ষার জন্য ব্যবহার এবং সক্রিয় গবেষণায় প্রচুর পরিমাণে নিয়মিতকরণ পদ্ধতি রয়েছে। সুতরাং আপনার ভিত্তি সম্পূর্ণ নির্দিষ্ট নয়।

ব্যবহারের পদ্ধতি হিসাবে, ওজন ক্ষয় হ্রাস গ্রেডিয়েন্ট বংশোদ্ভূত মাধ্যমে ওজন উপর একটি এল 2 জরিমানা সরাসরি বাস্তবায়ন। আপনার ওজনগুলির বর্গক্ষেত্রের আদর্শের গ্রেডিয়েন্ট নিন এবং প্রতিটি পুনরাবৃত্তিতে তাদের দিকে এই দিকে একটি ছোট পদক্ষেপ যুক্ত করুন। ড্রপআউটকে নিয়মিতকরণেরও এক রূপ বলে মনে করা হয়, যা এক ধরণের গড় কাঠামো চাপিয়ে দেয়। এটি ভাগ করা পরামিতিগুলির সাথে নেটওয়ার্কগুলির একটি জাঁকজমকের উপর এল 2 জরিমানার মতো কিছু বোঝায়।

আপনি সম্ভবত ছোট ছোট নমুনাগুলি সম্বোধনের জন্য এই বা অন্যান্য কৌশলগুলির স্তরটি ক্র্যাঙ্ক করতে পারেন। তবে মনে রাখবেন যে নিয়মিতকরণ পূর্ববর্তী জ্ঞানের চাপিয়ে দেয়। ওজনের উপর এল 2 জরিমানা বোঝা যায় ওজনের আগে গাউসিয়ানের আগে। নিয়মিতকরণের পরিমাণ বৃদ্ধি করা মূলত উল্লেখ করে যে আপনার পূর্ববর্তী জ্ঞান ক্রমশ নির্দিষ্ট হয়ে গেছে এবং আপনার ফলাফলটিকে পূর্বের দিকে অগ্রাহ্য করে। সুতরাং আপনি এটি করতে পারেন এবং এটি কম উপকারী হবে তবে পক্ষপাতযুক্ত আউটপুট চুষতে পারে। স্পষ্টতই সমাধানটি আরও ভাল পূর্বের জ্ঞান। চিত্র স্বীকৃতির জন্য এর অর্থ আপনার সমস্যার পরিসংখ্যান সম্পর্কিত আরও অনেক কাঠামোগত প্রিয়ার। এই দিকটি নিয়ে সমস্যাটি হ'ল আপনি প্রচুর ডোমেন দক্ষতা চাপিয়ে দিচ্ছেন, এবং মানবিক দক্ষতা আরোপ করা এড়ানো হ'ল কারণগুলি আপনি গভীর শেখা ব্যবহার করেছিলেন of


পক্ষপাতিত্ব উল্লেখ করার জন্য +1। পক্ষপাত এবং বৈকল্পিকতার দিক থেকে কেন এই পুরো বিষয়টি ব্যাখ্যা করবেন না? "ওভারফিটিং" এর গাণিতিক সংক্ষিপ্ত সংজ্ঞা নেই এবং এটি অস্তিত্বহীন দ্বৈতত্ত্ব ("ওভারফিট" / "নট-ওভারফিট") বোঝায়।
জোশ 21

2

আমার চিন্তাভাবনা স্পষ্ট করার জন্য: বলুন আমরা আমাদের ডেটা মডেল করার চেষ্টা করার জন্য একটি বৃহত ডিপ এন নেট ব্যবহার করছি, তবে ডেটা সেটটি ছোট এবং আসলে লিনিয়ার মডেল দ্বারা মডেল করা যেতে পারে। তাহলে কেন নেটওয়ার্ক ওজন এমনভাবে একত্রিত হয় না যে কোনও নিউরন লিনিয়ার রিগ্রেশনকে সিমুলেট করে এবং অন্য সমস্ত জিরোতে রূপান্তর করে? কেন এটি নিয়মিতকরণ সহায়তা করে না?

নিউরাল জালগুলি এভাবে প্রশিক্ষণ দেওয়া যায়। যদি যথাযথ এল 1 নিয়মিতকরণ ব্যবহার করা হয় তবে বেশিরভাগ ওজন শূন্য হতে পারে এবং এটি নিউরাল জাল 1 বা ততোধিক লিনিয়ার রিগ্রেশন নিউরন এবং অনেকগুলি শূন্য নিউরনের সংমিশ্রণের মতো আচরণ করে। তাই হ্যাঁ - এল 1 / এল 2 নিয়মিতকরণ বা এর মতো নিউরাল নেটওয়ার্কের আকার বা প্রতিনিধিত্বমূলক শক্তি সীমাবদ্ধ করতে ব্যবহার করা যেতে পারে।

প্রকৃতপক্ষে মডেলটির আকার নিজেই এক ধরণের নিয়মিতকরণ - যদি আপনি মডেলটিকে বড় করেন তবে এর অর্থ হল যে আপনি সমস্যাটি সম্পর্কে পূর্বের জ্ঞানকে ইনজেকশন দিচ্ছেন, সমস্যাগুলি অত্যন্ত জটিল তাই এটির জন্য এমন মডেল প্রয়োজন যা উচ্চ প্রতিনিধিত্বমূলক শক্তি রাখে। আপনি যদি মডেলটিকে ছোট করেন তবে এর অর্থ আপনি জ্ঞানকে ইনজেকশন দিচ্ছেন যে সমস্যাটি সহজ তাই মডেলটির খুব বেশি দক্ষতার প্রয়োজন হয় না।

এবং এর অর্থ এল 2 নিয়মিতকরণ নেটওয়ার্কগুলি "স্পারস" তৈরি করবে না যেমনটি আপনি বর্ণনা করেছেন, কারণ এল 2 নিয়মিতকরণ পূর্ববর্তী জ্ঞানকে সংক্রামিত করে যে প্রতিটি নিউরনের (ওজন) অবদান ছোট হওয়া উচিত তবে শূন্য নয় non সুতরাং নেটওয়ার্ক কেবলমাত্র নিউরনের ছোট সেট ব্যবহার না করে প্রতিটি নিউরন ব্যবহার করবে।


1

এল2এল1

এখানে একটি মূল বিষয় হ'ল নিয়মিতকরণ সর্বদা সহায়ক নয়। বরং, সম্ভবত যা সত্য হওয়া উচিত তার দিকে নিয়মিত করা খুব সহায়ক, তবে ভুল দিকটি নিয়মিত করা পরিষ্কারভাবে খারাপ।

এল2

তবে এখন ধরুন আমাদের ডেটা বিড়ালের চিত্রগুলি একটি গভীর নিউরাল নেটওয়ার্কে খাওয়ানো হয়েছে। যদি সত্যই, "বিড়াল কান" বিড়ালদের সনাক্তকরণের জন্য খুব সহায়ক হয় তবে আমরা আরও বেশি ভবিষ্যদ্বাণীপূর্ণ শক্তি দেওয়ার জন্য শাস্তি হ্রাস করতে চাই। তবে নেটওয়ার্কের মধ্যে এটি কোথায় উপস্থাপিত হবে সে সম্পর্কে আমাদের ধারণা নেই ! আমরা এখনও জরিমানা প্রবর্তন করতে পারি যাতে সিস্টেমের কিছু ছোট অংশ পুরো নেটওয়ার্ককে প্রাধান্য দেয় না, তবে এর বাইরে, অর্থবহ উপায়ে নিয়মিতকরণ প্রবর্তন করা শক্ত।

সংক্ষেপে বলা যায়, আমরা বুঝতে পারি না এমন সিস্টেমে পূর্বের তথ্য অন্তর্ভুক্ত করা অত্যন্ত কঠিন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.