নিউরাল নেটওয়ার্কগুলি বনাম সমস্ত কিছু


15

গুগল থেকে আমি এর সন্তোষজনক উত্তর খুঁজে পাইনি ।

অবশ্যই আমার কাছে থাকা ডেটা যদি কয়েক মিলিয়ন ক্রমের হয় তবে গভীর শেখার উপায়।

এবং আমি পড়েছি যে যখন আমার কাছে বড় ডেটা নেই তখন সম্ভবত মেশিন লার্নিংয়ে অন্যান্য পদ্ধতি ব্যবহার করা ভাল। প্রদত্ত কারণটি হ'ল অতিরিক্ত মানানসই। মেশিন লার্নিং: যেমন ডেটা, ফিচার এক্সট্রাকশন, কী সংগ্রহ করা হয় তা থেকে নতুন বৈশিষ্ট্যগুলি তৈরি করা ইত্যাদি বিষয়গুলি যেমন ভারী সংযুক্তিযুক্ত ভেরিয়েবলগুলি মুছে ফেলা ইত্যাদি পুরো মেশিনটি 9 গজ শেখা।

এবং আমি ভাবছিলাম: কেন এটি হ'ল একটি লুকানো স্তরযুক্ত নিউরাল নেটওয়ার্কগুলি মেশিন লার্নিংয়ের সমস্যাগুলির নিরাময়ে নয়? এগুলি সর্বজনীন অনুমানকারী, ওভার-ফিটিং ড্রপআউট, এল 2 নিয়মিতকরণ, এল 1 নিয়মিতকরণ, ব্যাচ-নরমালাইজেশন সহ পরিচালনা করা যায়। প্রশিক্ষণের গতি সাধারণভাবে সমস্যা হয় না যদি আমাদের কাছে কেবল 50,000 প্রশিক্ষণের উদাহরণ থাকে। এগুলি এলোমেলো বনগুলির চেয়ে পরীক্ষার সময়ে আরও ভাল।

সুতরাং কেন নয় - ডেটা পরিষ্কার করুন, নিখোঁজ মানগুলি যেমন আপনি করেন ঠিক তেমনই করেন না, তথ্যকে কেন্দ্র করে, তথ্যকে মানিক করে তোলেন, একে একটি লুকানো স্তরের সাথে নিউরাল নেটওয়ার্কের একটি ঝাঁকিতে ফেলে দিন এবং নিয়মিতকরণ প্রয়োগ করুন যতক্ষণ না আপনি কোনও অতিরিক্ত ফিট না দেখেন এবং তারপরে প্রশিক্ষণ দিন শেষ পর্যন্ত তাদের। গ্রেডিয়েন্ট বিস্ফোরণ বা গ্রেডিয়েন্ট নিখোঁজ হওয়ার কোনও সমস্যা নেই কারণ এটি মাত্র একটি 2 স্তরযুক্ত নেটওয়ার্ক। যদি গভীর স্তরগুলির প্রয়োজন হয়, তার অর্থ হায়ারার্কিকাল বৈশিষ্ট্যগুলি শিখতে হবে এবং তারপরে অন্যান্য মেশিন লার্নিং অ্যালগরিদমগুলিও ভাল নয়। উদাহরণস্বরূপ, এসভিএম হ'ল একমাত্র কব্জি ক্ষতি সহ একটি নিউরাল নেটওয়ার্ক।

উদাহরণস্বরূপ যেখানে অন্য কিছু মেশিন লার্নিং অ্যালগরিদম সতর্কতার সাথে নিয়মিত 2 স্তরযুক্ত (সম্ভবত 3?) নিউরাল নেটওয়ার্ককে ছাড়িয়ে যাবে appreciated আপনি আমাকে সমস্যার লিঙ্কটি দিতে পারেন এবং আমি যে সেরা নিউরাল নেটওয়ার্কটি করতে পারি তার প্রশিক্ষণ দেব এবং আমরা দেখতে পাচ্ছি যে 2 স্তরযুক্ত বা 3 স্তরের নিউরাল নেটওয়ার্ক অন্য কোনও বেঞ্চমার্ক মেশিন লার্নিং অ্যালগরিদমের চেয়ে কম পড়ে কিনা।


14
নিউরাল নেটওয়ার্কগুলি একটি মেশিন লার্নিং অ্যালগরিদম ...
ম্যাথু ড্রুরি

6
কিছু কিছু ডোমেইন অবশ্যই রয়েছে যেখানে গভীর শিক্ষাগুলি কিং হয়, যেমন চিত্রের স্বীকৃতি, তবে বেশিরভাগ ক্ষেত্রে তারা গ্রেডিয়েন্ট বুস্টিং দ্বারা আধিপত্য বয়ে চলেছে, যেমনটি কাগল প্রতিযোগিতার ফলাফলগুলি দেখার থেকে স্পষ্ট is
জেক ওয়েস্টফল 16

1
@ ম্যাথেজড্রুরি - সত্যই! পরিভাষায় লম্পট হওয়ার জন্য ক্ষমা চাইছি। আমি আশা করি যদিও বার্তাটি পৌঁছেছে। তবুও আরও শক্তিশালী হওয়ার জন্য প্রশ্নটি পরিবর্তন করা। নির্দেশ করার জন্য আপনাকে ধন্যবাদ
মিলোমিন্ডারবাইন্ডার

1
নেটওয়ার্কের গভীরতা সম্পর্কে, অবশ্যই এটি পরীক্ষা করে দেখুন: stats.stackexchange.com/questions/182734
জেএলডি

উত্তর:


31

প্রতিটি মেশিন লার্নিং অ্যালগরিদম পৃথক inductive পক্ষপাত আছে, তাই নিউরাল নেটওয়ার্ক ব্যবহার করা সবসময় উপযুক্ত নয়। একটি লিনিয়ার প্রবণতা সর্বদা ননলাইনার নেটওয়ার্কগুলির একটি জুড়ির পরিবর্তে সরল লিনিয়ার রিগ্রেশন দ্বারা ভালভাবে শিখতে হবে।

আপনি যদি চিত্র / ভিডিও ডেটা নিয়ে যে কোনও চ্যালেঞ্জ বাদ দিয়ে অতীতের কাগল প্রতিযোগিতার বিজয়ীদের দিকে একবার নজর দেন , আপনি খুব শীঘ্রই দেখতে পাবেন যে নিউরাল নেটওয়ার্কগুলি সমস্ত কিছুর সমাধান নয়। কিছু অতীত সমাধান এখানে।

যতক্ষণ না আপনি কোনও অতিরিক্ত-ফিটনেস না দেখে নিয়মিতকরণ প্রয়োগ করুন এবং তারপরে এগুলি শেষ পর্যন্ত প্রশিক্ষণ দিন

কোনও কিছু শেখার জন্য নেটওয়ার্কের সক্ষমতা সম্পূর্ণরূপে বিনষ্ট না করে আপনি ওভারফিটিং প্রতিরোধের জন্য পর্যাপ্ত নিয়মিতকরণ প্রয়োগ করতে পারবেন এমন কোনও গ্যারান্টি নেই। বাস্তব জীবনে ট্রেন-পরীক্ষার ব্যবধান দূর করা খুব কমই সম্ভব, এবং এজন্যই কাগজপত্রগুলি ট্রেন এবং পরীক্ষার কার্যকারিতা সম্পর্কে রিপোর্ট করে।

তারা সর্বজনীন অনুমানকারী

এটি কেবল সীমাহীন ইউনিটগুলির সীমাহীন সংখ্যার ক্ষেত্রেই সত্য, যা বাস্তবসম্মত নয়।

আপনি আমাকে সমস্যার লিঙ্ক দিতে পারেন এবং আমি যে সেরা নিউরাল নেটওয়ার্কটি করতে পারি তার প্রশিক্ষণ দেব এবং আমরা দেখতে পাচ্ছি যে 2 স্তরযুক্ত বা 3 স্তরের নিউরাল নেটওয়ার্ক অন্য কোনও বেঞ্চমার্ক মেশিন লার্নিং অ্যালগরিদমের চেয়ে কম পড়ে কিনা

একটি উদাহরণ সমস্যা যা আমি প্রত্যাশা করি একটি নিউরাল নেটওয়ার্ক কখনই সমাধান করতে সক্ষম হবে না: একটি পূর্ণসংখ্যা দেওয়া হয়, প্রাইম হিসাবে বা শ্রেণিবদ্ধ হিসাবে শ্রেণিবদ্ধ করা হয়।

আমি বিশ্বাস করি যে এটি একটি সাধারণ অ্যালগরিদম দিয়ে পুরোপুরি সমাধান করা যেতে পারে যা আরোহী দৈর্ঘ্যের সমস্ত বৈধ প্রোগ্রামগুলির উপরে পুনরাবৃত্তি করে এবং সংক্ষিপ্ততম প্রোগ্রামটি খুঁজে পায় যা সঠিকভাবে প্রধান সংখ্যাগুলি চিহ্নিত করে। প্রকৃতপক্ষে, এই 13 টি চরিত্রের রেজেক্স স্ট্রিংটি মূল সংখ্যার সাথে মেলতে পারে, যা অনুসন্ধানের জন্য নিরীক্ষামূলকভাবে জটিল হতে পারে না।


নিয়ন্ত্রণ নিয়ন্ত্রণের মাধ্যমে এমন একটি মডেল নিতে পারে যা তার প্রতিনিধিত্বমূলক শক্তিকে নিয়মিতকরণের মাধ্যমে মারাত্মকভাবে হ্যামস্ট্রং করে এমনটির চেয়ে বেশি বাড়ে? এর মাঝে কি সবসময় সেই মিষ্টি জায়গাটি থাকবে না?

হ্যাঁ, একটি মিষ্টি স্পট রয়েছে তবে আপনি অতিরিক্ত চাপ দেওয়া বন্ধ করার আগে এটি সাধারণত। এই চিত্রটি দেখুন:

http://gluon.mxnet.io/_images/regularization-overfitting.png

আপনি যদি আনুভূমিক অক্ষটি উল্টান এবং এটিকে "নিয়মিতকরণের পরিমাণ" হিসাবে পুনর্বিবেচনা করেন তবে এটি বেশ নির্ভুল - আপনি যদি কোনও মাত্রাতিরিক্ত চাপ না পাওয়া পর্যন্ত নিয়মিত করে থাকেন তবে আপনার ত্রুটি বিশাল হবে। "মিষ্টি স্পট" ঘটে যখন কিছুটা ওভারফিটিং থাকে তবে খুব বেশি হয় না।

কীভাবে 'সহজ অ্যালগরিদম যা সমস্ত বৈধ প্রোগ্রামগুলির উপরে আরোহণের দৈর্ঘ্যে পুনরাবৃত্তি করে এবং সংক্ষিপ্ততম প্রোগ্রামটি আবিষ্কার করে যা মূল সংখ্যাগুলি সঠিকভাবে সনাক্ত করে।' একটি অ্যালগরিদম যে শিখেছে?

θএইচ(θ)θ


সুতরাং যদি আমি আপনাকে সঠিকভাবে পাই তবে আপনি এই যুক্তিটি তৈরি করছেন যে যদি ডেটা যথেষ্ট পরিমাণে না হয় তবে গভীর নেটওয়ার্ক কখনই উভয়ের জন্য সেরা হাইপারপ্যারামিটারকে দেওয়া সর্বোত্তম অগভীর নেটওয়ার্কের বৈধতা যথার্থতাটিকে আঘাত করবে না?

হ্যাঁ. আমার বক্তব্যটি চিত্রিত করার জন্য এখানে একটি কুরুচিপূর্ণ তবে আশায় আশা করি কার্যকর চিত্র। https://i.imgur.com/nM3aI2l.png

তবে তা বোঝা যায় না। একটি গভীর নেটওয়ার্ক কেবল অগভীর উপরে 1-1 ম্যাপিং শিখতে পারে

প্রশ্নটি "এটি পারে" নয়, তবে "এটি করবে" এবং আপনি যদি ব্যাকপ্রোপেশন প্রশিক্ষণ দিচ্ছেন তবে উত্তর সম্ভবত তা নয়।

আমরা বৃহত্তর নেটওয়ার্কগুলি সর্বদা ছোট নেটওয়ার্কগুলির চেয়ে আরও ভাল কাজ করবে এ বিষয়টি নিয়ে আলোচনা করেছি

আরও যোগ্যতা ছাড়াই, এই দাবিটি ঠিক ভুল।


উত্তরের জন্য ধন্যবাদ! নিয়ন্ত্রণ নিয়ন্ত্রণের মাধ্যমে এমন একটি মডেল নিতে পারে যা তার প্রতিনিধিত্বমূলক শক্তিকে নিয়মিতকরণের মাধ্যমে মারাত্মকভাবে হ্যামস্ট্রং করে এমনটির চেয়ে বেশি বাড়ে? এর মাঝে কি সবসময় সেই মিষ্টি জায়গাটি থাকবে না?
মিলোমিন্ডারবাইন্ডার

আপনার খেলনা সমস্যা সম্পর্কিত। কীভাবে 'সহজ অ্যালগরিদম যা সমস্ত বৈধ প্রোগ্রামগুলির উপরে আরোহণের দৈর্ঘ্যে পুনরাবৃত্তি করে এবং সংক্ষিপ্ততম প্রোগ্রামটি আবিষ্কার করে যা মূল সংখ্যাগুলি সঠিকভাবে সনাক্ত করে।' একটি অ্যালগরিদম যে শিখেছে?
মিলোমিন্ডারবাইন্ডার

অনুগ্রহ করে CS231n লেকচার নোটগুলি নোট করুন - 'আমরা বৃহত্তর নেটওয়ার্কগুলি সর্বদা ছোট নেটওয়ার্কের চেয়ে ভাল কাজ করবে এই বিষয়টি নিয়ে আলোচনা করেছি তবে তাদের উচ্চতর মডেলটির দক্ষতা অবশ্যই দৃ stronger় নিয়মিতকরণের সাথে যথাযথভাবে মোকাবেলা করতে হবে (যেমন উচ্চতর ওজন ক্ষয়), বা তারা উপযোগী হতে পারে। আমরা পরবর্তী বিভাগগুলিতে নিয়মিতকরণের আরও ফর্মগুলি (বিশেষত ড্রপআউট) দেখতে পাব '' cs231n.github.io/neura-networks-1
মিলোমিন্ডারবাইন্ডার

@ ব্যবহারকারী46478 আমি উত্তরগুলি সম্পাদনা করে আপনার উপরের প্রশ্নগুলিকে সম্বোধন করেছি
শিমাও

'কোনও কিছুই শেখার নেটওয়ার্কের সক্ষমতা সম্পূর্ণরূপে বিনষ্ট না করে আপনি ওভারফিটিং প্রতিরোধের জন্য পর্যাপ্ত নিয়মিতকরণ প্রয়োগ করতে পারবেন এমন কোনও গ্যারান্টি নেই' ' - আমি দুঃখিত তবে আমি এখনও এই বক্তব্যটি বুঝতে পারি না। আমি প্রশিক্ষণের ডেটা গ্রহণ করি, {ট্রেন, ভাল} বিভাজক, আমার মেশিনটি অনুমতি দেয় বৃহত্তম নেটওয়ার্ক তৈরি করে, ড্রপ আউট সম্ভাবনা বৃদ্ধি করি যতক্ষণ না আমি বৈধতা ত্রুটিটি যে বৈধতা ত্রুটির মধ্যে ন্যূনতম দেখতে পাই যা আমি বিভিন্ন ড্রপআউট সম্ভাবনাগুলিতে পাচ্ছি। এই প্রক্রিয়াটি কোনও ভাল মডেলের মধ্য দিয়ে না গিয়ে ওভার-ফিটিত মডেল থেকে অকেজো হতে পারে?
মিলোমিন্ডারবাইন্ডার

11

আমি যুক্ত করব যে মেশিন লার্নিং প্যানাসিয়ার মতো জিনিস নেই:

দ্বারা কোন ফ্রি লাঞ্চ উপপাদ্য:

যদি একটি অ্যালগরিদম সমস্যাগুলির একটি নির্দিষ্ট শ্রেণীর উপর ভাল পারফর্ম করে তবে এটি অবশ্যই বাকী সমস্ত সমস্যার সেটটিতে অবনতিশীল পারফরম্যান্সের সাথে তার জন্য অর্থ প্রদান করে


এটি খুব হতাশাজনক (তবে চিন্তা করবেন না, আমি পরিণতি থেকে তর্ক করব না) ১. এটি পড়তে আমি বুঝতে পারি যে এটি শিখতে পারে এমন ফাংশনগুলির উপর একই বিতরণ সহ অ্যালগরিদম সম্পর্কে (যার অর্থ একই কো-ডোমেনটিও হবে)। সুতরাং স্নায়বিক নেটওয়ার্কগুলি কেবল সর্বজনীন অনুমানকারীদের তুলনায় করণীয় হতে পারে। ২. ফাংশন স্পেসটি কত দ্রুত অনুসন্ধান করা হয় সে সম্পর্কে এটি কথা বলে না। আমরা কি বলতে পারি যে 2 টি লুকানো স্তরযুক্ত একটি নিউরাল নেটওয়ার্ক প্রতিটি সমস্যার একটি লুকানো স্তর সহ একটি নিউরাল নেটওয়ার্কের সাথে প্রয়োজনীয় সমতুল্য বা উচ্চতর? আমি মনে করি ধারাবাহিকতার অনুমান এখানে অনেক কিছু করতে হবে
মিলো মাইন্ডারবাইন্ডার

যথাযথ হাইপারপ্যারামিটার টিউন করার সাথে দুটি গোপন স্তরের নিউরাল নেটওয়ার্ক ফাংশনগুলির মধ্য দিয়ে লাফিয়ে যায় যা একই গোপন স্তরের নিউরাল নেটওয়ার্কের চেয়ে দ্রুত একই ধরণের সহ-ডোমেনগুলি করে। আপনার ইনপুট?
মিলোমিন্ডারবাইন্ডার

1
'আমরা কি বলতে পারি যে 2 টি আড়াল স্তরযুক্ত একটি নিউরাল নেটওয়ার্ক প্রতিটি সমস্যার একটি লুকানো স্তর সহ একটি নিউরাল নেটওয়ার্কের সাথে সমতুল্য বা সমতুল্য'। না, দুর্ভাগ্যবশত না. একটি পাল্টা উদাহরণ হিসাবে, একটি লজিস্টিক রিগ্রেশন (শূন্য লুকায়িত স্তর সহ একটি এনএন) কল্পনা করুন একটি সম্পূর্ণভাবে পৃথকযোগ্য ডেটাসেটের জন্য ডেটাপয়েন্টগুলির সংখ্যার মতো লুকানো ইউনিটের সংখ্যা সহ 1 স্তরের নিউরাল নেটওয়ার্ক বনাম vs LR ক্যাপচার করতে পারে না এমন সিদ্ধান্তের সীমানা সম্পর্কে কোনও তথ্য নেই এবং উচ্চ জটিলতা এনএনও বেশি উপকার করতে পারে
user3684792

3
বিবৃতিটির সাথে এখানে সম্মত হন, তবে আমি উইকিপিডিয়া পৃষ্ঠা থেকে নেওয়া এনএফএল-তে মানক সতর্কতা যুক্ত করতে চেয়েছিলাম: "লক্ষ্য করুন যে সমস্ত সম্ভাব্য ফাংশনের অভিন্ন বিতরণ থেকে লক্ষ্য ফাংশনটি বেছে নেওয়া হলে এনএফএল কেবলমাত্র প্রযোজ্য"।
এমকেটি - মনিকা

1
@ ইউজার ৪78787878 আমি আপনার প্রশ্নের জবাবে এনএফএল উপপাদকের প্রাসঙ্গিকতার সাথে একমত হয়েছি "কেন এমন একটি গোপন স্তরযুক্ত নিউরাল নেটওয়ার্কগুলি মেশিন লার্নিংয়ের সমস্যায় অচেতন নয়?"
এমকেটি - মনিকা পুনরায় ইনস্টল করুন 4'18
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.