স্নায়ুবহুল নেটওয়ার্কগুলি আরও গভীরতর হয়ে উঠছে, তবে প্রশস্ত নয় কেন?


72

সাম্প্রতিক বছরগুলিতে, কনভ্যুশনাল নিউরাল নেটওয়ার্কগুলি (বা সম্ভবত গভীরভাবে নিউরাল নেটওয়ার্কগুলি) গভীর ও গভীরতর হয়েছে, অত্যাধুনিক নেটওয়ার্কগুলি 4 স্তরের স্থানে 7 স্তর ( অ্যালেক্সনেট ) থেকে 1000 স্তর ( অবশেষ জাল) পর্যন্ত চলেছে বছর। গভীর নেটওয়ার্ক থেকে কর্মক্ষমতা বাড়ানোর পেছনের কারণটি হ'ল আরও জটিল, অ-লিনিয়ার ফাংশন শেখা যায়। পর্যাপ্ত প্রশিক্ষণের ডেটা দেওয়া, এটি নেটওয়ার্কগুলিকে আরও সহজেই বিভিন্ন শ্রেণীর মধ্যে বৈষম্য তৈরি করতে সক্ষম করে।

তবে, প্রবণতাটি প্রতিটি স্তরের পরামিতিগুলির সংখ্যা অনুসরণ করে নি বলে মনে হচ্ছে। উদাহরণস্বরূপ, কনভ্যুশনাল স্তরগুলিতে বৈশিষ্ট্য মানচিত্রের সংখ্যা বা সম্পূর্ণ সংযুক্ত স্তরগুলিতে নোডের সংখ্যা মোটামুটি একইরূপে রয়েছে এবং স্তরের সংখ্যায় বৃহত্তর বৃদ্ধি থাকা সত্ত্বেও প্রস্থে অপেক্ষাকৃত ছোট small আমার অন্তর্নিহিততা থেকে যদিও এটি মনে হবে যে স্তর প্রতি পরামিতিগুলির সংখ্যা বৃদ্ধি প্রতিটি স্তরকে তথ্যের আরও সমৃদ্ধ উত্স দেবে যা থেকে এটির অ-রৈখিক ক্রিয়াকলাপটি শিখতে হবে; তবে এই ধারণাটি কেবলমাত্র আরও কয়েকটি স্তর যুক্ত করার পক্ষে উপেক্ষা করা হয়েছে বলে মনে হচ্ছে প্রতিটি সংখ্যক পরামিতি রয়েছে।

সুতরাং নেটওয়ার্কগুলি "গভীরতর" হয়ে উঠলেও তারা "বিস্তৃত" হয়ে উঠেনি। কেন?


1
+1 তবে সত্যি কথা বলতে গেলে, এই নয় যে এই 1000+ স্তরযুক্ত নেটওয়ার্কগুলি অন্যদেরকে ছাড়িয়ে যাওয়ার অর্থে "শিল্পের রাজ্য"। আপনি যার সাথে যুক্ত ছিলেন সেই আর্কসিভ পেপার ইমেজনেটে ​​বর্তমান বিজয়ী হিসাবে 152 স্তর সহ অবশিষ্টাংশের নেটওয়ার্কের প্রতিবেদন করেছে।
অ্যামিবা

3
আপনি কি বিস্তৃত অবলম্বন নেটওয়ার্কগুলি পড়েছেন arxiv.org/abs/1605.07146 .... সম্ভবত কোনও কারণ নেই.. গ্রেডিয়েন্ট বংশোদ্ভূত একটি উত্তম ক্রিয়াকলাপটি গ্রহণের কোনও তাত্ত্বিক ভিত্তি নেই ... কেবল বিচার আছে এবং প্রচুর ত্রুটি রয়েছে :-)
seanv507

@ seanv507 খুব আকর্ষণীয়, এই লিঙ্কের জন্য ধন্যবাদ। বিটিডাব্লু, এখানে একটি খুব সম্পর্কিত থ্রেড রয়েছে: stats.stackexchange.com/questions/214360 এবং সেখানে এই reddit থ্রেডের একটি লিঙ্ক রয়েছে।
অ্যামিবা


খুব খুব সম্পর্কিত: stats.stackexchange.com/questions/182734
অ্যামিবা

উত্তর:


87

অস্বীকৃতি হিসাবে, আমি আমার গবেষণায় স্নায়ু জাল নিয়ে কাজ করি, তবে আপনি সাধারণত আপনার গবেষণায় উদ্ধৃত গবেষণার প্রান্তে সত্যিকারের গভীর নেটওয়ার্কের চেয়ে তুলনামূলকভাবে ছোট, অগভীর নিউরাল নেট ব্যবহার করেন। আমি খুব গভীর নেটওয়ার্কগুলির উদ্দীপনা এবং অদ্ভুততাগুলির বিশেষজ্ঞ নই এবং আমি যে কারও কাছে পিছিয়ে দেব।

প্রথমত, নীতিগতভাবে, আপনার গভীর স্নায়বিক জালগুলির কোনও প্রয়োজন হওয়ার কোনও কারণ নেই। একটি মাত্র গোপন স্তর সহ যথেষ্ট প্রশস্ত নিউরাল নেটওয়ার্ক পর্যাপ্ত প্রশিক্ষণের ডেটা প্রদত্ত যে কোনও (যুক্তিসঙ্গত) ফাংশন আনুমানিক করতে পারে। তবে অত্যন্ত প্রশস্ত, অগভীর নেটওয়ার্ক ব্যবহারে কয়েকটি অসুবিধা রয়েছে। মূল সমস্যাটি হ'ল এই খুব প্রশস্ত, অগভীর নেটওয়ার্কগুলি মুখস্ত করার ক্ষেত্রে খুব ভাল তবে সাধারণীকরণে তেমন ভাল নয় । সুতরাং, আপনি যদি প্রতিটি সম্ভাব্য ইনপুট মান দিয়ে নেটওয়ার্কটিকে প্রশিক্ষণ দেন তবে একটি সুপার ওয়াইড নেটওয়ার্ক শেষ পর্যন্ত আপনার পছন্দসই আউটপুট মান মুখস্থ করতে পারে। তবে এটি কার্যকর নয় কারণ কোনও ব্যবহারিক প্রয়োগের জন্য আপনার প্রশিক্ষণের জন্য প্রতিটি সম্ভাব্য ইনপুট মান থাকবে না।

একাধিক স্তরগুলির সুবিধা হ'ল তারা বিমূর্ততার বিভিন্ন স্তরে বৈশিষ্ট্যগুলি শিখতে পারে । উদাহরণস্বরূপ, আপনি যদি চিত্রগুলিকে শ্রেণিবদ্ধ করার জন্য গভীর সমঝোতা সংক্রান্ত নিউরাল নেটওয়ার্ককে প্রশিক্ষণ দেন তবে দেখতে পাবেন যে প্রথম স্তরটি প্রান্তের মতো খুব বেসিক জিনিসগুলি সনাক্ত করতে প্রশিক্ষণ দেবে, পরের স্তরটি আকারের মতো প্রান্তগুলির সংগ্রহগুলি সনাক্ত করতে নিজে প্রশিক্ষণ দেবে স্তর চোখ বা নাকের মতো আকারের সংগ্রহগুলি সনাক্ত করতে নিজেকে প্রশিক্ষণ দেবে এবং পরবর্তী স্তরটি মুখের মতো আরও উচ্চতর ক্রম বৈশিষ্ট্যগুলি শিখবে। একাধিক স্তর সাধারণীকরণের ক্ষেত্রে আরও বেশি ভাল কারণ তারা কাঁচা ডেটা এবং উচ্চ-স্তরের শ্রেণিবিন্যাসের মধ্যবর্তী সমস্ত মধ্যবর্তী বৈশিষ্ট্যগুলি শেখে

সুতরাং এটি ব্যাখ্যা করে যে আপনি কেন খুব প্রশস্ত তবে অগভীর নেটওয়ার্কের চেয়ে গভীর নেটওয়ার্ক ব্যবহার করতে পারেন। তবে কেন খুব গভীর, খুব প্রশস্ত নেটওয়ার্ক নয়? আমার মনে হয় এর উত্তরটি হ'ল আপনি চান ভাল ফলাফল দেওয়ার জন্য আপনার নেটওয়ার্কটি যতটা সম্ভব ছোট হোক। আপনি নেটওয়ার্কটির আকার বাড়ানোর সাথে সাথে আপনি কেবলমাত্র আরও বেশি পরামিতিগুলি প্রবর্তন করছেন যা আপনার নেটওয়ার্কটি শিখতে হবে, এবং অতএব অত্যধিক মানসিকতার সম্ভাবনা বাড়িয়ে তুলছে। যদি আপনি খুব প্রশস্ত, খুব গভীর নেটওয়ার্ক তৈরি করেন তবে আপনি প্রতিটি স্তরটি আউটপুটটি কী চান তা কেবল মুখস্থ করার সুযোগটি চালান এবং আপনি একটি নিউরাল নেটওয়ার্ক দিয়ে শেষ করেন যা নতুন ডেটাতে সাধারণীকরণে ব্যর্থ হয়

Overfitting ভূত, ব্যাপকতর আপনার নেটওয়ার্ক ছাড়াও, আর এটি নিতে হবে প্রশিক্ষণের । ডিপ নেটওয়ার্কগুলি ইতিমধ্যে প্রশিক্ষণের জন্য খুব কম কম্পিউটারের জন্য ব্যয়বহুল হতে পারে, সুতরাং তাদের ভাল কাজ করার জন্য যথেষ্ট প্রশস্ত করার জন্য একটি শক্তিশালী প্রণোদনা রয়েছে তবে এর চেয়ে আরও বিস্তৃত নয়।


+1 টি। Arxiv.org/abs/1605.07146 এ সম্পর্কে কোনও মন্তব্য ?
অ্যামিবা

2
আমি কেবল এটি স্কিম করেছিলাম, তাই আমি প্রামাণ্য কিছু বলতে পারি না, তবে এটি লেখকদের মতো দেখে মনে হয় যে অব্যবহৃত নেটওয়ার্কগুলির ক্ষেত্রে কমপক্ষে একটি প্রশস্ত (তবে এখনও ১ 16 স্তর গভীর!) নেট একটি সংকীর্ণ, অত্যন্ত গভীর (১০০০ স্তর) ছাপিয়ে গেছে ) নেট। রেসিডুয়াল নেটওয়ার্কগুলি সম্পর্কে আমি খুব বেশি কিছু জানি না, তবে ভূমিকা অনুসারে মনে হয় যে তাদের প্রশিক্ষণে অসুবিধা হ'ল স্তরগুলি কিছুতেই না শিখার প্রবণতা থাকতে পারে এবং ফলস্বরূপ তেমন অবদান রাখে না। দেখে মনে হচ্ছে কম, তবে আরও শক্তিশালী, স্তরগুলি এড়িয়ে চলে। এটি অন্যান্য ধরণের এনএনগুলির ক্ষেত্রে প্রযোজ্য কিনা তা আমি জানি না।
জে ও ব্রায়ান আন্তোগনি

পরিষ্কার এবং সংক্ষিপ্ত উত্তর, ভাল সম্পন্ন। @ জে
সিটিওয়ার্ডি

21

আপনার প্রশ্নের সুনির্দিষ্ট উত্তর আছে বলে আমি মনে করি না। তবে আমি মনে করি প্রচলিত জ্ঞান নিম্নলিখিত হিসাবে চলেছে:

মূলত, শেখার অ্যালগরিদমের অনুমানের স্থানটি বাড়ার সাথে সাথে অ্যালগরিদম আরও সমৃদ্ধ এবং আরও সমৃদ্ধ কাঠামো শিখতে পারে। তবে একই সময়ে, অ্যালগরিদম অত্যধিক মানানসই প্রবণ হয়ে ওঠে এবং এর সাধারণীকরণের ত্রুটি বাড়ার সম্ভাবনা রয়েছে।

সুতরাং শেষ পর্যন্ত, কোনও প্রদত্ত ডেটাসেটের জন্য, ন্যূনতম মডেলটির সাথে কাজ করার পরামর্শ দেওয়া হয় যা ডেটার আসল কাঠামো শেখার পর্যাপ্ত ক্ষমতা রাখে। তবে এটি একটি খুব হস্ত-avyেউয়ের পরামর্শ, যেহেতু সাধারণত "ডেটার আসল কাঠামো" অজানা, এবং প্রায়শই প্রার্থী মডেলগুলির ক্ষমতা কেবল অস্পষ্টভাবে বোঝা যায়।

যখন নিউরাল নেটওয়ার্কগুলির কথা আসে তখন অনুমানের জায়গার আকার পরামিতিগুলির সংখ্যা দ্বারা নিয়ন্ত্রিত হয়। এবং দেখে মনে হচ্ছে একটি নির্দিষ্ট সংখ্যক প্যারামিটারের জন্য (বা প্রস্থের একটি নির্দিষ্ট ক্রম) আরও গভীরভাবে যাওয়া মডেলগুলিকে আরও সমৃদ্ধ কাঠামো (যেমন এই কাগজটি ) ক্যাপচার করতে দেয় ।

এটি কম প্যারামিটার সহ গভীর মডেলগুলির সাফল্যটিকে আংশিকভাবে ব্যাখ্যা করতে পারে: VGGNet (2014 থেকে) 16 140M পরামিতি সহ 16 স্তর রয়েছে, যখন রেসনেট (2015 থেকে) এটি 152 স্তর সহ পরাজিত করেছে তবে কেবলমাত্র 2M পরামিতি রয়েছে

(একটি দিক হিসাবে, ছোট মডেলগুলি প্রশিক্ষণ করা কম্পিউটারের পক্ষে আরও সহজ হতে পারে - তবে আমি মনে করি না যে এটি নিজেই একটি প্রধান কারণ - কারণ গভীরতা আসলে প্রশিক্ষণকে জটিল করে তোলে)

মনে রাখবেন যে এই প্রবণতা (আরও গভীরতা, কম পরামিতি) বেশিরভাগ দৃষ্টিভঙ্গি সম্পর্কিত কাজ এবং কনভোলজিকাল নেটওয়ার্কগুলিতে উপস্থিত থাকে এবং এটি একটি ডোমেন-নির্দিষ্ট ব্যাখ্যা প্রয়োজন calls সুতরাং এখানে অন্য দৃষ্টিকোণ:

কনভোলজিকাল স্তরের প্রতিটি "নিউরন" এর একটি "গ্রহনযোগ্য ক্ষেত্র" থাকে, যা প্রতিটি আউটপুটকে প্রভাবিত করে এমন ইনপুটগুলির আকার এবং আকার। স্বজ্ঞাতভাবে, প্রতিটি কার্নেল কাছাকাছি ইনপুটগুলির মধ্যে এক ধরণের সম্পর্ককে ক্যাপচার করে। এবং ছোট কার্নেলগুলির (যা সাধারণ এবং পছন্দসই) একটি ছোট গ্রহণযোগ্য ক্ষেত্র রয়েছে, তাই তারা কেবল স্থানীয় সম্পর্ক সম্পর্কিত তথ্য সরবরাহ করতে পারে।

তবে আপনি আরও গভীরতর হতে গেলে, কিছু পূর্বের স্তরের সাথে প্রতিটি নিউরনের গ্রহণযোগ্য ক্ষেত্রটি আরও বড় হয়। কেবলমাত্র ছোট ছোট কার্নেল ব্যবহার করে (যা নেটওয়ার্ক শিখেছে সম্পর্কগুলিকে নিয়মিত করে তোলে এবং এটি রূপান্তরিত করতে এবং সাধারণীকরণে সহায়তা করে) তাই গভীর স্তরগুলি বিশ্বব্যাপী শব্দার্থক অর্থ এবং বিমূর্ত বিশদগুলি (সম্পর্কের সম্পর্কগুলি ... অবজেক্টের সম্পর্কের সাথে সম্পর্কিত বৈশিষ্ট্য) সরবরাহ করতে পারে।

সুতরাং কম্পিউটার দর্শনে গভীর সমঝোতা নেটওয়ার্কগুলির কার্যকারিতা চিত্র এবং ভিডিওগুলির স্থানিক কাঠামো দ্বারা আংশিকভাবে ব্যাখ্যা করা যেতে পারে। এটি সম্ভব যে সময়টি বলে দেবে যে বিভিন্ন ধরণের সমস্যার জন্য, বা অবিশ্বাস্য আর্কিটেকচারের জন্য, গভীরতা আসলে ভালভাবে কাজ করে না।


ডিপ নেটওয়ার্কগুলির সীমাবদ্ধ বল্টজম্যান মেশিন অংশটি কনভার্জেন্স সময় একটি বৃহত গুণক। (afaict)
এনজিস্টারস্টুডেন্ট

4
আরবিএমগুলি গভীর শিক্ষার অন্তর্নিহিত নয়। অনেকগুলি (আজকাল, বেশিরভাগ?) সফল গভীর নেটওয়ার্ক আরবিএম ব্যবহার করে না।
বোরবেই

3
এই কাগজের সাথে লিঙ্ক করার জন্য ধন্যবাদ, আমি এটি আগে দেখিনি এবং এটি খুব প্রাসঙ্গিক বলে মনে হচ্ছে।
জে ও ব্রায়ান আন্তোগনি 21

@ বরবেই - আরবিএম ছাড়াই তারা কীভাবে বৈশিষ্ট্যগুলি পৃথকীকরণের আশ্বাস দেয়?
এনগ্রিস্টুডেন্ট

1
+1 টি। Arxiv.org/abs/1605.07146 এ সম্পর্কে কোনও মন্তব্য ?
অ্যামিবা

10

আরও বৈশিষ্ট্য যুক্ত করা সাহায্য করে তবে প্রচুর বৈশিষ্ট্য যুক্ত হওয়ার পরে সুবিধাটি দ্রুত প্রান্তিক হয়ে যায়। পিসিএ-এর মতো সরঞ্জামগুলি কাজ করার এক কারণ এটি : কয়েকটি উপাদান বৈশিষ্ট্যগুলির মধ্যে সবচেয়ে বৈচিত্র্য ক্যাপচার করে। সুতরাং, কিছু পয়েন্টের পরে আরও বৈশিষ্ট্য যুক্ত করা প্রায় অকেজো।

অন্যদিকে বৈশিষ্ট্যের মা এর জন্য সঠিক ক্রিয়াকলাপ সন্ধান করা সর্বদা একটি ভাল ধারণা is তবে, আপনার যদি একটি ভাল তত্ত্ব না থাকে তবে অবশ্যই একটি সঠিক ফাংশন নিয়ে আসা শক্ত। সুতরাং, স্তর সংযোজন একটি ব্রুট ফোর্স পদ্ধতির ফর্ম হিসাবে সহায়ক।

একটি সাধারণ কেস বিবেচনা করুন: একটি গাড়ির বায়ু টানুন । বলুন, আমরা সমীকরণ জানতাম না: যেখানে - একটি গাড়ির একটি crossectional এলাকা, - বায়ু ঘনত্ব, এবং - একটি গাড়ী বেগ। আমরা সনাক্ত করতে পারি যে গাড়ী পরিমাপ গুরুত্বপূর্ণ এবং এগুলি বৈশিষ্ট্য হিসাবে যুক্ত করতে পারি, একটি গাড়ির গতিবেগও খুব বেশি। সুতরাং আমরা বৈশিষ্ট্যগুলি যোগ করতে থাকি এবং সম্ভবত বায়ুচাপ, তাপমাত্রা, দৈর্ঘ্য, গাড়ির প্রস্থ, আসন সংখ্যা ইত্যাদি যোগ করতে পারি

fCρAv2/2
Aρv

আমরা মতো মডেলটি শেষ করব আপনি দেখতে পাবেন যে এই বৈশিষ্ট্যগুলি কীভাবে "সত্য" সমীকরণে নিজেকে একত্রিত করবে না যতক্ষণ না আমরা সমস্ত মিথস্ক্রিয়া এবং বহুবচন যোগ করি। তবে, সত্যিকারের সমীকরণটি যদি সুবিধামত বহুত্ববাদী না হয়, তবে বলুন যে এটিতে এক্সপোশন বা অন্যান্য অদ্ভুত ট্রান্সসেন্টাল ফাংশন রয়েছে, তবে আমাদের বৈশিষ্ট্য সেট বাড়িয়ে বা নেটওয়ার্ক প্রশস্ত করার সাথে এটি অনুকরণ করার কোনও সুযোগই থাকত না।

fiβixi

তবে নেটওয়ার্কটিকে আরও গভীরতর করা আপনাকে কেবল মাত্র দুটি স্তর সহ উপরের সমীকরণে সহজেই নিয়ে যেতে পারে। আরও জটিল ক্রিয়াকলাপগুলিতে আরও স্তর প্রয়োজন হবে, এ কারণেই স্তরগুলির সংখ্যা আরও গভীর করা অনেক সমস্যায় যাওয়ার উপায় হতে পারে।


5
আপনি লিনিয়ার ট্রান্সফার ফাংশন ধরে নিবেন। তবে আরও অনেকগুলি (সাধারণ) পছন্দ রয়েছে, এবং এএনএনগুলির সর্বজনীন আনুমানিক উপপাদ্য অনুসারে , এমনকি একটি একক লুকানো অ-লিনিয়ার স্তর (এটি যথেষ্ট প্রশস্ত থাকলে) কোনও সুন্দর ফাংশন আনুমানিক করতে পারে। সুতরাং প্রতিনিধিত্বযোগ্যতা সত্যই গভীর নেটওয়ার্কগুলির সাফল্যের ব্যাখ্যা দিতে পারে না।
বোরবেই

2
আমার উদাহরণটি লিনিয়ার ছিল তবে এটি ক্ষেত্রে বিস্তৃত সেটগুলির ক্ষেত্রে প্রযোজ্য। আপনি "সুন্দর" ফাংশন ধরে নিয়েছেন তবে অনেকেই এত সুন্দর হন না। উদাহরণস্বরূপ যখন আমি কেনার জন্য কোনও গাড়ি নির্বাচন করি তখন কেন আমার সিদ্ধান্তের অ্যালগরিদমটি একটি দুর্দান্ত ফাংশন হবে?
আকসকল

2

গভীরতা একটি ঘন সংযুক্ত নিউরাল নেট জন্য এবং প্রস্থ , পরামিতি সংখ্যা (অত: পর, চালানো বা নেটওয়ার্ক প্রশিক্ষণের প্রয়োজনীয় র্যাম) হল । সুতরাং, যদি আপনার কাছে কেবলমাত্র সীমিত সংখ্যক প্যারামিটার থাকে তবে প্রায়শই প্রস্থের একটি সামান্য বর্ধনের চেয়ে গভীরতার বৃহত বৃদ্ধিকে পছন্দ করা বোধগম্য হয়।dwO(dw2)

আপনি কেন প্যারামিটারের সংখ্যা সীমাবদ্ধ করার চেষ্টা করছেন? বিভিন্ন কারণ:

  • আপনি ওভারফিটিং এড়ানোর চেষ্টা করছেন। (যদিও প্যারামিটারের সংখ্যা সীমাবদ্ধ করা এটি অর্জনের জন্য খুব কট্টর একটি যন্ত্র))
  • আপনার গবেষণাটি আরও চিত্তাকর্ষক যদি আপনি একই সংখ্যার পরামিতি ব্যবহার করে অন্য কারও মডেলকে ছাড়িয়ে যেতে পারেন।
  • আপনার মডেলটিকে প্রশিক্ষণ দেওয়া আরও সহজ যদি মডেল (প্লাস মুহুর্তের প্যারামগুলি যদি আপনি অ্যাডাম ব্যবহার করছেন) কোনও একক জিপিইউর স্মৃতিতে ফিট করতে পারে।
  • বাস্তব জীবনের অ্যাপ্লিকেশনগুলিতে, মডেলগুলি পরিবেশন করার সময় র্যাম প্রায়শই ব্যয়বহুল। এটি বিশেষত সেল ফোনে মডেলগুলি চালনার ক্ষেত্রে বিশেষভাবে সত্য, তবে কখনও কখনও ক্লাউড থেকে মডেলগুলি পরিবেশন করার জন্যও এটি প্রয়োগ করতে পারে।

কোথায় থেকে এসেছে? প্রস্থের দুটি প্রতিবেশী স্তরগুলির জন্য তাদের মধ্যে সংযোগগুলি একটি দ্বারা বর্ণিত । সুতরাং আপনার যদি প্রস্থের স্তর রয়েছে (প্লাস একটি ইনপুট এবং আউটপুট স্তর), প্যারামিটারের সংখ্যা the প্রস্থকে সীমাবদ্ধ না করে কখনও কখনও ব্যবহৃত বিকল্প বিকল্পটি স্পর্শ সংযোগগুলি ব্যবহার করা হয়। উদাহরণস্বরূপ, নেটওয়ার্ক টপোলজি শুরু করার সময়, আপনি সম্ভাব্যতা with সহ প্রতিটি সংযোগ স্বীকার করতে পারেন সুতরাং পরামিতিগুলির মোট সংখ্যা হ'লw 1 , w 2 w 1 × w 2 ( d - 2 ) w ( d - 2 ) w 2 + w ( ইনপুট স্তর প্রস্থ ) + w ( আউটপুট স্তর প্রস্থ ) = ( ডি ডাব্লু) 2 ) 1 / O(dw2)w1,w2w1×w2(d2)w

(d2)w2+w(input layer width)+w(output layer width)=O(dw2).
(ডিডাব্লু)1/wO(dw)। তবে আপনি যদি এটি করেন তবে এটি স্পষ্ট নয় যে প্রস্থ বৃদ্ধি করা অগত্যা শিখার জন্য মডেলটির ক্ষমতা বাড়িয়ে তুলবে।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.