আমি মন্তব্যগুলিতে যেমন লিখেছি, এই প্রশ্নটি আমার কাছে খুব বিস্তৃত মনে হলেও আমি একটি উত্তর দেওয়ার চেষ্টা করব। কিছু সীমানা নির্ধারণ করার জন্য, আমি একটি সামান্য গণিত দিয়ে শুরু করব যা বেশিরভাগ এমএলকে অন্তর্ভুক্ত করে, এবং তারপরে ডিএল-এর সাম্প্রতিক ফলাফলগুলিতে মনোনিবেশ করব।
পক্ষপাত-ভ্যারিয়েন্স ট্রেড বন্ধ , অগণিত বই, কোর্স, MOOCs, ব্লগ, টুইট, প্রভৃতি এমএল সালে উল্লেখ করা হয় তাই আমরা উল্লেখ ছাড়া শুরু করতে পারে না:
E[(Y−f^(X))2|X=x0]=σ2ϵ+(Ef^(x0)−f(x0))2+E[(f^(x0)−Ef^(x0))2]=Irreducible error + Bias2 + Variance
এখানে প্রমাণ: https://web.stanford.edu/~hastie/ElemStatLearn/
গাউস-মার্কভ উপপাদ্য (হ্যাঁ, রৈখিক রিগ্রেশনের মেশিন লার্নিং একটি গুরুত্বপূর্ণ অংশ থাকবে, কোন কি কোন ব্যাপার: এটা সঙ্গে চুক্তি) সুস্পষ্ট যখন রৈখিক মডেল সত্য এবং ত্রুটি পদের উপর কিছু অনুমান, বৈধ OLS ঔজ্জ্বল্যের প্রেক্ষাপটে যে, সর্বনিম্ন হয়েছে বর্গক্ষেত্রের ত্রুটি (যা উপরের মত প্রকাশের ক্ষেত্রে কেবল Bias2 + Variance ) কেবল লিনিয়ার মডেলের নিরপেক্ষ লিনিয়ার অনুমানকারীগুলির মধ্যে। সুতরাং পক্ষপাত (বা অ-লাইনার অনুমানকারী) সহ রৈখিক অনুমানকগুলি থাকতে পারে যার একটি ভাল গড় বর্গ ত্রুটি রয়েছে, এবং এইভাবে ওএলএসের চেয়ে আরও ভাল প্রত্যাশিত পূর্বাভাস ত্রুটি। এবং এটি সমস্ত নিয়মিতকরণ অস্ত্রাগার (রিজ রিগ্রেশন, ল্যাসো, ওজন ক্ষয় ইত্যাদি) এর পথ প্রশস্ত করে যা এমএল এর একটি ওয়ার্কসওয়ার্স। এখানে একটি প্রমাণ দেওয়া হয়েছে (এবং অন্যান্য বইগুলিতে):
https://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467
নিয়মিতকরণের পদ্ধতির বিস্ফোরণের সাথে সম্ভবত আরও প্রাসঙ্গিক, যেমন মন্তব্যগুলিতে কার্লোস সিনেলি উল্লেখ করেছিলেন এবং এটি সম্পর্কে আরও মজাদার বিষয়গুলি হ'ল জেমস-স্টেইন উপপাদ্য । n স্বতন্ত্র, একই বৈকল্পিক বিবেচনা করুন তবে একইভাবে নয় গাউসিয়ান এলোমেলো পরিবর্তনগুলি:
Xi|μi∼N(θi,σ2),i=1,…,n
অন্য কথায়, আমাদের একটি n− উপাদান রয়েছে গাউসিয়ান র্যান্ডম ভেক্টর । আমরা এক নমুনা আছে থেকে এবং আমরা অনুমান করতে চান । MLE (এবং UMVUE) মূল্নির্ধারক স্পষ্টত হয় । জেমস-স্টেইন অনুমানকারী বিবেচনা করুনX∼N(θ,σ2I)xXθθ এম এল ই = এক্সθ^MLE=x
θ^JS=(1−(n−2)σ2||x||2)x
স্পষ্টতই, যদি , the এমএলই অনুমানটি শূন্যের দিকে সঙ্কুচিত করে। জেমস-স্টেইন উপপাদ্য বলে যে জন্য , কঠোরভাবে প্রাধান্য পায় নিম্ন MSE, অর্থাত্, এটা আছে । চেপে আশ্চর্যরূপে, এমনকি যদি আমরা অন্য কোনও ধ্রুবক নেট q ম্যাথবিএফ , এখনও আধিপত্য বিস্তার করে । যেহেতু(n−2)σ2≤||x||2θ জে এস এন ≥ 4 θ জে এস θ এম এল ই ∀ θ গ ≠ 0 θ জে এস θ এম এল ই এক্স আমিθ^JS n≥4θ^JS θ^MLE∀ θc≠0θ^JSθ^MLEXiস্বতন্ত্র, এটি অদ্ভুত বলে মনে হতে পারে যে, স্পেনে উত্পাদিত আপেলের সংখ্যা থেকে একটি নমুনা সহ তিনটি অপ্রাসঙ্গিক ব্যক্তির উচ্চতা অনুমান করার চেষ্টা করার সময়, আমাদের গড় অনুমানকে উন্নতি করতে পারে । এখানে মূল পয়েন্টটি "গড়": প্যারামিটার ভেক্টরের সমস্ত উপাদানগুলির একযোগে অনুমানের জন্য গড় বর্গ ত্রুটিটি ছোট তবে এক বা একাধিক উপাদানগুলির জন্য বর্গীয় ত্রুটিটি আরও ভাল হতে পারে, এবং প্রকৃতপক্ষে এটি প্রায়শই হয় আপনার "চরম" পর্যবেক্ষণ আছে।
এমএলই, যা প্রকৃতপক্ষে আনুপাতিক অনুমানের ক্ষেত্রে "অনুকূল" অনুমানকারী ছিল, বহুবিধ অনুমানের জন্য ক্ষয়ক্ষতি হয়েছিল, সে সময়টি বেশ ধাক্কা খেয়েছিল এবং সংকোচনের ক্ষেত্রে ব্যাপক আগ্রহের দিকে পরিচালিত করেছিল, এটি এমএল পার্লেন্সে নিয়মিতকরণ হিসাবে পরিচিত known মিশ্র মডেলগুলির সাথে "sণ গ্রহণের শক্তি" ধারণাটির সাথে কেউ কিছু মিল খুঁজে নিতে পারে: এখানে কিছুটা সংযোগ আছে, এখানে আলোচনা করা হয়েছে
সংকোচনের উপর একীভূত দৃষ্টিভঙ্গি: স্টেইনের প্যারাডক্স, রিজ রিগ্রেশন এবং মিশ্র মডেলগুলিতে এলোমেলো প্রভাবের মধ্যে কী সম্পর্ক (যদি থাকে)?
তথ্যসূত্র: জেমস, ডাব্লু।, স্টেইন, সি।, চতুর্ভুজ হ্রাসের সাথে অনুমান । গাণিতিক পরিসংখ্যান ও সম্ভাবনার উপর চতুর্থ বার্কলে সিম্পোসিয়ামের কার্যক্রম, খণ্ড ১: পরিসংখ্যানের তত্ত্বের অবদান, ৩1১-3737৯, ক্যালিফোর্নিয়া প্রেস বিশ্ববিদ্যালয়, বার্কলে, ক্যালিফোর্নিয়া, ১৯61১
অধ্যক্ষ উপাদান উপাদান বিশ্লেষণ মাত্রা হ্রাসের গুরুত্বপূর্ণ বিষয়টির মূল চাবিকাঠি, এবং এটি একক মান মূল্য পচনের উপর ভিত্তি করে : প্রতিটি রিয়েল ম্যাট্রিক্স (যদিও উপপাদ্য জটিল ম্যাট্রিকগুলিতে সহজেই জেনারেলাইজড হয়) আমরা লিখতে পারিN×pX
X=UDVT
যেখানে আকারের লম্ব হয়, একটি হল নন-নেগেটিভ তির্যক উপাদান এবং সঙ্গে তির্যক ম্যাট্রিক্স আকারের আবার লম্ব হয়। কীভাবে এটি গণনা করা যায় তার প্রমাণ এবং অ্যালগরিদমগুলির জন্য: গোলুব, জি, এবং ভ্যান লোন, সি (1983), ম্যাট্রিক্স গণনা , জন হপকিন্স বিশ্ববিদ্যালয় প্রেস, বাল্টিমোর।UN×pDp×pUp×p
মার্সার এর উপপাদ্য পাতলা প্লেট splines, সমর্থন ভেক্টর মেশিন, একটি গসিয়ান র্যান্ডম প্রক্রিয়ার Kriging অনুমান, ইত্যাদি মূলত, তথাকথিত পিছনে দুই উপপাদ্য এগুলির মধ্যে একটি: বিভিন্ন এমএল পদ্ধতি অনেক জন্য প্রতিষ্ঠা পাথর কার্নেল কৌতুক । যাক একটি symmmetric একটানা ফাংশান বা কার্নেল হও। যদি ইতিবাচক অর্ধ-চূড়ান্ত হয়, তবে এটি অ-নেজিটিভ ইগেনভ্যালুগুলির সাথে সম্পর্কিত ইগেনফুনেশনের একটি গোঁড়া ভিত্তিকে স্বীকার করে:K(x,y):[a,b]×[a,b]→RK
K(x,y)=∑i=1∞γiϕi(x)ϕi(y)
এমএল তত্ত্বের জন্য এই উপপাদ্যটির গুরুত্বটি বিখ্যাত গ্রন্থগুলিতে যেমন উল্লেখযোগ্য উল্লেখ পাওয়া যায়, যেমন গাসু প্রসেসের উপর রাসমুসেন এবং উইলিয়ামস পাঠ্য হিসাবে প্রমাণিত হয় ।
তথ্যসূত্র: জে মেরার, ইতিবাচক এবং নেতিবাচক ধরণের কার্যাদি এবং অবিচ্ছেদ্য সমীকরণের তত্ত্বের সাথে তাদের সংযোগ। লন্ডনের রয়্যাল সোসাইটির দার্শনিক লেনদেন। সিরিজ এ, একটি গাণিতিক বা শারীরিক চরিত্রের কাগজগুলি রয়েছে, 209: 415-446, 1909
1982-র কনারি জারজেনস, লিনিয়ার ইন্টিগ্রাল অপারেটর , পিটম্যান, বোস্টন, এ আরও সহজ উপস্থাপনা রয়েছে ।
অন্যান্য উপপাদ্য, যা মার্সারের উপপাদ্যের সাথে একসাথে, কার্নেল ট্রিকের তাত্ত্বিক ভিত্তি তৈরি করে, তা হল উপস্থাপক উপপাদ্য । ধরুন আপনি একটি নমুনা রাখার মতো স্থান রয়েছে এবং একটি প্রতিসম ইতিবাচক semidefinite কার্নেল । এছাড়াও সাথে যুক্ত হতে দিন । শেষ অবধি, একটি প্রশিক্ষণের নমুনা হয়ে উঠুক। উপপাদ্য বলেছেন সব ফাংশন মধ্যে , 'শাস্ত্রে সমস্ত eigenfunctions পরিপ্রেক্ষিতে অসীম উপস্থাপনা মানাXK:X×X→RHKKS={xi,yi}ni=1f∈HKKমার্সারের উপপাদ্যের কারণে, নিয়মিত ঝুঁকি হ্রাসকারী একের সর্বদা ট্রেনিং পয়েন্টগুলিতে মূল্যায়িত কর্নেল দ্বারা গঠিত ভিত্তিতে সীমাবদ্ধ প্রতিনিধিত্ব থাকে , অর্থাৎn
minf∈HK∑i=1nL(yi,f(xi))+λ||f||2HK=min{cj}∞1∑i=1nL(yi,∑j∞cjϕj(xi))+λ∑j∞c2jγj=∑i=1nαiK(x,xi)
(উপপাদ্যটি সর্বশেষ সমতা)। তথ্যসূত্র: ওয়াহবা, জি 1990, স্প্লাইন মডেল ফর অবজারভেশনাল ডেটা , এসআইএএম, ফিলাডেলফিয়া।
সার্বজনীন পড়তা উপপাদ্য ইতিমধ্যে ব্যবহারকারী Tobias Windisch উদ্ধৃত করেছেন এবং তুলনায় এটি ক্রিয়ামূলক বিশ্লেষণ হয় অনেক কম মেশিন লার্নিং প্রাসঙ্গিক হয়, যদিও তা একটি প্রথম নজরে, যাতে মনে নাও হতে পারে। সমস্যাটি হল যে উপপাদ্যটি কেবল বলেছেন যে এই জাতীয় নেটওয়ার্ক বিদ্যমান, কিন্তু:
- এটি গোপন স্তরের এর আকার এবং লক্ষ্য ফাংশন এর জটিলতার কিছু পরিমাপের মধ্যে কোনও সম্পর্ক দেয় না যেমন উদাহরণস্বরূপ মোট পৃথককরণ। তাহলে এবং একটি নির্দিষ্ট ত্রুটির জন্য প্রয়োজনীয় growed ব্যাখ্যা মূলকভাবে সঙ্গে , তারপর একক লুকানো স্তর নিউরাল নেটওয়ার্কগুলি অকেজো হবে।Nf(x)f(x)=sin(ωx):[0,2π]→[−1,1]Nϵω
- এটা বলে না যদি নেটওয়ার্ক হয় learnable । অন্য কথায় ধরে নেওয়া যে এবং প্রদত্ত , আমরা জানি যে একটি আকার NN হাইপারকিউবে প্রয়োজনীয় সহনশীলতার সাথে আনুমানিক করবে । তারপর আকার প্রশিক্ষণ সেট ব্যবহার করে ধরনের একটি উদাহরণ ব্যাক ঠেকনা জন্য এবং একটি শেখার পদ্ধতি, আমরা কোনো নিশ্চয়তা বাড়িয়ে আছে আমরা পুনরুদ্ধার করতে পারেন ?F(x)fϵNfMMF
- অবশেষে এবং সর্বোপরি সবচেয়ে খারাপ এটি নিউরাল নেটওয়ার্কগুলির পূর্বাভাস ত্রুটি সম্পর্কে কিছুই বলে না। আমরা কি সত্যিই আগ্রহী হন ভবিষ্যদ্বাণী ত্রুটির একটি অনুমান অন্তত আকারের সব প্রশিক্ষণ করা সংকলনের গড় করা হয়, । উপপাদ্য এই ক্ষেত্রে সাহায্য করে না।M
এই উপপাদ্যের হর্নিকের সংস্করণ সহ একটি ছোট ব্যথার বিন্দুটি হ'ল এটি আরএলইউ অ্যাক্টিভেশন ফাংশনের জন্য ধারণ করে না। যাইহোক, বার্টলেট একটি বর্ধিত সংস্করণ প্রমাণ করেছে যা এই ফাঁকটি জুড়ে।
এখন অবধি, আমি অনুমান করি যে সমস্ত তত্ত্বগুলি আমি বিবেচনা করেছি কারও কাছে সুপরিচিত ছিল। সুতরাং এখন মজাদার জিনিসগুলির জন্য সময় এসেছে :-) আসুন কয়েকটি ডিপ লার্নিং উপপাদ্যগুলি দেখুন:
অনুমিতি:
- গভীর স্নায়ুর নেটওয়ার্ক (স্থির জন্য , এবং নিয়মিতকরণ ক্ষতি ফাংশন যা তার আউটপুট সঙ্গে স্নায়ুর নেটওয়ার্ক এর ইনপুট সহযোগীদের হয়) উভয় অঙ্কের হয় ইতিবাচক একই ডিগ্রির একজাতীয় ফাংশনΦ(X,W)WΦW(X)Θ(W)
- ক্ষতির ক্রিয়াকলাপটি উত্তল এবং একসময় মধ্যে পৃথক , একটি কমপ্যাক্ট সেটL(Y,Φ(X,W)XS
তারপর:
- কোনও স্থানীয় সর্বনিম্ন যেমন একটি subnetwork যে শূন্য ওজন আছে, একটি বিশ্বব্যাপী সর্বনিম্ন হবে ( উপপাদ্য 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
- একটি সমালোচনামূলক নেটওয়ার্ক আকারের উপরে, স্থানীয় বংশোদ্ভূত সর্বদা কোনও সূচনা থেকে বিশ্ব ন্যূনতম সর্বনিম্নে রূপান্তরিত হবে ( উপপাদ্য 2 )।
এটি অত্যন্ত আকর্ষণীয়: সিএনএনগুলি কেবলমাত্র কনভলুশনাল স্তরগুলি তৈরি করে, আরএলইউ, সর্বাধিক পুলিং, সম্পূর্ণ সংযুক্ত আরএলইউ এবং লিনিয়ার স্তরগুলি ইতিবাচক একজাতীয় ফাংশন, যদি আমরা সিগময়েড অ্যাক্টিভেশন ফাংশন অন্তর্ভুক্ত করি তবে এটি আর সত্য নয়, যা আংশিকভাবে উচ্চতরটি ব্যাখ্যা করতে পারে সিগময়েডের সাথে সম্মতিতে রিলু + সর্বাধিক পুলিংয়ের কিছু অ্যাপ্লিকেশনে পারফরম্যান্স। তাত্ত্বিক বিষয়গুলি কেবল তখনই ধরে রাখে হিসাবে একই ডিগ্রির ইতিবাচকভাবে সমজাতীয় । এখন, মজাদার ঘটনাটি হল যে বা নিয়মিতকরণ, যদিও ইতিবাচকভাবে সমজাতীয়, (ডিগ্রি ডিগ্রিΘWΦl1l2ΦΦ, পূর্বে উল্লিখিত সাধারণ সিএনএন ক্ষেত্রে স্তরগুলির সংখ্যা বৃদ্ধি পায়)। পরিবর্তে, আরও আধুনিক নিয়মিতকরণ পদ্ধতি যেমন ব্যাচের সাধারণকরণ এবং পাথ-এসজিডি একই ডিগ্রির positive হিসাবে ইতিবাচক একজাতীয় নিয়মিতকরণ ফাংশনের সাথে সামঞ্জস্য করে এবং ড্রপআউট, যখন এই কাঠামোটি ঠিকঠাক ফিট করে না, এটির সাথে দৃ strong় মিল রয়েছে। এটি ব্যাখ্যা করতে পারে যে, সিএনএনগুলির সাথে উচ্চতর নির্ভুলতা পেতে, এবং নিয়মিতকরণ পর্যাপ্ত নয়, তবে আমাদের ড্রপআউট এবং ব্যাচের সাধারণকরণের মতো সমস্ত ধরণের শয়তানী কৌশল ব্যবহার করা দরকার! আমার জ্ঞানের সর্বোপরি, এটি ব্যাচের সাধারণকরণের কার্যকারিতার ব্যাখ্যাটির নিকটতম বিষয়, যা অন্যথায় অত্যন্ত অস্পষ্ট, যেমনটি আলাপে রহিমি তাঁর বক্তৃতায় সঠিকভাবে উল্লেখ করেছিলেন।Φl1l2
থিওরেম 1 এর উপর ভিত্তি করে কিছু লোক যে অন্য পর্যবেক্ষণ করে তা হ'ল এটি মৃত নিউরনের সমস্যা এমনকি RLU কেন ভালভাবে কাজ করে তা ব্যাখ্যা করতে পারে । এই অন্তর্দৃষ্টি অনুসারে, সত্য যে, প্রশিক্ষণের সময় কিছু রিলু নিউরন "মরে" (শূন্য অ্যাক্টিভেশনে যান এবং এরপরে আর কখনই পুনরুদ্ধার করবেন না, কারণ এর জন্য রেএলইউর গ্রেডিয়েন্ট শূন্য হয়) "একটি বৈশিষ্ট্য, কোনও বাগ নয় ", কারণ যদি আমরা একটি সর্বনিম্নে পৌঁছেছি এবং একটি সম্পূর্ণ সাবনেট ওয়ার্ক মারা গেছে, তবে আমরা সম্ভাব্য একটি সর্বনিম্ন ন্যূনতম পৌঁছে গেছি ( থিওরিম 1 এর অনুমানের অধীনেx<0)। আমি কিছু মিস করছি, তবে আমি মনে করি এই ব্যাখ্যাটি সুদূরপ্রসারী। প্রথমত, প্রশিক্ষণ চলাকালীন আমরা স্থানীয় মিনিমুনে পৌঁছানোর আগেই আরএলইউগুলি ভালভাবে "মারা" যেতে পারে। দ্বিতীয়ত, এটি প্রমাণ করতে হবে যে যখন আরএলইউ ইউনিটগুলি "মারা যায়", তখন তারা সর্বদা এটি একটি সম্পূর্ণ সাবনেটওয়ার্কের মাধ্যমে করে: কেবলমাত্র যখন এটি তুচ্ছভাবে সত্য হয় তখন আপনার কেবল একটি গোপন স্তর থাকে, তবে অবশ্যই প্রতিটি একক নিউরন থাকে একটি সাবনেটওয়ার্ক তবে সাধারণভাবে আমি "মৃত নিউরন" কে একটি ভাল জিনিস হিসাবে দেখাতে খুব সতর্ক থাকব।
তথ্যসূত্র:
বি। হাফেল এবং আর। ভিডাল, নিউরাল নেটওয়ার্ক প্রশিক্ষণে গ্লোবাল অনুকূলতা , কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশন, 2017 এর আইইইই সম্মেলনে।
বি। হাফেল এবং আর ভিডাল। টেনসর ফ্যাক্টরাইজেশন, গভীর শিক্ষা এবং এর বাইরে , আরএক্সআইভি, এবিএস / 1506.07540, 2015 এ গ্লোবাল অনুকূলতা।
চিত্র শ্রেণিবদ্ধকরণের জন্য শিখনের উপস্থাপনাগুলি প্রয়োজন যা বিভিন্ন স্থানান্তর যেমন: অবস্থান, ভঙ্গি, দৃষ্টিভঙ্গি, আলো, অভিব্যক্তি ইত্যাদির প্রতি আক্রমণাত্মক (বা কমপক্ষে দৃust়তর সংবেদনশীল), যা প্রাকৃতিক চিত্রগুলিতে সাধারণত উপস্থিত থাকে তবে তথ্য ধারণ করে না শ্রেণিবদ্ধকরণ কাজের জন্য। বক্তৃতা স্বীকৃতির জন্য একই জিনিস: পিচ, ভলিউম, গতি, অ্যাকসেন্টে পরিবর্তন। ইত্যাদি শব্দটির শ্রেণিবিন্যাসে পরিবর্তন আনতে হবে না। সিএনএন-তে ব্যবহৃত কনভোলশন, সর্বাধিক পুলিং, গড় পুলিং ইত্যাদির মতো অপারেশনগুলির ঠিক এই লক্ষ্যটি রয়েছে, তাই আমরা স্বজ্ঞাতভাবে আশা করি যে তারা এই অ্যাপ্লিকেশনগুলির জন্য কাজ করবে। কিন্তু এই স্বজ্ঞাতটিকে সমর্থন করার জন্য আমাদের কি উপপাদ্য রয়েছে? একটি উল্লম্ব অনুবাদ অদম্য তত্ত্ব আছে is, নামটি সত্ত্বেও, উল্লম্ব দিকটিতে অনুবাদ করার সাথে কিছুই করার নেই, তবে এটি মূলত একটি ফলাফল যা বলে যে স্তরগুলির সংখ্যা বাড়ার সাথে সাথে নিম্নলিখিত স্তরগুলিতে শিখে নেওয়া বৈশিষ্ট্যগুলি আরও এবং বেশি আক্রমণাত্মক হয়। এটি একটি বয়সের লোকেদের জন্য বিরোধিতা করা হয় অনুভূমিক অনুবাদ invariance উপপাদ্য যা তবে বিক্ষিপ্ত নেটওয়ার্কগুলির জন্য ঝুলিতে কিন্তু না CNNs জন্য। উপপাদ্যটি খুব প্রযুক্তিগত, তবে:
- ধরুন (আপনার ইনপুট চিত্র) বর্গক্ষেত্রের সাথে একীকরণযোগ্যf
- অনুবাদ অপারেটর সঙ্গে আপনার ফিল্টার যাত্রা করার অনুমান , যা মানচিত্র ইনপুট ইমেজ নিজেই একটি অনূদিত কপি । একটি জ্ঞাত সমাবর্তন কার্নেল (ফিল্টার) এই অনুমানকে সন্তুষ্ট করে।TtfTtf
- ধরে নিন আপনার নেটওয়ার্কের সমস্ত ফিল্টার, অরেণ্যতা এবং পুলিং একটি তথাকথিত দুর্বল গ্রহণযোগ্যতা শর্তকে সন্তুষ্ট করে , যা মূলত দুর্বল নিয়মিততা এবং সীমাবদ্ধতার শর্তগুলির মধ্যে কিছুটা। এই অবস্থাগুলি শিখে নেওয়া কনভলিউশন কার্নেল (যতক্ষণ না প্রতিটি স্তরের কিছু সাধারণকরণ অপারেশন করা হয়), রিলু, সিগময়েড, তানহ ইত্যাদি, ননলাইনারি দ্বারা এবং গড় পুলিং দ্বারা সন্তুষ্ট, তবে সর্বোচ্চ-পুলিংয়ের মাধ্যমে নয় not সুতরাং এটি কিছু (সমস্ত নয়) বাস্তব বিশ্বের সিএনএন আর্কিটেকচারকে কভার করে।
- অবশেষে ধরে নিন যে প্রতিটি স্তর এর একটি পুলিং ফ্যাক্টর , অর্থাত, প্রতিটি স্তরে পুলিং প্রয়োগ করা হয় এবং কার্যকরভাবে তথ্য বাতিল হয়। শর্তটি উপপাদ্যের দুর্বল সংস্করণের জন্যও যথেষ্ট।nSn>1Sn≥1
সিএনএন এর স্তর এর আউটপুট দিয়ে ইঙ্গিত করুন, যখন ইনপুট । তারপরে অবশেষে:Φn(f)nf
limn→∞|||Φn(Tff)−Φn(f)|||=0
(ট্রিপল বারগুলি কোনও ত্রুটি নয়) যার অর্থ হ'ল প্রতিটি স্তর এমন বৈশিষ্ট্যগুলি শিখতে থাকে যা আরও বেশি করে আক্রমণাত্মক হয়ে ওঠে এবং একটি অসীম গভীর নেটওয়ার্কের সীমাতে আমাদের একটি পুরোপুরি অদ্বিতীয় আর্কিটেকচার রয়েছে। যেহেতু সিএনএনগুলির সীমাবদ্ধ সংখ্যক স্তর রয়েছে তাই তারা পুরোপুরি অনুবাদ-আক্রমণকারী নয়, যা অনুশীলনকারীদের কাছে সুপরিচিত।
তথ্যসূত্র: টি। ওয়াইটোভস্কি এবং এইচ। বলসস্কি, ফিচার এক্সট্রাকশনের জন্য ডিপ কনভোলিউশনাল নিউরাল নেটওয়ার্কগুলির একটি গাণিতিক তত্ত্ব, আরএক্সিভি: 1512.06293v3 ।
উপসংহারে বলা যায়, ডিপ নিউরাল নেটওয়ার্কের ভ্যাপনিক-চেরভোনকেনসিস মাত্রা বা র্যাডম্যাচার জটিলতার উপর ভিত্তি করে ডিপ নিউরাল নেটওয়ার্কের সাধারণীকরণের ত্রুটির অসংখ্য সীমানা প্যারামিটারের সংখ্যার সাথে বৃদ্ধি পায় (কিছু এমনকি তাত্পর্যপূর্ণভাবে), যার অর্থ তারা ডিএনএনগুলি এত ভালভাবে কেন কাজ করে তা ব্যাখ্যা করতে পারে না means অনুশীলনে এমনকি পরামিতিগুলির সংখ্যা প্রশিক্ষণের নমুনার সংখ্যার তুলনায় যথেষ্ট বড়। প্রকৃতপক্ষে, ভিসি তত্ত্বটি ডিপ লার্নিংয়ে খুব বেশি কার্যকর নয়।
বিপরীতে, গত বছর থেকে কিছু ফলাফল একটি ডিএনএন শ্রেণিবদ্ধের সাধারণীকরণ ত্রুটিটিকে এমন পরিমাণের সাথে আবদ্ধ করে যা নিউরাল নেটওয়ার্কের গভীরতা এবং আকারের চেয়ে পৃথক, তবে কেবল প্রশিক্ষণের সেট এবং ইনপুট স্পেসের কাঠামোর উপর নির্ভর করে। শেখার পদ্ধতি এবং প্রশিক্ষণের সেট এবং ইনপুট স্পেসে বেশ কয়েকটি প্রযুক্তিগত অনুমানের অধীনে, তবে ডিএনএন (বিশেষত, সিএনএনগুলি সম্পূর্ণরূপে আচ্ছাদিত) নিয়ে খুব কম অনুমান সহ, তারপরে সম্ভাব্যতার সাথে কমপক্ষে prob আমাদের1−δ
GE≤2log2NyNγm−−−−−−−−−−√+2log(1/δ)m−−−−−−−−−√
কোথায়:
- GE হ'ল সাধারণীকরণ ত্রুটি, প্রত্যাশিত ক্ষতির মধ্যে পার্থক্য হিসাবে চিহ্নিত (সমস্ত সম্ভাব্য পরীক্ষার পয়েন্টগুলিতে শিক্ষিত শ্রেণিবদ্ধের গড় ক্ষতি) এবং অভিজ্ঞতা অভিজ্ঞতা (কেবলমাত্র ভাল ওল 'প্রশিক্ষণ সেট ত্রুটি)
- Ny ক্লাস সংখ্যা
- m প্রশিক্ষণ সেট আকার
- Nγ হ'ল ডেটা the েকে রাখার সংখ্যা , ইনপুট স্পেসের কাঠামোর সাথে সম্পর্কিত এবং প্রশিক্ষণের সেটে বিভিন্ন শ্রেণির পয়েন্টগুলির মধ্যে ন্যূনতম পৃথকীকরণের পরিমাণ। রেফারেন্স:
জে সোকলিক, আর। গিরিজ, জি সাপিরো এবং এম। রদ্রিগস। আক্রমণকারী শ্রেণিবদ্ধীদের সাধারণীকরণ ত্রুটি । এআইএসটিএটিএস, 2017 এ