মেশিন (গভীর) লার্নিংয়ের প্রধান উপপাদ্যগুলি কী কী?


45

আল রহিমি সম্প্রতি এনআইপিএস 2017-তে একটি অতি উত্তেজক বক্তৃতা দিয়েছেন বর্তমান মেশিন লার্নিংকে অ্যালকেমের সাথে তুলনা করে। তার দাবির মধ্যে একটি হ'ল আমাদের তাত্ত্বিক বিকাশগুলিতে ফিরে আসতে হবে, সাধারণ ফলাফলের প্রমাণ দেওয়ার জন্য মৌলিক ফলাফলগুলি পাওয়া উচিত।

যখন তিনি এটি বলেছিলেন, আমি এমএলটির জন্য মূল উপপাদাগুলি সন্ধান করতে শুরু করেছি, তবে মূল ফলাফলগুলি বোঝার জন্য কোনও ভাল রেফারেন্স খুঁজে পাইনি। সুতরাং এখানে আমার প্রশ্ন: এমএল / ডিএলের বর্তমান প্রধান গাণিতিক উপপাদাগুলি (তত্ত্ব) কী এবং তারা কী প্রমাণ করে? আমার ধারণা ভপনিকের কাজ এখানে কোথাও চলে যাবে। অতিরিক্ত হিসাবে, মূল তাত্ত্বিক উন্মুক্ত সমস্যাগুলি কী?


3
@ টিম এই থিয়েডটি একরকম স্ট্যাটাস.স্ট্যাকেক্সেঞ্জার.কম / সেকশনস / 2379/… ("পরিসংখ্যানগুলিতে বড় সমস্যাগুলি কী?") নিয়ে রয়েছে।
হোয়বার

2
এটি কিছুটা বিস্তৃত। আপনি কি অন্তত মেশিন লার্নিংয়ের একটি উপসেট নির্দিষ্ট করতে পারবেন? আমরা যদি ডিপ লার্নিংয়ে বা কমপক্ষে তত্ত্বাবধানে পড়াশোনার মধ্যে সীমাবদ্ধ রাখি তবে যে কেউ উত্তর দেওয়ার চেষ্টা করতে পারে। তবে আপনি "গণিতের গণিতের গণিত" এর মতো কোনও বিষয়ে জোর দিলে একটি উত্তর লিখতে যুগে যুগে সময় লাগবে।
ডেল্টাভিও

3
@ হুইবারের উদাহরণ অ্যানালগের আলোকে, আমি বলতে চাইছি এটি সিডাব্লু হিসাবে উন্মুক্ত থাকতে হবে, বিশেষত যদি এটি ডেল্টাভি অনুরোধ হিসাবে এমএল এর নির্দিষ্ট উপসেট যেমন তদারকি করা শিক্ষার মধ্যে সীমাবদ্ধ থাকতে পারে can
গুং - মনিকা পুনরায়

3
@ দেলতাভ নোট করুন যে "গভীর" শিরোনামে রয়েছে।
অ্যামিবা বলছেন মনিকাকে

4
এই প্রশ্নটি বোঝা হ'ল ডেভিড ডনোহো আয়োজিত সাম্প্রতিক সিরিজের বক্তৃতাগুলির বিষয়: দেখুন stats385.github.io
user795305

উত্তর:


43

আমি মন্তব্যগুলিতে যেমন লিখেছি, এই প্রশ্নটি আমার কাছে খুব বিস্তৃত মনে হলেও আমি একটি উত্তর দেওয়ার চেষ্টা করব। কিছু সীমানা নির্ধারণ করার জন্য, আমি একটি সামান্য গণিত দিয়ে শুরু করব যা বেশিরভাগ এমএলকে অন্তর্ভুক্ত করে, এবং তারপরে ডিএল-এর সাম্প্রতিক ফলাফলগুলিতে মনোনিবেশ করব।


পক্ষপাত-ভ্যারিয়েন্স ট্রেড বন্ধ , অগণিত বই, কোর্স, MOOCs, ব্লগ, টুইট, প্রভৃতি এমএল সালে উল্লেখ করা হয় তাই আমরা উল্লেখ ছাড়া শুরু করতে পারে না:

E[(Yf^(X))2|X=x0]=σϵ2+(Ef^(x0)f(x0))2+E[(f^(x0)Ef^(x0))2]=Irreducible error + Bias2 + Variance

এখানে প্রমাণ: https://web.stanford.edu/~hastie/ElemStatLearn/


গাউস-মার্কভ উপপাদ্য (হ্যাঁ, রৈখিক রিগ্রেশনের মেশিন লার্নিং একটি গুরুত্বপূর্ণ অংশ থাকবে, কোন কি কোন ব্যাপার: এটা সঙ্গে চুক্তি) সুস্পষ্ট যখন রৈখিক মডেল সত্য এবং ত্রুটি পদের উপর কিছু অনুমান, বৈধ OLS ঔজ্জ্বল্যের প্রেক্ষাপটে যে, সর্বনিম্ন হয়েছে বর্গক্ষেত্রের ত্রুটি (যা উপরের মত প্রকাশের ক্ষেত্রে কেবল Bias2 + Variance ) কেবল লিনিয়ার মডেলের নিরপেক্ষ লিনিয়ার অনুমানকারীগুলির মধ্যে। সুতরাং পক্ষপাত (বা অ-লাইনার অনুমানকারী) সহ রৈখিক অনুমানকগুলি থাকতে পারে যার একটি ভাল গড় বর্গ ত্রুটি রয়েছে, এবং এইভাবে ওএলএসের চেয়ে আরও ভাল প্রত্যাশিত পূর্বাভাস ত্রুটি। এবং এটি সমস্ত নিয়মিতকরণ অস্ত্রাগার (রিজ রিগ্রেশন, ল্যাসো, ওজন ক্ষয় ইত্যাদি) এর পথ প্রশস্ত করে যা এমএল এর একটি ওয়ার্কসওয়ার্স। এখানে একটি প্রমাণ দেওয়া হয়েছে (এবং অন্যান্য বইগুলিতে): https://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467

নিয়মিতকরণের পদ্ধতির বিস্ফোরণের সাথে সম্ভবত আরও প্রাসঙ্গিক, যেমন মন্তব্যগুলিতে কার্লোস সিনেলি উল্লেখ করেছিলেন এবং এটি সম্পর্কে আরও মজাদার বিষয়গুলি হ'ল জেমস-স্টেইন উপপাদ্যn স্বতন্ত্র, একই বৈকল্পিক বিবেচনা করুন তবে একইভাবে নয় গাউসিয়ান এলোমেলো পরিবর্তনগুলি:

Xi|μiN(θi,σ2),i=1,,n

অন্য কথায়, আমাদের একটি n উপাদান রয়েছে গাউসিয়ান র্যান্ডম ভেক্টর । আমরা এক নমুনা আছে থেকে এবং আমরা অনুমান করতে চান । MLE (এবং UMVUE) মূল্নির্ধারক স্পষ্টত হয় । জেমস-স্টেইন অনুমানকারী বিবেচনা করুনXN(θ,σ2I)xXθθ এম এল = এক্সθ^MLE=x

θ^JS=(1(n2)σ2||x||2)x

স্পষ্টতই, যদি , the এমএলই অনুমানটি শূন্যের দিকে সঙ্কুচিত করে। জেমস-স্টেইন উপপাদ্য বলে যে জন্য , কঠোরভাবে প্রাধান্য পায় নিম্ন MSE, অর্থাত্, এটা আছে । চেপে আশ্চর্যরূপে, এমনকি যদি আমরা অন্য কোনও ধ্রুবক নেট q ম্যাথবিএফ , এখনও আধিপত্য বিস্তার করে । যেহেতু(n2)σ2||x||2θ জে এস এন 4 θ জে এস θ এম এল θ 0 θ জে এস θ এম এল এক্স আমিθ^JS n4θ^JS θ^MLE θc0θ^JSθ^MLEXiস্বতন্ত্র, এটি অদ্ভুত বলে মনে হতে পারে যে, স্পেনে উত্পাদিত আপেলের সংখ্যা থেকে একটি নমুনা সহ তিনটি অপ্রাসঙ্গিক ব্যক্তির উচ্চতা অনুমান করার চেষ্টা করার সময়, আমাদের গড় অনুমানকে উন্নতি করতে পারে । এখানে মূল পয়েন্টটি "গড়": প্যারামিটার ভেক্টরের সমস্ত উপাদানগুলির একযোগে অনুমানের জন্য গড় বর্গ ত্রুটিটি ছোট তবে এক বা একাধিক উপাদানগুলির জন্য বর্গীয় ত্রুটিটি আরও ভাল হতে পারে, এবং প্রকৃতপক্ষে এটি প্রায়শই হয় আপনার "চরম" পর্যবেক্ষণ আছে।

এমএলই, যা প্রকৃতপক্ষে আনুপাতিক অনুমানের ক্ষেত্রে "অনুকূল" অনুমানকারী ছিল, বহুবিধ অনুমানের জন্য ক্ষয়ক্ষতি হয়েছিল, সে সময়টি বেশ ধাক্কা খেয়েছিল এবং সংকোচনের ক্ষেত্রে ব্যাপক আগ্রহের দিকে পরিচালিত করেছিল, এটি এমএল পার্লেন্সে নিয়মিতকরণ হিসাবে পরিচিত known মিশ্র মডেলগুলির সাথে "sণ গ্রহণের শক্তি" ধারণাটির সাথে কেউ কিছু মিল খুঁজে নিতে পারে: এখানে কিছুটা সংযোগ আছে, এখানে আলোচনা করা হয়েছে

সংকোচনের উপর একীভূত দৃষ্টিভঙ্গি: স্টেইনের প্যারাডক্স, রিজ রিগ্রেশন এবং মিশ্র মডেলগুলিতে এলোমেলো প্রভাবের মধ্যে কী সম্পর্ক (যদি থাকে)?

তথ্যসূত্র: জেমস, ডাব্লু।, স্টেইন, সি।, চতুর্ভুজ হ্রাসের সাথে অনুমান । গাণিতিক পরিসংখ্যান ও সম্ভাবনার উপর চতুর্থ বার্কলে সিম্পোসিয়ামের কার্যক্রম, খণ্ড ১: পরিসংখ্যানের তত্ত্বের অবদান, ৩1১-3737৯, ক্যালিফোর্নিয়া প্রেস বিশ্ববিদ্যালয়, বার্কলে, ক্যালিফোর্নিয়া, ১৯61১


অধ্যক্ষ উপাদান উপাদান বিশ্লেষণ মাত্রা হ্রাসের গুরুত্বপূর্ণ বিষয়টির মূল চাবিকাঠি, এবং এটি একক মান মূল্য পচনের উপর ভিত্তি করে : প্রতিটি রিয়েল ম্যাট্রিক্স (যদিও উপপাদ্য জটিল ম্যাট্রিকগুলিতে সহজেই জেনারেলাইজড হয়) আমরা লিখতে পারিN×pX

X=UDVT

যেখানে আকারের লম্ব হয়, একটি হল নন-নেগেটিভ তির্যক উপাদান এবং সঙ্গে তির্যক ম্যাট্রিক্স আকারের আবার লম্ব হয়। কীভাবে এটি গণনা করা যায় তার প্রমাণ এবং অ্যালগরিদমগুলির জন্য: গোলুব, জি, এবং ভ্যান লোন, সি (1983), ম্যাট্রিক্স গণনা , জন হপকিন্স বিশ্ববিদ্যালয় প্রেস, বাল্টিমোর।UN×pDp×pUp×p


মার্সার এর উপপাদ্য পাতলা প্লেট splines, সমর্থন ভেক্টর মেশিন, একটি গসিয়ান র্যান্ডম প্রক্রিয়ার Kriging অনুমান, ইত্যাদি মূলত, তথাকথিত পিছনে দুই উপপাদ্য এগুলির মধ্যে একটি: বিভিন্ন এমএল পদ্ধতি অনেক জন্য প্রতিষ্ঠা পাথর কার্নেল কৌতুক । যাক একটি symmmetric একটানা ফাংশান বা কার্নেল হও। যদি ইতিবাচক অর্ধ-চূড়ান্ত হয়, তবে এটি অ-নেজিটিভ ইগেনভ্যালুগুলির সাথে সম্পর্কিত ইগেনফুনেশনের একটি গোঁড়া ভিত্তিকে স্বীকার করে:K(x,y):[a,b]×[a,b]RK

K(x,y)=i=1γiϕi(x)ϕi(y)

এমএল তত্ত্বের জন্য এই উপপাদ্যটির গুরুত্বটি বিখ্যাত গ্রন্থগুলিতে যেমন উল্লেখযোগ্য উল্লেখ পাওয়া যায়, যেমন গাসু প্রসেসের উপর রাসমুসেন এবং উইলিয়ামস পাঠ্য হিসাবে প্রমাণিত হয় ।

তথ্যসূত্র: জে মেরার, ইতিবাচক এবং নেতিবাচক ধরণের কার্যাদি এবং অবিচ্ছেদ্য সমীকরণের তত্ত্বের সাথে তাদের সংযোগ। লন্ডনের রয়্যাল সোসাইটির দার্শনিক লেনদেন। সিরিজ এ, একটি গাণিতিক বা শারীরিক চরিত্রের কাগজগুলি রয়েছে, 209: 415-446, 1909

1982-র কনারি জারজেনস, লিনিয়ার ইন্টিগ্রাল অপারেটর , পিটম্যান, বোস্টন, এ আরও সহজ উপস্থাপনা রয়েছে ।


অন্যান্য উপপাদ্য, যা মার্সারের উপপাদ্যের সাথে একসাথে, কার্নেল ট্রিকের তাত্ত্বিক ভিত্তি তৈরি করে, তা হল উপস্থাপক উপপাদ্য । ধরুন আপনি একটি নমুনা রাখার মতো স্থান রয়েছে এবং একটি প্রতিসম ইতিবাচক semidefinite কার্নেল । এছাড়াও সাথে যুক্ত হতে দিন । শেষ অবধি, একটি প্রশিক্ষণের নমুনা হয়ে উঠুক। উপপাদ্য বলেছেন সব ফাংশন মধ্যে , 'শাস্ত্রে সমস্ত eigenfunctions পরিপ্রেক্ষিতে অসীম উপস্থাপনা মানাXK:X×XRHKKS={xi,yi}i=1nfHKKমার্সারের উপপাদ্যের কারণে, নিয়মিত ঝুঁকি হ্রাসকারী একের সর্বদা ট্রেনিং পয়েন্টগুলিতে মূল্যায়িত কর্নেল দ্বারা গঠিত ভিত্তিতে সীমাবদ্ধ প্রতিনিধিত্ব থাকে , অর্থাৎn

minfHKi=1nL(yi,f(xi))+λ||f||HK2=min{cj}1i=1nL(yi,jcjϕj(xi))+λjcj2γj=i=1nαiK(x,xi)

(উপপাদ্যটি সর্বশেষ সমতা)। তথ্যসূত্র: ওয়াহবা, জি 1990, স্প্লাইন মডেল ফর অবজারভেশনাল ডেটা , এসআইএএম, ফিলাডেলফিয়া।


সার্বজনীন পড়তা উপপাদ্য ইতিমধ্যে ব্যবহারকারী Tobias Windisch উদ্ধৃত করেছেন এবং তুলনায় এটি ক্রিয়ামূলক বিশ্লেষণ হয় অনেক কম মেশিন লার্নিং প্রাসঙ্গিক হয়, যদিও তা একটি প্রথম নজরে, যাতে মনে নাও হতে পারে। সমস্যাটি হল যে উপপাদ্যটি কেবল বলেছেন যে এই জাতীয় নেটওয়ার্ক বিদ্যমান, কিন্তু:

  • এটি গোপন স্তরের এর আকার এবং লক্ষ্য ফাংশন এর জটিলতার কিছু পরিমাপের মধ্যে কোনও সম্পর্ক দেয় না যেমন উদাহরণস্বরূপ মোট পৃথককরণ। তাহলে এবং একটি নির্দিষ্ট ত্রুটির জন্য প্রয়োজনীয় growed ব্যাখ্যা মূলকভাবে সঙ্গে , তারপর একক লুকানো স্তর নিউরাল নেটওয়ার্কগুলি অকেজো হবে।Nf(x)f(x)=sin(ωx):[0,2π][1,1]Nϵω
  • এটা বলে না যদি নেটওয়ার্ক হয় learnable । অন্য কথায় ধরে নেওয়া যে এবং প্রদত্ত , আমরা জানি যে একটি আকার NN হাইপারকিউবে প্রয়োজনীয় সহনশীলতার সাথে আনুমানিক করবে । তারপর আকার প্রশিক্ষণ সেট ব্যবহার করে ধরনের একটি উদাহরণ ব্যাক ঠেকনা জন্য এবং একটি শেখার পদ্ধতি, আমরা কোনো নিশ্চয়তা বাড়িয়ে আছে আমরা পুনরুদ্ধার করতে পারেন ?F(x)fϵNfMMF
  • অবশেষে এবং সর্বোপরি সবচেয়ে খারাপ এটি নিউরাল নেটওয়ার্কগুলির পূর্বাভাস ত্রুটি সম্পর্কে কিছুই বলে না। আমরা কি সত্যিই আগ্রহী হন ভবিষ্যদ্বাণী ত্রুটির একটি অনুমান অন্তত আকারের সব প্রশিক্ষণ করা সংকলনের গড় করা হয়, । উপপাদ্য এই ক্ষেত্রে সাহায্য করে না।M

এই উপপাদ্যের হর্নিকের সংস্করণ সহ একটি ছোট ব্যথার বিন্দুটি হ'ল এটি আরএলইউ অ্যাক্টিভেশন ফাংশনের জন্য ধারণ করে না। যাইহোক, বার্টলেট একটি বর্ধিত সংস্করণ প্রমাণ করেছে যা এই ফাঁকটি জুড়ে।


এখন অবধি, আমি অনুমান করি যে সমস্ত তত্ত্বগুলি আমি বিবেচনা করেছি কারও কাছে সুপরিচিত ছিল। সুতরাং এখন মজাদার জিনিসগুলির জন্য সময় এসেছে :-) আসুন কয়েকটি ডিপ লার্নিং উপপাদ্যগুলি দেখুন:

অনুমিতি:

  • গভীর স্নায়ুর নেটওয়ার্ক (স্থির জন্য , এবং নিয়মিতকরণ ক্ষতি ফাংশন যা তার আউটপুট সঙ্গে স্নায়ুর নেটওয়ার্ক এর ইনপুট সহযোগীদের হয়) উভয় অঙ্কের হয় ইতিবাচক একই ডিগ্রির একজাতীয় ফাংশনΦ(X,W)WΦW(X)Θ(W)
  • ক্ষতির ক্রিয়াকলাপটি উত্তল এবং একসময় মধ্যে পৃথক , একটি কমপ্যাক্ট সেটL(Y,Φ(X,W)XS

তারপর:

  • কোনও স্থানীয় সর্বনিম্ন যেমন একটি subnetwork যে শূন্য ওজন আছে, একটি বিশ্বব্যাপী সর্বনিম্ন হবে ( উপপাদ্য 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
  • একটি সমালোচনামূলক নেটওয়ার্ক আকারের উপরে, স্থানীয় বংশোদ্ভূত সর্বদা কোনও সূচনা থেকে বিশ্ব ন্যূনতম সর্বনিম্নে রূপান্তরিত হবে ( উপপাদ্য 2 )।

এটি অত্যন্ত আকর্ষণীয়: সিএনএনগুলি কেবলমাত্র কনভলুশনাল স্তরগুলি তৈরি করে, আরএলইউ, সর্বাধিক পুলিং, সম্পূর্ণ সংযুক্ত আরএলইউ এবং লিনিয়ার স্তরগুলি ইতিবাচক একজাতীয় ফাংশন, যদি আমরা সিগময়েড অ্যাক্টিভেশন ফাংশন অন্তর্ভুক্ত করি তবে এটি আর সত্য নয়, যা আংশিকভাবে উচ্চতরটি ব্যাখ্যা করতে পারে সিগময়েডের সাথে সম্মতিতে রিলু + সর্বাধিক পুলিংয়ের কিছু অ্যাপ্লিকেশনে পারফরম্যান্স। তাত্ত্বিক বিষয়গুলি কেবল তখনই ধরে রাখে হিসাবে একই ডিগ্রির ইতিবাচকভাবে সমজাতীয় । এখন, মজাদার ঘটনাটি হল যে বা নিয়মিতকরণ, যদিও ইতিবাচকভাবে সমজাতীয়, (ডিগ্রি ডিগ্রিΘWΦl1l2ΦΦ, পূর্বে উল্লিখিত সাধারণ সিএনএন ক্ষেত্রে স্তরগুলির সংখ্যা বৃদ্ধি পায়)। পরিবর্তে, আরও আধুনিক নিয়মিতকরণ পদ্ধতি যেমন ব্যাচের সাধারণকরণ এবং পাথ-এসজিডি একই ডিগ্রির positive হিসাবে ইতিবাচক একজাতীয় নিয়মিতকরণ ফাংশনের সাথে সামঞ্জস্য করে এবং ড্রপআউট, যখন এই কাঠামোটি ঠিকঠাক ফিট করে না, এটির সাথে দৃ strong় মিল রয়েছে। এটি ব্যাখ্যা করতে পারে যে, সিএনএনগুলির সাথে উচ্চতর নির্ভুলতা পেতে, এবং নিয়মিতকরণ পর্যাপ্ত নয়, তবে আমাদের ড্রপআউট এবং ব্যাচের সাধারণকরণের মতো সমস্ত ধরণের শয়তানী কৌশল ব্যবহার করা দরকার! আমার জ্ঞানের সর্বোপরি, এটি ব্যাচের সাধারণকরণের কার্যকারিতার ব্যাখ্যাটির নিকটতম বিষয়, যা অন্যথায় অত্যন্ত অস্পষ্ট, যেমনটি আলাপে রহিমি তাঁর বক্তৃতায় সঠিকভাবে উল্লেখ করেছিলেন।Φl1l2

থিওরেম 1 এর উপর ভিত্তি করে কিছু লোক যে অন্য পর্যবেক্ষণ করে তা হ'ল এটি মৃত নিউরনের সমস্যা এমনকি RLU কেন ভালভাবে কাজ করে তা ব্যাখ্যা করতে পারে । এই অন্তর্দৃষ্টি অনুসারে, সত্য যে, প্রশিক্ষণের সময় কিছু রিলু নিউরন "মরে" (শূন্য অ্যাক্টিভেশনে যান এবং এরপরে আর কখনই পুনরুদ্ধার করবেন না, কারণ এর জন্য রেএলইউর গ্রেডিয়েন্ট শূন্য হয়) "একটি বৈশিষ্ট্য, কোনও বাগ নয় ", কারণ যদি আমরা একটি সর্বনিম্নে পৌঁছেছি এবং একটি সম্পূর্ণ সাবনেট ওয়ার্ক মারা গেছে, তবে আমরা সম্ভাব্য একটি সর্বনিম্ন ন্যূনতম পৌঁছে গেছি ( থিওরিম 1 এর অনুমানের অধীনেx<0)। আমি কিছু মিস করছি, তবে আমি মনে করি এই ব্যাখ্যাটি সুদূরপ্রসারী। প্রথমত, প্রশিক্ষণ চলাকালীন আমরা স্থানীয় মিনিমুনে পৌঁছানোর আগেই আরএলইউগুলি ভালভাবে "মারা" যেতে পারে। দ্বিতীয়ত, এটি প্রমাণ করতে হবে যে যখন আরএলইউ ইউনিটগুলি "মারা যায়", তখন তারা সর্বদা এটি একটি সম্পূর্ণ সাবনেটওয়ার্কের মাধ্যমে করে: কেবলমাত্র যখন এটি তুচ্ছভাবে সত্য হয় তখন আপনার কেবল একটি গোপন স্তর থাকে, তবে অবশ্যই প্রতিটি একক নিউরন থাকে একটি সাবনেটওয়ার্ক তবে সাধারণভাবে আমি "মৃত নিউরন" কে একটি ভাল জিনিস হিসাবে দেখাতে খুব সতর্ক থাকব।

তথ্যসূত্র:

বি। হাফেল এবং আর। ভিডাল, নিউরাল নেটওয়ার্ক প্রশিক্ষণে গ্লোবাল অনুকূলতা , কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশন, 2017 এর আইইইই সম্মেলনে।

বি। হাফেল এবং আর ভিডাল। টেনসর ফ্যাক্টরাইজেশন, গভীর শিক্ষা এবং এর বাইরে , আরএক্সআইভি, এবিএস / 1506.07540, 2015 এ গ্লোবাল অনুকূলতা।


চিত্র শ্রেণিবদ্ধকরণের জন্য শিখনের উপস্থাপনাগুলি প্রয়োজন যা বিভিন্ন স্থানান্তর যেমন: অবস্থান, ভঙ্গি, দৃষ্টিভঙ্গি, আলো, অভিব্যক্তি ইত্যাদির প্রতি আক্রমণাত্মক (বা কমপক্ষে দৃust়তর সংবেদনশীল), যা প্রাকৃতিক চিত্রগুলিতে সাধারণত উপস্থিত থাকে তবে তথ্য ধারণ করে না শ্রেণিবদ্ধকরণ কাজের জন্য। বক্তৃতা স্বীকৃতির জন্য একই জিনিস: পিচ, ভলিউম, গতি, অ্যাকসেন্টে পরিবর্তন। ইত্যাদি শব্দটির শ্রেণিবিন্যাসে পরিবর্তন আনতে হবে না। সিএনএন-তে ব্যবহৃত কনভোলশন, সর্বাধিক পুলিং, গড় পুলিং ইত্যাদির মতো অপারেশনগুলির ঠিক এই লক্ষ্যটি রয়েছে, তাই আমরা স্বজ্ঞাতভাবে আশা করি যে তারা এই অ্যাপ্লিকেশনগুলির জন্য কাজ করবে। কিন্তু এই স্বজ্ঞাতটিকে সমর্থন করার জন্য আমাদের কি উপপাদ্য রয়েছে? একটি উল্লম্ব অনুবাদ অদম্য তত্ত্ব আছে is, নামটি সত্ত্বেও, উল্লম্ব দিকটিতে অনুবাদ করার সাথে কিছুই করার নেই, তবে এটি মূলত একটি ফলাফল যা বলে যে স্তরগুলির সংখ্যা বাড়ার সাথে সাথে নিম্নলিখিত স্তরগুলিতে শিখে নেওয়া বৈশিষ্ট্যগুলি আরও এবং বেশি আক্রমণাত্মক হয়। এটি একটি বয়সের লোকেদের জন্য বিরোধিতা করা হয় অনুভূমিক অনুবাদ invariance উপপাদ্য যা তবে বিক্ষিপ্ত নেটওয়ার্কগুলির জন্য ঝুলিতে কিন্তু না CNNs জন্য। উপপাদ্যটি খুব প্রযুক্তিগত, তবে:

  • ধরুন (আপনার ইনপুট চিত্র) বর্গক্ষেত্রের সাথে একীকরণযোগ্যf
  • অনুবাদ অপারেটর সঙ্গে আপনার ফিল্টার যাত্রা করার অনুমান , যা মানচিত্র ইনপুট ইমেজ নিজেই একটি অনূদিত কপি । একটি জ্ঞাত সমাবর্তন কার্নেল (ফিল্টার) এই অনুমানকে সন্তুষ্ট করে।TtfTtf
  • ধরে নিন আপনার নেটওয়ার্কের সমস্ত ফিল্টার, অরেণ্যতা এবং পুলিং একটি তথাকথিত দুর্বল গ্রহণযোগ্যতা শর্তকে সন্তুষ্ট করে , যা মূলত দুর্বল নিয়মিততা এবং সীমাবদ্ধতার শর্তগুলির মধ্যে কিছুটা। এই অবস্থাগুলি শিখে নেওয়া কনভলিউশন কার্নেল (যতক্ষণ না প্রতিটি স্তরের কিছু সাধারণকরণ অপারেশন করা হয়), রিলু, সিগময়েড, তানহ ইত্যাদি, ননলাইনারি দ্বারা এবং গড় পুলিং দ্বারা সন্তুষ্ট, তবে সর্বোচ্চ-পুলিংয়ের মাধ্যমে নয় not সুতরাং এটি কিছু (সমস্ত নয়) বাস্তব বিশ্বের সিএনএন আর্কিটেকচারকে কভার করে।
  • অবশেষে ধরে নিন যে প্রতিটি স্তর এর একটি পুলিং ফ্যাক্টর , অর্থাত, প্রতিটি স্তরে পুলিং প্রয়োগ করা হয় এবং কার্যকরভাবে তথ্য বাতিল হয়। শর্তটি উপপাদ্যের দুর্বল সংস্করণের জন্যও যথেষ্ট।nSn>1Sn1

সিএনএন এর স্তর এর আউটপুট দিয়ে ইঙ্গিত করুন, যখন ইনপুট । তারপরে অবশেষে:Φn(f)nf

limn|||Φn(Tff)Φn(f)|||=0

(ট্রিপল বারগুলি কোনও ত্রুটি নয়) যার অর্থ হ'ল প্রতিটি স্তর এমন বৈশিষ্ট্যগুলি শিখতে থাকে যা আরও বেশি করে আক্রমণাত্মক হয়ে ওঠে এবং একটি অসীম গভীর নেটওয়ার্কের সীমাতে আমাদের একটি পুরোপুরি অদ্বিতীয় আর্কিটেকচার রয়েছে। যেহেতু সিএনএনগুলির সীমাবদ্ধ সংখ্যক স্তর রয়েছে তাই তারা পুরোপুরি অনুবাদ-আক্রমণকারী নয়, যা অনুশীলনকারীদের কাছে সুপরিচিত।

তথ্যসূত্র: টি। ওয়াইটোভস্কি এবং এইচ। বলসস্কি, ফিচার এক্সট্রাকশনের জন্য ডিপ কনভোলিউশনাল নিউরাল নেটওয়ার্কগুলির একটি গাণিতিক তত্ত্ব, আরএক্সিভি: 1512.06293v3


উপসংহারে বলা যায়, ডিপ নিউরাল নেটওয়ার্কের ভ্যাপনিক-চেরভোনকেনসিস মাত্রা বা র‌্যাডম্যাচার জটিলতার উপর ভিত্তি করে ডিপ নিউরাল নেটওয়ার্কের সাধারণীকরণের ত্রুটির অসংখ্য সীমানা প্যারামিটারের সংখ্যার সাথে বৃদ্ধি পায় (কিছু এমনকি তাত্পর্যপূর্ণভাবে), যার অর্থ তারা ডিএনএনগুলি এত ভালভাবে কেন কাজ করে তা ব্যাখ্যা করতে পারে না means অনুশীলনে এমনকি পরামিতিগুলির সংখ্যা প্রশিক্ষণের নমুনার সংখ্যার তুলনায় যথেষ্ট বড়। প্রকৃতপক্ষে, ভিসি তত্ত্বটি ডিপ লার্নিংয়ে খুব বেশি কার্যকর নয়।

বিপরীতে, গত বছর থেকে কিছু ফলাফল একটি ডিএনএন শ্রেণিবদ্ধের সাধারণীকরণ ত্রুটিটিকে এমন পরিমাণের সাথে আবদ্ধ করে যা নিউরাল নেটওয়ার্কের গভীরতা এবং আকারের চেয়ে পৃথক, তবে কেবল প্রশিক্ষণের সেট এবং ইনপুট স্পেসের কাঠামোর উপর নির্ভর করে। শেখার পদ্ধতি এবং প্রশিক্ষণের সেট এবং ইনপুট স্পেসে বেশ কয়েকটি প্রযুক্তিগত অনুমানের অধীনে, তবে ডিএনএন (বিশেষত, সিএনএনগুলি সম্পূর্ণরূপে আচ্ছাদিত) নিয়ে খুব কম অনুমান সহ, তারপরে সম্ভাব্যতার সাথে কমপক্ষে prob আমাদের1δ

GE2log2NyNγm+2log(1/δ)m

কোথায়:

  • GE হ'ল সাধারণীকরণ ত্রুটি, প্রত্যাশিত ক্ষতির মধ্যে পার্থক্য হিসাবে চিহ্নিত (সমস্ত সম্ভাব্য পরীক্ষার পয়েন্টগুলিতে শিক্ষিত শ্রেণিবদ্ধের গড় ক্ষতি) এবং অভিজ্ঞতা অভিজ্ঞতা (কেবলমাত্র ভাল ওল 'প্রশিক্ষণ সেট ত্রুটি)
  • Ny ক্লাস সংখ্যা
  • m প্রশিক্ষণ সেট আকার
  • Nγ হ'ল ডেটা the েকে রাখার সংখ্যা , ইনপুট স্পেসের কাঠামোর সাথে সম্পর্কিত এবং প্রশিক্ষণের সেটে বিভিন্ন শ্রেণির পয়েন্টগুলির মধ্যে ন্যূনতম পৃথকীকরণের পরিমাণ। রেফারেন্স:

জে সোকলিক, আর। গিরিজ, জি সাপিরো এবং এম। রদ্রিগস। আক্রমণকারী শ্রেণিবদ্ধীদের সাধারণীকরণ ত্রুটি । এআইএসটিএটিএস, 2017 এ


2
+1 টি। দুর্দান্ত উত্তর, শেষ অংশটি খুব আকর্ষণীয়। প্রথম অংশে, মার্সারের উপপাদ্যটি ঠিক এসভিডি-র মতো দেখাচ্ছে যা আপনি ঠিক উপরে উপস্থাপন করেছেন presented
অ্যামিবা বলছেন

1
@ অ্যামিবা, আপনি ঠিক বলেছেন, তবে 1) সমস্ত পাঠক আপনার মতো গণিত-সচেতন নন যে তারা তাত্ক্ষণিকভাবে এসভিডি, করাহুনেন-লুয়েভ সম্প্রসারণ এবং মার্সারের উপপাদ্যের মধ্যে একটি সাদৃশ্যটি স্বীকার করবে। এছাড়াও 2) ফাংশনাল অ্যানালাইসিসের অন্যান্য উপপাদ্য যা কার্নেল ট্রিককে "ক্ষমতা" দেয় এবং আমি অন্তর্ভুক্ত না করাকে বেছে নিয়েছি, তা মার্সারের উপপাদকের চেয়ে ব্যাখ্যা করা আরও কঠিন এবং আমি ইতিমধ্যে আমার শনিবারকে ফাঁসিয়ে দিয়েছিলাম :-) সম্ভবত আমি আগামীকাল এটি যুক্ত করব!
ডেল্টাভিও

1
গাউস মার্কোভ জায়গা থেকে দূরে মনে হচ্ছে, এমএল সম্প্রদায়ের মধ্যে কাউকে কখনই ব্লু সম্পর্কে যত্নশীল হতে দেখেনি।
কার্লোস সিনেল্লি

2
আমি সম্মত হই যে একটি সাধারণ নিয়ম হিসাবে মূল (প্রত্নতাত্ত্বিক) রেফারেন্সটিতে সাধারণত ক্লান্তিকর স্বরলিপি থাকে। এটি বলেছিল, মার্সারের কাগজটি আসলে আশ্চর্যরকমভাবে সেই দিক থেকে আধুনিক এবং আমি ঠিক এটি কারণে যুক্ত করেছি। :) (আমি মূলত বলেছিলাম, এটি একটি খুব ভাল উত্তর, এটি
উত্থানের

2
আমি মার্সারের উপপাদ্যটি এখানে পছন্দ করি, এটি সরাবেন না। এবং কেন উভয় লিঙ্ক আছে? See [here] for a modern exposition"মূল কাগজের জন্য" কেবল স্মিথের মতো বা তার বিপরীতে যুক্ত করুন।
অ্যামিবা বলছে মনিকাকে

11

আমি মনে করি যে নীচের উপমাটি আপনি ইঙ্গিত করেছেন তা পরিসংখ্যানগত শিক্ষায় বেশ মৌলিক হিসাবে বিবেচিত হয়।

উপপাদ্য (Vapnik এবং Chervonenkis, 1971) আসুন একটি ডোমেন থেকে ফাংশন একটি হাইপোথিসিস বর্গ হতে থেকে ও ক্ষতি ফাংশন হোক ক্ষয়। এর পরে নিম্নলিখিত সমতুল্য:HX{0,1}01

  1. H এর অভিন্ন কনভার্জেনশন সম্পত্তি রয়েছে।
  2. H পিএসি শেখা যায়।
  3. H এর সীমাবদ্ধ ভিসি-মাত্রা রয়েছে।

এখানে একটি পরিমাণগত সংস্করণে প্রমাণিত:

ভিএন ভ্যাপনিক এবং এওয়াই চেরভোনেনকিস: ইভেন্টগুলির আপেক্ষিক ফ্রিকোয়েন্সিগুলির তাদের সম্ভাব্যতার সাথে একত্রীকরণের বিষয়ে। সম্ভাব্যতা এবং এর অ্যাপ্লিকেশনগুলির তত্ত্ব, 16 (2): 264–280, 1971।

শেখার তত্ত্ব থেকে অন্যান্য ফলাফলের দুর্দান্ত প্রকাশের সাথে উপরের রচনাটির সংস্করণটি এখানে পাওয়া যায় :

শ্যালেভ-শোয়ার্টজ, শাই এবং শাই বেন-ডেভিড। মেশিন লার্নিং বোঝা: তত্ত্ব থেকে অ্যালগরিদম পর্যন্ত to কেমব্রিজ বিশ্ববিদ্যালয়ের প্রেস, 2014।


6

কার্নেল ট্রিক একটি সাধারণ ধারণা যা প্রচুর জায়গায় ব্যবহৃত হয় এবং হিলবার্ট স্পেস সম্পর্কে প্রচুর বিমূর্ত গণিত থেকে আসে। আমার পক্ষে এখানে একটি উত্তর লিখতে (অনুলিপি ...) টাইপ করার জন্য খুব বেশি তত্ত্ব রয়েছে, তবে আপনি যদি এটিকে এড়িয়ে যান তবে আপনি এর কঠোর আন্ডারপিনিংগুলির একটি ভাল ধারণা পেতে পারেন:

http://www.stats.ox.ac.uk/~sejdinov/teaching/atml14/Theory_2014.pdf


4

আমার প্রিয়টি হ'ল ক্রাফ্টের বৈষম্য।

উপপাদ্য: কোন বিবরণ পদ্ধতির জন্য জন্য সসীম বর্ণমালা , লেন্থ কোড শব্দ বৈষম্য সন্তুষ্ট করা আবশ্যক ।CA={1,,m}LC(1),,LC(2)xA2LC(x)1

এই অসমতা সম্ভাবনার ঘনত্বগুলির সাথে সংকোচনের সাথে সম্পর্কিত : একটি কোড দেওয়া হলে সেই কোড দ্বারা প্রতিনিধিত্ব করা কোনও ফলাফলের দৈর্ঘ্য কোড দ্বারা চিহ্নিত কোনও মডেলের নেতিবাচক লগ সম্ভাবনা।

আরও, মেশিন লার্নিংয়ের জন্য কোনও নিখরচায় মধ্যাহ্নভিত্তিক উপপাদ্যে কোনও হাইপার সংকোচনের উপপাদ্যটি কম পরিচিত ভাইবোন রয়েছে, যা জানিয়েছে যে সমস্ত ক্রম সংকোচন করা যায় না।


4

আমি এটিকে একটি প্রধান উপপাদ্য বলব না , তবে আমি মনে করি যে নিম্নলিখিতগুলি (কখনও কখনও সর্বজনীন আনুমানিক উপপাদ্য হিসাবে পরিচিত) একটি আকর্ষণীয় (এবং আমার পক্ষে কমপক্ষে অবাক করার মতো) একটি হিসাবে এটি ফিড-ফরোয়ার্ড নিউরাল নেটওয়ার্কগুলির আনুমানিক শক্তি বর্ণনা করে।

উপপাদ্য: আসুন ig একটি নন-কনস্ট্যান্ট এবং একঘেয়ে-বর্ধমান ক্রমাগত ক্রিয়াকলাপ হোন। যে কোনও কনটিনোস ফাংশনের জন্য এবং যে কোনও ps ilপিসিলন একটি পূর্ণসংখ্যা এবং একটি মাল্টিলেয়ার পার্সেপেট্রন যার একটি লুকানো স্তর রয়েছে যার মধ্যে রয়েছে নিউরনস যা সক্রিয়করণ হিসাবে activ রয়েছে ফাংশন যাতেσf:[0,1]mRϵ>0NFNσ

|F(x)f(x)|ϵ
সমস্ত for এর জন্য ।x[0,1]m

অবশ্যই এটি অস্তিত্ব সম্পর্কিত বিবৃতি হিসাবে , এটির অনুশীলনকারীদের জন্য এটির পরিমাণ নগণ্য।

একটি প্রমাণ হর্নিকে পাওয়া যাবে , মাইতিলেয়ার ফিডফর্ডার নেটওয়ার্কগুলির আনুমানিক সক্ষমতা, নিউরাল নেটওয়ার্কস 4 (2), 1991,


5
এই উপপাদ্যটি কিছুটা উদ্বেগজনক কারণ এটি নিউরাল নেটগুলির পক্ষে বিশেষ নয়। অন্যান্য অনেক শ্রেণির ক্রিয়াকলাপগুলি সমান (এবং কখনও কখনও শক্তিশালী) আনুমানিক বৈশিষ্ট্য ভাগ করে। উদাহরণস্বরূপ স্টোন-ওয়েয়ার্সট্রেস উপপাদ্যটি দেখুন। আরও আকর্ষণীয় ফলাফল হ'ল সাধারণ কাঠামোর মধ্যে নিউরাল নেট রিগ্রেশনটির ধারাবাহিকতা। এছাড়াও, জালের জটিলতা এবং প্রশিক্ষণের নমুনার আকারের ক্ষেত্রে গড় সাধারণকরণের ত্রুটির সীমাবদ্ধতা অবশ্যই জানা উচিত।
অলিভিয়ার

1
@ অলিভিয়ার: আমি সম্পূর্ণ একমত তবে যদিও এই উপপাদ্যটি কেবলমাত্র নিউরাল নেটওয়ার্কগুলিতেই নিবেদিত নয়, তবুও আমি এটি বিবৃতি, এর কঠোর প্রমাণ এবং এর প্রভাবগুলি আকর্ষণীয় বলে মনে করি। উদাহরণস্বরূপ, এটি বলে যে আপনি যতক্ষণ পর্যন্ত একটি সক্রিয়করণ ফাংশন ব্যবহার করছেন যা উপরে বর্ণিত বৈশিষ্ট্যগুলি রয়েছে, নেটওয়ার্কের আনুমানিক সক্ষমতা একই (মোটামুটি কথা বলা)। বা, এটি বলে যে নিউরাল নেটওয়ার্কগুলি অত্যধিক মানানসই প্রবণতা হিসাবে আপনি ইতিমধ্যে একটি গোপন স্তর সহ অনেক কিছু শিখতে পারেন।
টোবিয়াস উইন্ডিশ

1
এটি ঠিক তা বলে না। এটা শুধুমাত্র বলছেন যে বিদ্যমান এক গোপন স্তর যা উপস্থাপন করতে পারেন সঙ্গে একটি স্নায়ুর নেটওয়ার্ক , তবে এটি আপনাকে কিভাবে সম্পর্কে কিছু বলতে না সঙ্গে বৃদ্ধি জটিলতা কিছু পরিমাপ সঙ্গে উদাহরণস্বরূপ, বা (উদাহরণস্বরূপ তার মোট প্রকরণ জন্য )। আপনি প্রদত্ত ডেটা আপনার নেটওয়ার্কের ওজন পারবেন কিনা তা আপনাকে জানায় না । আপনি দেখতে পাবেন যে আকর্ষণীয় মামলার অনেক হয় ব্যাখ্যা মূলকভাবে Multilayer জন্য (গভীর) নেটওয়ার্কগুলির একাধিক গোপন স্তর নেটওয়ার্কগুলির জন্য বড় করা হয়েছে। এজন্য কেউ ইমেজনেট বা কাগল-এর জন্য কোনও একটি লুকানো স্তর নেটওয়ার্ক ব্যবহার করে না। fNmflearnN
ডেলটাইভ

@ দেলতাভ: আমার আগের মন্তব্যের শেষ বাক্যে একটি টাইপ রয়েছে: "শিখুন" শব্দটি আসলে "আনুমানিক" হওয়া উচিত (অন্যথায়, "ওভারফিটিং" সম্পর্কে আমার বক্তব্যটি কোনও অর্থহীন নয়)। ইঙ্গিত দেওয়ার জন্য আপনাকে ধন্যবাদ!
টোবিয়াস উইন্ডিশ

হ্যাঁ, আমি এটি "আনুমানিক" অর্থে ব্যাখ্যা করেছি। আমার বক্তব্যটি হ'ল এমনকি যদি আপনি জানেন যে আপনি তাত্ত্বিকভাবে কোনও লুকানো স্তর এনএন দিয়ে কোনও কাজ (সীমাবদ্ধ হাইপারকিউবের উপর) আনুমানিক করতে পারেন, বাস্তবে এটি অনেক ক্ষেত্রেই অকেজো। আরেকটি উদাহরণ: স্কোয়ারযুক্ত এক্সফোনেনশিয়াল কার্নেলের সাথে গাউসীয় প্রক্রিয়াগুলির সর্বজনীন আনুমানিক সম্পত্তি রয়েছে, তবে তারা অন্যান্য সমস্ত রিগ্রেশন পদ্ধতিগুলিও সরিয়ে দেয়নি, এই কারণেও যে কিছু সমস্যার জন্য সঠিক সান্নিধ্যের জন্য প্রয়োজনীয় নমুনার সংখ্যা তাত্পর্যপূর্ণভাবে বৃদ্ধি পায়।
ডেল্টাভ

2

এই প্রশ্নের উপর মনোনিবেশ করে একটি দুর্দান্ত পোস্ট (সাধারণ মেশিন শেখার উপপাদাগুলির চেয়ে বিশেষত গভীর শিক্ষা) এখানে রয়েছে:

https://medium.com/mlreview/modern-theory-of-deep-learning-why-does-it-works-so-well-9ee1f7fb2808

এটি গভীরভাবে স্নায়ুবিক নেটওয়ার্কগুলির এত ভাল জেনারেল করার দক্ষতার জন্য প্রধান উদীয়মান উপপাদ্যগুলির একটি অ্যাক্সেসযোগ্য সংক্ষিপ্তসার দেয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.