সাইবেনকোর ফলাফল মোটামুটি স্বজ্ঞাত, যেমনটি আমি নীচে প্রকাশ করার আশা করি; বিষয়গুলি কী আরও জটিল করে তোলে তা হ'ল তিনি উভয়ই সাধারণতার জন্য লক্ষ্য রেখেছিলেন, পাশাপাশি খুব কম সংখ্যক লুকানো স্তরও রেখেছিলেন। কলমোগোরভের ফলাফল (vzn দ্বারা উল্লিখিত) প্রকৃতপক্ষে একটি শক্তিশালী গ্যারান্টি অর্জন করেছে, তবে মেশিন লার্নিংয়ের সাথে কিছুটা কম প্রাসঙ্গিক (বিশেষত, এটি একটি স্ট্যান্ডার্ড নিউরাল নেট তৈরি করে না, যেহেতু নোডগুলি ভিন্নধর্মী); ফলস্বরূপ এই ফলাফলটি ভয়াবহ আকার ধারণ করছে কারণ এটি কেবলমাত্র 3 পৃষ্ঠাগুলি কিছু সীমাবদ্ধতা এবং অবিচ্ছিন্ন ক্রিয়াকলাপ রেকর্ড করে, তবে বাস্তবে এটি ফ্র্যাক্টালগুলির একটি সেট তৈরি করছে। যদিও তিনি ব্যবহার করছেন সঠিক কৌশলগুলির কারণে সাইবেঙ্কোর ফলাফল অস্বাভাবিক এবং অত্যন্ত আকর্ষণীয়, সেই গন্ধের ফলাফলগুলি মেশিন লার্নিংয়ে খুব বেশি ব্যবহৃত হয় (এবং আমি আপনাকে অন্যের দিকে নির্দেশ করতে পারি)।
সাইবেঙ্কোর ফলাফল কেন রাখা উচিত তার একটি উচ্চ-স্তরের সারসংক্ষেপ এখানে।
- একটি কমপ্যাক্ট সেট উপর একটি অবিচ্ছিন্ন ফাংশন একটি টুকরোচক ধ্রুবক ফাংশন দ্বারা প্রায় অনুমান করা যেতে পারে।
- নীচে একটি টুকরোচক ধ্রুবক ক্রিয়াকে নিউরাল নেট হিসাবে উপস্থাপন করা যেতে পারে। প্রতিটি অঞ্চলে যেখানে ফাংশনটি স্থির থাকে, সেই অঞ্চলের জন্য সূচক ফাংশন হিসাবে নিউরাল নেট ব্যবহার করুন। তারপরে একটি একক নোডের সাথে একটি চূড়ান্ত স্তর তৈরি করুন, যার ইনপুট লিনিয়ার সংমিশ্রণটি সমস্ত সূচকগুলির সমষ্টি, মূল টুকরোয়াল ধ্রুবক ক্রিয়ায় সংশ্লিষ্ট অঞ্চলের ধ্রুবক মানের সমান ওজন সহ।
উপরের প্রথম বিষয়টির বিষয়ে, এটি "একটি কমপ্যাক্ট সেট উপর একটি অবিচ্ছিন্ন ফাংশন অভিন্ন ধারাবাহিকভাবে" বিবৃতি হিসাবে নেওয়া যেতে পারে। এই আমাদের কাছে মানে তোমাদের উপর আপনার ক্রমাগত ফাংশন নিতে পারেন , এবং কিছু লক্ষ্য ত্রুটি ε > 0 , তারপর আপনি যা করতে পারেন গ্রিড [ 0 , 1 ] ঘ মাত্রায় τ > 0 (প্রায় সঙ্গে শেষ পর্যন্ত ( 1 / τ ) ঘ subcubes) যাতে একটি ফাংশন যা প্রতিটি subcube উপর ধ্রুবক মধ্যে যে ε লক্ষ্য ফাংশনের।[ 0 , 1 ]ঘϵ > 0[ 0 , 1 ]ঘτ> 0( 1 / τ)ঘε
এখন, একটি নিউরাল নেট যথাযথভাবে একটি সূচক উপস্থাপন করতে পারে না, তবে আপনি খুব কাছাকাছি পেতে পারেন। ধরুন "ট্রান্সফার ফাংশন" একটি সিগময়েড। (ট্রান্সফার ফাংশন হ'ল নিউরাল নেট নোডের মান পেতে আপনি ইনপুটগুলির একটি রৈখিক সংমিশ্রণে প্রয়োগ করা একটানা ফাংশন)) তারপরে ওজনকে বিশাল করে তৈরি করে, আপনি আরও ইনপুটগুলির জন্য 0 এর কাছাকাছি বা 1 এর কাছাকাছি আউটপুট দেন। এটি সাইবেঙ্কোর বিকাশের সাথে সামঞ্জস্যপূর্ণ: লক্ষ্য করুন যে সীমাতে 0 বা 1 এর সমান করার জন্য তাঁর জড়িত ক্রিয়াকলাপগুলি প্রয়োজন: সীমা সংজ্ঞা অনুসারে, আমি ঠিক যা বলছি তা পেয়ে যাবেন, অর্থাত আপনি 0 বা 1 এর কাছে নির্বিচারে জিনিসগুলিকে ধাক্কা দেন।
(আমি চূড়ান্ত স্তরটিতে স্থানান্তর ফাংশনটিকে উপেক্ষা করেছি; যদি এটি সেখানে থাকে এবং এটি অবিচ্ছিন্ন থাকে, তবে আমরা স্থানান্তর অনুসারে সেই ধ্রুবকের বিপরীত চিত্রের কোনও কিছু দিয়ে ধ্রুবক ওজনকে প্রতিস্থাপন করে ম্যাপিংয়ের যে কোনও কিছু ফিট করতে পারি ফাংশন।)[ 0 , 1 ]
লক্ষ্য করুন যে উপরেরটি কয়েকটি স্তর নিয়েছে বলে মনে হচ্ছে: বলুন কিউবগুলিতে সূচকগুলি তৈরি করতে 2 এবং তারপরে একটি চূড়ান্ত আউটপুট স্তর। সাইবেঙ্কো সাধারণতার দুটি দফার জন্য চেষ্টা করছিলেন: ন্যূনতম সংখ্যক গোপন স্তর, এবং স্থানান্তর কার্যকারিতার পছন্দে নমনীয়তা। আমি ইতিমধ্যে বর্ণনা করেছি যে কীভাবে তিনি স্থানান্তর কার্যক্রমে নমনীয়তা নিয়ে কাজ করেন।
সর্বনিম্ন স্তরের স্তর পেতে, তিনি উপরের নির্মাণটি এড়িয়ে যান এবং পরিবর্তে কার্যকারিতা বিশ্লেষণ ব্যবহার করে একটি বৈপরীত্য বিকাশ করেন। এখানে যুক্তিটির স্কেচ দেওয়া আছে।
চূড়ান্ত নোড এটির নীচের স্তরের উপাদানের একটি রৈখিক সংমিশ্রণ গণনা করে এবং এটিতে একটি স্থানান্তর ফাংশন প্রয়োগ করে। এই লিনিয়ার সংমিশ্রণটি ফাংশনগুলির একটি রৈখিক সংমিশ্রণ, এবং যেমন, নিজেই একটি ফাংশন, ফাংশনগুলির কিছু উপসর্গের মধ্যে একটি ফাংশন, লুকানো স্তরের সম্ভাব্য নোড দ্বারা বিস্তৃত।
ফাংশনগুলির একটি উপসর্গটি একটি সাধারণ সীমাবদ্ধ-মাত্রিক উপ-স্পেসের মতো, মূল পার্থক্য সহ যে এটি সম্ভাব্যভাবে একটি বদ্ধ সেট নয়; সে কারণেই সাইবেঙ্কোর যুক্তি সমস্তই সেই উপসর্গটি বন্ধ করে দেয়। আমরা প্রমাণ করার চেষ্টা করছি যে এই বন্ধটিতে অবিচ্ছিন্ন সমস্ত কার্য রয়েছে; এর অর্থ হ'ল আমরা নির্বিঘ্নে সমস্ত ক্রমাগত ফাংশনের নিকটে আছি।
যদি ফাংশন স্পেসটি সহজ ছিল (একটি হিলবার্ট স্পেস), আমরা নিম্নলিখিত হিসাবে তর্ক করতে পারি। কিছু লক্ষ্য অবিচ্ছিন্ন ফাংশন বাছাই করুন যা পরস্পরবিরোধীভাবে উপস্থানে মিথ্যা কথা না বলে মনে করা হয় এবং এটিকে উপসর্গের অর্থোগোনাল পরিপূরক হিসাবে প্রজেক্ট করুন। এই অবশিষ্টাংশ অবশ্যই নোনজারো হতে হবে। তবে যেহেতু আমাদের উপ-স্থানটি উপরের এই ছোট্ট কিউবগুলির মতো জিনিসগুলি উপস্থাপন করতে পারে, তাই আমরা এই অবশিষ্টাংশের কিছু অঞ্চল খুঁজে পেতে পারি, এটির সাথে সামান্য কিউব ফিট করতে পারি (উপরে হিসাবে) এবং এটির মাধ্যমে আমাদের লক্ষ্য ফাংশনের আরও কাছে যেতে পারে। এটি একটি বৈপরীত্য যেহেতু অনুমানগুলি ন্যূনতম উপাদানগুলি চয়ন করে। (দ্রষ্টব্য, আমি এখানে কিছু রেখে দিচ্ছি: সাইবেঙ্কোর যুক্তি কোনও সামান্য কিউবস তৈরি করে না, তিনি এটিকে সাধারণভাবেও পরিচালনা করেন; এখানেই তিনি রিয়েজ উপস্থাপনের উপপাদ্য এবং স্থানান্তর কার্যকারিতার বৈশিষ্ট্যগুলি ব্যবহার করেন (যদি আমি মনে করি তবে সঠিকভাবে, এই পদক্ষেপের জন্য পৃথক লিমা রয়েছে,
আমরা হিলবার্ট স্পেসে নেই, তবে আমরা হান-বানাচ উপপাদ্যটি উপরের প্রক্ষেপণের পদক্ষেপটি প্রতিস্থাপন করতে ব্যবহার করতে পারি (নোট, প্রমাণিত হান-বানাচ পছন্দের অক্ষরক্ষার ব্যবহার করে)।
এখন আমি কোলমোগোরভের ফলাফল সম্পর্কে কয়েকটি কথা বলতে চাই। যদিও এই ফলাফলটি স্পষ্টতই সাইবেঙ্কোর পটভূমির প্রয়োজন নেই, আমি ব্যক্তিগতভাবে মনে করি এটি আরও ভয়ঙ্কর।
ও ( ঘ2)
ঠিক আছে, এত কিছুর সাথে এই জিনিসটি কীভাবে সম্ভব ?!
ϵ > 0τ> 0
[ 0 , 1 ][ 0 , 1 ]ঘহে ( ঘ2)আরঘআরও ( ঘ2)
মনে রাখবেন যে সাইবেঙ্কোর ফলাফল, শুধুমাত্র এক ধরণের স্থানান্তর ফাংশন ব্যবহারের কারণে, মেশিন শেখার ক্ষেত্রে আরও প্রাসঙ্গিক। এই ধরণের উপপাদ্যগুলি মেশিন লার্নিংয়ে খুব সাধারণ (vzn তার উত্তরে এটি প্রস্তাব করেছিল, তবে তিনি কলমোগোরভের ফলাফলকে উল্লেখ করেছেন যা কাস্টম ট্রান্সফার ফাংশনের কারণে কম প্রযোজ্য; কোলমোগোরভের ফলাফলের আরও কিছু অভিনব সংস্করণে এটি দুর্বল হয়ে পড়েছে (উত্পাদিত অন্যান্য লেখক), তবে সেগুলিতে এখনও ফ্র্যাক্টাল এবং কমপক্ষে দুটি স্থানান্তর ফাংশন জড়িত)।
এই বিষয়গুলিতে আমার কিছু স্লাইড রয়েছে, যা আপনার আগ্রহী হলে আমি পোস্ট করতে পারতাম (আশা করি উপরের তুলনায় কম র্যাম্পলি এবং কিছু ছবি আছে; তবে হান-বানচের সাথে আমি পারদর্শী হওয়ার আগে আমি সেগুলি লিখেছিলাম)। আমি মনে করি উভয় প্রমাণ খুব খুব সুন্দর। (এছাড়াও, এই বিষয়গুলির বিষয়ে আমার এখানে আরও একটি উত্তর রয়েছে, তবে আমি কলমোগোরভের ফলাফলটি উত্সাহিত করার আগে এটি লিখেছিলাম))