কৃত্রিম নিউরাল নেটওয়ার্কগুলির পিছনে তাত্ত্বিক ফলাফল


13

আমি সবেমাত্র কুরসারের মেশিন লার্নিং কোর্সে কৃত্রিম নিউরাল নেটওয়ার্কগুলি কভার করেছি এবং আমি তাদের পিছনে আরও তত্ত্ব জানতে চাই। আমি অনুপ্রেরণা খুঁজে পাই যে তারা জীববিজ্ঞান কিছুটা অসন্তুষ্ট করে তোলে।

পৃষ্ঠের উপর এটি প্রদর্শিত হয় যে প্রতিটি স্তরে আমরা covariates তাদের একটি রৈখিক সংমিশ্রণ সঙ্গে প্রতিস্থাপন। বারবার এটি করার মাধ্যমে আমরা অ-রৈখিক মডেল ফিটিংয়ের অনুমতি দিই। এটি প্রশ্নটি জাগায়: কেন কখনও কখনও স্নায়বিক নেটওয়ার্কগুলিকে কেবল একটি অ-রৈখিক মডেল ফিট করার পক্ষে অগ্রাধিকার দেওয়া হয়।

আরও সাধারণভাবে, আমি জানতে চাই যে বাটিশিয়ান ফ্রেমওয়ার্কের মধ্যে কৃত্রিম নিউরাল নেটওয়ার্কগুলি কীভাবে ফিট করে যা ইটি জেইনসের "" প্রব্যাবিলিটি থিওরি: দ্য লজিক অফ সায়েন্স "বইয়ে বর্ণনা করা হয়েছে ference বা, সহজভাবে বলতে গেলে, কৃত্রিম নিউরাল নেটওয়ার্কগুলি যখন কাজ করে তখন কেন কাজ করে? এবং, অবশ্যই, তারা সফল পূর্বাভাস দেয় তা বোঝায় যে তারা পূর্বোক্ত কাঠামোটি অনুসরণ করে।

উত্তর:


16

এখানে ইটি জেনেসের " এ ব্যাকওয়ার্ড লুক টু দ্য ফিউচার " -এর একটি উদ্ধৃতি দেওয়া আছে ।

নতুন অ্যাডহকরিজ

সাম্প্রতিক বছরগুলিতে কোনও সংযুক্ত তাত্ত্বিক নীতিগুলিতে আবেদন করার চেয়ে স্বজ্ঞাত ডিভাইস আবিষ্কারের গোঁড়া অভ্যাসটিকে এমনভাবে নতুন সমস্যার দিকে প্রসারিত করা হয়েছে যা বিজ্ঞানের বেশ কয়েকটি নতুন ক্ষেত্র তৈরি হয়েছে তা প্রথমে এটি প্রদর্শিত হয়। তবুও তারা সবাই অসম্পূর্ণ তথ্য থেকে যুক্তি নিয়ে উদ্বিগ্ন; এবং আমরা বিশ্বাস করি যে আমাদের সম্ভাব্য তত্ত্বটি তাত্ত্বিক হিসাবে তাত্ত্বিক হিসাবে স্থাপন করে এই জাতীয় সমস্ত সমস্যা মোকাবেলার সাধারণ উপায়। আমরা তিনটি উদাহরণ নোট করি।

ফিজি সেটগুলি হ'ল স্পষ্টতই, বায়েশিয়ান অনুমানের প্রশিক্ষণপ্রাপ্ত কারও কাছে - বেয়েশিয়ার পূর্ব সম্ভাব্যতার কাছে অপরিশোধিত অনুমান। এগুলি কেবল তখনই তৈরি হয়েছিল কারণ তাদের অনুশীলনকারীরা প্রকৃতির মধ্যে উপস্থিত থাকার মতো "র্যান্ডমনেস" শর্ত হিসাবে সম্ভাবনার চিন্তাভাবনা অব্যাহত রেখেছিল তবে কখনও কখনও এর সঠিক সংজ্ঞা দেওয়া হয়নি; এবং তাই এই সিদ্ধান্তে পৌঁছে যে সম্ভাবনার তত্ত্বটি এই জাতীয় সমস্যার ক্ষেত্রে প্রযোজ্য নয়। অসম্পূর্ণ তথ্য নির্দিষ্ট করার সাধারণ উপায় হিসাবে কেউ সম্ভাব্যতা স্বীকার করার সাথে সাথেই ফাজী সেটগুলি প্রবর্তনের কারণ অদৃশ্য হয়ে যায়।

তেমনি, কৃত্রিম বুদ্ধিমত্তার (এআই) বেশিরভাগই অসম্পূর্ণ তথ্য থেকে যুক্তির জন্য স্বজ্ঞাত ডিভাইসের সংকলন যা প্রচলিত পরিসংখ্যানের পুরানো ব্যক্তির মতো বায়েশিয়ার পদ্ধতিগুলির নিকটবর্তী এবং কিছুটা সীমাবদ্ধ শ্রেণির সমস্যার ক্ষেত্রে ব্যবহারযোগ্য; কিন্তু যখন আমরা সেই শ্রেণীর বাইরে সমস্যাগুলিতে তাদের প্রয়োগ করার চেষ্টা করি তখন এটি অযৌক্তিক সিদ্ধান্তে আসে। আবার, এর চর্চাকারীরা কেবলমাত্র এতে ধরা পড়ে কারণ তারা অসম্পূর্ণ তথ্যের পরিবর্তে শারীরিক "এলোমেলোতা" উপস্থাপন হিসাবে সম্ভাবনার কথা ভাবতে থাকে। বায়েশিয়ান ইনফারেন্সনে এই সমস্ত ফলাফল স্বয়ংক্রিয়ভাবে - এবং বরং তুচ্ছ - কোনও সীমাবদ্ধ শ্রেণির সমস্যার সীমাবদ্ধতা ছাড়াই অন্তর্ভুক্ত।

দারুণ নতুন বিকাশ হ'ল নিউরাল নেট, যার অর্থ তারা হ'ল বিস্ময়কর নতুন সম্পত্তির সাথে অ্যালগরিদমের একটি সিস্টেম যা মানুষের মস্তিষ্কের মতো, অভিযোজিত যাতে তারা অতীত ত্রুটিগুলি থেকে শিখতে পারে এবং স্বয়ংক্রিয়ভাবে নিজেকে সংশোধন করতে পারে (বাহ! কী দুর্দান্ত নতুন ধারণা!) । প্রকৃতপক্ষে, আমরা নিউরাল নেটগুলি অনেক অ্যাপ্লিকেশনগুলিতে প্রকৃতপক্ষে খুব কার্যকর যেটি দেখে অবাক হই না; ফাজি সেট বা এআই এর চেয়ে বেশি। তবে বর্তমান স্নায়ুবহুল জালের দুটি ব্যবহারিক ত্রুটি রয়েছে; (ক) তারা বর্তমান ইনপুট প্লাস অতীতের প্রশিক্ষণ তথ্যের দ্বারা নির্ধারিত একটি আউটপুট দেয়। এই আউটপুটটি আসলেই একটি অনুমানযথাযথ প্রতিক্রিয়া, হাতে থাকা সমস্ত তথ্যের উপর ভিত্তি করে, তবে এটি এর যথার্থতার কোনও ইঙ্গিত দেয় না, এবং সুতরাং এটি আমাদের লক্ষ্য করে না যে আমরা কতটা নিকটে রয়েছি (যা আরও বেশি প্রশিক্ষণের প্রয়োজন); (খ) যখন অলৈখিক প্রতিক্রিয়া আহ্বান করা হয়, তখন একটি অভ্যন্তরীণভাবে সঞ্চিত স্ট্যান্ডার্ড "সিগময়েড" ননলাইনার ফাংশনের জন্য আবেদন করে, যা বিভিন্ন পরিবর্ধন এবং লিনিয়ার মিশ্রণগুলি সহ কিছুটা হলেও সত্যিকারের ননলাইনার ফাংশন তৈরি করতে পারে। (দ্রষ্টব্য: জোর আমার।)

তবে, আমাদের কি সত্যই উল্লেখ করতে হবে যে (1) অভিযোজিত যে কোনও পদ্ধতি হ'ল সংজ্ঞা অনুসারে, অসম্পূর্ণ তথ্য অ্যাকাউন্টে নেওয়ার একটি মাধ্যম; (২) বেয়েসের উপপাদ্য হ'ল সমস্ত অভিযোজিত পদ্ধতির মা; সাধারণ নতুন তথ্য হিসাব করা জ্ঞানের যে কোনো অবস্থায় আপডেট করার জন্য নিয়ম; (3) এই সমস্যাগুলি যখন বায়েশিয়ার পদগুলিতে রচনা করা হয়, তখন একটি একক গণনা স্বয়ংক্রিয়ভাবে সর্বোত্তম অনুমান এবং এর যথার্থতা উভয়ই লাভ করে; (৪) অরৈখিকতার জন্য বলা হলে, বাইসের উপপাদটি স্বয়ংক্রিয়ভাবে সমস্যার দ্বারা ডাকা সঠিক ননলাইনার ফাংশনটি স্বয়ংক্রিয়ভাবে উত্পন্ন করে অন্য কোনও অ্যাডহক ডিভাইস দ্বারা এটির সাথে একটি সান্নিধ্য তৈরি করার চেষ্টা করার পরিবর্তে ।

অন্য কথায়, আমরা দাবি করি যে এগুলি মোটেই নতুন ক্ষেত্র নয়; শুধুমাত্র মিথ্যা শুরু। যদি কোনও স্ট্যান্ডার্ড বায়েশিয়ান প্রেসক্রিপশন দ্বারা এই জাতীয় সমস্ত সমস্যার সূত্র তৈরি করে তবে একটি স্বয়ংক্রিয়ভাবে তাদের সমস্ত কার্যকর ফলাফল উন্নত আকারে পেয়ে যায়। লোকেদের এটি বুঝতে অসুবিধাগুলি মনে হ'ল বিমূর্ত গণিত এবং বাস্তব বিশ্বের মধ্যকার সম্পর্ককে কল্পনা করতে একই ব্যর্থতার সমস্ত উদাহরণ। যত তাড়াতাড়ি আমরা সনাক্ত করতে পারি যে সম্ভাবনাগুলি বাস্তবতার বর্ণনা দেয় না - কেবলমাত্র বাস্তবতা সম্পর্কে আমাদের তথ্য - গেটগুলি সেই তথ্য থেকে যুক্তির সমস্যার অনুকূল সমাধানের জন্য প্রশস্ত থাকে।

কয়েকটি মন্তব্য:

  1. পয়েন্ট (ক) আশি দশকের শেষভাগ এবং নব্বইয়ের দশকের গোড়ার দিকে শুরু হওয়া বায়েশিয়ান নিউরাল নেটওয়ার্কগুলির উন্নয়নগুলি উপেক্ষা করে (তবে লক্ষ্য করুন যে জেনেসের কাগজটি 1993 সালে লেখা হয়েছিল)। এই পোস্টে একবার দেখুন । এছাড়াও, ইয়ারিন গালের সুন্দর পিএইচডি থিসিস পড়ার বিষয়টি বিবেচনা করুন এবং জউবিন ঘারমণির এই দুর্দান্ত উপস্থাপনাটি দেখুন

  2. পয়েন্ট (খ) কীভাবে "সংকট" হতে পারে তা আমি দেখছি না। প্রকৃতপক্ষে, এটি নিউরাল নেটগুলি একটি বৃহত শ্রেণির ফাংশনগুলি ভালভাবে অনুমান করতে পারে কেন তার সারমর্ম। লক্ষ্য করুন যে সাম্প্রতিক সফল আর্কিটেকচারগুলি সিগময়েড থেকে "প্রশস্ততার" উপরে "গভীরতা" এর পক্ষে, অভ্যন্তরীণ স্তরগুলিতে রিলিউ অ্যাক্টিভেশনগুলিতে স্থানান্তরিত হয়েছে। আনুষঙ্গিক তত্ত্বগুলি সম্প্রতি রিলু নেটের জন্য প্রমাণিত হয়েছে ।


2
+1 উত্তরের জন্য যথাযথভাবে সঠিক রেফারেন্স কোথায় পাওয়া যায় ঠিক তা জানা ছাড়া আর কিছুই সন্তুষ্ট নয়।
সাইকোরাক্স মনিকাকে

5
অ্যাডহক ডিভাইসগুলি দেখিয়েছে যে তারা অনেক পরিস্থিতিতে কাজ করে, এটি কেবল বায়েশিয়ান কাঠামোর সাথে খাপ খাইয়ে দেখা (বা অস্বীকার করা) উত্পাদনশীল হবে এবং অতএব, অ্যাডহকারিগুলির গভীরতর উপলব্ধি অর্জন করবে, যা এগুলি এত ব্যাপকভাবে স্থাপন করা হয় দিন। আমি আগ্রহী এই ধরনের কাজ
টম আর্টিয়াম ফিয়াদোরভ ১৯

1

সর্বপ্রথম আমরা ননলাইনার ফাংশনটি পেতে একে অপরের মধ্যে রৈখিক ফাংশনগুলি স্ট্যাক করি না। NNs এর মতো কখনই কাজ না করার একটি স্পষ্ট কারণ রয়েছে: একে অপরের মধ্যে রৈখিক কার্যাদি স্ট্যাক করা পুনরায় রৈখিক ক্রিয়াকলাপ অর্জন করতে পারে।

কী এনএনএসকে ননলাইনার করে তোলে এটিই সক্রিয়করণ ফাংশন যা লিনিয়ার ফাংশনের পিছনে আসে! তবে, প্রধান হিসাবে আপনি সঠিক: আমরা কেবল একে অপরের মধ্যে প্রচুর লজিস্টিক রিগ্রেশন (যদিও লিনিয়ারগুলি নয়!) স্ট্যাক করি এবং ... তদা: আমরা এর থেকে ভাল কিছু পাই ... তা কি ফর্সা? দেখা যাচ্ছে যে (তাত্ত্বিক দিক থেকে দেখুন) এটি আসলে ন্যায্য। এমনকি খারাপ: সুপ্রসিদ্ধ এবং সুপরিচিত ব্যবহার স্টোন-Weierstrass এর উপপাদ্য কেবলমাত্র আমরা শুধু একটা গোপন স্তর এবং চূড়ান্ত নোড কোন আউটপুট ফাংশন যে স্নায়ুর নেটওয়ার্ক প্রমাণ approximize যথেষ্ট কোন অবিচ্ছিন্ন ফাংশন (এবং বিশ্বাস করবে আমাকে, ক্রমাগত ফাংশন কুশ্রী হতে পারে জানোয়ার, দেখুন "শয়তান সিঁড়ি": https://en.wikedia.org/wiki/Cantor_distribration[a,b]x↦=b+a1ϕ1(x)+...+alϕl(x)l

কেন আমরা তখন গভীর এনএন ব্যবহার করি? কারণটি হ'ল উপরের এসডাব্লু-উপপাদ্য কেবলমাত্র গ্যারান্টি দেয় যে পর্যাপ্ত পরিমাণে একটি বৃহত স্তর রয়েছে যাতে আমরা আমাদের (আশাবাদী ধারাবাহিক) লক্ষ্য ফাংশনের কাছাকাছি আসতে পারি। তবে প্রয়োজনীয় স্তরের আকারটি এত বড় হতে পারে যে কোনও কম্পিউটারই সেই আকারের ওজন ম্যাট্রিকগুলি হ্যান্ডেল করতে পারে না। আরও লুকানো স্তরযুক্ত এনএনগুলি 'নির্ভুলতা' এবং গণ্যতার মধ্যে একটি ভাল সমঝোতা বলে মনে হচ্ছে। আমি কোনও তাত্ত্বিক ফলাফল জানি না যা কেবলমাত্র একক লুকানো স্তরের আকার বাড়ানোর তুলনায় আরও গোপন স্তর স্থাপনের সময় এনএনগুলির এক্সপ্রেসিভনেসটি 'কতটা' বাড়ায় তার দিকে নির্দেশ করে তবে ওয়েবে কিছু সংস্থান আছে ...

আমরা কী গভীর এনএন বুঝতে পারি? উদাহরণস্বরূপ প্রশ্ন: এনএন কেন এই কেসটিকে সত্য বলে পূর্বাভাস দেয় যখন এই অন্যান্যটিকে অনুরূপ ক্ষেত্রে মিথ্যা বলে পূর্বাভাস দেয়? কেন এই গ্রাহককে একে অপরের চেয়ে মূল্যবান বলে রেট দেয়? আমি আসলে বিশ্বাস করি না। এটি মডেলের জটিলতার সাথে আসে যে আপনি এটিকে আর যুক্তিসঙ্গতভাবে ভালভাবে ব্যাখ্যা করতে পারবেন না ... আমি কেবল শুনেছি এটি এখনও গবেষণার একটি সক্রিয় ক্ষেত্র তবে আমি কোনও সংস্থান জানি না ...

সমস্ত মডেলের মধ্যে কী এনএনএসকে এত অনন্য করে তোলে? নিম্নলিখিত দিনগুলিতে আমরা এনএনএসকে এত বেশি কেন ব্যবহার করি তার আসল কারণটি হ'ল:

  1. তারা প্রাকৃতিক 'স্ট্রিমিং' সম্পত্তি নিয়ে আসে।
  2. আমরা তাদেরকে অনেক দিক থেকে সর্বাধিক দিকে চালিত করতে পারি।

TfTTT, ইত্যাদি) এই সম্পত্তির উপর ভিত্তি করে। লোকেরা এই স্ট্রিমিং সম্পত্তিটি অন্য মডেলগুলিতে ছড়িয়ে দেওয়ার চেষ্টা করেছে (উদাহরণস্বরূপ গ্রেডিয়েন্ট বুস্টিং) তবে এটি প্রাকৃতিকভাবে আসে না এবং এনএন সেটআপের মতো কম্পিউটারের তুলনায় সস্তাও হয় না।

২. আমার অর্থ এই যে লোকেরা NNs কে উদ্ভট কাজগুলি করার জন্য প্রশিক্ষণ দিয়েছে তবে নীতিগতভাবে তারা কেবল একই কাঠামোটি ব্যবহার করেছে: একে অপরের সাথে মসৃণ ফাংশনগুলি স্ট্যাক করে এবং তারপরে কম্পিউটারকে (যেমন পাইটর্চ / টেনসরফ্লো) কম্পিউটারের মতো আপনার জন্য নোংরা গণিত করতে দিন let ক্ষতি ফাংশন এর ডেরাইভেটিভ ওজন ওজন। একটি উদাহরণ এই কাগজ হবেযেখানে লোকেরা আরএল পদ্ধতির ব্যবহার করেছে এবং রাসায়নিক পদার্থের জটিল ভাষা শেখার জন্য এনএন এর আর্কিটেকচারকে প্ররোচিত করেছে কীভাবে কোনও মেমরি স্ট্যাক (!) কীভাবে পরিচালনা করতে পারে তা শিখিয়ে। গ্রেডিয়েন্ট বুস্টিংয়ের সাহায্যে এটি করার চেষ্টা করুন ;-) তাদের অবশ্যই এটি করার কারণটি হ'ল রাসায়নিকের ভাষা কমপক্ষে বন্ধনীর ভাষা হিসাবে 'শেখা' হিসাবে কঠিন (অর্থাত্ প্রতিটি খোলার বন্ধনীটি শব্দের পরে একটি সমাপ্ত হয়) ) কারণ অণুগুলি বর্ণনার জন্য স্মিপস ভাষা যে পপ্পল ব্যবহার করে তাতে '(' এবং ')' চিহ্ন রয়েছে। তাত্ত্বিক কম্পিউটার বিজ্ঞান (চমস্কি শ্রেণিবিন্যাস) থেকে একজন জানেন যে কেউ এই ভাষাটিকে নিয়মিত অটোম্যাটা দিয়ে বর্ণনা করতে পারবেন না তবে তার জন্য একটি পুশ ডাউন অটোমেটা প্রয়োজন (যেমন স্ট্যাক মেমোরিযুক্ত একটি অটোমেটা)। তাদের কাছে এই অনুপ্রেরণা ছিল (আমার ধারণা) এনএনকে এই অদ্ভুত জিনিসটি শেখানো।


-1

"এটি কাজ করে কেন কাজ করে?"

n

সুতরাং, সমস্ত মেশিন লার্নিং একইভাবে অ্যাডহক।

মেশিন লার্নিং কিমিরির অনুরূপ: প্রচুর রহস্যজনক রেসিপি রয়েছে, আপনি একটি প্রয়োগ করেন এবং আপনি সোনার পেতে পারেন। যদি তা না হয় তবে কেবল অন্য একটি রেসিপি প্রয়োগ করুন।

আপনি যে প্রশ্ন করেছেন তা কেউ জিজ্ঞাসা করে না, কমপক্ষে আমার জানা প্রকাশনাগুলিতে নয়।

এর উপরে, পরিসংখ্যান শেখার তত্ত্ব রয়েছে। পরিসংখ্যান শেখার তত্ত্ব অনুমান করে যে প্রশিক্ষণের সেটটির আকারটি অনন্তের দিকে যায়। আমি জানি বেশিরভাগ ফলাফলগুলির ফর্মটি রয়েছে: "নির্দিষ্ট শর্তের অধীনে, যদি আপনার পর্যাপ্ত পরিমাণে প্রশিক্ষণের ব্যবস্থা থাকে, তবে আপনি এই পদ্ধতিটি ব্যবহার করে যতটা সম্ভব সম্ভব প্রায় ভাল ফলাফল পেতে পারেন"। "যথেষ্ট বড়" কীসের অনুমানগুলি কল্পনার বাইরে।

অবশ্যই, সমস্যাটি হল, প্রশিক্ষণের সেট আকারটি কোথাও চলছে না, অনন্তের দিকে ছেড়ে দিন।

সুতরাং, আমি মনে করি, (1) এই প্রশ্নটি জিজ্ঞাসা করা, (2) সমস্ত সম্ভাব্য মেশিন লার্নিং অ্যালগরিদম সম্পর্কে প্রশ্নের উত্তর দেওয়ার জন্য একটি গাণিতিক যন্ত্রপাতি বিকাশ করা এবং (3) এই প্রশ্নের উত্তর দেওয়ার জন্য ভাল সময়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.