“স্নায়ু নেটওয়ার্ক এত ভাল কাজ করে কেন?” এই প্রশ্নে টিসিএস কী ধরণের উত্তর চায়?


52

আমার পিএইচডি খাঁটি গণিতে রয়েছে এবং আমি স্বীকার করি যে আমি তাত্ত্বিক সিএস সম্পর্কে খুব বেশি (অর্থাত্ কিছুই) জানি না। যাইহোক, আমি আমার ক্যারিয়ারের জন্য নন-একাডেমিক বিকল্পগুলি অন্বেষণ করা শুরু করেছি এবং মেশিন লার্নিংয়ের সাথে নিজেকে পরিচয় করিয়ে দেওয়ার ক্ষেত্রে, "নিউরাল নেটওয়ার্কগুলি কেন ভালভাবে কাজ করে কেন কেউ বুঝতে পারে না" এমন বিবৃতিতে হোঁচট খায় যা আমি আকর্ষণীয় বলে মনে করি।

আমার প্রশ্নটি মূলত, গবেষকরা কী ধরণের উত্তর চান? এই বিষয়টিতে আমার সংক্ষিপ্ত অনুসন্ধানে আমি যা পেয়েছি তা এখানে:

  • সাধারণ নিউরাল নেটওয়ার্কগুলি প্রয়োগকারী অ্যালগরিদমগুলি বেশ সোজা।
  • পরিসংখ্যানগত তত্ত্ব হিসাবে এসজিডি প্রক্রিয়াটি গাণিতিকভাবে ভালভাবে বোঝা যায়।
  • সর্বজনীন আনুমানিক উপপাদ্য শক্তিশালী এবং প্রমাণিত।
  • একটি দুর্দান্ত সাম্প্রতিক কাগজ আছে https://arxiv.org/abs/1608.08225 যা মূলত উত্তর দেয় যে সর্বজনীন আনুমানিকতা বাস্তবে বাস্তবে আমাদের প্রয়োজনের তুলনায় অনেক বেশি কারণ আমরা যে ফাংশনগুলির সাথে মডেল করার চেষ্টা করছি তার সম্পর্কে আমরা দৃ strong় সরলকরণ অনুমান করতে পারি নিউরাল নেটওয়ার্ক

পূর্বোক্ত কাগজে, তারা বর্ণিত (প্যারাফ্রেসিং) "জিওএফএআই অ্যালগরিদমগুলি বিশ্লেষণাত্মকভাবে পুরোপুরি বোঝা গেছে, তবে অনেক এএনএন অ্যালগরিদম কেবল তাত্পর্যপূর্ণভাবে বোঝা যায়" " বাস্তবায়িত অ্যালগরিদমগুলির জন্য রূপান্তর তত্ত্বগুলি বিশ্লেষণী বোঝার একটি উদাহরণ যা মনে হয় যে আমাদের নিউরাল নেটওয়ার্ক সম্পর্কে কিছু আছে, তাই সাধারণতার এই স্তরের একটি বিবৃতি আমাকে বনাম অজানা সম্পর্কে কী বেশি কিছু জানায় না বা কী হিসাবে বিবেচিত হবে " । "

লেখকরা এই উপসংহারে পরামর্শ দেন যে প্রদত্ত বহুবর্ষ সম্পর্কে আনুমানিক প্রয়োজনের জন্য নিউরাল নেটওয়ার্কের আকারের কার্যকর সীমাগুলির মতো প্রশ্নগুলি উন্মুক্ত এবং আকর্ষণীয়। গাণিতিকভাবে নির্দিষ্ট বিশ্লেষণাত্মক প্রশ্নের অন্যান্য উদাহরণগুলি কী কী যেগুলির জন্য আমরা নিউরাল নেটওয়ার্কগুলি "বুঝতে" পারি তার উত্তর দেওয়ার প্রয়োজন হবে? আরও বিশুদ্ধ গাণিতিক ভাষায় এমন প্রশ্নগুলির উত্তর দেওয়া যেতে পারে?

(আমি এই কাগজে পদার্থবিজ্ঞানের ব্যবহারের কারণে প্রতিনিধিত্বমূলক তত্ত্বের ক্ষেত্রে বিশেষত পদ্ধতিগুলি সম্পর্কে চিন্তা করছি এবং স্বার্থপর বলছি কারণ এটি আমার পড়াশুনার ক্ষেত্র। তবে আমি সংযুক্তি / গ্রাফ তত্ত্ব, বীজগণিত জ্যামিতির মতো অঞ্চলগুলিও কল্পনা করতে পারি , এবং টপোলজি টেকসই সরঞ্জাম সরবরাহ করে)


3
জিওএফএআই কি সত্যই বোঝে? বেশিরভাগ জিওএফএআই স্যাট সমাধানে উত্সাহিত বলে মনে হচ্ছে, প্রত্নতাত্ত্বিক এনপি-সম্পূর্ণ সমস্যা। আধুনিক SAT solvers অনুশীলনে উল্লেখযোগ্যভাবে ভাল কাজ করে, যদিও তাদের বিদ্যমান তত্ত্ব অনুসারে না করা উচিত। কেন?
মার্টিন বার্গার

এই অঞ্চলে সত্যিকারের প্রাক-গভীরতর পড়াশোনা এবং উত্তর-গভীরতর পড়াশোনা / পরিবর্তন / ইতিহাস রয়েছে এবং এটি ক্ষেত্রে ক্ষেত্রে এটি একটি প্রধান দৃষ্টান্তের পরিবর্তন। গভীর পড়াশোনা কেবল গত অর্ধ দশকের মধ্যেই বন্ধ হয়ে যায়। এর সহজ উত্তরটি হ'ল নিউরাল নেটওয়ার্কগুলি নির্বিচারে জটিল কার্যগুলির প্রতিনিধিত্ব করতে পারে এবং সেই জটিলতা এখন গভীর স্নায়ু নেটওয়ার্কগুলির সাথে খুব উন্নত স্তরে। আর একটি উত্তর হ'ল যে সমস্যাগুলি অধ্যয়ন করা হয় এবং সম্ভবত "সাধারণভাবে বাস্তবতা "ও" বৈশিষ্ট্যগুলির বাইরে নির্মিত "এবং এএনএনগুলি এখন খুব জটিল বৈশিষ্ট্যগুলি শেখার ক্ষেত্রে পারদর্শী।
vzn

আমি মনে করি না লোকেরা এখানে সত্যই "একটি উত্তর" অনুসন্ধান করছে। তারা সমস্যাগুলি সমাধানের জন্য নিউরাল নেটওয়ার্কগুলি ব্যবহার করার চেষ্টা করে এবং যদি সমস্যাটি প্রকৃতপক্ষে সমাধান করা হয় তবে তা ঠিক। নেটওয়ার্কগুলি কীভাবে সমাধানে পৌঁছেছে তা জেনে রাখা এখানে আগ্রহী নয়। যতক্ষণ না এটি কালো / অস্বচ্ছ বাক্সটি সমস্যা সমাধান করে ততক্ষণ কেউ তার বেশি যত্ন করে না।
xji

উত্তর:


38

মেশিন লার্নিংয়ের "নিখরচায় দুপুরের খাবারের" উপপাদাগুলির একটি গুচ্ছ রয়েছে, মোটামুটিভাবে উল্লেখ করে যে অন্য কোনও অ্যালগরিদমের চেয়ে সমানভাবে কার্যকর পারফর্মেন্সের জন্য কোনও মাস্টার লার্নিং অ্যালগরিদম থাকতে পারে না (দেখুন, উদাহরণস্বরূপ, এখানে http: //www.no-free- লাঞ্চ.অর্গ / )। অবশ্যই নিশ্চিত, গভীর শিক্ষণ অনেক অসুবিধা ছাড়াই "ভাঙ্গা" হতে পারে: http://www.evolvingai.org/fooling

অতএব, কার্যকরভাবে কার্যকর হওয়ার জন্য, একজন শিক্ষানবিশকে প্ররোচিত পক্ষপাত --- অর্থাত্ ডেটা সম্পর্কে কিছু পূর্ব ধারনা প্রয়োজন। প্ররোচনামূলক পক্ষপাতের উদাহরণগুলির মধ্যে ডেটা স্পারসিটি বা নিম্ন মাত্রিকতার অনুমানগুলি অন্তর্ভুক্ত থাকে বা বিতরণটি দুর্দান্তভাবে চিহ্নিত করা হয়, বা তার একটি বড় মার্জিন থাকে ইত্যাদি Various সাধারণ সফলতা গ্যারান্টি প্রমাণ করার জন্য বিভিন্ন সফল শেখার অ্যালগরিদমগুলি এই অনুমানগুলি কাজে লাগায়। উদাহরণস্বরূপ, (লিনিয়ার) এসভিএম ভালভাবে কাজ করে যখন ডেটা স্পেসে ভালভাবে আলাদা হয়; অন্যথায় - এত না।

আমি মনে করি গভীর শিক্ষার মূল চ্যালেঞ্জটি হল এর অনুপ্রবেশমূলক পক্ষপাত কী তা বোঝা। অন্য কথায়, এটি প্রকারের উপপাদাগুলি প্রমাণ করা: যদি প্রশিক্ষণের ডেটা এই অনুমানগুলি সন্তুষ্ট করে, তবে আমি সাধারণীকরণের কর্মক্ষমতা সম্পর্কে কিছু গ্যারান্টি দিতে পারি। (অন্যথায়, সমস্ত বেট বন্ধ আছে।)

2


এটি লক্ষ করা উচিত যে প্রতিকূল উদাহরণগুলি গভীর নিউরাল নেটওয়ার্কগুলির পক্ষে অনন্য নয়। এগুলি লিনিয়ার এবং লজিস্টিক রিগ্রেশন জন্য খুব সহজেই তৈরি করা যেতে পারে, উদাহরণস্বরূপ: arxiv.org/pdf/1412.6572.pdf
লেনার হোয়েট

1
হ্যাঁ, তবে তাত্ত্বিকভাবে লিনিয়ার এবং লজিস্টিক রিগ্রেশন আরও ভাল।
আরেহ

2
সম্ভবত এটিও লক্ষ করা উচিত যে এনএফএল উপপাদ্যগুলি ব্যবহারিক মেশিন লার্নিংয়ে কোনও বড় ভূমিকা নিতে পারে না কারণ এনএফএল সমস্ত ফাংশনের শ্রেণীর সাথে সম্পর্কিত হলেও বাস্তব বিশ্বের সমস্যাগুলি সাধারণত মসৃণ ফাংশন বা আরও নির্দিষ্ট ফাংশনগুলিতে যেমন সীমাবদ্ধ থাকে যেমন লিন এবং টেগমার্ক দ্বারা কাগজে বিবেচিত বেশী। এটা তোলে প্রস্তাবনামূলক গোঁড়ামির যে সব শেখার সমস্যা আমরা আগ্রহী আবরণ এটি সম্ভব হতে পারে।
Lenar Hoyt

4
তারপরে আমাদের প্রথমে "আমাদের আগ্রহী সমস্ত শিক্ষার সমস্যা" এর এই স্থানটি আনুষ্ঠানিকভাবে করা উচিত।
আরেহ

1
এটি স্পষ্টতই উপযুক্ত বলে মনে হচ্ছে, বিশেষত এআই সুরক্ষা সম্পর্কিত। আমাদের মেশিন লার্নিং অ্যালগরিদম কী শিখার কথা বিশ্বাসযোগ্যভাবে তা নির্দিষ্ট করতে সক্ষম হতে হবে।
লেনার হোয়েট

26

নিউরাল নেটওয়ার্কগুলি সম্পর্কে আমাদের বোঝার মধ্যে দুটি প্রধান শূন্যস্থান রয়েছে: অপ্টিমাইজেশনের কঠোরতা এবং সাধারণীকরণের কর্মক্ষমতা।

নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য উচ্চ মাত্রায় একটি উচ্চ-উত্তল-উত্তোলন অপ্টিমাইজেশন সমস্যা সমাধান করা দরকার। বর্তমান প্রশিক্ষণ অ্যালগরিদমগুলি সমস্তই গ্রেডিয়েন্ট বংশোদ্ভূত উপর ভিত্তি করে, যা কেবলমাত্র একটি সমালোচনামূলক পয়েন্টে (স্থানীয় সর্বনিম্ন বা স্যাডল) রূপান্তরিত হওয়ার গ্যারান্টি দেয়। প্রকৃতপক্ষে, আনন্দকুমার এবং জিই 2016 সম্প্রতি প্রমাণ করেছে যে এমনকি স্থানীয় নূন্যতম সন্ধান করা এনপি-হার্ড, যার অর্থ (অনুমান করা হয় পি! = এনপি) সেখানে "খারাপ" রয়েছে, পালাতে খুব কঠিন, ত্রুটির পৃষ্ঠের স্যাডল পয়েন্ট রয়েছে।
তবুও, এই প্রশিক্ষণ অ্যালগরিদমগুলি অনেক ব্যবহারিক সমস্যার জন্য অভিজ্ঞভাবে কার্যকর এবং এটি কেন জানি না। চোরোমেনস্কা এট আল এর
মতো তাত্ত্বিক কাগজপত্র রয়েছে । 2016 এবং কাওয়াগুচি 2016যা প্রমাণ করে যে, কিছু অনুমানের অধীনে স্থানীয় মিনিমা মূলত গ্লোবাল মিনিমার মতোই ভাল তবে তারা যে অনুমানগুলি করে তা কিছুটা অবাস্তব এবং তারা খারাপ জিন পয়েন্টগুলির বিষয়টি বিবেচনা করে না।

আমাদের বোঝার অন্য প্রধান ফাঁকটি হ'ল জেনারালাইজেশন পারফরম্যান্স: প্রশিক্ষণের সময় দেখা না যাওয়া উপন্যাসের উদাহরণগুলিতে মডেলটি কতটা ভাল সম্পাদন করে? এটি দেখানো সহজ যে প্রশিক্ষণ উদাহরণের অসীম সংখ্যার সীমাবদ্ধতার মধ্যে (একটি আদর্শ বিতরণ থেকে নমুনা আইডির) প্রশিক্ষণের ত্রুটিটি উপন্যাসের উদাহরণগুলিতে প্রত্যাশিত ত্রুটিতে রূপান্তরিত করে (আপনি যে বৈশ্বিক সর্বোত্তমকে প্রশিক্ষণ দিতে পারতেন) তবে আমরা যেহেতু অসীম প্রশিক্ষণের উদাহরণ নেই, প্রশিক্ষণ এবং জেনারালাইজেশন ত্রুটির মধ্যে প্রদত্ত পার্থক্য অর্জনের জন্য কতগুলি উদাহরণের প্রয়োজন তা আমরা আগ্রহী। পরিসংখ্যান শেখার তত্ত্ব এই সাধারণীকরণের সীমা অধ্যয়ন করে।
অভিজ্ঞতার সাথে, একটি বৃহত আধুনিক নিউরাল নেটওয়ার্ককে প্রশিক্ষণের জন্য প্রচুর প্রশিক্ষণের উদাহরণের প্রয়োজন হয় (বিগ ডেটা, আপনি যদি বুজওয়ার্ডগুলি পছন্দ করেন) তবে বাস্তবিকভাবে অপরিবর্তনীয় হওয়ার জন্য এটি স্মরণীয়ভাবে বড় নয়। তবে আপনি যদি পরিসংখ্যান শেখার তত্ত্ব থেকে সর্বাধিক পরিচিত সীমানা প্রয়োগ করেন (উদাহরণস্বরূপ গাও এবং ঝোউ 2014 ) আপনি সাধারণত এই অনিবার্যভাবে বিশাল সংখ্যা পান। সুতরাং এই সীমাগুলি কঠোর হওয়া থেকে খুব দূরে, অন্তত ব্যবহারিক সমস্যার জন্য।
এর অন্যতম কারণ হতে পারে যে এই সীমাগুলি ডেটা উত্পন্ন বিতরণ সম্পর্কে খুব কম ধারণা করে, তাই তারা প্রতিকূল পরিবেশের বিরুদ্ধে সবচেয়ে খারাপ পারফরম্যান্সকে প্রতিফলিত করে, যখন "প্রাকৃতিক" পরিবেশগুলি আরও "শেখার" হয়ে থাকে।
বিতরণ-নির্ভর সাধারণীকরণের সীমাটি লেখা সম্ভব, তবে কীভাবে "প্রাকৃতিক" পরিবেশের উপর কোনও বিতরণকে আনুষ্ঠানিকভাবে বৈশিষ্ট্যযুক্ত করা যায় তা আমরা জানি না। অ্যালগরিদমিক তথ্য তত্ত্বের মতো পন্থাগুলি এখনও অসম্পূর্ণ।
অতএব আমরা এখনও জানি না কেন স্নায়বিক নেটওয়ার্কগুলি অত্যধিক মানানসই ছাড়াই প্রশিক্ষিত হতে পারে।

তদ্ব্যতীত, এটি লক্ষ করা উচিত যে এই দুটি প্রধান বিষয়গুলি এখনও খারাপভাবে বোঝা যায় এমনভাবে সম্পর্কিত বলে মনে হচ্ছে: পরিসংখ্যান শিক্ষার তত্ত্ব থেকে সাধারণীকরণের সীমাবদ্ধতা ধরে নেওয়া হয় যে মডেলটি প্রশিক্ষণ সংস্থায় গ্লোবাল সর্বোত্তমের দিকে প্রশিক্ষিত, তবে একটি ব্যবহারিক বিন্যাসে আপনি এমনকি কোনও স্যাডল পয়েন্টে রূপান্তর না হওয়া পর্যন্ত কোনও নিউরাল নেটওয়ার্ককে কখনও প্রশিক্ষণ দেয় না কারণ এটি করার ফলে সাধারণত অত্যধিক মানানসই হয়। পরিবর্তে আপনি প্রশিক্ষণ বন্ধ করবেন যখন একটি আউট-আউট বৈধতা সেটটিতে ত্রুটি (যা সাধারণকরণের ত্রুটির প্রক্সি) উন্নতি বন্ধ করে। এটি "প্রারম্ভিক থামানো" হিসাবে পরিচিত।
সুতরাং এক অর্থে গ্লোবাল অপ্টিমের সাধারণকরণের ত্রুটি বেঁধে রাখার বিষয়ে এই সমস্ত তাত্ত্বিক গবেষণাটি বেশ অপ্রাসঙ্গিক হতে পারে: কেবলমাত্র আমরা কার্যকরভাবে এটি খুঁজে পেতে পারি না, এমনকি যদি আমরা এটি করতে পারি তবে আমরাও চাই না, কারণ এটি আরও খারাপভাবে সম্পাদন করবে since অনেক "উপ-অনুকূল" সমাধানগুলির চেয়ে উপন্যাসের উদাহরণ।
এটি এমন ক্ষেত্রে হতে পারে যে অপ্টিমাইজেশনের কঠোরতা নিউরাল নেটওয়ার্কের ত্রুটি নয়, বিপরীতে, সম্ভবত নিউরাল নেটওয়ার্কগুলি যথাযথভাবে কাজ করতে পারে কারণ তারা অনুকূলিত হওয়া শক্ত।
এই সমস্ত পর্যবেক্ষণ অনুভূতিমূলক এবং তাদের ব্যাখ্যা করার মতো কোনও ভাল তত্ত্ব নেই। এমন কোনও তত্ত্বও নেই যা ব্যাখ্যা করে যে কীভাবে নিউরাল নেটওয়ার্কগুলির হাইপারপ্যারামিটারগুলি নির্ধারণ করতে হবে (গোপন স্তরের প্রস্থ এবং গভীরতা, শিক্ষার হার, স্থাপত্য সংক্রান্ত বিশদ ইত্যাদি)। অনুশীলনকারীরা অভিজ্ঞতার দ্বারা সম্মানিত তাদের অন্তর্দৃষ্টি ব্যবহার করে এবং কার্যকর মূল্যবোধের সাথে প্রচুর পরীক্ষা এবং ত্রুটি আসে, যখন একটি তত্ত্ব আমাদের আরও নিয়মতান্ত্রিক উপায়ে নিউরাল নেটওয়ার্কগুলি ডিজাইন করার অনুমতি দিতে পারে।


11

@ আরেহের মন্তব্যগুলিতে যোগ করার জন্য আরেকটি এই প্রশ্নটি গ্রহণ করুন: আরও অনেক মডেল শেখার জন্য আমরা অনুমানের জায়গার "আকৃতি" জানি। এসভিএমগুলি এর সর্বোত্তম উদাহরণ, এতে আপনি যা সন্ধান করছেন এটি হ'লবার্ট স্পেসে (সম্ভবত উচ্চ-মাত্রিক) একরৈখিক বিভাজক।

সাধারণভাবে নিউরাল নেটওয়ার্কগুলির জন্য, আমাদের কাছে এ জাতীয় কোনও পরিষ্কার বিবরণ বা এমনকি একটি অনুমানও নেই। এবং নিউরাল নেটওয়ার্কটি ডেটাতে ঠিক কী সন্ধান করছে তা বোঝার জন্য আমাদের কাছে এ জাতীয় বর্ণনা গুরুত্বপূর্ণ।


অনুমানের স্থানটির "আকৃতি" হিসাবে আপনি কী ডাকবেন? :) আমাদের উপপাদ্য 2.1 (পৃষ্ঠা 3) আপনার প্রশ্নের কিছু উত্তর দেয়: eccc.weizmann.ac.il/report/2017/098 ? : ডি
অনিরবিট

4

গভীর বোতলজাত নেটওয়ার্কগুলির সাফল্যের ব্যাখ্যা দেওয়ার জন্য তথ্য বোতলনেকের নীতিটি প্রস্তাব করা হয়েছে।

কোয়ান্টা ম্যাগাজিনের একটি উদ্ধৃতি এখানে

গত মাসে, বার্লিনে একটি সম্মেলনের আলাপের একটি ইউটিউব ভিডিও, কৃত্রিম-বুদ্ধিমত্তা গবেষকদের মধ্যে ব্যাপকভাবে ভাগ করে নেওয়ার একটি সম্ভাব্য জবাব দিয়েছে। আলোচনায়, কম্পিউটার বিজ্ঞানী এবং জেরুজালেমের হিব্রু বিশ্ববিদ্যালয় থেকে স্নায়ুবিজ্ঞানী নফতালি তিশ্বি গভীর শিক্ষাগ্রহণ কীভাবে কাজ করে তা ব্যাখ্যা করার জন্য একটি নতুন তত্ত্বের সমর্থনে প্রমাণ উপস্থাপন করেছিলেন। তিশবি যুক্তি দেখান যে গভীর নিউরাল নেটওয়ার্কগুলি "ইনফরমেশন বাধা" নামে পরিচিত একটি পদ্ধতি অনুসারে শিখেছে, যা তিনি এবং দুই সহযোগী প্রথমে ১৯৯৯ সালে বিশুদ্ধ তাত্ত্বিক ভাষায় বর্ণনা করেছিলেন। ধারণাটি এমন একটি নেটওয়ার্ক যে বহিরাগত বিশদগুলির শোরগোলের ইনপুট ডেটাটিকে ছাঁটাই করে তোলে que সাধারণ ধারণাগুলির সাথে সর্বাধিক প্রাসঙ্গিক বৈশিষ্ট্যগুলি বজায় রেখে একটি অটল মাধ্যমে তথ্য।

তথ্যসূত্র:

1- গভীর শিক্ষা এবং তথ্য অদলন নীতি , নাফতালি টিশবি এবং নোগা জাস্লাভস্কি

2- ডিপ নিউরাল নেটওয়ার্কের ব্ল্যাক বক্সটি তথ্য , রভিদ শোয়ার্টজ-জিভ এবং নাফতালি তিশ্বির মাধ্যমে খোলা হচ্ছে

3- সম্মেলনের টক ভিডিও: নাফতলি তিশ্বির দ্বারা গভীর শিক্ষার তথ্য তত্ত্ব


1

আমি বলব যে আমাদের এখনও গভীর স্নায়বিক নেটওয়ার্ক প্রশিক্ষণের জন্য একটি কার্যকর অ্যালগরিদম আবিষ্কার করতে হবে। হ্যাঁ, এসজিডি অনুশীলনে ভালভাবে কাজ করে তবে একটি আরও ভাল অ্যালগরিদম খুঁজে পাওয়া যায় যা গ্লোবাল ন্যূনতমকে রূপান্তরিত করার গ্যারান্টিযুক্ত রয়েছে খুব সুন্দর হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.