নিউরাল নেটওয়ার্কগুলি বুস্ট করা


21

ভাল সম্প্রতি আমি অ্যাডাবোস্ট, গ্রেডিয়েন্ট বুস্টের মতো অ্যালগরিদমগুলি শিখতে কাজ করছি এবং আমি এই সত্যটি জানি যে সবচেয়ে বেশি ব্যবহৃত দুর্বল-শিক্ষকই গাছ is আমি সত্যই জানতে চাই যে বেসলাল নেটওয়ার্ক হিসাবে নিউরাল নেটওয়ার্কগুলি ব্যবহার করার জন্য কয়েকটি সাম্প্রতিক সফল উদাহরণ (আমি কিছু কাগজপত্র বা নিবন্ধগুলি বোঝাই)।


এটি আপনার জন্য একটি আকর্ষণীয় পঠন হতে পারে: arxiv.org/pdf/1706.04964.pdf
ড্যানিয়েল

উত্তর:


8

উত্সাহ দেওয়ার ক্ষেত্রে, দুর্বল বা অস্থির শ্রেণিবদ্ধকারীগুলি বেস লার্নার হিসাবে ব্যবহৃত হয়। এটি কেস কারণ লক্ষ্যটি হ'ল সিদ্ধান্তের সীমানা তৈরি করা যা যথেষ্ট আলাদা। তারপরে, একটি ভাল বেস লার্নার এমনটি যা উচ্চ পক্ষপাতদুষ্ট, অন্য কথায়, বেস শিখার প্রশিক্ষণ প্যারামিটারগুলি সামান্য পরিবর্তিত হলেও আউটপুট মূলত একই থাকে।

নিউরাল নেটওয়ার্কগুলিতে, ড্রপআউট একটি নিয়মিতকরণ কৌশল যা প্রশিক্ষণের নকশার সাথে তুলনা করা যায়। পার্থক্যটি হল যে সমাহারটি সুপ্ত স্থানে করা হয় (নিউরোন উপস্থিত রয়েছে বা না) এভাবে সাধারণীকরণের ত্রুটি হ্রাস পায়।

"প্রতিটি প্রশিক্ষণের উদাহরণকে আলাদা, এলোমেলোভাবে নমুনাযুক্ত আর্কিটেকচারের গ্রেডিয়েন্ট সরবরাহকারী হিসাবে দেখা যেতে পারে, যাতে চূড়ান্ত নিউরাল নেটওয়ার্কটি দক্ষতার সাথে ভাল জেনারালাইজেশন সক্ষমতা সহ নিউরাল নেটওয়ার্কগুলির একটি বিশাল পরিবেশনাকে উপস্থাপন করে" - এখান থেকে উদ্ধৃত করে ।

এ জাতীয় দুটি কৌশল রয়েছে: ড্রপআউট নিউরনগুলি বাদ পড়ে যায় (যার অর্থ নিউরনগুলি একটি নির্দিষ্ট সম্ভাবনার সাথে থাকে না) যখন ড্রপ কানেক্টে ওজন বাদ পড়ে।

এখন, আপনার প্রশ্নের উত্তর দেওয়ার জন্য, আমি বিশ্বাস করি যে প্রশিক্ষণে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে এগিয়ে আসার জন্য নিউরাল নেটওয়ার্কগুলি (বা পার্সেপট্রনগুলি) বেস লার্নার হিসাবে ব্যবহৃত হয় না এবং শিখারীরা এতটা দুর্বল হয় না যদিও তারা পারত আরও অস্থির হতে হবে সেটআপ। সুতরাং, এটি প্রচেষ্টা মূল্য নয়।

এই বিষয় নিয়ে গবেষণা থাকতে পারে, তবে এটি দুঃখের বিষয় যে ধারণাগুলি যে ভাল কাজ করে না সেগুলি সাধারণত সফলভাবে প্রকাশিত হয় না। আমাদের আরও গবেষণামূলক পথগুলি আবশ্যক যেগুলি কোথাও নিয়ে যায় না, ওরফে "এটি চেষ্টা করে বিরক্ত করবেন না"।

সম্পাদনা করুন:

আমার এই বিষয়ে কিছুটা হলেও বেশি ছিল এবং আপনি যদি বড় নেটওয়ার্কগুলির অন্তর্ভুক্তিতে আগ্রহী হন তবে আপনি একাধিক জাতীয় নেটওয়ার্কগুলির আউটপুটগুলিকে একত্রিত করার পদ্ধতিগুলি উল্লেখ করতে পারেন। বেশিরভাগ লোকেরা কাজের উপর নির্ভর করে গড় বা সংখ্যাগরিষ্ঠ ভোটদান ব্যবহার করেন - এটি সর্বোত্তম নাও হতে পারে। আমি বিশ্বাস করি যে কোনও নির্দিষ্ট রেকর্ডে ত্রুটি অনুসারে প্রতিটি নেটওয়ার্কের আউটপুটটির ওজন পরিবর্তন করা সম্ভব হবে। আউটপুটগুলি যত কম সংযুক্ত হয়, আপনার সংবিধানের নিয়মটি তত ভাল।


2

আমি দেখতে পাচ্ছি এর কোনও গ্রহণযোগ্য উত্তর নেই তাই আমি খুব তাত্ত্বিক উত্তর দেব। হ্যাঁ, এটি হয়ে গেছে .... যেমন এটি জেএমপি প্রোতে উপলব্ধ (সম্ভবত সেরা স্ট্যাটাস প্যাকেজ যা আপনি কখনও শুনে নি)। http://www.jmp.com/support/help/Overview_of_Neural_Networks.shtml

এটির জন্য কী ব্যবহার করা হয় তার পৃষ্ঠার মাঝখানে একটি বর্ণনা রয়েছে। আমি তত্ত্বটি তদন্তের জন্য কোনও চক্র রাখিনি, তবে মনে হয় তারা বোঝাচ্ছে এটি একটি বৃহত্তর মডেলটিতে আরও নোড ব্যবহার করার মতো মূলত একই ফলাফল অর্জন করছে। সুবিধা [তাদের দাবি] মডেল ফিটিংয়ের গতি।

খুব রুক্ষ গেজের জন্য, আমি এটি 2 টি সিগময়েড এবং 2 গাউসিয়ান নোডের সাথে তুলনা করেছি এবং 12 সিগময়েড এবং 12 গাউসিয়ান নোডের বিপরীতে একটি মডেল 6x মডেলটি উত্সাহিত করেছি এবং ফলাফলগুলি আমার পরীক্ষার সেটগুলিতে কার্যত অভিন্ন ছিল ।

আমি কোনও গতির পার্থক্য লক্ষ্য করিনি ... তবে ডেটাসেটটি কেবলমাত্র 1600 পয়েন্ট এবং আমি কেবল 12 ভেরিয়েবল ব্যবহার করছি, তাই আরও বেশি ভেরিয়েবল যুক্ত বৃহত্তর ডেটাসেটে এটি সত্য হিসাবে ধরে রাখতে পারে যে সেখানে লক্ষ্যণীয় গণনার পার্থক্য রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.