উইন্ডো স্লাইডিং এলএসটিএম-এ ওভারফিটিংয়ের দিকে পরিচালিত করে?


15

আমি যদি আমার এলএসটিএমকে স্লাইডিং-উইন্ডো পদ্ধতির মাধ্যমে প্রশিক্ষণ দিই তবে কি আমি তার চেয়ে বেশি উপকার করব? লোকেরা কেন এটি এলএসটিএম এর জন্য ব্যবহার করে না বলে মনে হচ্ছে?

সরলীকৃত উদাহরণের জন্য, ধরে নিন যে আমাদের অক্ষরের ক্রমটি পূর্বাভাস করতে হবে:

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

যদি আমি নীচের মিনিব্যাচগুলির সাথে আমার এলএসটিএমকে প্রশিক্ষণ দিয়ে থাকি তবে এটি খারাপ (বা আরও ভাল?):

A B C D E F G H I J K L M N, backprop, erase the cell

B C D E F G H I J K L M N O, backprop, erase the cell

 .... and so on, shifting by 1 every time?

পূর্বে, আমি সর্বদা এটিকে প্রশিক্ষণ দিয়েছিলাম:

A B C D E F G H I J K L M N,  backprop, erase the cell

O P Q R S T U V W X Y Z,  backprop, erase the cell

একের পরিবর্তে বদলে উইন্ডোটি 2 টি এন্ট্রি ইত্যাদির দ্বারা স্লাইড করা ভাল কি? এর অর্থ কী হবে (নির্ভুলতা / অতিপরিচ্ছন্নতার দিক থেকে)?


এছাড়াও, আমি যদি কোনও ফিড-ফরোয়ার্ড নেটওয়ার্কে স্লাইডিং-উইন্ডো পদ্ধতির কাজটি করি, তবে কী এটি অত্যধিক ফিটনেস পাবে? আমি হ্যাঁ ধরে নেব, কারণ নেটওয়ার্কটি একই তথ্য অঞ্চলে খুব দীর্ঘ সময়ের জন্য উন্মুক্ত। উদাহরণস্বরূপ, এটি E F G H I J Kদীর্ঘ সময়ের জন্য উন্মুক্ত হয় ।


সম্পাদনা:

অনুগ্রহ করে মনে রাখবেন যে প্রশিক্ষণ ব্যাচগুলির মধ্যে সেল স্টেটটি মুছে ফেলা হয়েছে, সুতরাং এলএসটিএমের এই সময়ে একটি "হাতুড়ি থেকে হাতুড়ি" থাকবে। এটি OPQRSTUVWXYZ এর আগে কী ছিল তা মনে করতে অক্ষম । এর অর্থ হল যে এলএসটিএম কখনও জানতে সক্ষম হয় না যে "ও" "এম" অনুসরণ করে follows

সুতরাং, আমি ভেবেছিলাম (এইভাবে আমার পুরো প্রশ্ন), কেন এটি এটিকে মধ্যবর্তী (ওভারল্যাপিং) ব্যাচটি মাঝখানে দেবেন না ... এবং সেক্ষেত্রে কেন একাধিক ওভারল্যাপিং মিনিব্যাচ ব্যবহার করবেন না - আমার কাছে এটি একটি মসৃণ প্রশিক্ষণ সরবরাহ করবে? শেষ পর্যন্ত, এর অর্থ এলএসটিএমের জন্য একটি স্লাইডিং উইন্ডো।


উত্তর গৃহীত হওয়ার পরে আমি কিছু দরকারী তথ্য পেয়েছি:

এখান থেকে

ইংরেজি অনুবাদের প্রথম শব্দটি সম্ভবত উত্স বাক্যটির প্রথম শব্দের সাথে খুব সংযুক্ত রয়েছে। তবে এর অর্থ হ'ল 50 টি পদক্ষেপ আগে ডিকোডারকে তথ্যটি বিবেচনা করতে হবে এবং সেই তথ্যটি কোনওভাবে ভেক্টরে এনকোড করা দরকার। পুনরাবৃত্তাকার নিউরাল নেটওয়ার্কগুলিতে এ জাতীয় দীর্ঘ-পরিসরের নির্ভরতাগুলির সাথে সমস্যাগুলির জন্য পরিচিত। তত্ত্বের ক্ষেত্রে, এলএসটিএম এর মতো আর্কিটেকচারগুলির সাথে এটি মোকাবেলা করতে সক্ষম হওয়া উচিত, তবে বাস্তবে দীর্ঘ-পরিসরের নির্ভরতা এখনও সমস্যাযুক্ত।

উদাহরণস্বরূপ, গবেষকরা দেখতে পেয়েছেন যে উত্স ক্রমকে বিপরীত করা (এটি এনকোডারে পিছন দিকে খাওয়ানো) উল্লেখযোগ্যভাবে আরও ভাল ফলাফল এনে দেয় কারণ এটি ডিকোডার থেকে এনকোডার সম্পর্কিত অংশগুলিকে ছোট করে। একইভাবে, একটি ইনপুট ক্রম দু'বার খাওয়ানোও নেটওয়ার্ককে জিনিসগুলি আরও ভাল মুখস্ত করতে সহায়তা করে বলে মনে হয়। উদাহরণস্বরূপ, যদি একটি প্রশিক্ষণের উদাহরণ "জন বাড়িতে গিয়েছিল" হয়, আপনি একটি ইনপুট হিসাবে নেটওয়ার্কটিতে "জন বাড়ি গিয়েছিলেন জন বাড়ি গিয়েছিলেন" would

উত্তরটি গ্রহণ করার পরে সম্পাদনা করুন:

বেশ কয়েক মাস পরে, আমি স্লাইডিং উইন্ডো পদ্ধতির ব্যবহারে আরও বেশি ঝোঁক, কারণ এটি ডেটা আরও ভাল ব্যবহার করে। তবে সেক্ষেত্রে আপনি সম্ভবত বিবিডিডিএফজিআইজিএইচএমএমএনওকে অবশ্যই এবিসিডিএফজিআইজিএলএমএনওর প্রশিক্ষণ দিতে চান না। পরিবর্তে, ধীরে ধীরে এবং অভিন্নভাবে আপনার LSTM- র সমস্ত তথ্য "ব্রাশ-ইন" করতে, আপনার উদাহরণগুলি বদলান। এটিসিডিএফজিআইজিএইচএলএমএনও ইত্যাদির পরে এটি হাইজকেএলএমএনওপিকিউএসটিইউ প্রদান করুন এটি সরাসরি বিপর্যয়ের ভুলে যাওয়ার সাথে সম্পর্কিত। সর্বদা হিসাবে, বৈধকরণ এবং পরীক্ষার সেটটি নিবিড়ভাবে পর্যবেক্ষণ করুন এবং তাদের ত্রুটিগুলি ক্রমশ বাড়ছে দেখলেই আপনি থামুন

এছাড়াও, সিন্থেটিক গ্রেডিয়েন্ট ব্যবহার করে "হাতুড় থেকে মাথা" ইস্যুটি উন্নত করা যায়। এখানে এর সুবিধাটি দেখুন: (লিঙ্কিত উত্তরটি এর দীর্ঘতর ক্রমের সুবিধা নিয়ে আলোচনা করেছে) https: //datasज्ञान. stackexchange.com/a/32425/43077

উত্তর:


9

যদিও ইমরানের পূর্ববর্তী উত্তরটি সঠিক, তবুও আমি একটি সতর্কতা যুক্ত করা প্রয়োজন বলে মনে করি: সেখানে একটি অ্যাপ্লিকেশন রয়েছে যেখানে লোকেরা একটি এলএসটিএম-এ স্লাইডিং উইন্ডো ফিড করে। উদাহরণস্বরূপ, এখানে তদারকি শেখার সমস্যা হিসাবে পূর্বাভাসের ফ্রেমিংয়ের জন্য।

4(মিএন+ +এন2+ +এন)মিএন

যেহেতু এলএসটিএমগুলিকে স্থির আকারের ইনপুটের প্রয়োজন হয় না, তারা নিজেরাই অনুকূল লুকব্যাক নম্বরটি খুঁজে পেতে পারে। তবে, আপনি যদি পূর্বের অটোরিগ্রেসিভ বিশ্লেষণ করেছেন এবং সিদ্ধান্ত নিয়েছেন যে, উদাহরণস্বরূপ, বর্তমান সময়ের ধাপটি দশম পূর্ববর্তী সময়ের ধাপের সাথে সর্বাধিক সম্পর্কযুক্ত, এবং অতীতে একাদশ বা কোনও সময়ের আরও ধাপের সাথে পরস্পর সম্পর্কযুক্ত না হয়, তবে আপনি পারতেন সম্ভবত নির্দিষ্ট দৈর্ঘ্যের ক্রমগুলিতে খাওয়ানোর মাধ্যমে নিজেকে কিছু প্রশিক্ষণের সময় বাঁচান। তবে, এই ধরণের একটি এলএসটিএমের উদ্দেশ্যকে পরাস্ত করে।

যদি আপনার ডেটা কোনও এলএসটিএমের জন্য যথেষ্ট পরিমাণে সমৃদ্ধ না হয়, তবে আমি একটি স্বাবলম্বনীয় মডেলের মতো আরও সাধারণ কিছু চেষ্টা করার চেষ্টা করব এবং আপনার পথে কাজ করার পরামর্শ দেব।

সম্পাদনা (একটি মন্তব্যের প্রতিক্রিয়া):

ওভারল্যাপিং সিকোয়েন্সগুলি ইনপুট হিসাবে ব্যবহৃত হয়, বিশেষত যখন সিকোয়েন্সটি দীর্ঘ হয় (যদিও, অবশ্যই 'দীর্ঘ' আপেক্ষিক)। যদিও লম্বা সিকোয়েন্সগুলির জন্য এলএসটিএমগুলি ভ্যানিলা আরএনএন এর চেয়ে ভাল তবে সিক্যুয়েন্সটি খুব দীর্ঘ হলে সিক্যুয়েন্সের শুরু থেকে সময়ের ধাপগুলি মনে করতে তাদের কিছুটা সমস্যা হতে পারে। এটি দ্বিপাক্ষিক এলএসটিএম এর মতো জিনিসগুলির দিকে পরিচালিত করেছিল, যা প্রতিটি ইনপুট সিকোয়েন্সের শুরু এবং শেষের দিকে নেটওয়ার্কের এক্সপোজারকে উন্নত করে, সিকোয়েন্সটি সামনে এবং পিছনের দিকে পড়ে। ওভারল্যাপিং সিকোয়েন্সগুলির সাথে নীতিটি একই, যদিও আমি যুক্তি দেব যে ওভারল্যাপিং ক্রমগুলি আরও স্বজ্ঞাত।


আপনাকে ধন্যবাদ, দ্বিতীয়টি এখনও দেখতে পাচ্ছেন না যে এলএসটিএম-কে নন-ওভারল্যাপিং ব্যাচগুলি দিয়ে প্রশিক্ষিত করা উচিত। আপনি যে পোস্টটি পছন্দ করেছেন তা একটি মূল্যবান, তবে এটি কেবল ফিড-ফরোয়ার্ড নেটগুলি নিয়ে আলোচনা করে এবং প্রশিক্ষণের সময় এলএসটিএমের ওভারল্যাপিং মিনিবাসগুলিতে সুবিধা / বিপদের সমাধান করে না address @ ইমরান ওভারল্যাপিং মিনিব্যাচগুলির বিরুদ্ধে "প্রেসক্রিপশন বিরোধী" নিয়েও আলোচনা করেননি - তাঁর পোস্টে আমার প্রথম মন্তব্য।
কারি

মন্তব্যটি অন্তর্ভুক্ত করার জন্য আমি আমার প্রশ্ন সম্পাদনা করেছি
কারি

প্রচুর দুর্দান্ত তথ্য!
ইমরান

@ কারি আমি আমার উত্তরটি পরিবর্তন করেছি। এটা কি সাহায্য করে?
স্ট্যাটাসস্রেস্রেস

5

এলএসটিএমগুলিকে ইনপুটগুলির স্লাইডিং উইন্ডোর প্রয়োজন হয় না। তারা অতীতে যা দেখেছিল তা তারা মনে করতে পারে এবং আপনি যদি একবারে প্রশিক্ষণের উদাহরণগুলি খাওয়ান তবে তারা নিজেরাই মনে রাখার জন্য ইনপুটগুলির সঠিক আকারের উইন্ডোটি বেছে নেবে।

এলএসটিএম এর মধ্যে ইতিমধ্যে অতিমাত্রায় ঝুঁকির ঝুঁকি রয়েছে, এবং আপনি যদি স্লাইডিং উইন্ডো সহ প্রচুর রিলান্ডান্ট ডেটা ফিড করেন তবে হ্যাঁ, তারা অতিরিক্ত মানিয়ে যাওয়ার সম্ভাবনা রয়েছে।

অন্যদিকে, ফিডফোরওয়ার্ড নিউরাল নেটওয়ার্কগুলির সাথে টাইম সিরিজের পূর্বাভাসের জন্য একটি স্লাইডিং উইন্ডো প্রয়োজনীয়, কারণ এফএনএনগুলির একটি নির্দিষ্ট আকারের ইনপুট প্রয়োজন এবং মেমরি নেই, তাই তাদের সময় সিরিজের ডেটা খাওয়ানোর এটি সবচেয়ে প্রাকৃতিক উপায়।

এফএনএন তার আর্কিটেকচার এবং আপনার ডেটার উপর নির্ভর করবে না তা নির্ভর করে, তবে সমস্ত মান নিয়মিত কৌশলগুলি যদি তা করে তবে তা প্রয়োগ করা হবে। উদাহরণস্বরূপ আপনি একটি ছোট নেটওয়ার্ক, এল 2 নিয়মিতকরণ, ড্রপআউট ইত্যাদি চয়ন করার চেষ্টা করতে পারেন


ধন্যবাদ! আমি যুক্তি দিয়ে বলব যে প্রশিক্ষণ ব্যাচগুলির মধ্যে কোষের রাজ্যটি মুছে ফেলা হয়, সুতরাং এলএসটিএমের এই সময়ে একটি "হাতুড়ি থেকে হাতুড়ি" থাকবে। এটি OPQRSTUVWXYZ এর আগে কী ছিল তা মনে করতে অক্ষম। এর অর্থ এলএসটিএম কখনও জানতে শিখতে অক্ষম যে "ও" "এম" অনুসরণ করে। সুতরাং আমি ভেবেছিলাম, কেন এটি মাঝখানে (ওভারল্যাপিং) ব্যাচটি মাঝখানে দেওয়া হবে না ... এবং সে ক্ষেত্রে কেন একাধিক ওভারল্যাপিং মিনিব্যাচগুলি ব্যবহার করবেন না - আমার কাছে এটি একটি মসৃণ প্রশিক্ষণ সরবরাহ করবে?
কারি

শেষ পর্যন্ত, এর অর্থ এলএসটিএমের জন্য একটি স্লাইডিং উইন্ডো হবে
কারি

প্রশিক্ষণ ব্যাচগুলির মধ্যে কোষের রাজ্যটি মুছে ফেলা প্রয়োজন নয়, যদিও পিছনে পিছনে পাঠ্যক্রম অবশ্যই সম্ভব নয়।
জান ভ্যান ডের Vegt

আমি এটি চেষ্টা করেছিলাম, এবং - 0 শিক্ষার হারের সাথেও ত্রুটিটি অল্প পরিমাণে লাফিয়ে লাফিয়ে লাফিয়ে উঠেছিল কারণ প্রশিক্ষণের সময় ভুল সেল স্টেটগুলি "উত্তরাধিকার" হিসাবে পুনরায় ব্যবহৃত হয়েছিল। এই পদ্ধতির সাহায্যে আমি 6 টিরও বেশি স্তর স্ট্যাক করতে পারিনি - এটি খুব বিশৃঙ্খলা পেয়েছে এবং রূপান্তরিত হবে না। তবে, প্রতিটি ব্যাকপ্রপের পরে সেল স্টেটটি শূন্যে পুনঃস্থাপন করা আমাকে প্রতিটি স্তরে ne৪ টি নিউরন সহ ১৫০ টি স্তর স্ট্যাক করে এবং এটি ০.০০১ শিখার হার এবং ০.৯ এর গতিবেগের সাথে প্রশিক্ষণ দেওয়ার সুযোগ দেয় (আমি লেয়ারনারমালাইজেশন ব্যবহার করছি, সে কারণেই আমার ক্ষেত্রে শিক্ষার হার এত বড়)
কারি

1
এর অর্থ হল "লিগ্যাসি সেলস্টেটস" দিয়ে এলএসটিএম অস্থির এবং অবিশ্বস্ত হয়ে যায় - এটি সর্বশেষ সেল-স্টেটের (পূর্ববর্তী মিনিবাচের) সিদ্ধান্তের ভিত্তিতে একটি নতুন মিনিবাসে কাজ শুরু করে যা সম্পূর্ণ পরিমাণে সংশোধন করা হয়নি। সুতরাং, ঘর-রাজ্যটি মুছে ফেলা এই মৌলিক ত্রুটিগুলি সরিয়ে দেয়, তবে এলএসটিএমের অভিজ্ঞতা স্মারকলিপি করে
কারি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.