তাহলে এলএসটিএম এর সাথে কী ধরা পড়ে?


12

আমি কেরাস প্যাকেজ সম্পর্কে আমার জ্ঞানটি প্রসারিত করছি এবং আমি উপলভ্য কয়েকটি মডেলের সাথে কৌশলটি চালাচ্ছি। আমার একটি এনএলপি বাইনারি শ্রেণিবদ্ধকরণ সমস্যা রয়েছে যা আমি সমাধান করার চেষ্টা করছি এবং বিভিন্ন মডেল প্রয়োগ করছি।

কিছু ফলাফল নিয়ে কাজ করার পরে এবং এলএসটিএম সম্পর্কে আরও বেশি কিছু পড়ার পরে, দেখে মনে হচ্ছে যে আমি চেষ্টা করেছি এমন অন্য কোনও চেয়ে একাধিক উচ্চতর (একাধিক ডেটাসেট জুড়ে)। আমি নিজেকে ভাবতে থাকি, "আপনি / কখন এলএসটিএম ব্যবহার করবেন না ?"। অতিরিক্ত গেটগুলি, এলএসটিএম-এর অন্তর্নিহিত ব্যবহারগুলি কিছু মডেলগুলি হারিয়ে যাওয়ার পরে গ্রেডিয়েন্টগুলি ভোগার পরে আমার কাছে সঠিক ধারণা দেয়।

তাহলে এলএসটিএম এর সাথে কী ধরা পড়ে? তারা এত ভাল করে না কোথায়? আমি জানি যে "একটি আকার সবই ফিট করে" অ্যালগরিদমের মতো কোনও জিনিস নেই, তাই এলএসটিএমের অবশ্যই একটি নেতিবাচক দিক থাকতে হবে।


জিআরইউ চেষ্টা করুন, এগুলি এলএসটিএম এর মতো তবে কম মেমরি এবং দ্রুত ট্রেনের প্রয়োজন।
বিবেক খেতন

উত্তর:


11

আপনি ঠিক বলেছেন যে এলএসটিএমগুলি কিছু সমস্যার জন্য খুব ভাল কাজ করে তবে কিছু ত্রুটিগুলি হ'ল:

  • এলএসটিএম প্রশিক্ষণ নিতে বেশি সময় নেয়
  • LSTM গুলি প্রশিক্ষণের জন্য আরও মেমরি প্রয়োজন require
  • এলএসটিএম খুব সহজেই মানিয়ে যায়
  • ড্রপআউটটি এলএসটিএমগুলিতে প্রয়োগ করা বেশ শক্ত
  • এলএসটিএমগুলি বিভিন্ন এলোমেলো ওজন সূচনা সংবেদনশীল

এগুলি উদাহরণস্বরূপ, 1D ক্যানভ নেট এর মতো সরল মডেলের সাথে তুলনা করে।

প্রথম তিনটি আইটেম হ'ল এলএসটিএমগুলির আরও পরামিতি রয়েছে।


3
সম্মত, এবং আমি মনে করি যে ওভারফিট করা (ওরফে দরিদ্র সাধারণীকরণ) সম্ভবত সবচেয়ে বড় ঝুঁকি। মডেল যাচাই করার জন্য আপনার কাছে একটি ভাল কৌশল রয়েছে তা নিশ্চিত করুন।
টম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.