কখন এলএসটিএম-এর উপর জিআরইউ ব্যবহার করবেন?


95

একটি জিআরইউ এবং এলএসটিএমের মধ্যে মূল পার্থক্যটি হ'ল জিআরইউতে দুটি গেট রয়েছে ( রিসেট এবং আপডেট গেটস) যেখানে একটি এলএসটিএমের তিনটি গেট রয়েছে (যথা ইনপুট , আউটপুট এবং ভুলে যাওয়া গেট)।

এলএসটিএম মডেলটির (যেমন আমাদের তিনটি গেট রয়েছে) মাধ্যমে নেটওয়ার্কে স্পষ্টভাবে আরও নিয়ন্ত্রণ থাকে আমরা কেন জিআরইউ ব্যবহার করব? কোন পরিস্থিতিতে জিএসইউকে এলএসটিএমের চেয়ে বেশি পছন্দ করা হয়?


1
একটি জিআরইউ সামান্য কম জটিল তবে এটি প্রায় একটি এলএসটিএম কর্মক্ষমতা অনুসারে ভাল। টেনসরফ্লোতে একটি বাস্তবায়ন এখানে পাওয়া যায়: ডেটা-ব্লগার.কম / 07 / 08 / 27 / gru- সংযোজন- সাইনফ্লো
www.data-blogger.com

উত্তর:


64

জিআরইউ এলএসটিএমের সাথে সম্পর্কিত কারণ উভয়ই বিভিন্ন উপায়ে ব্যবহার করছে যদি তথ্য নষ্ট না করে গ্রেডিয়েন্ট সমস্যা রোধ করতে পারে। জিআরইউ বনাম এলএসটিএম- সম্পর্কে কিছু পিন-পয়েন্ট এখানে দেওয়া হয়েছে

  • জিআরইউ এলএসটিএম ইউনিটের মতো তথ্যের প্রবাহকে নিয়ন্ত্রণ করে তবে মেমোরি ইউনিট ব্যবহার না করেই । এটি কোনও নিয়ন্ত্রণ ছাড়াই পুরো গোপন সামগ্রীটি প্রকাশ করে exp
  • জিআরইউ তুলনামূলকভাবে নতুন, এবং আমার দৃষ্টিকোণ থেকে, পারফরম্যান্সটি এলএসটিএমের সাথে সমান, তবে গণনামূলকভাবে আরও দক্ষ ( নির্দেশিত হিসাবে কম জটিল কাঠামো )। সুতরাং আমরা এটি আরও বেশি ব্যবহার করা দেখছি।

একটি বিশদ বিবরণের জন্য, আপনি এই গবেষণা কাগজটি আবিষ্কার করতে পারেন - আরক্সিভ.অর্গ । কাগজটি এই সমস্ত উজ্জ্বলভাবে ব্যাখ্যা করে।

এছাড়াও, আপনি আরও ভাল ধারণার জন্য এই ব্লগগুলিও অন্বেষণ করতে পারেন-

আশা করি এটা সাহায্য করবে!


1
আপনার উত্তর ছাড়াও জিআরইউ এবং এলএসটিএম এবং তাদের বিভিন্ন অনুমানের মধ্যে পারফরম্যান্সের মূল্যায়ন করার জন্য একটি দুর্দান্ত কাগজ রয়েছে যা "পুনরাবৃত্ত নেটওয়ার্ক আর্কিটেকচারের এক অভিজ্ঞতামূলক অনুসন্ধান" গুগল দ্বারা
খনিজ

38

* উপরে ইতিমধ্যে দুর্দান্ত উত্তর পরিপূরক।

  • আমার অভিজ্ঞতা থেকে, জিআরইউগুলি দ্রুত প্রশিক্ষণ দেয় এবং যদি আপনি ভাষা মডেলিং করেন (অন্যান্য কাজগুলি সম্পর্কে নিশ্চিত নন) তবে কম প্রশিক্ষণের ডেটাতে এলএসটিএম এর চেয়ে আরও ভাল সঞ্চালন করেন ।

  • জিআরইউগুলি সহজ এবং সংশোধন করা সহজ, উদাহরণস্বরূপ নেটওয়ার্কে অতিরিক্ত ইনপুট ক্ষেত্রে নতুন গেট যুক্ত করা। এটি সাধারণভাবে কম কোড।

  • এলএসটিএমগুলিকে তাত্ত্বিকভাবে জিআরইউগুলির চেয়ে দীর্ঘতর ক্রমগুলি মনে রাখা উচিত এবং দীর্ঘ-দূরত্বের সম্পর্কের মডেলিংয়ের প্রয়োজনীয় কার্যগুলিতে সেগুলি ছাড়িয়ে যেতে হবে।

* কিছু অতিরিক্ত কাগজপত্র যা জিআরইউ এবং এলএসটিএম বিশ্লেষণ করে।

  • "নিউরাল জিপিইউস অ্যালগরিদম শিখুন" (asukasz কায়সার, ইলিয়া সুটস্কিভার, 2015) https://arxiv.org/abs/1511.08228

  • "প্রাকৃতিক ভাষা প্রসেসিংয়ের জন্য সিএনএন এবং আরএনএন এর তুলনামূলক অধ্যয়ন" (ওয়েনপেনগ ইয়িন এট আল। 2017) https://arxiv.org/abs/1702.01923


9

এই উত্তরটি আসলে ডেটাসেট এবং ব্যবহারের ক্ষেত্রে থাকে। কোনটি ভাল তা নিশ্চিত করে বলা শক্ত।

  • জিআরইউ LSTM এর বিপরীতে সম্পূর্ণ স্মৃতি উন্মোচন করে, তাই যে অ্যাপ্লিকেশনগুলি সুবিধা হিসাবে কাজ করে তা সহায়ক হতে পারে। এছাড়াও, জিআরইউ কেন ব্যবহার করতে হবে তা যুক্ত করে - এটি এলএসটিএমের তুলনায় কম্পিউটেশনালি সহজতর যেহেতু এর কেবল দুটি গেট রয়েছে এবং যদি এটির পারফরম্যান্স এলএসটিএম এর সাথে সমান হয়, তবে কেন নয়?
  • এই কাগজটি একটি সাধারণ আরএনএন-এর চেয়ে রেফারাকৃত নেটওয়ার্কগুলির শ্রেষ্ঠত্বের সাথে গ্রাফগুলি দিয়ে দুর্দান্তভাবে প্রদর্শিত হয়েছে তবে স্পষ্টভাবে উল্লেখ করেছে যে এটিগুলির মধ্যে কোনটি ভাল are সুতরাং, যদি আপনি নিজের মডেল হিসাবে কোনটি ব্যবহার করবেন তা নিয়ে আপনি বিভ্রান্ত হয়ে পড়ে থাকেন তবে আমি আপনাকে উভয়কে প্রশিক্ষণ দেওয়ার পরামর্শ দিই এবং তারপরে আরও ভাল করার পরামর্শ দিই।

8

সম্পূর্ণ GRU ইউনিট

c~t=tanh(Wc[Grct1,xt]+bc)

Gu=σ(Wu[ct1,xt]+bu)

Gr=σ(Wr[ct1,xt]+br)

ct=Guc~t+(1Gu)ct1

at=ct

এলএসটিএম ইউনিট

c~t=tanh(Wc[at1,xt]+bc)

Gu=σ(Wu[at1,xt]+bu)

Gf=σ(Wf[at1,xt]+bf)

Go=σ(Wo[at1,xt]+bo)

ct=Guc~t+Gfct1

at=Gotanh(ct)

সমীকরণগুলি থেকে দেখা যাবে এলএসটিএমগুলির একটি পৃথক আপডেট গেট রয়েছে এবং ভুলে যাওয়ার গেট রয়েছে। এটি পরিষ্কারভাবে এলএসটিএমকে আরও পরিশীলিত করে তবে একই সাথে আরও জটিল করে তোলে। আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে কোনটি ব্যবহার করবেন তা সিদ্ধান্ত নেওয়ার সহজ উপায় নেই। পারফরম্যান্স পরীক্ষা করতে আপনার সর্বদা ট্রায়াল এবং ত্রুটি করতে হয়। তবে, জিআরইউ এলএসটিএম এর চেয়ে সহজ, প্রশিক্ষণে জিআরইউগুলি খুব কম সময় নেবে এবং আরও দক্ষ।

ক্রেডিট: অ্যান্ড্রু এনজি


হাতের লেখার পরে পরবর্তী স্লাইডে, শেষ সমীকরণটি ভিন্ন: । এই সূত্রটি এখানে সঠিকভাবে নিশ্চিত করা হয়েছেa<t>=Γotanh(c~<t>)
টম হেল

1

জিআরইউ এলএসটিএমের চেয়ে ভাল কারণ এটি পরিবর্তন করা সহজ এবং মেমোরি ইউনিটগুলির প্রয়োজন নেই, সুতরাং, এলএসটিএমের চেয়ে দ্রুত প্রশিক্ষণ দেওয়া এবং পারফরম্যান্স অনুযায়ী দেওয়া উচিত।


12
দয়া করে ন্যায্য রেফারেন্স সহ পারফরম্যান্সের দাবিটি সমর্থন করুন
কারি

1

প্রকৃতপক্ষে, মূল পার্থক্যটি এর চেয়ে আরও বেশি প্রমাণিত হয়: দীর্ঘ-স্বল্প মেয়াদী (এলএসটিএম) উপলব্ধিকারীগুলি গতি এবং গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদমগুলি ব্যবহার করে তৈরি করা হয়। যখন আপনি এলএসটিএম পার্সেপ্টেরনগুলিকে তাদের পুনরাবৃত্ত সমকক্ষ আরএনএনগুলির সাথে পুনর্মিলন করেন, আপনি জিআরইউ নিয়ে আসেন যা সত্যিই কেবল একটি সাধারণী পুনরাবৃত্ত ইউনিট বা গ্রেডিয়েন্ট পুনরাবৃত্ত ইউনিট (প্রসঙ্গের উপর নির্ভর করে) যা আরও গতিবেগ এবং গ্রেডিয়েন্ট বংশোদ্ভূত অ্যালগরিদমকে আরও ঘনিষ্ঠভাবে সংহত করে। আমি যদি আপনি ছিলাম, আমি অ্যাডাম অপটিমাইজারগুলির উপর আরও গবেষণা করতাম।

জিআরইউ হ'ল একটি পুরানো ধারণা। তবে আপনি যদি টিএফ-এর মাঝারি-উন্নত গভীর-জ্ঞান চান তবে আমি আপনাকে এটি গবেষণা করে বুঝতে পারি।


8
আমি কৌতুহলী. আপনি ব্যাখ্যা করতে পারবেন কেন জিআরইউ একটি পুরানো ধারণা?
এলোমেলো ব্যবহারকারীর
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.