আরএনএন / এলএসটিএম নেটওয়ার্কের ওজন কেন সময়ের সাথে ভাগ করা হয়?


20

আমি সম্প্রতি এলএসটিএমগুলিতে আগ্রহী হয়েছি এবং ওজন সময়ের সাথে ভাগ করে নেওয়া জেনে অবাক হয়েছি।

  • আমি জানি যে আপনি যদি সময়ের সাথে ওজন ভাগ করে নেন তবে আপনার ইনপুট সময়ের সিকোয়েন্সগুলি একটি চলক দৈর্ঘ্য হতে পারে।

  • ভাগ করা ওজন সহ আপনার প্রশিক্ষণের জন্য অনেক কম পরামিতি রয়েছে।

আমার বোধগম্যতা থেকে, এলএসটিএম বনাম কিছু অন্য শিখার পদ্ধতির দিকে ফিরে যাওয়ার কারণ হ'ল কারণ আপনি বিশ্বাস করেন যে আপনার ডেটাতে কিছু ধরণের সাময়িক / অনুক্রমিক কাঠামো / নির্ভরতা রয়েছে যা আপনি শিখতে চান। আপনি যদি ভেরিয়েবলের দৈর্ঘ্য 'বিলাসিতা' ত্যাগ করেন এবং দীর্ঘ গণনার সময় গ্রহণ করেন, তবে কোনও আরএনএন / এলএসটিএম ভাগ করা ওজন ছাড়াই (যেমন প্রতিবারের ধাপের জন্য আপনার আলাদা ওজন থাকে) ভালভাবে পারফর্ম করতে পারবেন না বা এমন কিছু আছে যা আমি অনুপস্থিত রয়েছি?

উত্তর:


17

গৃহীত উত্তরটি প্রশ্নের ব্যবহারিক দিকটিকে কেন্দ্র করে: প্যারামিটারগুলি ভাগ না করা হলে এর জন্য প্রচুর সংস্থান প্রয়োজন। যাইহোক, কোনও আরএনএন-তে প্যারামিটারগুলি ভাগ করে নেওয়ার সিদ্ধান্ত নেওয়া হয়েছিল যখন কোনও গুরুতর গণনা একটি সমস্যা ছিল ( উইকি অনুসারে 1980 ), সুতরাং আমি বিশ্বাস করি এটি মূল যুক্তি ছিল না (যদিও এখনও বৈধ))

প্যারামিটার ভাগ করে নেওয়ার বিশুদ্ধ তাত্ত্বিক কারণ রয়েছে:

  • এটি বিভিন্ন দৈর্ঘ্যের উদাহরণগুলিতে মডেলটি প্রয়োগ করতে সহায়তা করে। একটি সিকোয়েন্স পড়ার সময়, যদি আরএনএন মডেল প্রশিক্ষণের সময় প্রতিটি ধাপের জন্য বিভিন্ন পরামিতি ব্যবহার করে, তবে এটি বিভিন্ন দৈর্ঘ্যের অদৃশ্য ক্রমগুলি সাধারণকরণ করবে না।

  • প্রায়শই, ক্রমগুলি ক্রম জুড়ে একই বিধি অনুসারে কাজ করে। উদাহরণস্বরূপ, এনএলপিতে:

                                                     "সোমবার বৃষ্টি হচ্ছে"

                                                     "সোমবার বৃষ্টি হচ্ছে"

... এই দুটি বাক্যটির অর্থ একই জিনিস, যদিও বিবরণটি ক্রমের বিভিন্ন অংশে রয়েছে। প্যারামিটার ভাগ করে নেওয়ার বিষয়টি প্রতিফলিত করে যে আমরা প্রতিটি পদক্ষেপে একই কাজ করছি, ফলস্বরূপ, বাক্যটির প্রতিটি বিন্দুতে আমাদের বিধিগুলি পুনরায় প্রকাশ করতে হবে না।

এলএসটিএম এই দিক থেকে আলাদা নয়, তাই এটি ভাগ করে নেওয়া পরামিতিগুলিও ব্যবহার করে।


4
এটি গ্রহণযোগ্য উত্তরের চেয়ে বেশি গুরুত্বপূর্ণ কারণ!
jlh

আমি বিশ্বাস করি আমার উত্তরটি এখানে ভুল ব্যাখ্যা করা হয়েছে। আমি বলেছিলাম যে ওজন ভাগাভাগি না করে আরও বেশি গণনামূলক সংস্থান প্রয়োজন, তবে এটি মূল বিষয় হিসাবে চিহ্নিত করা হয়নি। বিশেষত, আমি আরও লিখেছি যে শেয়ার্ড ওজন ছাড়াই একটি মডেল অনেক বেশি নমনীয় এবং এইভাবে বেশি মানানসই প্রবণ হবে। সময়ের সাথে ওজন ভাগ করে নেওয়া এটিকে কাটিয়ে উঠার একটি উপায়। এখানে যথাযথভাবে নির্দেশিত হিসাবে, এই কৌশলটি 'পূর্ব' এর সাথে মিলে যায় যে একই নিয়ম প্রতিটি টাইমস্টেপে প্রয়োগ হয়। সুতরাং, দুটি উত্তর মতভেদ নয়।
ব্যবহারকারী20160

12

'শেয়ার্ড ওয়েট' দৃষ্টিকোণটি আরএনএন সম্পর্কে চিন্তাভাবনা থেকে আসে কারণ ফিডফোর্ড নেটওয়ার্কগুলি পুরো সময় জুড়ে অনিয়ন্ত্রিত। যদি প্রতিটি মুহুর্তে ওজন আলাদা হয় তবে এটি কেবল একটি ফিডফোরওয়ার্ড নেটওয়ার্ক হবে। তবে, আমি মনে করি এটির আর চিন্তা করার আরও একটি উপায় একটি আরএনএন হিসাবে হবে যার ওজন একটি সময়-পরিবর্তিত ফাংশন (এবং এটি আপনাকে পরিবর্তনশীল দৈর্ঘ্যের ক্রমগুলি প্রক্রিয়া করার ক্ষমতা রাখতে পারে)।

আপনি যদি এটি করেন, প্যারামিটারের সংখ্যা সময় পদক্ষেপের সংখ্যার সাথে সামঞ্জস্যভাবে বাড়বে। এটি কোনও প্রশংসনীয় দৈর্ঘ্যের ক্রমগুলির জন্য পরামিতিগুলির একটি বড় বিস্ফোরণ হবে। এটি প্রকৃতপক্ষে নেটওয়ার্কটিকে আরও শক্তিশালী করে তুলবে, যদি আপনার এটি চালানোর জন্য প্রচুর পরিমাণে গণনার সংস্থান এবং এটি সীমাবদ্ধ করার জন্য বিশাল ডেটা থাকে। দীর্ঘ ক্রমগুলির জন্য, এটি সম্ভবত গণনামূলকভাবে অপরিবর্তনীয় এবং আপনি অত্যধিক উপকার পাবেন। প্রকৃতপক্ষে, লোকেরা সাধারণত সময়ের সাথে সংক্ষিপ্ত ব্যাকপ্রসারণ চালিয়ে বিপরীত দিকে চলে যায়, যা পুরো ক্রমটি না গিয়ে কেবল কিছু অল্প সময়ের জন্য নেটওয়ার্কটিকে আনআরোল করে। এটি গণনামূলক সম্ভাব্যতার জন্য করা হয়। মজার বিষয় হল, আরএনএনগুলি এখনও টেম্পোরাল স্ট্রাকচার শিখতে পারে যা কাটা দৈর্ঘ্যের বাইরেও প্রসারিত, কারণ পুনরাবৃত্ত ইউনিটগুলি আগের থেকে স্মৃতি সঞ্চয় করতে পারে।


আপনি যদি ওজন ভাগ না করেন তবে আপনার কাছে এখনও সেল স্টেট রয়েছে যা সময়ের সাথে জুড়ে থাকে। অনন্য সময়যুক্ত ওজনযুক্ত একটি নথিভুক্ত এলএসটিএম একটি ফিডফোর্ড জালের মতো দেখায় যেখানে প্রতিটি 'স্তর' একটি সময়ের স্লাইস উপস্থাপন করে তবে প্রতিটি 'স্তর' তে আগত সেল স্টেটের তথ্য থাকবে। এটি একটি ফিডফরওয়ার্ডের সাথে সাদৃশ্যযুক্ত তবে কোষের রাজ্যের সংযোজনের সাথে।
মৌমাছি রাইট

0

আমি মনে করি যেহেতু লুকানো থেকে গোপনীয় পুনরাবৃত্তিগুলি (এবং সময় ভাগ করা ওজন) সহ আরএনএনগুলি ইউনিভার্সাল ট্যুরিং মেশিনগুলির সমতুল্য, বিভিন্ন সময় পদক্ষেপের জন্য তাদের আলাদা ওজন দেওয়া তাদের আরও শক্তিশালী করে না।


"শক্তিশালী" বলতে কী বোঝাতে চেয়েছিলেন তা কি আপনি ব্যাখ্যা করতে পারেন? ট্যুরিং মেশিনগুলির রেফারেন্সটি পরামর্শ দেয় যা আপনার মনে যা আছে তা পরিসংখ্যান বলতে যা বোঝায় তার চেয়ে সম্পূর্ণ আলাদা হতে পারে।
whuber

আরএনএনগুলি তথ্যের ক্রম প্রক্রিয়া করতে ব্যবহৃত হয়। তাদের সাধারণ ধরণের একটি ইনপুট হিসাবে একটি ক্রম পায় এবং আউটপুট হিসাবে অন্য সিকোয়েন্স উত্পাদন করে (যেমন ভাষা অনুবাদ সিস্টেম)। আমি বলছি যে কোনও আরএনএন মডেল পরিবার এম 1 অন্য আরএনএন মডেল পরিবার এম 2 এর চেয়ে বেশি শক্তিশালী, যদি কোনও সমস্যার জন্য (যেমন আউটপুট সিকোয়েন্সগুলির সেটগুলিতে ইনপুট সিকোয়েনগুলির সেট ম্যাপিং) এম 1-তে এমন কিছু মডেল এম 1 রয়েছে যেখানে এই সমস্যাটি সমাধান করতে পারে তবে এম 2 তে এমন কোনও মডেল নেই যেখানে এই সমস্যাটি সমাধান করা যায়।
হোসেইন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.