শব্দ ভিত্তিক এবং চর-ভিত্তিক পাঠ্য উত্পন্ন আরএনএনগুলির মধ্যে পার্থক্য কী?


15

পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির সাথে পাঠ্য প্রজন্ম সম্পর্কে পড়ার সময় আমি লক্ষ্য করেছি যে কিছু উদাহরণ শব্দ এবং অন্যের অক্ষরে অক্ষর অনুসারে পাঠ্য শব্দ উত্পন্ন করার জন্য বাস্তবে কেন তা উল্লেখ না করে প্রয়োগ করা হয়েছিল ।

সুতরাং, RNN মডেলের যে পাঠ্য ভবিষ্যদ্বাণী করা এর মধ্যে পার্থক্য কি প্রতি শব্দ ভিত্তি এবং বেশী যে ভবিষ্যদ্বাণী করা টেক্সট প্রতি গৃহস্থালির কাজ ভিত্তিতে? শব্দ ভিত্তিক আরএনএন-এর কি আরও বড় কর্পাস আকারের প্রয়োজন? চর-ভিত্তিক আরএনএন কি আরও সাধারণীকরণ করা যায়? সম্ভবত পার্থক্যটি হ'ল ইনপুট প্রতিনিধিত্ব (এক-গরম এনকোডিং, শব্দ এম্বেডিংস)? পাঠ্য প্রজন্মের জন্য কোনটি চয়ন করবেন?

উত্তর:


15

আমি সম্প্রতি যা শিখেছি তা এখানে।

স্পষ্টতই, পাঠ্য প্রজন্মের আরএনএন সম্পর্কে কথা বলার সময় আমরা আরএনএন ভাষার মডেলগুলি নিয়ে কথা বলছি। যখন সম্পর্কে জিজ্ঞাসা করা শব্দ / গৃহস্থালির কাজ-ভিত্তিক টেক্সট প্রজন্ম RNNs, আমরা সম্পর্কে জিজ্ঞাসা করা হয় শব্দ / গৃহস্থালির কাজ-ভিত্তিক RNN ভাষা মডেলের (lm)।

শব্দ ভিত্তিক এলএমগুলি চর-ভিত্তিক এলএমগুলির তুলনায় উচ্চতর নির্ভুলতা এবং কম গণনা ব্যয় প্রদর্শন করে ।

অক্ষরের স্তরের মডেলটির দীর্ঘমেয়াদী স্বল্পমেয়াদী স্মৃতি ক্যাপচার করতে অসুবিধার কারণে পারফরম্যান্সের এই ড্রপটি অসম্ভাব্য , যেহেতু দীর্ঘকালীন স্বল্প মেয়াদী মেমরি (এলএসটিএম) পুনরাবৃত্ত নেটওয়ার্কগুলি শব্দ-ভিত্তিক ইনপুট দিয়ে আরও ভাল কাজ করে।

এটি কারণ চর-ভিত্তিক আরএনএন এলএমগুলিকে দীর্ঘমেয়াদী নির্ভরতা সফলভাবে মডেল করার জন্য অনেক বড় লুকানো স্তর প্রয়োজন যার অর্থ উচ্চতর গণনামূলক ব্যয়।

অতএব, আমরা এটি বলতে পারি

শব্দ স্তর এবং চরিত্রের স্তরের মডেলগুলির মধ্যে অন্যতম মৌলিক পার্থক্য হল প্রশিক্ষণ এবং পরীক্ষার সময় আরএনএনকে যে পরামিতিগুলি অ্যাক্সেস করতে হয়েছিল তার সংখ্যার মধ্যে । আরএনএন এর ইনপুট এবং আউটপুট স্তরটি আরও ছোট, বৃহত্তর পুরোপুরি সংযুক্ত লুকানো স্তর হওয়া দরকার যা মডেলটির প্রশিক্ষণ ব্যয়বহুল করে তোলে।

তবে চার্জ -ভিত্তিক আরএনএন এলএম সমৃদ্ধ রূপচর্চা যেমন ফিনিশ, তুর্কি, রাশিয়ান ইত্যাদির সাথে আরও ভাল মডেল ভাষাগুলি এ জাতীয় ভাষাগুলির মডেল করতে শব্দ ভিত্তিক আরএনএন এলএম ব্যবহার করা যদি সম্ভব হয় তবে তা সম্ভব হয় এবং এটির পরামর্শ দেওয়া হয় না।

উপরোক্ত বিশ্লেষণটি বিশেষত যখন আপনি চর-ভিত্তিক আরএনএন দ্বারা উত্পাদিত আউটপুট পাঠ্যের দিকে তাকান তখন অর্থবোধ করে:

বিনিয়োগকারীদের মধ্যে অবাক করা অর্থ উপার্জন করতে যাচ্ছিল না। আমি যে সময়টিতে সমস্ত আকর্ষণীয় দ্রুত তাড়াতাড়ি সময় নিয়ে আসছি না, একই প্রোগ্রামার থেকে নামতে হবে না।

13-চরিত্রের উইন্ডো সহ সাধারণ চর-ভিত্তিক সর্বাধিক সম্ভাবনার এলএম এটি সরবরাহ করে:

এবং যখন সে অনেক শক্ত ইট তৈরি করেছিল। সে সেগুলিকে স্তূপীকৃত করে তার পায়ে পাথর ছুঁড়েছিল। ডাক্তার তাকে ব্যাট দিয়ে সনাক্ত করলেন। মেয়েটি এবং তার প্রেমিক তাকে জিজ্ঞাসা করলেন।

অবশ্যই আমি উদাহরণটি চেরি-বাছাই করেছি (আসলে বেশিরভাগ এমএল এলএম উদাহরণগুলি এখনও অবধি পড়েছি এমন কোনও আরএনএন উত্পাদিত পাঠ্যের চেয়ে ভাল দেখেছি) এবং এই ক্ষুদ্র এমএল এলএম একটি সহজ কর্পাসে প্রশিক্ষিত হয়েছিল তবে আপনি ধারণাটি পেয়েছেন: সোজা শর্তযুক্ত সম্ভাবনা আরও ভাল উত্পন্ন করে অনেক জটিল চর-ভিত্তিক আরএনএন এর চেয়ে পাঠ্য ।

চর-ভিত্তিক আরএনএন এলএমগুলি বিস্তৃত ভাষার জন্য ব্যাকরণগতভাবে সঠিক অনুক্রমগুলি নকল করতে পারে, বৃহত্তর গোপন স্তরের প্রয়োজন হয় এবং গুণগতভাবে আরও ব্যয়বহুল হয় যখন শব্দ ভিত্তিক আরএনএন এলএম দ্রুত প্রশিক্ষণ দেয় এবং আরও সুসংগত পাঠ্য উত্পন্ন করে এবং এমনকি এই উত্পন্ন পাঠগুলিও প্রকৃত অর্থে তৈরি থেকে দূরে থাকে ।


1
দুর্দান্ত মন্তব্য। এটি যুক্ত করা উচিত যে কিছু সমস্যার জন্য একটি বা অন্য গণ্য উদ্বেগ নির্বিশেষে আরও বোধ করতে পারে। উদাহরণস্বরূপ, যদি আপনার লক্ষ্য শব্দের মধ্যে সম্পর্ক খুঁজে পেতে শব্দ ভেক্টর অধ্যয়ন করা হয় বা আপনি যদি কোনও শব্দ-বিষয়ের উপর ভিত্তি করে একটি পাঠ্য উত্পন্ন করতে চান তবে আপনাকে শব্দ ভিত্তিক আরএনএন দিয়ে যেতে হবে। এবং, বিপরীতে, সম্ভবত সমস্যা আছে যেখানে চর-ভিত্তিক আরএনএন যাওয়ার উপায়। এটি ব্যবহারকারী কী করতে চেষ্টা করছে তার উপরও নির্ভর করে।
রিকার্ডো ক্রুজ

আমি আপনার শেষ মন্তব্যটি বুঝতে পারি নি: "চার্-ভিত্তিক আরএনএন এলএম (...) যখন প্রকৃত অর্থে বোঝার কথা আসে তখন তা হ্রাস পায়" " আমি ওয়ার্ড-ভিত্তিক আরএনএন বোধগম্যও দেখিনি। কেন আপনি এখানে চর-ভিত্তিক মডেলগুলি বিচ্ছিন্ন করলেন?
রিকার্ডো ক্রুজ

আমি অস্পষ্ট সমাপ্তি আপডেট করেছি।
খনিজগুলি

দুর্দান্ত উত্তর! প্রকৃতপক্ষে কেউ সহজেই যুক্ত করতে পারেন যে এটি জড়িত টাস্ক, আপনার ডেটাসেটের আকার, ভাষা এবং প্রাক-প্রক্রিয়াজাতকরণের স্তরের উপর নির্ভর করে যা আপনি করতে ইচ্ছুক। উদাহরণস্বরূপ, অধিকতর রূপচর্চা ভাষা প্রক্রিয়া করতে এবং শব্দভাণ্ডার (ওওভি) শব্দটি পরিচালনা করার জন্য, আপনি লেম্যাটাইজেশন, পোস্ট ট্যাগিং, এবং উপসর্গ, প্রত্যয় ইত্যাদির সাহায্যে ওয়ার্ড-মডেল ব্যবহার করতে পারেন
ক্লড COOLOMBE

5

ভাষার এক বিলিয়ন শব্দের মডেলিং সম্পর্কে একটি সুন্দর লেখার ব্যবস্থা রয়েছে । নীচে কিছু অংশ রয়েছে:

অক্ষর-স্তরের মডেলের চেয়ে ওয়ার্ড-লেভেলের মডেলগুলির একটি গুরুত্বপূর্ণ সুবিধা রয়েছে।
নিম্নলিখিত ক্রমটিকে উদাহরণ হিসাবে ধরুন (রবার্ট এ। হেইনলিনের একটি উদ্ধৃতি):

অগ্রগতি তাড়াতাড়ি রাইজারদের দ্বারা তৈরি হয় না। এটি অলস লোকেরা কিছু করার সহজ উপায়গুলি খুঁজতে চেষ্টা করে made

টোকেনাইজেশনের পরে, শব্দ-স্তরের মডেলটি এই ধারাটি 22 টি টোকেনযুক্ত হিসাবে দেখতে পারে। অন্যদিকে, চরিত্র-স্তরটি এই ক্রমটি 102 টি টোকেনযুক্ত হিসাবে দেখবে। এই দীর্ঘতর ক্রমটি চরিত্রের মডেলটির কাজটি শব্দের মডেলের চেয়ে শক্ত করে তোলে কারণ এটি আরও বেশি সময়-পদক্ষেপের মধ্যে আরও টোকেনের মধ্যে নির্ভরতা গ্রহণ করতে হবে। চরিত্রের ভাষা মডেলগুলির সাথে আরেকটি সমস্যা হ'ল তাদের বাক্য বিন্যাস, শব্দার্থবিজ্ঞান ইত্যাদি ছাড়াও শিখতে হবে যে কোনও ক্ষেত্রে, ভাষার ভাষার মডেলগুলিতে সাধারণত চরিত্রের মডেলের তুলনায় কম ত্রুটি থাকবে

ওয়ার্ড ল্যাঙ্গুয়েজ মডেলগুলির চেয়ে বেশি চরিত্রের প্রধান সুবিধা হ'ল তাদের কাছে খুব ছোট শব্দভাণ্ডার রয়েছে। উদাহরণস্বরূপ, জিবিডাব্লু ডেটাসেটে 800,000 শব্দের তুলনায় প্রায় 800 টি অক্ষর থাকবে (লো-ফ্রিকোয়েন্সি টোকেনগুলি ছাঁটাই করার পরে)। অনুশীলনে এর অর্থ হ'ল চরিত্রের মডেলগুলির জন্য কম মেমরির প্রয়োজন হবে এবং তাদের শব্দ প্রতিরূপগুলির তুলনায় দ্রুত সূচনা হবে। আর একটি সুবিধা হ'ল প্রিপ্রোসেসিং পদক্ষেপ হিসাবে তাদের টোকেনাইজেশন প্রয়োজন হয় না।


1

আমার মতে, চরিত্রভিত্তিক আরএনএনগুলি আরও ভাল অভিনয় করবে তবে শব্দ ভিত্তিক মডেলগুলির চেয়ে তাদের আরও অনেক বেশি ডেটা প্রয়োজন এবং চরিত্রভিত্তিক মডেলগুলিকে দীর্ঘ সময়ের জন্য প্রশিক্ষণের প্রয়োজন to আমি বলব এটি পরীক্ষা এবং ত্রুটির পাশাপাশি ডেটা এবং গণনা পাওয়ারের মধ্যে একটি বাণিজ্য বন্ধ রয়েছে off

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.