অঙ্গভঙ্গি সনাক্তকরণ সিস্টেমের জন্য আরএনএন (এলএসটিএম) ব্যবহার করা

আমি এএসএল (আমেরিকান সাইন ল্যাঙ্গুয়েজ) অঙ্গভঙ্গিগুলিকে শ্রেণিবদ্ধ করার জন্য একটি অঙ্গভঙ্গি স্বীকৃতি ব্যবস্থা তৈরির চেষ্টা করছি , সুতরাং আমার ইনপুটটি কোনও ক্যামেরা বা একটি ভিডিও ফাইল থেকে ফ্রেমের অনুক্রম বলে মনে করা হচ্ছে তবে এটি ক্রমটি সনাক্ত করে এবং এটির সাথে এটি ম্যাপ করে ing শ্রেণি (ঘুম, সহায়তা, খাওয়া, চালানো ইত্যাদি)

জিনিসটি হ'ল আমি ইতিমধ্যে একটি অনুরূপ সিস্টেম তৈরি করেছি কিন্তু স্থির চিত্রগুলির জন্য (কোনও গতি অন্তর্ভুক্ত নয়), এটি কেবলমাত্র বর্ণমালা অনুবাদ করার জন্য দরকারী যেখানে সিএনএন তৈরি করা একটি সোজা এগিয়ে কাজ ছিল, কারণ হাত এতটা সরেনি এবং ডেটা সেট স্ট্রাকচারটিও ম্যানেজ করা যায় কারণ আমি কেরাস ব্যবহার করছিলাম এবং সম্ভবত এখনও এটি করার ইচ্ছা ছিল (প্রতিটি ফোল্ডারে একটি নির্দিষ্ট চিহ্নের জন্য চিত্রের একটি সেট থাকে এবং ফোল্ডারের নাম এই সাইনটির শ্রেণীর নাম প্রাক্তন: এ, বি, সি , ..)

এখানে আমার প্রশ্ন, আমি কীভাবে আমার ডেটা সেটটিকে ক্যারাসে আরএনএন- এ ইনপুট করতে সক্ষম হতে পারি এবং আমার মডেল এবং কোনও প্রয়োজনীয় পরামিতিগুলি কার্যকরভাবে প্রশিক্ষণের জন্য আমার কোন নির্দিষ্ট ফাংশন ব্যবহার করা উচিত, কিছু লোক টাইমডিস্ট্রিবিউট ক্লাস ব্যবহার করার পরামর্শ দিয়েছিল তবে আমি তা করি না এটি কীভাবে আমার পক্ষে ব্যবহার করবেন সে সম্পর্কে একটি স্পষ্ট ধারণা আছে এবং নেটওয়ার্কের প্রতিটি স্তরের ইনপুট আকারটি গ্রহণ করুন।

এছাড়াও বিবেচনা করা যে আমার ডেটা সেট ইমেজ গঠিত হবে, আমি সম্ভবত একটি convolutional স্তর প্রয়োজন হবে, কিভাবে এটা একত্রিত করতে সম্ভবপর হবে পরিবর্তনের মধ্যে স্তর LSTM এক (আমি গড় কোড পদ)।

উদাহরণস্বরূপ আমি কল্পনা করি আমার ডেটা সেটটি এমন কিছু হতে পারে

'রান' নামক ফোল্ডারে 3, 1 এবং 2 এবং 3 ফোল্ডার রয়েছে, প্রতিটি ফোল্ডারটি ক্রম অনুসারে এর ফ্রেমের সাথে মিলে যায়

সুতরাং Run_1 প্রথম ফ্রেমের জন্য ইমেজ কিছু সেট রয়েছে করবে Run_2 দ্বিতীয় ফ্রেম এবং জন্য Run_3 তৃতীয়, আমার মডেলের উদ্দেশ্য আউটপুট শব্দ এই ক্রম সঙ্গে প্রশিক্ষণ দেওয়া হয় চালান ।

— Anasovich
সূত্র

আপনি ASL এর জন্য কোন ডেটাসেট ব্যবহার করছেন?

— স্যাম জনসন 19

দুঃখিত তবে আমরা আমাদের নিজস্ব ডেটাসেট রেকর্ড করেছি এবং এটি প্রকাশ্যে প্রকাশের ব্যবস্থা করি নি, এটি এতটা নয় এবং প্রত্যাশিত নির্ভুলতা দেয়নি।

— আনাসোভিচ

এটি অবশ্যই করণীয় এবং নীচে উল্লিখিত নিবন্ধটি থেকে অতিরিক্ত অতিরিক্ত কোডিংয়ের মতো দেখায় না তবে আমি অভিজ্ঞতা থেকে বলছি না কারণ এটি কোনও পূর্বে ব্যবহৃত স্থাপত্য নয়। আশাকরি এই নিবন্ধটি আপনাকে সঠিক দিকে নির্দেশ করবে: machineियरningmastery.com/cnn-long-short-term-mmory-networks

— অলি গ্রাহাম

আমার বোঝার ভিত্তিতে, এটি একটি বহু-শ্রেণীর শ্রেণিবিন্যাস সমস্যার (প্রতিটি শব্দ / হাতের অঙ্গভঙ্গির ক্রম অবশেষে একটি শব্দ / চিহ্নের সাথে মিলিয়ে) উত্সাহিত করছে বলে মনে হচ্ছে। একটি আরএনএন / এলএসটিএম / জিআরইউ আর্কিটেকচার শুরু করার জন্য দুর্দান্ত জায়গা, তবে এটি কম্পিউটেশনালি ব্যয়বহুল এবং ট্রেনের চেয়ে ধীর গতির হবে। তবে এর মধ্যে আপনার এক বা একাধিকের প্রয়োজন কিনা তা নির্ভর করে আপনার ডেটা কীভাবে কাঠামোবদ্ধ হয় এবং আপনি নিজের চিত্রগুলি একটি সিকোয়েন্সের পরিবর্তে সেট হিসাবে বিবেচনা করে দূরে যেতে পারবেন কিনা তার উপর নির্ভর করে।

এখানে কয়েকটি সম্ভাব্য ধারণা রয়েছে:

প্রতিটি "RUN_ *" ফোল্ডারের পাশাপাশি dropoutএবং / অথবা flatteningপ্রতিটি স্তরের মাঝে একটি সিএনএন স্তর স্থাপন করে শুরু করুন ।
ক্রমের সমস্ত স্তরের প্রতিনিধিত্ব করে একক লম্বা ভেক্টর স্থাপন করে শুরু করুন, তারপরে dropoutএবং / অথবা দিয়ে সিএনএন এর কয়েকটি স্তর যুক্ত করুন flattening।

এটি সর্বোত্তম কী কাজ করে তা দেখতে আপনার শেষের দিকে কিছুটা অনুসন্ধান এবং টিউনিং নেবে এবং আপনি যে মূল্যায়ন মেট্রিকগুলির জন্য অনুকূল করতে চান তা চয়ন করতে হবে (যেমন নির্ভুলতা / প্রত্যাহার)

আমি সিএনএনের পরামর্শ দেওয়ার কারণটি হ'ল কারণ, নির্দিষ্ট কিছু ক্ষেত্রে সিএনএন পুনরাবৃত্ত মডেলের অনুরূপ কর্মক্ষমতা সরবরাহ করতে পারে তবে ব্যয়ের একটি অংশে f দুর্ভাগ্যক্রমে, আপনার ডেটা সম্পর্কে খুব কম তথ্য না দিয়ে বলা শক্ত।

— ngopal
সূত্র