আমি এএসএল (আমেরিকান সাইন ল্যাঙ্গুয়েজ) অঙ্গভঙ্গিগুলিকে শ্রেণিবদ্ধ করার জন্য একটি অঙ্গভঙ্গি স্বীকৃতি ব্যবস্থা তৈরির চেষ্টা করছি , সুতরাং আমার ইনপুটটি কোনও ক্যামেরা বা একটি ভিডিও ফাইল থেকে ফ্রেমের অনুক্রম বলে মনে করা হচ্ছে তবে এটি ক্রমটি সনাক্ত করে এবং এটির সাথে এটি ম্যাপ করে ing শ্রেণি (ঘুম, সহায়তা, খাওয়া, চালানো ইত্যাদি)
জিনিসটি হ'ল আমি ইতিমধ্যে একটি অনুরূপ সিস্টেম তৈরি করেছি কিন্তু স্থির চিত্রগুলির জন্য (কোনও গতি অন্তর্ভুক্ত নয়), এটি কেবলমাত্র বর্ণমালা অনুবাদ করার জন্য দরকারী যেখানে সিএনএন তৈরি করা একটি সোজা এগিয়ে কাজ ছিল, কারণ হাত এতটা সরেনি এবং ডেটা সেট স্ট্রাকচারটিও ম্যানেজ করা যায় কারণ আমি কেরাস ব্যবহার করছিলাম এবং সম্ভবত এখনও এটি করার ইচ্ছা ছিল (প্রতিটি ফোল্ডারে একটি নির্দিষ্ট চিহ্নের জন্য চিত্রের একটি সেট থাকে এবং ফোল্ডারের নাম এই সাইনটির শ্রেণীর নাম প্রাক্তন: এ, বি, সি , ..)
এখানে আমার প্রশ্ন, আমি কীভাবে আমার ডেটা সেটটিকে ক্যারাসে আরএনএন- এ ইনপুট করতে সক্ষম হতে পারি এবং আমার মডেল এবং কোনও প্রয়োজনীয় পরামিতিগুলি কার্যকরভাবে প্রশিক্ষণের জন্য আমার কোন নির্দিষ্ট ফাংশন ব্যবহার করা উচিত, কিছু লোক টাইমডিস্ট্রিবিউট ক্লাস ব্যবহার করার পরামর্শ দিয়েছিল তবে আমি তা করি না এটি কীভাবে আমার পক্ষে ব্যবহার করবেন সে সম্পর্কে একটি স্পষ্ট ধারণা আছে এবং নেটওয়ার্কের প্রতিটি স্তরের ইনপুট আকারটি গ্রহণ করুন।
এছাড়াও বিবেচনা করা যে আমার ডেটা সেট ইমেজ গঠিত হবে, আমি সম্ভবত একটি convolutional স্তর প্রয়োজন হবে, কিভাবে এটা একত্রিত করতে সম্ভবপর হবে পরিবর্তনের মধ্যে স্তর LSTM এক (আমি গড় কোড পদ)।
উদাহরণস্বরূপ আমি কল্পনা করি আমার ডেটা সেটটি এমন কিছু হতে পারে
'রান' নামক ফোল্ডারে 3, 1 এবং 2 এবং 3 ফোল্ডার রয়েছে, প্রতিটি ফোল্ডারটি ক্রম অনুসারে এর ফ্রেমের সাথে মিলে যায়
সুতরাং Run_1 প্রথম ফ্রেমের জন্য ইমেজ কিছু সেট রয়েছে করবে Run_2 দ্বিতীয় ফ্রেম এবং জন্য Run_3 তৃতীয়, আমার মডেলের উদ্দেশ্য আউটপুট শব্দ এই ক্রম সঙ্গে প্রশিক্ষণ দেওয়া হয় চালান ।