আমি বর্ণালী ব্যবহার করে শব্দ (উদাহরণস্বরূপ প্রাণীর শব্দ) শ্রেণিবদ্ধ করার সম্ভাবনাটি সন্ধান করছিলাম। ধারণাটি হল স্পেকট্রামে বিভাগগুলি এবং একটি (বা অনেকগুলি) শ্রেণীর লেবেলগুলি আউটপুট সনাক্ত করতে একটি গভীর সমঝোতা সংক্রান্ত নিউরাল নেটওয়ার্কগুলি ব্যবহার করা। এটি কোনও নতুন ধারণা নয় (উদাহরণস্বরূপ তিমি সাউন্ড শ্রেণিবিন্যাস বা সঙ্গীত শৈলীর স্বীকৃতি দেখুন )।
আমি যে সমস্যার মুখোমুখি হচ্ছি তা হ'ল আমার কাছে বিভিন্ন দৈর্ঘ্যের সাউন্ড ফাইল এবং তাই বিভিন্ন আকারের বর্ণালী। এখনও অবধি, আমি যে প্রত্যেকে দেখেছি সেগুলি স্থির আকারের শব্দ নমুনা ব্যবহার করে তবে আমি এটি করতে পারি না কারণ আমার শব্দ ফাইলটি 10 সেকেন্ড বা 2 মিনিটের দীর্ঘ হতে পারে।
উদাহরণস্বরূপ, শুরুতে একটি পাখির শব্দ এবং শেষে ব্যাঙের শব্দ (আউটপুট "বার্ড, ব্যাঙ" হওয়া উচিত)। আমার বর্তমান সমাধানটি হ'ল নিউরাল নেটওয়ার্কে একটি টেম্পোরাল উপাদান যুক্ত করা (বারবারের নিউরাল নেটওয়ার্ক তৈরি করা) তবে আমি আপাতত এটিকে সহজ রাখতে চাই। কোন ধারণা, লিঙ্ক, টিউটোরিয়াল, ...?