শব্দ স্বীকৃতির জন্য স্পেকট্রোগ্রামের সাথে গভীর শিখন

আমি বর্ণালী ব্যবহার করে শব্দ (উদাহরণস্বরূপ প্রাণীর শব্দ) শ্রেণিবদ্ধ করার সম্ভাবনাটি সন্ধান করছিলাম। ধারণাটি হল স্পেকট্রামে বিভাগগুলি এবং একটি (বা অনেকগুলি) শ্রেণীর লেবেলগুলি আউটপুট সনাক্ত করতে একটি গভীর সমঝোতা সংক্রান্ত নিউরাল নেটওয়ার্কগুলি ব্যবহার করা। এটি কোনও নতুন ধারণা নয় (উদাহরণস্বরূপ তিমি সাউন্ড শ্রেণিবিন্যাস বা সঙ্গীত শৈলীর স্বীকৃতি দেখুন )।

আমি যে সমস্যার মুখোমুখি হচ্ছি তা হ'ল আমার কাছে বিভিন্ন দৈর্ঘ্যের সাউন্ড ফাইল এবং তাই বিভিন্ন আকারের বর্ণালী। এখনও অবধি, আমি যে প্রত্যেকে দেখেছি সেগুলি স্থির আকারের শব্দ নমুনা ব্যবহার করে তবে আমি এটি করতে পারি না কারণ আমার শব্দ ফাইলটি 10 সেকেন্ড বা 2 মিনিটের দীর্ঘ হতে পারে।

উদাহরণস্বরূপ, শুরুতে একটি পাখির শব্দ এবং শেষে ব্যাঙের শব্দ (আউটপুট "বার্ড, ব্যাঙ" হওয়া উচিত)। আমার বর্তমান সমাধানটি হ'ল নিউরাল নেটওয়ার্কে একটি টেম্পোরাল উপাদান যুক্ত করা (বারবারের নিউরাল নেটওয়ার্ক তৈরি করা) তবে আমি আপাতত এটিকে সহজ রাখতে চাই। কোন ধারণা, লিঙ্ক, টিউটোরিয়াল, ...?

deep-learning multilabel-classification audio-recognition

— user667804
সূত্র

সবচেয়ে সহজ উপায় হ'ল কোনও এসটিএফটি (বর্ণালী) এর পরিবর্তে একটি নির্দিষ্ট দৈর্ঘ্যের এফএফটি ব্যবহার করা। এটি আপনার পরিবর্তনশীল দৈর্ঘ্যের সমস্যাটি দূর করবে। আপনি কেবল পুনরাবৃত্ত নিউরাল নেটওয়ার্ক ব্যবহার করেন না কেন? আপনি কি একটি কাজের উদাহরণ প্রয়োজন? যদি তা হয় তবে কোন সফ্টওয়্যারটি ব্যবহার করবেন সে সম্পর্কে কি আপনি নমনীয়?

— এমরে

আমি মনে করি আমি একটি নির্দিষ্ট দৈর্ঘ্যের এফএফটি সহ প্রচুর তথ্য হারাব। যদি আমি এটি করি তবে আমার মনে হয় আমাকে প্রথমে একটি বিভাজন করতে হবে, যেখানে আমি 'আকর্ষণীয়' অংশগুলি খুঁজছি। আমি এটি করতে পারি বা পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলিতে যেতে পারি (উদাহরণটি দুর্দান্ত তবে অতি প্রয়োজনীয় নয়, আমি লাসাগন ব্যবহার করতে চেয়েছিলাম)। যে কারণটি আমি এড়াতে চেষ্টা করেছি তা হ'ল পুনরাবৃত্ত নিউরাল নেটওয়ার্কের আউটপুটটি মোকাবেলা করা আরও বেশি কঠিন (প্রতিটি সময় ধাপে তবে আমার কাছে কেবল পুরো ফাইলটির জন্য লেবেল রয়েছে)। তাই আমি চেয়েছিলাম সহজতম মডেলটি দিয়ে শুরু করে ধীরে ধীরে এটিকে আরও জটিল করে তুলতে।

— user667804

আপনি দয়া করে বলতে পারেন আপনি কী ব্যবহার করেছেন এবং সর্বোত্তম পন্থাটি আপনি খুঁজে পেয়েছেন? @ user667804

— এনআইএ

সমাধানের জন্য এই কাগজটি দেখুন: ceur-ws.org/Vol-1609/16090547.pdf বর্ণালীর নির্দিষ্ট আকারের অংশগুলিতে সিএনএন ব্যবহার করে এবং তারপরে একটি চূড়ান্ত ভবিষ্যদ্বাণী উত্পন্ন করার জন্য আউটপুটগুলির গড় গড় (পার্শ্ববর্তী আউটপুটগুলির কাজ মনে হয় কাজ করে) সেরা)।

— ব্যবহারকারী 667804

উত্তর:

স্বয়ংক্রিয় স্পিচ স্বীকৃতি (এএসআর) এর জন্য, ফিল্টার ব্যাংক বৈশিষ্ট্যগুলি স্পেকট্রামগ্রামের সারণি 1 এ সিএনএন হিসাবে ভাল অভিনয় করে । শ্রেণিবদ্ধ প্রাণীদের শব্দগুলির জন্য আপনি fbank এ একটি DBN-DNN সিস্টেম প্রশিক্ষণ দিতে পারেন।

অনুশীলনে দীর্ঘ বক্তৃতা উচ্চারণগুলি সংক্ষিপ্ত উচ্চারণে বিভক্ত হয় যেহেতু ভিটার্বি ডিকোডিং দীর্ঘ উচ্চারণের জন্য ভাল কাজ করে না। আপনি একই কাজ করতে পারে।

আপনি দীর্ঘ উচ্চারণগুলিকে নির্দিষ্ট দৈর্ঘ্যের ছোট উচ্চারণে ভাগ করতে পারেন। দীর্ঘ উচ্চারণগুলিকে ছোট করে ভাগ করা সহজ। সমস্যাটি দৈর্ঘ্য বাড়ানোর ক্ষেত্রে আসে ছোট উচ্চারণগুলি নির্দিষ্ট দৈর্ঘ্যে পৌঁছানোর জন্য।

ছোট উচ্চারণগুলিকে বৃদ্ধির জন্য আপনি বর্ণালীটির ফ্রিকোয়েন্সি অক্ষটি বানাতে পারেন। এএসআর কার্যকারিতা ডেটা বৃদ্ধি করার জন্য এই ডেটা বর্ধন দেখানো হয়েছে ।

এতে একাধিক শব্দের সাথে দীর্ঘতর উচ্চারণের জন্য, আপনি এটিকে একাধিক উচ্চারণে বিভক্ত করতে সঙ্গীত বিভাগকরণ অ্যালগরিদম ব্যবহার করতে পারেন। এই উক্তিগুলি বিভাগ বা বৃদ্ধির মাধ্যমে নির্দিষ্ট দৈর্ঘ্যের দ্বারা তৈরি করা যেতে পারে।

— arduinolover
সূত্র

আরএনএনগুলি যথেষ্ট পরিমাণে ভাল ফলাফল দেয় নি এবং প্রশিক্ষণও বেশ কঠিন তাই আমি সিএনএন নিয়ে গেলাম।

কারণ একটি নির্দিষ্ট প্রাণীর শব্দ কেবল কয়েক সেকেন্ড দীর্ঘ, আমরা বর্ণালীটিকে অংশগুলিতে ভাগ করতে পারি। আমি 3 সেকেন্ড দৈর্ঘ্য ব্যবহার করেছি। তারপরে আমরা প্রতিটি খণ্ডে শ্রেণিবিন্যাস করি এবং প্রতি অডিও ফাইলের জন্য একক পূর্বাভাস তৈরির ফলাফলগুলি গড়ে পাই। এটি সত্যই ভাল কাজ করে এবং এটি প্রয়োগ করাও সহজ।

আরও গভীরতর ব্যাখ্যা এখানে পাওয়া যাবে: http://ceur-ws.org/Vol-1609/16090547.pdf

— user667804
সূত্র