ভয়েস ক্রিয়াকলাপ সনাক্তকরণের জন্য গ্রন্থাগারগুলি (স্পিচ সনাক্তকরণ নয়)


18

আমার আগের প্রশ্নের অনুসরণ হিসাবে আমি ভাবছিলাম যে এখানে কোনও স্পিচ সনাক্তকরণ গ্রন্থাগার রয়েছে কিনা। স্পিচ সনাক্তকরণের অর্থ আমার অর্থ একটি অডিও বাফারে পাস করা এবং বক্তৃতাটি কোথায় শুরু হয় এবং কোথায় থামবে তার সূচি ফিরে পাওয়া। সুতরাং যদি আমার কাছে 44kHz এ 10 সেকেন্ডের অডিও স্যাম্পলিং থাকে তবে আমি সংখ্যার একটি অ্যারে যেমন আশা করব:

44000
88000
123000
190334
...

এটি উদাহরণস্বরূপ নির্দেশ করবে যে বক্তৃতাটি এক সেকেন্ড শুরু হয় এবং তারপরে দুটি দ্বিতীয় পয়েন্টে শেষ হয় etc.

আমি যা খুঁজছি না তা হ'ল বক্তৃতা স্বীকৃতি যা কথ্য শব্দ থেকে পাঠ্য লিখে দেয়। দুর্ভাগ্যক্রমে আমি যখন 'স্পিচ সনাক্তকরণ' গুগল করি তখন আমি প্রচুর দেখতে পাই।

আইফোনটির জন্য একটি অ্যাপ লিখছি বলে গ্রন্থাগারটি সি, সি ++ বা এমনকি উদ্দেশ্যমূলক-সিতে থাকলে এটি দুর্দান্ত হবে।

ধন্যবাদ!


1
আপনি এই উত্তরগুলির মধ্যে একটিতে আপনার উত্তরটি খুঁজে পেতে পারেন: dsp.stackexchange.com/questions/912/…
গেরটেন

1
বক্তব্যের পরিবর্তে গান গাওয়া ব্যতীত এটি খুব মিল: dsp.stackexchange.com/q/2367/29
এন্ডোলিথ

1
এছাড়াও প্রাসঙ্গিক: dsp.stackexchange.com/a/1543/29 "ভয়েস ক্রিয়াকলাপ সনাক্তকরণ"
এন্ডোলিথ

1
আপনার সূচনা / অফসেট সনাক্তকরণের দিকে নজর দেওয়া উচিত। এটি সঙ্গীত, স্পিচ এবং রাডার সংকেত প্রক্রিয়াকরণে অনেক অ্যাপ্লিকেশন সহ একটি সক্রিয় ক্ষেত্র।
সাইবারমেন

উত্তর:


13

আমার সালে উত্তর আপনার প্রশ্নের, আমি উল্লেখ করেছিলেন যে ভয়েস কার্যকলাপ সনাক্তকরণ G.729 এবং এই ধরনের অন্যদের মতো কোডেক একটি আদর্শ বৈশিষ্ট্য।

আপনার প্রয়োগ হওয়া অ্যালগরিদমের জন্য রেফারেন্স এনকোডার এবং ডিকোডারদের সন্ধান করা উচিত।

এরকম একটি উদাহরণ হ'ল: http://www.voiceage.com/openinit_g729.php

আর একটি সম্ভাব্য উত্স হ'ল স্পেক্স কোডেক। যা ভিএডি প্রয়োগ করে

বিটিডাব্লু: আপনার "স্পিচ সনাক্তকরণ" এর পরিবর্তে "ভয়েস ক্রিয়াকলাপ সনাক্তকরণ" বা "টক স্পার্ট" গুগল করা উচিত।


6

স্পিনেক্স এবং ফ্রিজউইচ প্রকল্পগুলিতে ওপেন সোর্স বাস্তবায়ন রয়েছে। আমি মনে করি তারা সমস্ত শক্তি ভিত্তিক ডিটেক্টর, কোনও ধরণের মডেলের প্রয়োজন হবে না।

স্পিনক্স 4 (জাভা তবে সি / সি ++ তে পোর্ট করা সহজ হওয়া উচিত)

PocketSphinx

Freeswitch

স্ট্যাকওভারফ্লো প্রশ্ন থেকে নেওয়া উত্তর ।


4

অভিযোজিত থ্রেশহোল্ড ব্যবহার করে ভয়েস ক্রিয়াকলাপ সনাক্তকরণ খুব সহজ এবং যে কোনও প্ল্যাটফর্মে প্রয়োগ করা সহজ

এখানে আপনার কাছে একটি অ্যালগরিদম থাকতে পারে যা অভিযোজিত শক্তি ভিত্তিক

আপনি যখন প্রথমবারের জন্য গণনা করছেন তখন উপরের অ্যালগরিদমের সাথে সংক্ষিপ্ত সংযোজন যখন মিডিন এনার্জি গ্রহণের জন্য যান এবং এমিন হিসাবে চিহ্নিত করুন

এই ফ্রেমে আপনি পাস করা ফ্রেমটি সাব-ফ্রেমে বিভক্ত এবং আরও আপনি এর ক্রিয়াকলাপের জন্য প্রতিটি উপ-ফ্রেম পরীক্ষা করতে পারেন

ওভারল্যাপযুক্ত ফ্রেমগুলির সাহায্যে আপনি আরও সমস্যাগুলি কাটিয়ে উঠতে পারেন


আমি কাগজে পদ্ধতিটি বাস্তবায়নের চেষ্টা করছি তবে শব্দ দমনের কারণে Min_E শূন্য হলে হারিয়ে যাব। সেক্ষেত্রে থ্রেশ_ই সমীকরণ থেকে আইএনএফ হবে। এমনকি লগ 1 পি (মিন_ই) নেওয়ার পরেও, থ্রেশ_ই শূন্য হবে যে শূন্য-শক্তির কারণে ভয়েসড ফ্রেমগুলিকে ভুল শ্রেণিবদ্ধ করা খুব সহজ। কোনও ভাল পরামর্শ বা আমি এটি ভুল বুঝেছি? সমীকরণ: মাড়াই: _ ই জ্বালানি: _ Pr imThresh * লগ (ন্যূনতম: _ ই)
Farley আপনার

3

লিবিভ্যাড সম্পর্কে কীভাবে?

আপনি বর্ণনা করছেন ঠিক তেমন করে মনে হচ্ছে।

প্রকাশ: আমি LibVAD এর পিছনে বিকাশকারী


একজন কীভাবে লিবিভিএড পাবে?
টড

এটি কিনে। যদিও আপনি কোনও ফর্ম পূরণ করার পরে ওয়েবসাইট কোনও দাম প্রকাশ করে না।
ক্যামিল গৌডেসুন 21

2
লিঙ্কটি এখন ম্যালওয়্যার সাইটে গিয়ে দর্শকদের ফ্ল্যাশ আপডেট করতে চায়।
স্টিভ সিভেনেন্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.