প্রশ্নের সংক্ষিপ্ত সংস্করণ: আমি একটি বক্তৃতা স্বীকৃতি সফটওয়্যারটি খুঁজছি যা লিনাক্সে চলে এবং এর যথাযথ নির্ভুলতা এবং ব্যবহারযোগ্যতা রয়েছে। যে কোনও লাইসেন্স এবং দাম ঠিক আছে। এটি ভয়েস কমান্ডের মধ্যে সীমাবদ্ধ করা উচিত নয়, কারণ আমি পাঠ্যটি ডিক্ট করতে সক্ষম হতে চাই।
আরো বিস্তারিত:
আমি অসন্তুষ্ট হয়ে নিম্নলিখিত চেষ্টা করেছি:
- সিএমইউ স্পিনিক্স
- CVoiceControl
- কান
- জুলিয়াস
- কালদী (উদাঃ, কালাদি জিস্ট্রিমার সার্ভার )
- আইবিএম ভায়োভাইস (লিনাক্সে চলতে ব্যবহৃত হয়েছিল তবে কয়েক বছর আগে এটি বন্ধ ছিল)
- নিকো এএনএন টুলকিট
- OpenMindSpeech
- আরডাব্লুএইচএস এএসআর
- চিত্কার
- সিলভিয়াস (কালদী ভাষণ স্বীকৃতি সরঞ্জামদণ্ডে নির্মিত)
- সাইমন লিসটেনস
- ভায়ভয়েস / এক্সভয়েস
- মদ + + ড্রাগন NaturallySpeaking + + NatLink + + ফড়িং + + damselfly
- https://github.com / ড্রাগনকম্পিউটার / ড্রাগনফায়ার : কেবল ভয়েস কমান্ড গ্রহণ করে
উপরে উল্লিখিত সমস্ত নেটিভ লিনাক্স সমাধানগুলির যথার্থতা এবং ব্যবহারযোগ্যতা উভয়ই দুর্বল (বা কিছু ফ্রি-টেক্সট স্বীকৃতি দেয় না তবে কেবল ভয়েস কমান্ড দেয়)। নির্ভুলতা দ্বারা, আমি অন্য প্ল্যাটফর্মগুলির জন্য নীচে উল্লিখিত বক্তৃতা স্বীকৃতি সফ্টওয়্যারটির নীচে একটি নির্ভুলতার উল্লেখযোগ্যভাবে বলতে চাই। ওয়াইন + ড্রাগন ন্যাচারালিস্পাইকেটিংয়ের ক্ষেত্রে, আমার অভিজ্ঞতায় এটি ক্রাশ চালিয়ে যায় এবং দুর্ভাগ্যক্রমে আমি এ জাতীয় সমস্যাগুলির মধ্যে একমাত্র বলে মনে করি না।
মাইক্রোসফ্ট উইন্ডোজে আমি ড্রাগন ন্যাচারালিস্পেকিং ব্যবহার করি, অ্যাপল ম্যাক ওএস একাদশে অ্যাপল ডিক্টেশন এবং ড্রাগনডিক্টেট ব্যবহার করি, অ্যান্ড্রয়েডে আমি গুগলের স্পিচ সনাক্তকরণ এবং আইওএস-এ বিল্ট-ইন অ্যাপল স্পিচ স্বীকৃতি ব্যবহার করি।
বাইডু গবেষণা মুক্তি গতকাল কোড ব্যবহার তার কথন শনাক্তকরণ লাইব্রেরির জন্য Connectionist টেম্পোরাল ক্লাসিফিকেশন টর্চ সঙ্গে বাস্তবায়িত। গিগাওমের বেঞ্চমার্কগুলি নীচের স্ক্রিনশটে দেখানো হিসাবে উত্সাহিত করছে, তবে বেশ কয়েকটি কোডিং (এবং একটি বৃহত প্রশিক্ষণের ডেটা সেট) ছাড়াই এটিকে ব্যবহারযোগ্য করে তোলার জন্য আমি কোনও ভাল মোড়ক সম্পর্কে জানি না:
কিছু খুব আলফা ওপেন সোর্স প্রকল্প রয়েছে:
- https://github.com/mozilla/DeepSpeech (মজিলার ভানি প্রকল্পের অংশ: http://vaani.io ( আয়না ))
- https://github.com/pannous/tensorflow-speech-recognition
- ভক্স, ড্রাগন নেচারালিস্পেকিং ব্যবহার করে একটি লিনাক্স সিস্টেম নিয়ন্ত্রণ করার সিস্টেম: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (গুগল প্রকাশিত হবে, ইন্টারপেক 2018 এ উল্লিখিত)
বক্তৃতা স্বীকৃতি সম্পর্কিত চারুকলার রাজ্যগুলি এবং সাম্প্রতিক ফলাফলগুলি (গ্রন্থপঞ্জি) এর ট্র্যাকিংয়ের এই প্রচেষ্টা সম্পর্কে আমি অবগত aware পাশাপাশি বিদ্যমান স্পিচ সনাক্তকরণ APIs এর এই মানদণ্ড ।
আমি আনিয়া সম্পর্কে সচেতন , যা একটি কম্পিউটারে ড্রাগনফ্লাইয়ের মাধ্যমে বক্তৃতা স্বীকৃতিটিকে অন্য কম্পিউটারে ইভেন্টগুলি প্রেরণে অনুমতি দেয়, তবে এতে কিছুটা বিলম্বিত মূল্য রয়েছে:
আমি বক্তৃতা স্বীকৃতির জন্য লিনাক্স বিকল্পটি অন্বেষণ করে এই দুটি আলোচনা সম্পর্কেও সচেতন:
- 2016 - একাদশ আশা: ওপেন সোর্স স্পিচ রিকগনিশন সহ ভয়েস দ্বারা কোডিং (ডেভিড উইলিয়ামস-কিং)
- 2014 - পাইকন: ভয়েস দ্বারা কোডটি পাইথন ব্যবহার করে (তাভিস রাড)