এটি এমন একটি প্রশ্ন যা আমাকে কিছু সময়ের জন্য আগ্রহী করেছে, মূলত কারণ আমি নিজে একটি উপস্থিত বক্তৃতা স্বীকৃতি সিস্টেমের জন্য শব্দ কমানোর জন্য কাজ করছি।
শব্দ কমানোর কৌশলগুলির বেশিরভাগ কাগজপত্রে বক্তৃতাগুলি কীভাবে মানুষের পক্ষে আরও স্বচ্ছভাবে তৈরি করা যায়, বা "স্পিচ মানের" এর মতো অস্পষ্ট পদগুলিকে কীভাবে উন্নত করা যায় সেদিকে দৃষ্টি নিবদ্ধ করে।
আমি নিশ্চিত যে এর মতো মাপদণ্ড ব্যবহার করে আপনি এমন ফিল্টার শনাক্ত করতে পারেন যা মানুষের জন্য শোনার জন্য শব্দ শোনার সংকেতকে সহজ করে তোলে। তবে, আমি নিশ্চিত নই যে বক্তৃতা স্বীকৃতি সিস্টেমের যথার্থতা উন্নত করার উদ্দেশ্যে চিহ্নিত স্পিচ সিগন্যালের মূল্যায়ন করার চেষ্টা করার সময় এই মানদণ্ডগুলি কেবল রূপান্তরিত করা যেতে পারে।
আমি এই কাগজপত্রগুলি খুঁজে পাই না যা এই পার্থক্য নিয়ে আলোচনা করে। বক্তৃতা স্বাক্ষরকরণ সিস্টেমগুলির যথার্থতার সাথে কী বক্তৃতাটি দক্ষতা এবং স্পিচ মানের সাথে সম্পর্কিত? এমন কোনও উদ্দেশ্যমূলক পদক্ষেপ রয়েছে যা মূল্যায়ন করতে পারে যে একটি বক্তৃত্বের স্বীকৃতি সিস্টেমের জন্য ডিনয়েসড স্পিচ সিগন্যালটি কতটা "ভাল" হবে, উদাহরণস্বরূপ যদি মূল পরিষ্কার বক্তৃতা দেওয়া হয় তবে? বা আপনার শব্দটি হ্রাস করার কৌশলটি কতটা ভাল তা খুঁজে বের করার একমাত্র উপায়, ডিনোইসড ডেটাতে স্পিচ সনাক্তকরণ সিস্টেমটি প্রশিক্ষণ দেওয়ার এবং যথার্থতাটি দেখার জন্য?
কেউ আমাকে সঠিক দিকে নির্দেশ করতে পারলে বা এই বিষয়ে আলোচিত কিছু কাগজপত্র দিতে পারলে আমি খুশি হব। আগাম ধন্যবাদ!