বক্তৃতা স্বীকৃতির জন্য শব্দ হ্রাস শব্দের হ্রাস থেকে কীভাবে পৃথক হয় যা মানুষের পক্ষে বক্তৃতাটিকে আরও "বোধগম্য" বলে মনে করা হয়?

এটি এমন একটি প্রশ্ন যা আমাকে কিছু সময়ের জন্য আগ্রহী করেছে, মূলত কারণ আমি নিজে একটি উপস্থিত বক্তৃতা স্বীকৃতি সিস্টেমের জন্য শব্দ কমানোর জন্য কাজ করছি।

শব্দ কমানোর কৌশলগুলির বেশিরভাগ কাগজপত্রে বক্তৃতাগুলি কীভাবে মানুষের পক্ষে আরও স্বচ্ছভাবে তৈরি করা যায়, বা "স্পিচ মানের" এর মতো অস্পষ্ট পদগুলিকে কীভাবে উন্নত করা যায় সেদিকে দৃষ্টি নিবদ্ধ করে।

আমি নিশ্চিত যে এর মতো মাপদণ্ড ব্যবহার করে আপনি এমন ফিল্টার শনাক্ত করতে পারেন যা মানুষের জন্য শোনার জন্য শব্দ শোনার সংকেতকে সহজ করে তোলে। তবে, আমি নিশ্চিত নই যে বক্তৃতা স্বীকৃতি সিস্টেমের যথার্থতা উন্নত করার উদ্দেশ্যে চিহ্নিত স্পিচ সিগন্যালের মূল্যায়ন করার চেষ্টা করার সময় এই মানদণ্ডগুলি কেবল রূপান্তরিত করা যেতে পারে।

আমি এই কাগজপত্রগুলি খুঁজে পাই না যা এই পার্থক্য নিয়ে আলোচনা করে। বক্তৃতা স্বাক্ষরকরণ সিস্টেমগুলির যথার্থতার সাথে কী বক্তৃতাটি দক্ষতা এবং স্পিচ মানের সাথে সম্পর্কিত? এমন কোনও উদ্দেশ্যমূলক পদক্ষেপ রয়েছে যা মূল্যায়ন করতে পারে যে একটি বক্তৃত্বের স্বীকৃতি সিস্টেমের জন্য ডিনয়েসড স্পিচ সিগন্যালটি কতটা "ভাল" হবে, উদাহরণস্বরূপ যদি মূল পরিষ্কার বক্তৃতা দেওয়া হয় তবে? বা আপনার শব্দটি হ্রাস করার কৌশলটি কতটা ভাল তা খুঁজে বের করার একমাত্র উপায়, ডিনোইসড ডেটাতে স্পিচ সনাক্তকরণ সিস্টেমটি প্রশিক্ষণ দেওয়ার এবং যথার্থতাটি দেখার জন্য?

কেউ আমাকে সঠিক দিকে নির্দেশ করতে পারলে বা এই বিষয়ে আলোচিত কিছু কাগজপত্র দিতে পারলে আমি খুশি হব। আগাম ধন্যবাদ!

— marlonfl
সূত্র

আমি এই কাগজপত্রগুলি খুঁজে পাই না যা এই পার্থক্য নিয়ে আলোচনা করে।

বিষয়টিতে পুরো বই রয়েছে:

শক্তিশালী স্বয়ংক্রিয় স্পিচ স্বীকৃতি 1 ম সংস্করণ

বক্তৃতা স্বাক্ষরকরণ সিস্টেমগুলির যথার্থতার সাথে কী বক্তৃতাটি দক্ষতা এবং স্পিচ মানের সাথে সম্পর্কিত?

সাধারণত না, সাধারণত শব্দ কমানো প্রত্যাশিত উপায়ে বৈশিষ্ট্যগুলিকে কলুষিত করে এবং বক্তৃতা স্বীকৃতির যথার্থতা হ্রাস করে।

এমন কোনও উদ্দেশ্যমূলক পদক্ষেপ রয়েছে যা মূল্যায়ন করতে পারে যে একটি বক্তৃত্বের স্বীকৃতি সিস্টেমের জন্য ডিনয়েসড স্পিচ সিগন্যালটি কতটা "ভাল" হবে, উদাহরণস্বরূপ যদি মূল পরিষ্কার বক্তৃতা দেওয়া হয় তবে? বা আপনার শব্দটি হ্রাস করার কৌশলটি কতটা ভাল তা খুঁজে বের করার একমাত্র উপায়, ডিনোইসড ডেটাতে স্পিচ সনাক্তকরণ সিস্টেমটি প্রশিক্ষণ দেওয়ার এবং যথার্থতাটি দেখার জন্য?

দ্বিতীয়ত। এছাড়াও বৈশিষ্ট্য-ভিত্তিক শব্দের হ্রাস হ্রাস আসলে বর্ণালী থেকে গুরুত্বপূর্ণ তথ্য সরিয়ে দেয় যাতে আপনি পরিষ্কার সিস্টেমের যথার্থতাটি মেরামত করতে পারবেন না। সেই কারণে আধুনিক পদ্ধতিটি হ'ল গোলমাল উপায়ে মাল্টি স্টাইলের প্রশিক্ষণ আগেই শব্দ কমানোর অ্যালগরিদম ব্যবহার না করে চালানো। এটি আরও সঠিক স্বীকৃতিতে শেষ হয়।

— নিকোলে শ্মেরেভ
সূত্র

আপনার উত্তরের জন্য ধন্যবাদ। আমি অনুমান করি যে আমি সঠিক কাগজপত্রগুলি খুঁজছিলাম না। আমি এই বইটি একবার দেখে নেব।

— মার্লোনফ্ল

ঠিক আছে, আপনি যদি কাগজপত্র চান তবে আপনি CHIME-4 চ্যালেঞ্জের ফলাফলগুলি দেখতে পারেন, বেশিরভাগই শক্তিশালী এএসআরের শিল্পের অবস্থা।

— নিকোলয় শ্মেরেভ