স্পিচের ব্যান্ডউইথের সাথে মেলে পাস ব্যান্ড ফিল্টার ব্যবহার করা সাহায্য করবে।
আপনার যদি বেশ কয়েকটি মাইক্রোফোন থাকে (যেমন সেলফোনগুলির ক্ষেত্রে এখন রয়েছে), আইসিএ-এর মতো পদ্ধতি রয়েছে যা এর সুবিধা নিতে পারে - তবে আপনার প্রশ্ন আমাকে ইঙ্গিত দেয় যে আপনার কেবল একটি ইনপুট রয়েছে।
আপনি যা করতে চান তা হ'ল "ওয়ান-মাইক্রোফোন উত্স পৃথকীকরণ" (রোয়েসের গ্রাউন্ডব্রেকিং পেপার থেকে নেওয়া নাম), যাকে "একক সেন্সর" বলা হয়। সতর্কতা: এটি একটি সমাধান হওয়া সমস্যা হওয়া থেকে অনেক দূরে, এবং এই ক্ষেত্রে সমস্ত গবেষণা খুব সাম্প্রতিক, কোনও অ্যালগরিদম বা পদ্ধতির "স্পষ্ট বিজয়ী" হিসাবে নেই (গাউসিয়ান মিশ্রণের মডেলগুলির বিপরীতে + এফএসটি বক্তৃতা স্বীকৃতির জন্য হয়েছে)।
এটি করার জন্য একটি ভাল কাঠামো হ'ল উইনার ফিল্টারিংয়ের মাধ্যমে। বেনারোয়া এবং অন্যান্য দেখুন। "উইনার ফিল্টারিং এবং একাধিক উইন্ডো এসটিএফটির উপর ভিত্তি করে একক সেন্সর উত্স বিচ্ছেদ" (বিভাগ 1 এবং 2 পড়ুন, মাল্টি-রোলিউশন জিনিসটি নিয়ে বিরক্ত করবেন না যদি না আপনার সত্যিকার প্রয়োজন হয়)। সংক্ষেপে, আপনি আপনার সিগন্যালের এসটিএফটি গণনা করুন এবং প্রতিটি এসটিএফটি ফ্রেমের জন্য আপনি ভয়েস স্পেকট্রাম এবং শব্দের বর্ণালী সম্পর্কে অনুমান করার চেষ্টা করেন এবং সেই থেকে ভয়েস বর্ণালীটির সর্বোত্তম অনুমানটি পুনরুদ্ধার করতে আপনি উইনার ফিল্টারিং ব্যবহার করেন (এটি বর্ণালী "সফট-মাস্কিং" এর অনুরূপ)।
আপনার সমস্যা এখন নীচে: একটি এসটিএফটি ফ্রেম দেওয়া হয়েছে, এটি থেকে বক্তৃতা এবং গোলমালের উপাদানটি অনুমান করুন। বেনারোয়া দ্বারা কাগজে বর্ণিত সহজ পদ্ধতির বিষয়টি ভেক্টর-কোয়ান্টাইজেশনের মাধ্যমে হয় - অনেক স্পিকারের দ্বারা কয়েক ঘন্টা বক্তৃতা নিন, এসটিএফটি গণনা করুন, 512 বা 1024 টিপিক্যাল স্পিচ ফ্রেমের কোডবুক পেতে এটিতে এলবিজি চালান; গোলমাল জন্য একই জিনিস। এখন, আপনার ইনপুট সিগন্যালের একটি ফ্রেম দেওয়া, এটিকে বক্তৃতা এবং শব্দের ঘাঁটিতে অ-নেতিবাচকভাবে (একটি গুণিতীয় গ্রেডিয়েন্ট আপডেট পদ্ধতিটি কাগজে বর্ণিত হয়েছে) প্রজেক্ট করুন এবং আপনি আপনার বক্তৃতা এবং গোলমাল অনুমানটি পাবেন। যদি আপনি অ-নেতিবাচক প্রক্ষেপণ জিনিসটি মোকাবেলা করতে না চান তবে কেবল নিকটবর্তী প্রতিবেশী ব্যবহার করুন। এটি সম্ভবত সবচেয়ে সহজ জিনিস যা সম্ভবত "একক সেন্সর উত্স বিভাজন" বিভাগে কাজ করতে পারে।
মনে রাখবেন যে একটি স্পিচ সনাক্তকরণ সিস্টেমটি পৃথকীকরণ ব্যবস্থার জন্য কিছু ইনপুট সরবরাহ করতে পারে। আপনার স্পিচ সনাক্তকরণ সিস্টেমটি ব্যবহার করে ডিকোডিংয়ের প্রথম পাস করুন। প্রতিটি ফ্রেমের জন্য, গড় স্কোরটি পাওয়া গাউসি থেকে গড় এমএফসিসি ভেক্টরটি নিন। পিছনে একটি বর্ণালী পরিবর্তন করুন। বুম, আপনার কাছে একটি মুখোশ রয়েছে যা আপনাকে স্পিচ-জাতীয় বিটগুলির সর্বাধিক সম্ভাব্য বর্ণালী অবস্থান দেয় এবং আপনি এটি ভিয়েনার ফিল্টারিংয়ের জন্য একটি ইনপুট হিসাবে ব্যবহার করতে পারেন। এটি হাত-তরঙ্গের মতো কিছুটা শোনার মতো, তবে গিস্টটি হ'ল কোনও উত্সকে আলাদা করতে আপনার জন্য এটির জন্য একটি ভাল মডেল প্রয়োজন, এবং পিছনের দিকে নেওয়া একটি বক্তৃতা স্বীকৃতি ব্যবস্থা স্পিচ সিগন্যালের জন্য একটি ভাল জেনারেটরি মডেলের নরক।