এই সমস্যার উত্তর খুঁজতে গিয়ে, আমি এই বোর্ডটিকে স্ট্যাক ওভারফ্লো থেকে আমার এই প্রশ্নটি পোস্ট করার সিদ্ধান্ত নিয়েছি ।
আমি অডিও বিভাগ এবং একটি মানব কন্ঠের মধ্যে সাদৃশ্য নির্ধারণ করার পদ্ধতিটি অনুসন্ধান করছি, যা সংখ্যায় প্রকাশিত হয়।
আমি বেশ কিছুটা অনুসন্ধান করেছি, তবে এখন পর্যন্ত যা আমি পেয়েছি (নীচে বিস্তারিত) আমার যা প্রয়োজন তা আসলেই ফিট করে না:
একটি পদ্ধতি হ'ল অডিও বিভাগ থেকে শব্দগুলি পেতে স্পিচ রিকগনিশন সফ্টওয়্যার ব্যবহার করা । তবে এই পদ্ধতিটি মানুষের বক্তৃতার সাথে "অনুরূপ" অডিওর সাথে কীভাবে আসে তা নিয়ে আসতে অক্ষম; এটি প্রায়শই অডিওতে শব্দ আছে কি না তা বলতে পারে, তবে যদি কোনও নির্দিষ্ট শব্দ না থাকে তবে এটি অডিওকে বন্ধ শব্দ বলতে পারে না যে এই জাতীয় শব্দ রয়েছে।
উদাহরণ: সিএমইউ স্পিনিক্স , ড্রাগনফ্লাই , শোআউটআরও প্রতিশ্রুতিবদ্ধ পদ্ধতিটি ভয়েস ক্রিয়াকলাপ সনাক্তকরণ (ভিএডি) হিসাবে উল্লেখ করা হয় । তবে, এটি একই সমস্যা হতে পারে: ভিএডি ব্যবহার করে অ্যালগরিদম / প্রোগ্রামগুলি ক্রিয়াকলাপের দোরগোড়ায় পৌঁছেছে কি না, কেবল ফিরে আসে এবং এই ধরণের প্রান্তিকের আগে বা পরে কোনও "মিল" নেই। বিকল্পভাবে, অনেকে কেবল মানুষের বাক্যের সাথে মিল নয়, খণ্ডের সন্ধান করে for
উদাহরণ: স্পিেক্স , শ্রোতা , ফ্রিস্কিচ
কোন ধারনা?