মানব বক্তৃতার সাথে অডিওর অনুরূপ কী তা নির্ধারণ করা হচ্ছে

এই সমস্যার উত্তর খুঁজতে গিয়ে, আমি এই বোর্ডটিকে স্ট্যাক ওভারফ্লো থেকে আমার এই প্রশ্নটি পোস্ট করার সিদ্ধান্ত নিয়েছি ।

আমি অডিও বিভাগ এবং একটি মানব কন্ঠের মধ্যে সাদৃশ্য নির্ধারণ করার পদ্ধতিটি অনুসন্ধান করছি, যা সংখ্যায় প্রকাশিত হয়।

আমি বেশ কিছুটা অনুসন্ধান করেছি, তবে এখন পর্যন্ত যা আমি পেয়েছি (নীচে বিস্তারিত) আমার যা প্রয়োজন তা আসলেই ফিট করে না:

একটি পদ্ধতি হ'ল অডিও বিভাগ থেকে শব্দগুলি পেতে স্পিচ রিকগনিশন সফ্টওয়্যার ব্যবহার করা । তবে এই পদ্ধতিটি মানুষের বক্তৃতার সাথে "অনুরূপ" অডিওর সাথে কীভাবে আসে তা নিয়ে আসতে অক্ষম; এটি প্রায়শই অডিওতে শব্দ আছে কি না তা বলতে পারে, তবে যদি কোনও নির্দিষ্ট শব্দ না থাকে তবে এটি অডিওকে বন্ধ শব্দ বলতে পারে না যে এই জাতীয় শব্দ রয়েছে।
উদাহরণ: সিএমইউ স্পিনিক্স , ড্রাগনফ্লাই , শোআউট
আরও প্রতিশ্রুতিবদ্ধ পদ্ধতিটি ভয়েস ক্রিয়াকলাপ সনাক্তকরণ (ভিএডি) হিসাবে উল্লেখ করা হয় । তবে, এটি একই সমস্যা হতে পারে: ভিএডি ব্যবহার করে অ্যালগরিদম / প্রোগ্রামগুলি ক্রিয়াকলাপের দোরগোড়ায় পৌঁছেছে কি না, কেবল ফিরে আসে এবং এই ধরণের প্রান্তিকের আগে বা পরে কোনও "মিল" নেই। বিকল্পভাবে, অনেকে কেবল মানুষের বাক্যের সাথে মিল নয়, খণ্ডের সন্ধান করে for
উদাহরণ: স্পিেক্স , শ্রোতা , ফ্রিস্কিচ

কোন ধারনা?

audio algorithms speech-recognition

আপনার প্রশ্ন থেকে এটি স্পষ্ট নয় যে আপনার সমস্যাটি এ / অডিও রেকর্ডিং নিয়ে আসে এবং বলে যে এতে মানুষের বক্তৃতা রয়েছে কি না (প্রয়োগের উদাহরণ: একটি রেডিও শোয়ের রেকর্ডিং থেকে ডিজে আলাপটি সনাক্ত করুন এবং সরান); অথবা বি / স্পিচ ইনপুট নিন এবং বলছেন যে এটি কোনও রেফারেন্স অডিও বিভাগের সাথে কেমন মিল sounds যদি এটি বি হয় তবে আপনি কোন মানদণ্ডের ভিত্তিতে সাদৃশ্যটি পরিমাপ করতে চান। মেলোডি কনট্যুরে? (যেমন: একটি গানের সাথে একটি গাওয়া কণ্ঠস্বরটি মিলছে)। ছন্দ এবং গুচ্ছ ক্লাসে? (যেমন: ড্রাম লুপের সাথে বেটবক্সিং / ওনোমাটোপোইয়া মিলছে)। টিম্বরে? (শব্দ প্রভাবের সাথে একটি ভয়েস মেলে) matching আপনার আবেদন আমাদের বলুন।

— পিচনেট

দুঃখিত, আমার সমস্যাটি আপনি এ.-তে কী বিস্তারিত লিখেছেন তা আমি নির্ধারণ করতে চাই যে অডিও বিভাগটি মানুষের বক্তৃতা কিনা।

— জেফ গোর্টমেকার

আমি একটি সম্পর্কিত সমস্যা নিয়ে কাজ করছি - যখন বক্তৃতা বা সংগীত দ্বারা শামুক / শ্বাসকষ্টের শব্দগুলি "দূষিত" হয়েছে তখন তা নির্ধারণ করার চেষ্টা করছি। কোনও নির্ভরযোগ্যতা সহকারে করা হতাশাজনকভাবে কঠিন, এবং "উন্নত" বক্তৃতা স্বীকৃতি অ্যালগরিদমকে অবলম্বন না করে (যদি তারা সত্যিকার অর্থেও কাজ করে)। আমার একটি পর্যবেক্ষণটি হ'ল বক্তৃতাটিতে একটি অনিয়মিত ছন্দ থাকে, যদিও সংগীত নিয়মিত হয়। এটি এবং সম্ভবত "বর্ণালী ফ্ল্যাটনেস" চেক করার উপযুক্ত (আমি এখনও আমার উদ্দেশ্যগুলির জন্য এর গুণাগুণগুলি মূল্যায়ন করছি)।

— ড্যানিয়েল আর হিক্স

(একটি চুল আরও বিশদ: আমি দেখতে পেলাম যে অডিওর এফএফটি থেকে গণিত বর্ণালী ফ্ল্যাটনেসের সাধারণ মানক বিচ্যুতিটি অডিও মানের কোনও কিছুর প্রতিফলন দেখায়))

— ড্যানিয়েল আর হিকস

এই ধরণের সমস্যাটি সাধারণত মেশিন লার্নিংয়ের কৌশলগুলি ব্যবহার করে সমাধান করা হয়।

20 মিমি বা 50 মিমি ফ্রেমের ক্রমে সিগন্যালটি ভেঙে দিন। প্রতিটি ফ্রেমের বৈশিষ্ট্যগুলি বের করুন। এমএফসিসি সাধারণত এই ধরণের অ্যাপ্লিকেশনটির জন্য ভাল, যদিও ভয়েস সনাক্তকরণের জন্য আরও নির্দিষ্ট বৈশিষ্ট্য রয়েছে (4 হার্জেড মড্যুলেশন শক্তি - যা প্রায় লোকেরা যে হারে কথা বলে; শূন্য-ক্রসিং হার)।

তারপরে, অডিওর একটি প্রশিক্ষণ সেট ব্যবহার করে আপনি ম্যানুয়ালি বক্তৃতা / বক্তৃতা নয় হিসাবে লেবেলযুক্ত করেছেন, ফ্রেমের বৈশিষ্ট্যগুলিতে শ্রেণিবদ্ধ (গাউসিয়ান মিশ্রণ মডেল, এসভিএম ...) প্রশিক্ষণ দিন।

এটি আপনাকে লেবেলযুক্ত ফ্রেমগুলিকে বক্তৃতা / বাক-বাক্য শ্রেণিতে শ্রেণিবদ্ধ করার অনুমতি দেবে। শেষ ধাপটি সিদ্ধান্তগুলি মসৃণ করার মধ্যে অন্তর্ভুক্ত রয়েছে (শত শত স্পিচ ফ্রেম দ্বারা পরিবেষ্টিত নন-স্পিচ হিসাবে শ্রেণিবদ্ধ একটি ফ্রেমটি শ্রেণিবিন্যাসের ত্রুটি হতে পারে), উদাহরণস্বরূপ এইচএমএস, বা কেবল একটি মিডিয়ান ফিল্টার ব্যবহার করে।

কয়েকটি উল্লেখ:

অডিও ডকুমেন্টগুলিতে শক্ত বক্তৃতা / সংগীতের শ্রেণিবদ্ধকরণ (পিনকুইয়ার এবং আল) মাল্টিমিডিয়া অ্যাপ্লিকেশনগুলির জন্য স্পিচ / সঙ্গীত বৈষম্য (এল- মালাহ এবং আল) বক্তৃতা / সঙ্গীত বৈষম্যের বৈশিষ্ট্যগুলির একটি তুলনা (কেরি এবং আল)

নোট করুন যে তারা বর্ণিত বৈশিষ্ট্য এবং শ্রেণিবিন্যাস কৌশলগুলি বক্তৃতা সনাক্তকরণের 1-শ্রেণির সমস্যার জন্য (বক্তৃতা বনাম অন্য কিছুকে বৈষম্যের পরিবর্তে) প্রাসঙ্গিক। এই ক্ষেত্রে, আপনি 1-শ্রেণির এসভিএম এর মতো 1-শ্রেণির মডেলিং কৌশলগুলি ব্যবহার করতে পারেন, বা কেবল "স্পিচেন্সি" পরিমাপ হিসাবে একটি স্পিচ ডেটার উপর প্রশিক্ষিত জিএমএম থেকে সম্ভাবনা স্কোরটি নিতে পারেন।

অন্যদিকে, যদি আপনার সমস্যাটি বক্তৃতা বনাম অন্য কিছুকে সত্যই বৈষম্যমূলক করে তোলে (সঙ্গীত বলুন), তবে আপনি খুব ভালভাবেই এই নিখরচায় পন্থাগুলি ব্যবহার করতে পারেন যা একই ধরণের অডিও সামগ্রীর মধ্যে সীমানা সনাক্তকরণের দিকে দৃষ্টি নিবদ্ধ রাখে - এই বিষয়বস্তুকে নিজেই সনাক্ত না করে।

— pichenettes
সূত্র

ধন্যবাদ, এটি একটি টন সাহায্য করে! ছোট উইন্ডোতে সিগন্যালটি ভেঙে ফেলার কী সুবিধা? যে আউটপুটটি আমি সন্ধান করছি তা হল একটি সংখ্যাসূচক মান যা পুরো অডিও বিভাগকে বর্ণনা করে, কেবলমাত্র নির্দিষ্ট উইন্ডো নয় পুরো সিগন্যালের বৈশিষ্ট্যগুলি উত্তোলন করা কি ভাল?

— জেফ গোর্টমেকার

খুব দীর্ঘ উইন্ডোজগুলির মধ্যে বৈশিষ্ট্যগুলি (বিশেষত বর্ণালী বা চতুষ্পদ জন্তুগুলি) গণনা করা স্পিচ স্ট্যান্ড করে এমন কিছু বৈশিষ্ট্যকে গড় বা বাতিল করে দেয়। আপনি বক্তৃতার অনেক ছোট ছোট টুকরো একসাথে মিশিয়ে এটি যাচাই করতে পারেন - ফলাফলটি বক্তৃতারূপে স্বীকৃতি দেওয়া শক্ত হবে। এইভাবে ছোট বিভাগগুলিতে শ্রেণিবিন্যাস সম্পাদন করা ভাল; এবং, আপনার ক্ষেত্রে, স্কোরগুলি একত্রিত করুন (উদাহরণস্বরূপ একটি জিএমএম দ্বারা প্রদত্ত সম্ভাবনা স্কোরের গড় গণনা করুন; বা বাইনারি শ্রেণিবদ্ধ দ্বারা স্পিচ হিসাবে শ্রেণিবদ্ধ ফ্রেমের% গণনা করুন)।

— পিচনেট

আরও সুনির্দিষ্ট হওয়ার জন্য, মনে রাখবেন যে আপনি যখন কোনও বর্ণালী দেখেন তখন অস্থায়ী মাত্রা "ধসে পড়ে" থাকে। উদাহরণস্বরূপ, এক সময় 1KHz স্বন অনুসারে ৫০০ হার্জেড টোনের পাওয়ার স্পেকট্রাম একই সাথে এই দুটি টোনগুলির পাওয়ার স্পেকট্রামের অনুরূপ; সুতরাং একটি দীর্ঘ উইন্ডোতে পাওয়ার স্পেকট্রাম, এমন একটি সিগন্যালের যা অনেক পরিবর্তন করে সিগন্যালের সামগ্রীর খুব প্রতিনিধি নাও দেখাতে পারে।

— পিচনেট