লুকানো মার্কভ মডেল থ্রেশহোল্ডিং


14

আমি এমএফসিসি এবং লুকানো মার্কভ মডেলগুলি ব্যবহার করে শব্দ স্বীকৃতির জন্য কনসেপ্ট সিস্টেমের একটি প্রমাণ তৈরি করেছি। আমি যখন পরিচিত শব্দগুলিতে সিস্টেমটি পরীক্ষা করি তখন এটি আশাব্যঞ্জক ফলাফল দেয়। যদিও সিস্টেমটি, যখন কোনও অজানা শব্দটি ইনপুট করা হয় তখন নিকটতম ম্যাচের সাথে ফলাফলটি দেয় এবং স্কোরটি এটি নির্ধারণের জন্য আলাদা নয় যেমন একটি অজানা শব্দ যেমন:

আমি 3 টি লুকানো মার্কভ মডেলকে বক্তৃতা করার জন্য, একটি পানির কল থেকে জল বের করার জন্য এবং একটি ডেস্কে নক করার জন্য প্রশিক্ষিত করেছি। তারপরে আমি এগুলি অদেখা তথ্যে পরীক্ষা করে নিচের ফলাফলগুলি পেয়েছি:

input: speech
HMM\knocking:  -1213.8911146444477
HMM\speech:  -617.8735676792728
HMM\watertap:  -1504.4735097322673

So highest score speech which is correct

input: watertap
HMM\knocking:  -3715.7246152783955
HMM\speech:  -4302.67960438553
HMM\watertap:  -1965.6149147201534

So highest score watertap which is correct

input: knocking
HMM\filler  -806.7248912250212
HMM\knocking:  -756.4428782636676
HMM\speech:  -1201.686687761133
HMM\watertap:  -3025.181144273698

So highest score knocking which is correct

input: unknown
HMM\knocking:  -4369.1702184688975
HMM\speech:  -5090.37122832872
HMM\watertap:  -7717.501505674925
Here the input is an unknown sound but it still returns the closest match as there is no system for thresholding/garbage filtering.

আমি জানি যে কীওয়ার্ডে একটি OOV (শব্দভাণ্ডারের বাইরে) শব্দটি স্পষ্ট করে কোনও আবর্জনা বা ফিলার মডেল ব্যবহার করে ফিল্টার করা যায় তবে এটি বলে যে এটি অজানা শব্দের একটি সীমাবদ্ধ সেট ব্যবহার করে প্রশিক্ষণপ্রাপ্ত যেখানে আমার সিস্টেমে এটি প্রয়োগ করা যায় না সিস্টেমটি রেকর্ড করতে পারে এমন সমস্ত শব্দ জানি না।

বক্তৃতা স্বীকৃতি সিস্টেমে কীভাবে অনুরূপ সমস্যা সমাধান করা হয়? এবং মিথ্যা ধনাত্মকতা এড়াতে আমি কীভাবে আমার সমস্যার সমাধান করতে পারি?

উত্তর:


5

খুব ভাল প্রশ্ন!

যেমন আপনি উল্লেখ করেছেন, এইচএমএম পাওয়ার জন্য আপনাকে "আমি জানি না" (আসুন একে ওওভ বলি) উত্তর দেওয়ার একমাত্র উপায় হ'ল এটি একটি বিশেষ রাজ্য দেওয়া কারণ এটি সর্বদা আপনার মডেলের অধীনে সর্বোচ্চ সম্ভাবনা যুক্ত রাজ্যগুলিকে ছাড়িয়ে যায়। সুতরাং আপনি নিশ্চিত করার OOV অধীনে উচ্চতর সম্ভাবনা আছে আছে যে ইনপুট নয় speech, watertapবা knocking

সংক্ষিপ্ত উত্তরটি হ'ল এটি সম্ভব নয়। কারণ এইচএমএম কোনও নিখুঁত নিদর্শন সনাক্তকারী নয়। এটি কেবলমাত্র আপনার মডেলের অধীন আউটপুটগুলির সম্ভাবনা তুলনা করে, এবং প্রসঙ্গে এটি প্রশিক্ষিত হয়েছিল

একটি ইনপুট যে হবে ভাবুন speechএবং knockingএকই সময়ে। সম্ভবত এইচএমএম এই দুটি রাজ্যের মধ্যে "দ্বিধা" করবে কারণ এই ইনপুটটির প্রতিটিটির বৈশিষ্ট্য রয়েছে। শেষ পর্যন্ত এটি এর মধ্যে একটি আউটপুট তৈরি করবে, তবে এটি OOV আউটপুট করবে এমনটি খুব কমই। কীওয়ার্ড স্পট করার ক্ষেত্রে, আমার অনুমান যে আপনি এমন চালাক ইনপুটগুলি খুঁজে পেতে পারেন যা ধারাবাহিকভাবে তাদের এইচএমকে বোকা বানাবে। তবে লেখকরা সম্ভবত জানেন কী ইনপুটটি আশা করা যায় এবং তারা তাদের অজানা শব্দের সীমাবদ্ধ তালিকাটি বেছে নিয়েছেন যাতে এই বিষাক্ত ইনপুটগুলি অস্বাভাবিক হয় om

আমি আপনাকে পরামর্শ দিন যে একই কাজ। আপনি এইচএমএম ব্যবহার করবেন এমন পরিস্থিতিগুলি সম্পর্কে চিন্তাভাবনা করুন এবং আপনি যে ওভ ওভ স্টেটকে সর্বাধিক সাধারণ ইনপুটগুলি বাদ দিতে চান তা প্রশিক্ষণ দেবে। এমনকি আপনি বেশ কয়েকটি ওওভির রাজ্য থাকার কথা ভাবতে পারেন।


2
তবে কীভাবে এখানে বর্ণিত অঙ্গভঙ্গি স্বীকৃতির জন্য এইচএম ভিত্তিক প্রান্তিক মডেল সম্পর্কে: herin.kaist.ac.kr/Publication/PS/hklee_PAMI_i09611.pdf । তারা একটি থ্রেশোল্ড মডেল তৈরি করে যা একটি অর্গোডিক এইচএমএম যা প্রতিটি এইচএমএমের একসাথে একত্রিত হয়ে থাকে states "থ্রেশহোল্ড মডেলটি বেস-লাইন হিসাবে কাজ করে A যখন নির্দিষ্ট অঙ্গভঙ্গির মডেল প্রান্তিকের উপরে উঠে যায় তখন একজন প্রার্থীর অঙ্গভঙ্গি পাওয়া যায়" তবে আমার সমস্যাটি হ'ল আমি জাভা এবং জাহম লাইব্রেরি ব্যবহার করছি এবং আমার মনে হয় না যে এরগোডিকের বিকল্প রয়েছে হুম।
রাদেক

এটি শিরোনামে যেমন বলেছে এটি এটি এইচএমএম ভিত্তিক অ্যালগরিদম, সুতরাং এটি কোনও এইচএমএম নয়। এটি আমার কাছে মনে হয় একটি খাঁটি এইচএমএম আপনার প্রয়োজনের সাথে খাপ খায় না এবং একটি প্রান্তিকতা ভিত্তিক শ্রেণিবদ্ধকারী প্রকৃতপক্ষে আরও উপযুক্ত।
gui11aume

5

অঙ্গভঙ্গি স্বীকৃতির ক্ষেত্রে এটি কিছুটা সাধারণ। উত্তরটি হ'ল একটি কাগজের বর্ণনায় বর্ণিত মডেল তৈরি করা লি এবং কিমের (1999)

এটি একটি ফিলার বা আবর্জনা মডেল হিসাবে একই ভূমিকা পালন করে, তবে এটি আপনি যেমন বলেছিলেন আলাদাভাবে প্রশিক্ষণের প্রয়োজন হয় না। আপনি আপনার অন্যান্য মডেলগুলি থেকে সমস্ত স্ব-রূপান্তর অবস্থার সাথে সংযোগ স্থাপন করে এবং অভিন্ন সম্ভাবনার সাথে উত্তরণকে সূচনা করে, সেই রাজ্যগুলিকে পুরোপুরি সংযুক্ত করে একটি প্রান্তিক মডেল তৈরি করতে পারেন। এটি কীভাবে বাস্তবে করা যায় তা দেখতে দয়া করে কাগজটি একবার দেখুন।

এমনকি যদি আপনার গ্রন্থাগারটি ইরগোডিক মডেলগুলিকে সমর্থন করে না, তবে এটি আপনাকে প্রয়োজনীয় আকারের ম্যানুয়ালি তৈরি করতে এবং সেই অনুযায়ী রাজ্যগুলি নির্ধারণ করা থেকে বিরত রাখা উচিত নয়। আপনি যদি এর জন্য সত্যিই একটি লাইব্রেরি চান, তবে থ্রোসোল্ড মডেলগুলির সমর্থন সহ লুকানো মার্কভ মডেল শ্রেণিবদ্ধদের জন্য বাস্তবায়ন অ্যাকর্ড.নেট ফ্রেমওয়ার্কে উপলব্ধ ।

দাবি অস্বীকার: আমি এই গ্রন্থাগারের লেখক।


ডান আমি নিজেই একটি প্রান্তিক মডেল তৈরি করতে পারেন। সুতরাং আসুন উদাহরণস্বরূপ বলি যে আমার দুটি হুম মডেল রয়েছে: সাউন্ড 1 এবং সাউন্ড 2। উভয়ের 2 টি রাজ্য রয়েছে। তারপরে আমি 4 টি রাজ্য সহ একটি প্রান্তিক মডেল তৈরি করি। প্রতিটি রাজ্যের একই প্রাথমিক মান থাকে যা 0.25 হয়। তারপরে আমি সমস্ত সম্ভাব্য ট্রানজিশনের জন্য অভিন্ন বিতরণ সেট করেছি তাই সমস্ত সম্ভাব্য রাষ্ট্রীয় রূপান্তর (0,0), (0,1), (1,0), (1,1), (1,2), (2,1), (২,২) ইত্যাদি 0.0625 এর অভিন্ন বিতরণ পান। তারপরে প্রান্তিক মডেলটির 1 এবং 2 রাজ্যের জন্য আমি শব্দ 1 থেকে 1 এবং 2 রাজ্যের opdf সেট করেছি এবং প্রান্তিকের 3 এবং 4 এর জন্য আমি শব্দ 2 থেকে 1 এবং 2 রাজ্যের opdf সেট করেছি।
রাদেক

উপরে বর্ণিত পদ্ধতিটি কি সঠিক?
রাদেক

1
বেশ নয় ... সম্ভবত আমার বর্ণনাতে আমি কিছুটা looseিলে .ালা ছিলাম। প্রান্তিক মডেলের জন্য আপনার ট্রানজিশন ম্যাট্রিক্সের তির্যক উপাদানগুলি আপনার অন্যান্য মডেলগুলি থেকে আসল স্ব-স্থানান্তর সম্ভাবনাগুলি গ্রহণ করে। একটি রাজ্য থেকে অন্য রাজ্যে স্থানান্তরগুলি অভিন্ন সম্ভাবনার সাথে শুরু হয়। আমি জানি এটি কোডের দিকে চিহ্নিত করা অলস বলে মনে হতে পারে তবে সূত্রের চেয়ে কোডগুলি কখনও কখনও বোঝা সহজ
সিজার

যাইহোক, আপনি যদি লি এবং কিমের কাগজটি পড়েছেন এবং এটির অন্যভাবে ব্যাখ্যা করেছেন বা বিশ্বাস করেছেন যে আমার বাস্তবায়নটি ভুল, দয়া করে আমাকে জানান me
সিজার

3

সুতরাং আমি যা করেছি তা হ'ল: আমি একটি ফিলার মডেলের আমার সরলীকৃত সংস্করণ তৈরি করেছি। ওয়াটারট্যাপ সাউন্ডকে উপস্থাপন করা, প্রতিটি শব্দ এবং স্পিচ সাউন্ডের প্রতিনিধিত্বকারী প্রতিটি এইচএম পৃথক পৃথক দৈর্ঘ্য 0.3 সেকেন্ড থেকে 10 সেকেন্ডের 30, 50, 90 সাউন্ডের ট্রেনিং সেট থেকে শব্দ দ্বারা প্রশিক্ষিত একটি পৃথক 6 স্টেট হুম। তারপরে আমি একটি ফিলার মডেল তৈরি করেছি যা 1 স্টেট হুম, যা নক, ডাব, ওয়াচটাপ এবং স্পিচিংয়ের জন্য সমস্ত প্রশিক্ষণের সেট সাউন্ডকে ধারণ করে। সুতরাং যদি এইচএম মডেলের স্কোরটি ফিলারের স্কোরের চেয়ে কোনও প্রদত্ত শব্দের চেয়ে বেশি হয় - শব্দটি স্বীকৃত হয় অন্যথায় এটি অজানা শব্দ। আমার কাছে সত্যই বড় ডেটা নেই তবে আমি মিথ্যা পজিটিভ প্রত্যাখ্যান এবং অদেখা শব্দগুলিতে সত্য ধনাত্মক প্রত্যাখ্যানের জন্য নিম্নলিখিত পরীক্ষাকে পূর্ণাঙ্গ করেছি।

true positives rejection
knocking 1/11 = 90% accuracy
watertap 1/9 = 89% accuracy
speech 0/14 = 100% accuracy


false positives rejection
Tested 7 unknown sounds
6/7 = 86% accuracy

সুতরাং এই দ্রুত পরীক্ষা থেকে আমি উপসংহারে আসতে পারি যে এই পদ্ধতির যুক্তিসঙ্গত ফলাফল দেয় যদিও আমার কাছে একটি অদ্ভুত অনুভূতি রয়েছে যা এটি যথেষ্ট নাও হতে পারে।


+1 এটি খুব আকর্ষণীয়। আপনি যদি ইতিমধ্যে এই কাজটি সম্পর্কে ভুলে না যান তবে এই পদ্ধতির কাজটি শেষ পর্যন্ত কী কাজ করবে? এটি কি 'ফিলার / অন্যান্য' মডেল হিসাবে যথেষ্ট ছিল? যদি তা না হয়, তবে শেষ পর্যন্ত আপনি অন্য কিছু বাস্তবায়ন করেছিলেন?
ঝুবার্ব
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.