বক্তৃতা স্বীকৃতি যেমন আপনি ভাবেন তেমন জটিল নয় think
প্রথমে, একটি মার্কভ চেইন (এমসি) তৈরির বিষয়টি কল্পনা করুন যা পাঠ্য স্বীকৃতি দেয়। আপনার প্রোগ্রামটি একগুচ্ছ (নিখুঁত, ত্রুটি ছাড়াই) পাঠ্য পড়ে এবং রাজ্যগুলি (শব্দ) এবং রাষ্ট্র পরিবর্তনগুলি (পরবর্তী শব্দ) গণনা করে। আপনি এটি নিচে পেয়েছেন বলে মনে হচ্ছে। আপনি এখন পাঠ্য উত্পন্ন করতে পারতেন বা আপনার পাঠানো এমসির রূপান্তর সম্ভাবনাগুলি ব্যবহার করে পরবর্তী পাঠ্যটির পূর্বাভাস দিয়েছিলেন some
এখন কল্পনা করুন যে আপনি বক্তৃতার সাথে আপনার এমসি ব্যবহার করতে চান। আপনার কাছে কেবল লোকেরা আপনার এমসির অনুরূপ পাঠ্য পড়বে এবং ঠিক আছে, ঠিক আছে? ঠিক আছে ... বাদে তারা শব্দগুলি অন্যভাবে উচ্চারণ করতে চলেছে: যেখানে লিখিত পাঠ্যটিতে "আলু" বলা হয়েছে, আপনি আসলে "পো-টাই-তোহ" এবং "পো-টাহ-তোহ" এবং "পু-তে" শুনতে পাবেন -তে ", ইত্যাদি এবং তদ্বিপরীত:" খাওয়া "এবং" আট "পাঠ্য দুটি পৃথক রাষ্ট্রের প্রতিনিধিত্ব করে, তবে (সাধারণত) একই হিসাবে উচ্চারণ করা হয়।
আপনার অ্যালগরিদম আর অন্তর্নিহিত রাজ্যগুলি (শব্দ) দেখতে পাবে না, এটি প্রতিটি শব্দের উচ্চারণের সম্ভাব্য বন্টন দেখে। আপনার আসল এমসি উচ্চারণগুলির পিছনে লুকানো রয়েছে এবং এখন আপনার মডেলটি দ্বি-স্তরযুক্ত হওয়া দরকার।
সুতরাং আপনি প্রচুর লোককে আপনার মূল প্রশিক্ষণের জন্য যে পাঠটি ব্যবহার করেছেন তা উচ্চস্বরে পড়তে পারেন, আপনি প্রতিটি শব্দের জন্য উচ্চারণের জন্য একটি বিতরণ পেতে পারেন এবং তারপরে আপনার মূল মডেলটি উচ্চারণের মডেলের সাথে একত্রিত করতে পারেন এবং আপনার একটি লুকানো মার্কভ মডেল রয়েছে ( একটি এইচএমএম)।
রিয়েল-ওয়ার্ল্ডের বেশিরভাগ সমস্যাগুলি এরকম হবে, যেহেতু আসল পৃথিবী গোলমাল করে। কোনও রাজ্যে কী রয়েছে তা আপনি আসলে জানতে পারবেন না Instead পরিবর্তে, আপনি প্রতিটি রাজ্যের জন্য বিভিন্ন সূচক পাবেন: কখনও কখনও একই রাজ্যের জন্য একই সূচক ("খেয়েছিলেন" এবং "আট") এবং কখনও কখনও একই রাজ্যের জন্য পৃথক সূচক থাকে ("পু-তে-টো" এবং "পাহ-তাহ-তো")। অতএব, এইচএমএমগুলি বাস্তব-বিশ্বের সমস্যার জন্য আরও উপযুক্ত।
[দু'পক্ষের নোট: 1) প্রকৃত বক্তৃতা স্বীকৃতি ফোমমে স্তরে কাজ করে, শব্দ স্তর নয়, এবং 2) আমি বিশ্বাস করি যে এইচএমএমরা বক্তৃতা স্বীকৃতি দেওয়ার জন্য এই পাহাড়ের রাজা ছিলেন, তবে সম্প্রতি গভীর নিউরাল নেটওয়ার্কের দ্বারা তাকে ক্ষমতাচ্যুত করা হয়েছে।]