প্রথম নোট: বেশিরভাগ আধুনিক পাঠ্য থেকে স্পিচ সিস্টেমগুলি, যেমন আপনি এটি সংযুক্ত করেছেন এটিএন্ডটি-র মত, বাকী সংশ্লেষণ ব্যবহার করুন । এই কৌশলটিতে একজন ব্যক্তির কণ্ঠের রেকর্ডিংয়ের একটি বৃহত ডাটাবেস ব্যবহার করে দীর্ঘ বাক্যগুলির সংগ্রহ সংগ্রহ করে - এমনটি নির্বাচিত হয় যাতে সর্বাধিক সংখ্যক ফোনম সংমিশ্রণ উপস্থিত থাকে। একটি বাক্য সংশ্লেষিত করা কেবল এই কর্পাস থেকে বিভাগগুলি একসাথে স্ট্রিংয়ের মাধ্যমে করা যেতে পারে - চ্যালেঞ্জিং বিট স্ট্রিংটিকে একসাথে এবং নির্বিঘ্নে করে তোলে।
রাষ্ট্রপতি ওবামাকে বিব্রতকর কথা বলার জন্য এই কৌশলটি ব্যবহার করতে চাইলে দুটি বড় বাধা রয়েছে:
- লক্ষ্য ভয়েসের বাক্যগুলির একটি বৃহত সংগ্রহের আপনার অ্যাক্সেস থাকা দরকার, অগ্রাধিকার হিসাবে অভিন্ন রেকর্ডিং শর্ত এবং ভাল মানের সাথে রেকর্ড করা হয়। একই স্টুডিওতে একই স্পিকারের কয়েক ডজন ঘন্টা রেকর্ড করার জন্য এটিএন্ডটির বাজেট রয়েছে, তবে আপনি যদি রেকর্ডিংয়ের মাত্র 5 মিনিট থেকে কারও ভয়েস নকল করতে চান তবে এটি কঠিন হবে।
- রেকর্ডকৃত কাঁচামাল সঠিক "ফর্ম্যাটে" কনট্যাটিভেটিভ স্পিচ সংশ্লেষণ পদ্ধতিতে শোষণ করার জন্য যথেষ্ট পরিমাণে ম্যানুয়াল অ্যালাইনমেন্ট এবং প্রিপ্রোসেসিং রয়েছে।
আপনার অন্তর্নিহিততা যে এটি একটি সম্ভাব্য সমাধান বৈধ - আপনি এই দুটি সমস্যা মোকাবেলার জন্য বাজেট রাখেন।
ভাগ্যক্রমে, অন্যান্য কৌশল রয়েছে যা কম তদারকি এবং কম ডেটা নিয়ে কাজ করতে পারে। রেকর্ডিং থেকে একটি ভয়েস "নকল" বা "নকল" করতে আগ্রহী বক্তৃতা সংশ্লেষের ক্ষেত্রটি ভয়েস রূপান্তর হিসাবে পরিচিত । আপনার কাছে লক্ষ্য স্পিকারের রেকর্ডিং এ 1 রয়েছে একটি বাক্য বাক্য 1, এবং উত্স স্পিকার বি এর রেকর্ডিং বি 2 বাক্য 2 বলে, আপনি স্পিকার বি এর একটি রেকর্ডিং এ 2 তৈরির লক্ষ্য রেখেছেন বাক্য 2, সম্ভবত স্পিকার বি এর রেকর্ডিং বি 1 অ্যাক্সেস সহ তার / তার কন্ঠে লক্ষ্য স্পিকারের মতো একই উচ্চারণ।
ভয়েস রূপান্তর সিস্টেমের রূপরেখাটি নিম্নলিখিত:
- অডিও বৈশিষ্ট্যগুলি এ 1 রেকর্ডিং থেকে নেওয়া হয় এবং সেগুলি অ্যাকোস্টিক ক্লাসে ক্লাস্টার করা হয়। এই পর্যায়ে, ব্যাগ রাখার মতো এটি কিছুটা স্পিকার এ এর সমস্ত "ক", স্পিকার এ এর সমস্ত "ও" ইত্যাদি থাকবে নোট করুন যে সত্য বক্তৃতার স্বীকৃতির চেয়ে এটি অনেক সহজ এবং রুক্ষ অপারেশন - আমরা এতে আগ্রহী নই সঠিকভাবে গঠিত শব্দগুলি স্বীকৃতি দেওয়া - এবং আমরা জানি না কোন ব্যাগে "ও" রয়েছে এবং কোন ব্যাগে "ক" রয়েছে - আমরা কেবল জানি যে প্রতিটি ব্যাগে একই শব্দটির একাধিক উদাহরণ রয়েছে।
- একই প্রক্রিয়া বি 2 তে প্রয়োগ করা হয়।
- A1 এবং B2 থেকে শাব্দ শ্রেণিবদ্ধ হয় igned ব্যাগগুলির উপমাটি চালিয়ে যাওয়ার জন্য, এটি ধাপ 1 এবং 2 থেকে ব্যাগগুলি জোড়া দেওয়ার সমতুল্য, যাতে স্পিকার এ থেকে এই ব্যাগে আমাদের থাকা সমস্ত শব্দগুলি স্পিকার বি থেকে সেই ব্যাগে থাকা শব্দের সাথে মিলে যায় This বি 1 পদক্ষেপ 2 এ ব্যবহার করা হলে আরও অনেক সহজ।
- প্রতিটি জোড় ব্যাগের জন্য একটি ম্যাপিং ফাংশন অনুমান করা হয়। যেহেতু আমরা জানি যে এই ব্যাগটিতে স্পিকার এ এর শব্দ রয়েছে এবং সেই ব্যাগটি একই শব্দ কিন্তু স্পিকার বি দ্বারা বলেছেন - আমরা একটি ক্রিয়াকলাপ খুঁজে পেতে পারি (উদাহরণস্বরূপ বৈশিষ্ট্য ভেক্টরগুলিতে একটি ম্যাট্রিক্স গুণ) যা তাদের সাথে মিলিয়ে যায়। অন্য কথায়, আমরা এখন স্পিকার 2 এর "ও" শব্দটি স্পিকার 1 এর "ও" এর মতো কীভাবে তৈরি করব তা আমরা জানি।
- এই পর্যায়ে ভয়েস রূপান্তরটি সম্পাদন করার জন্য আমাদের সমস্ত কার্ড হাতে রয়েছে। বি 2 এর রেকর্ডিংয়ের প্রতিটি স্লাইস থেকে আমরা ধাপ 2-এর ফলাফলটি ব্যবহার করি যা এটি ধনাত্মক শ্রেণীর সাথে সম্পর্কিত figure এরপরে আমরা স্লাইসটি রূপান্তর করতে ম্যাপিং ফাংশনটি 4 ধাপে অনুমান করি।
আমি জোর দিয়ে বলছি যে এটি বি 2 তে বক্তৃতা স্বীকৃতি প্রদানের চেয়ে অনেক কম স্তরে কাজ করে এবং তারপরে কর্পোরেশন হিসাবে এ 1 এর ভয়েস ব্যবহার করে টিটিএস করে doing
1 এবং 2 ধাপের জন্য বিভিন্ন পরিসংখ্যানের কৌশল ব্যবহার করা হয় - জিএমএম বা ভিকিউ সবচেয়ে সাধারণ বিষয়। বিভাজন 2 এর জন্য বিভিন্ন প্রান্তিককরণ অ্যালগরিদম ব্যবহার করা হয় - এটি সবচেয়ে কৌশলযুক্ত অংশ এবং এটি A1 বনাম B2 এর চেয়ে A1 বনাম B1 প্রান্তিককরণ করা স্পষ্টতই সহজ। সরল ক্ষেত্রে ডাইনামিক টাইম ওয়ার্পিংয়ের মতো পদ্ধতিগুলি প্রান্তিককরণ তৈরি করতে ব্যবহার করা যেতে পারে। পদক্ষেপ 4 হিসাবে, সর্বাধিক সাধারণ রূপান্তর বৈশিষ্ট্য ভেক্টরগুলিতে লিনিয়ার ট্রান্সফর্ম (ম্যাট্রিক্স গুণ)। আরও জটিল রূপান্তর আরও বাস্তবের অনুকরণের জন্য তৈরি করে তবে অনুকূল ম্যাপিংটি খুঁজে পেতে রিগ্রেশন সমস্যা সমাধান করা আরও জটিল। পরিশেষে, 5 ধাপ হিসাবে, পুনরায় সংশ্লেষের গুণাগুণ ব্যবহৃত বৈশিষ্ট্যগুলির দ্বারা সীমাবদ্ধ। এলপিসি সাধারণত একটি সাধারণ রূপান্তর পদ্ধতির সাথে মোকাবিলা করা সহজ (সিগন্যাল ফ্রেম নিন -> অনুমানের অবশিষ্ট এবং এলপিসি বর্ণালী -> প্রয়োজনীয় পিচ-শিফট অবশিষ্ট যদি -> পরিবর্তিত অবশিষ্টগুলিতে পরিবর্তিত এলপিসি বর্ণালী প্রয়োগ করুন)। বক্তৃতার উপস্থাপনা ব্যবহার করা যা টাইম ডোমেনে ফিরে যেতে পারে এবং প্রোসোডি এবং ফোনমেসের মধ্যে ভাল বিভাজন দেয় যা এখানে মূল কী! অবশেষে, যদি আপনি একই বাক্যটি বলে স্পিকার A এবং B এর সারিবদ্ধ রেকর্ডিংগুলিতে অ্যাক্সেস পেয়ে থাকেন তবে এমন একটি পরিসংখ্যান মডেল রয়েছে যা একই সাথে একক মডেল অনুমানের পদ্ধতিতে 1, 2, 3 এবং 4 পদক্ষেপগুলিকে মোকাবেলা করে।
আমি পরে কোনও গ্রন্থপঞ্জি নিয়ে ফিরে আসতে পারি তবে সমস্যার অনুভূতি পেতে এবং সমাধান করার জন্য ব্যবহৃত সামগ্রিক কাঠামোটি হ'ল সম্ভাবনাময় শ্রেণিবিন্যাস এবং সুরেলা ভিত্তিতে ভয়েস রূপান্তরকরণের জন্য একটি সিস্টেম হ'ল স্টাইলিয়ানু, মৌলাইনস এবং ক্যাপ্সের " প্লাস শোর মডেল "।
ভয়েস রূপান্তর সম্পাদন করার মতো কোনও সফ্টওয়্যারই আমার জ্ঞানের কাছে নেই - কেবল উত্স ভয়েসের বৈশিষ্ট্য পরিবর্তনকারী বৈশিষ্ট্য - যেমন পিচ এবং ভোকাল ট্র্যাক্ট দৈর্ঘ্যের প্যারামিটারগুলি (উদাহরণস্বরূপ আইআরসিএএম ট্র্যাক ট্রান্সফর্মার) - যা দিয়ে আপনি আপনার তৈরির আশায় গন্ডগোল করতে হবে লক্ষ্য ভয়েসের কাছাকাছি রেকর্ডিং শব্দ।