কারও কণ্ঠ নকল / অনুলিপি / জাল করবেন কীভাবে?


19

কারও কণ্ঠকে নমুনা দেওয়ার এবং এটি অন্য কোনও ভয়েসকে সংশোধন করার জন্য বা মূলটির সাথে সাদৃশ্য করার জন্য কোনও পাঠ্য সংশ্লেষিত করার জন্য কি কোনও বিদ্যমান অ্যাপ্লিকেশন রয়েছে?

উদাহরণস্বরূপ, এটিএন্ডটি-র দ্বারা এই টেক্সট-টু-স্পিচ ডেমোটি আপনাকে প্রাকসেটগুলি থেকে এমন একটি ভয়েস এবং একটি ভাষা চয়ন করতে দেয় যা আমার ধারণা।

আপনি এই প্রক্রিয়াটিকে কীভাবে কল করবেন? এটি কি ভয়েস মডুলেশন? ভয়েস সংশ্লেষণ?


আমার ধারণা, আপনার যদি পর্যাপ্ত প্রশিক্ষণের নমুনা থাকে তবে নির্দিষ্ট শব্দগুলির জন্য এটি সম্ভব হতে পারে
ফরাসী

গবেষণা সম্প্রদায়ে একে বলা হয় "ভয়েস রূপান্তর"।
পিচেনেটস

@ user1582478 আমার কাছে প্রচুর পরিমাণ রয়েছে, আপনি কীভাবে এগিয়ে যাবেন?
ক্ল্যাপস

কোনও বন্ধু বলার পরে কি ভয়েস তৈরি করা সম্ভব যে কোনও ভয়েস মোড়ফের মতো তবে আপনি যে ভয়েস তৈরি করেছেন তার সাথে ফোন কলটিতে লাইভটি নিয়ে যান?

এটি প্রশ্নের উত্তর দেয় না। কোনও লেখকের কাছ থেকে সমালোচনা বা স্পষ্টতার জন্য অনুরোধ জানাতে, তাদের পোস্টের নীচে একটি মন্তব্য দিন - আপনি সর্বদা আপনার নিজের পোস্টে মন্তব্য করতে পারেন, এবং আপনার যথেষ্ট সুনামের পরে আপনি কোনও পোস্টে মন্তব্য করতে সক্ষম হবেন ।
ম্যাট এল।

উত্তর:


24

প্রথম নোট: বেশিরভাগ আধুনিক পাঠ্য থেকে স্পিচ সিস্টেমগুলি, যেমন আপনি এটি সংযুক্ত করেছেন এটিএন্ডটি-র মত, বাকী সংশ্লেষণ ব্যবহার করুন । এই কৌশলটিতে একজন ব্যক্তির কণ্ঠের রেকর্ডিংয়ের একটি বৃহত ডাটাবেস ব্যবহার করে দীর্ঘ বাক্যগুলির সংগ্রহ সংগ্রহ করে - এমনটি নির্বাচিত হয় যাতে সর্বাধিক সংখ্যক ফোনম সংমিশ্রণ উপস্থিত থাকে। একটি বাক্য সংশ্লেষিত করা কেবল এই কর্পাস থেকে বিভাগগুলি একসাথে স্ট্রিংয়ের মাধ্যমে করা যেতে পারে - চ্যালেঞ্জিং বিট স্ট্রিংটিকে একসাথে এবং নির্বিঘ্নে করে তোলে।

রাষ্ট্রপতি ওবামাকে বিব্রতকর কথা বলার জন্য এই কৌশলটি ব্যবহার করতে চাইলে দুটি বড় বাধা রয়েছে:

  • লক্ষ্য ভয়েসের বাক্যগুলির একটি বৃহত সংগ্রহের আপনার অ্যাক্সেস থাকা দরকার, অগ্রাধিকার হিসাবে অভিন্ন রেকর্ডিং শর্ত এবং ভাল মানের সাথে রেকর্ড করা হয়। একই স্টুডিওতে একই স্পিকারের কয়েক ডজন ঘন্টা রেকর্ড করার জন্য এটিএন্ডটির বাজেট রয়েছে, তবে আপনি যদি রেকর্ডিংয়ের মাত্র 5 মিনিট থেকে কারও ভয়েস নকল করতে চান তবে এটি কঠিন হবে।
  • রেকর্ডকৃত কাঁচামাল সঠিক "ফর্ম্যাটে" কনট্যাটিভেটিভ স্পিচ সংশ্লেষণ পদ্ধতিতে শোষণ করার জন্য যথেষ্ট পরিমাণে ম্যানুয়াল অ্যালাইনমেন্ট এবং প্রিপ্রোসেসিং রয়েছে।

আপনার অন্তর্নিহিততা যে এটি একটি সম্ভাব্য সমাধান বৈধ - আপনি এই দুটি সমস্যা মোকাবেলার জন্য বাজেট রাখেন।

ভাগ্যক্রমে, অন্যান্য কৌশল রয়েছে যা কম তদারকি এবং কম ডেটা নিয়ে কাজ করতে পারে। রেকর্ডিং থেকে একটি ভয়েস "নকল" বা "নকল" করতে আগ্রহী বক্তৃতা সংশ্লেষের ক্ষেত্রটি ভয়েস রূপান্তর হিসাবে পরিচিত । আপনার কাছে লক্ষ্য স্পিকারের রেকর্ডিং এ 1 রয়েছে একটি বাক্য বাক্য 1, এবং উত্স স্পিকার বি এর রেকর্ডিং বি 2 বাক্য 2 বলে, আপনি স্পিকার বি এর একটি রেকর্ডিং এ 2 তৈরির লক্ষ্য রেখেছেন বাক্য 2, সম্ভবত স্পিকার বি এর রেকর্ডিং বি 1 অ্যাক্সেস সহ তার / তার কন্ঠে লক্ষ্য স্পিকারের মতো একই উচ্চারণ।

ভয়েস রূপান্তর সিস্টেমের রূপরেখাটি নিম্নলিখিত:

  1. অডিও বৈশিষ্ট্যগুলি এ 1 রেকর্ডিং থেকে নেওয়া হয় এবং সেগুলি অ্যাকোস্টিক ক্লাসে ক্লাস্টার করা হয়। এই পর্যায়ে, ব্যাগ রাখার মতো এটি কিছুটা স্পিকার এ এর ​​সমস্ত "ক", স্পিকার এ এর ​​সমস্ত "ও" ইত্যাদি থাকবে নোট করুন যে সত্য বক্তৃতার স্বীকৃতির চেয়ে এটি অনেক সহজ এবং রুক্ষ অপারেশন - আমরা এতে আগ্রহী নই সঠিকভাবে গঠিত শব্দগুলি স্বীকৃতি দেওয়া - এবং আমরা জানি না কোন ব্যাগে "ও" রয়েছে এবং কোন ব্যাগে "ক" রয়েছে - আমরা কেবল জানি যে প্রতিটি ব্যাগে একই শব্দটির একাধিক উদাহরণ রয়েছে।
  2. একই প্রক্রিয়া বি 2 তে প্রয়োগ করা হয়।
  3. A1 এবং B2 থেকে শাব্দ শ্রেণিবদ্ধ হয় igned ব্যাগগুলির উপমাটি চালিয়ে যাওয়ার জন্য, এটি ধাপ 1 এবং 2 থেকে ব্যাগগুলি জোড়া দেওয়ার সমতুল্য, যাতে স্পিকার এ থেকে এই ব্যাগে আমাদের থাকা সমস্ত শব্দগুলি স্পিকার বি থেকে সেই ব্যাগে থাকা শব্দের সাথে মিলে যায় This বি 1 পদক্ষেপ 2 এ ব্যবহার করা হলে আরও অনেক সহজ।
  4. প্রতিটি জোড় ব্যাগের জন্য একটি ম্যাপিং ফাংশন অনুমান করা হয়। যেহেতু আমরা জানি যে এই ব্যাগটিতে স্পিকার এ এর ​​শব্দ রয়েছে এবং সেই ব্যাগটি একই শব্দ কিন্তু স্পিকার বি দ্বারা বলেছেন - আমরা একটি ক্রিয়াকলাপ খুঁজে পেতে পারি (উদাহরণস্বরূপ বৈশিষ্ট্য ভেক্টরগুলিতে একটি ম্যাট্রিক্স গুণ) যা তাদের সাথে মিলিয়ে যায়। অন্য কথায়, আমরা এখন স্পিকার 2 এর "ও" শব্দটি স্পিকার 1 এর "ও" এর মতো কীভাবে তৈরি করব তা আমরা জানি।
  5. এই পর্যায়ে ভয়েস রূপান্তরটি সম্পাদন করার জন্য আমাদের সমস্ত কার্ড হাতে রয়েছে। বি 2 এর রেকর্ডিংয়ের প্রতিটি স্লাইস থেকে আমরা ধাপ 2-এর ফলাফলটি ব্যবহার করি যা এটি ধনাত্মক শ্রেণীর সাথে সম্পর্কিত figure এরপরে আমরা স্লাইসটি রূপান্তর করতে ম্যাপিং ফাংশনটি 4 ধাপে অনুমান করি।

আমি জোর দিয়ে বলছি যে এটি বি 2 তে বক্তৃতা স্বীকৃতি প্রদানের চেয়ে অনেক কম স্তরে কাজ করে এবং তারপরে কর্পোরেশন হিসাবে এ 1 এর ভয়েস ব্যবহার করে টিটিএস করে doing

1 এবং 2 ধাপের জন্য বিভিন্ন পরিসংখ্যানের কৌশল ব্যবহার করা হয় - জিএমএম বা ভিকিউ সবচেয়ে সাধারণ বিষয়। বিভাজন 2 এর জন্য বিভিন্ন প্রান্তিককরণ অ্যালগরিদম ব্যবহার করা হয় - এটি সবচেয়ে কৌশলযুক্ত অংশ এবং এটি A1 বনাম B2 এর চেয়ে A1 বনাম B1 প্রান্তিককরণ করা স্পষ্টতই সহজ। সরল ক্ষেত্রে ডাইনামিক টাইম ওয়ার্পিংয়ের মতো পদ্ধতিগুলি প্রান্তিককরণ তৈরি করতে ব্যবহার করা যেতে পারে। পদক্ষেপ 4 হিসাবে, সর্বাধিক সাধারণ রূপান্তর বৈশিষ্ট্য ভেক্টরগুলিতে লিনিয়ার ট্রান্সফর্ম (ম্যাট্রিক্স গুণ)। আরও জটিল রূপান্তর আরও বাস্তবের অনুকরণের জন্য তৈরি করে তবে অনুকূল ম্যাপিংটি খুঁজে পেতে রিগ্রেশন সমস্যা সমাধান করা আরও জটিল। পরিশেষে, 5 ধাপ হিসাবে, পুনরায় সংশ্লেষের গুণাগুণ ব্যবহৃত বৈশিষ্ট্যগুলির দ্বারা সীমাবদ্ধ। এলপিসি সাধারণত একটি সাধারণ রূপান্তর পদ্ধতির সাথে মোকাবিলা করা সহজ (সিগন্যাল ফ্রেম নিন -> অনুমানের অবশিষ্ট এবং এলপিসি বর্ণালী -> প্রয়োজনীয় পিচ-শিফট অবশিষ্ট যদি -> পরিবর্তিত অবশিষ্টগুলিতে পরিবর্তিত এলপিসি বর্ণালী প্রয়োগ করুন)। বক্তৃতার উপস্থাপনা ব্যবহার করা যা টাইম ডোমেনে ফিরে যেতে পারে এবং প্রোসোডি এবং ফোনমেসের মধ্যে ভাল বিভাজন দেয় যা এখানে মূল কী! অবশেষে, যদি আপনি একই বাক্যটি বলে স্পিকার A এবং B এর সারিবদ্ধ রেকর্ডিংগুলিতে অ্যাক্সেস পেয়ে থাকেন তবে এমন একটি পরিসংখ্যান মডেল রয়েছে যা একই সাথে একক মডেল অনুমানের পদ্ধতিতে 1, 2, 3 এবং 4 পদক্ষেপগুলিকে মোকাবেলা করে।

আমি পরে কোনও গ্রন্থপঞ্জি নিয়ে ফিরে আসতে পারি তবে সমস্যার অনুভূতি পেতে এবং সমাধান করার জন্য ব্যবহৃত সামগ্রিক কাঠামোটি হ'ল সম্ভাবনাময় শ্রেণিবিন্যাস এবং সুরেলা ভিত্তিতে ভয়েস রূপান্তরকরণের জন্য একটি সিস্টেম হ'ল স্টাইলিয়ানু, মৌলাইনস এবং ক্যাপ্সের " প্লাস শোর মডেল "।

ভয়েস রূপান্তর সম্পাদন করার মতো কোনও সফ্টওয়্যারই আমার জ্ঞানের কাছে নেই - কেবল উত্স ভয়েসের বৈশিষ্ট্য পরিবর্তনকারী বৈশিষ্ট্য - যেমন পিচ এবং ভোকাল ট্র্যাক্ট দৈর্ঘ্যের প্যারামিটারগুলি (উদাহরণস্বরূপ আইআরসিএএম ট্র্যাক ট্রান্সফর্মার) - যা দিয়ে আপনি আপনার তৈরির আশায় গন্ডগোল করতে হবে লক্ষ্য ভয়েসের কাছাকাছি রেকর্ডিং শব্দ।


অসাধারণ উত্তর! আমি ব্যাগ উপমা ব্যতীত এটি বুঝতে সক্ষম হতে পারতাম না ... কেবলমাত্র একটি জিনিস যা আমি এত পরিষ্কার ব্যাখ্যা পরে বুঝতে পারি না: আমার বোঝার জন্য, আপনি সর্বদা বি 1 থাকতে পারেন! আপনাকে অনেক ধন্যবাদ.
ক্ল্যাপস

যদি এ এবং বি আলাদা ভাষায় কথা বলে না (ভয়েস রূপান্তরকরণের এমন অসাধারণ অ্যাপ্লিকেশন রয়েছে যাতে অন্য ভাষায় টিটিএস আপনার নিজস্ব ভয়েসের সাথে ফিরে আসে)! বা যদি এ এবং বি উভয় বিখ্যাত ব্যক্তি হয়, যার জন্য আপনি সর্বজনীনভাবে উপলব্ধ রেকর্ডিংগুলিতে পর্যাপ্ত দীর্ঘ সাধারণ বাক্য খুঁজে পেতে পারেন না, এবং যদি আপনি তাদের ভাষা না বলে থাকেন তবে আপনি নিজের ভয়েসের রেকর্ডিংটি ব্যবহার করতে পারবেন না দুজনের মধ্যে "সেতু"।
পিচেনেটস

আমি দেখি. আবার ধন্যবাদ পিচনেটেস। আমি স্টাইলিয়ানু এট আল-এর উল্লেখ করা বইটি একবার দেখার চেষ্টা করব। চিয়ার্স
ক্ল্যাপস

আপনার ব্যবহৃত সংক্ষেপে লিঙ্কগুলি সহ আপনার উত্তর আপডেট করুন। যেমন এলপিসি, ভিকিউ, জিএমএম।
অ্যারোনসোসওয়েল

অ্যারোনসোসওয়েলের মন্তব্যের জবাবে: এলসিপি: লিনিয়ার প্রেডিকটিভ কোডিং, ভিকিউ: ভেক্টর কোয়ান্টাইজেশন, জিএমএম: গাউসিয়ান মিশ্রণ মডেল। এটি স্পষ্ট নয় যে এই সংক্ষিপ্ত বিবরণগুলির নিছক সম্প্রসারণ অনেকগুলি সহায়তা করে যেহেতু প্রত্যেকটিই একটি জটিল ধারণা, তবে (মোটামুটিভাবে) প্রতিটি ধারণা বিদ্যমান নমুনার একটি সেট থেকে pst বা ভবিষ্যতের ডেটা মডেলিং বা ব্যাখ্যা দিয়ে সম্পর্কিত to
গ্রেগড

2

আপনি মরফভক্সের মতো কিছু ব্যবহার করতে পারেন । এখানে একটি বিক্ষোভ আছে। প্রক্রিয়াটিকে ভয়েস মরফিং বা রূপান্তর বলা হয়। আপনি যদি প্রযুক্তিগত দিকগুলিতে আগ্রহী হন তবে একটি সাম্প্রতিক নিবন্ধ যা আপনি অধ্যয়ন করতে পারেন তা হ'ল ডায়নামিক কার্নেল আংশিক স্বল্প স্কোয়ারস রিগ্রেশন ব্যবহার করে ভয়েস রূপান্তর


ডার্ক ভাদরের কণ্ঠস্বরটি দোলা দেয়, মজার ছিল। ঠিক আছে, আমি আগেও একই রকম প্রভাব দেখেছি। আপনাকে ধন্যবাদ
ক্ল্যাপস

1

আমি একই জিনিসটি খুঁজছি, তবে এটি করা যায় না। স্কটল্যান্ডে সেরেপ্রোক নামে একটি সংস্থা রয়েছে যা ভয়েস মডেলিং করে, তবে তাদের ল্যাব রেকর্ডিংয়ের সময়গুলিতে অডিওর কারও প্রয়োজন হয় এবং একটি ভয়েস মডেল করার জন্য ব্যয় হয় USD 30K এর কাছাকাছি।


0

আপনি যা খুঁজছেন তাকে ভোকোডার বলা হয়।

আপনি কি অডিসিটির ভোকার চেষ্টা করেছেন? : স্পর্ধা থেকে ডাউনলোড করা যাবে http://audacity.sourceforge.net/download । কীভাবে এটি ব্যবহার করবেন সে সম্পর্কে একটি ডেমো https://www.youtube.com/watch?v=J_rPEmJfwNs এ পাওয়া যাবে ।


1
ভোকডিং একটি অডিও রেকর্ডিংয়ের বর্ণালী খামটি প্রয়োগ করে (যা সাধারণত একটি স্বর) অন্য শব্দকে ফিল্টার করতে (যা সাধারণত একটি কাঁচা, নিয়ন্ত্রিত শব্দ নয়) filter এটি কারও ভয়েস ভুয়া ব্যবহার করা যাবে না।
পিচেনেটস

হ্যাঁ, আমি অড্যাসিটি জানি, তবে আমি ভোকারটি চেষ্টা করিনি। আমি মনে করি আপনি কেবল রেকর্ড করা ভয়েসের খামে সাদা শব্দ প্রয়োগ করতে পারেন। ধন্যবাদ
ক্ল্যাপস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.