আমি উবুন্টুর জন্য প্রাকৃতিক শোনার জন্য টেক্সট টু স্পিচ সফ্টওয়্যারটি ইনস্টল করার সহজ কিছু সন্ধান করছি। আমি ইনস্টল Festival
, Gespeaker
ইত্যাদি, কিন্তু কিছুই খুব স্বাভাবিক শোনাচ্ছে। সব খুব সিনথেটিক এবং বোঝা শক্ত।
সেখানে কোন সুপারিশ আছে?
আমি উবুন্টুর জন্য প্রাকৃতিক শোনার জন্য টেক্সট টু স্পিচ সফ্টওয়্যারটি ইনস্টল করার সহজ কিছু সন্ধান করছি। আমি ইনস্টল Festival
, Gespeaker
ইত্যাদি, কিন্তু কিছুই খুব স্বাভাবিক শোনাচ্ছে। সব খুব সিনথেটিক এবং বোঝা শক্ত।
সেখানে কোন সুপারিশ আছে?
উত্তর:
একটি খুব সংক্ষিপ্ত টিটিএস, এস্পিক বা এমব্রোলার (আমার মনে) থেকে ভাল শোনাচ্ছে। কিছু তথ্য এখানে ।
এস্পিক বা এমব্রোলার তুলনায় পিকো 2 ওয়েভ কেন হয় তা আমি বুঝতে পারি না, খুব কমই আলোচনা করা হয়। এটি ছোট, তবে সত্যই ভাল লাগছে (প্রাকৃতিক)। কোনও পরিবর্তন ছাড়াই আপনি একটি প্রাকৃতিক সাউন্ডিং মহিলা ভয়েস শুনতে পাবেন।
এবং ... এমব্রোলার সাথে তুলনা করে, এটি ইউনিটগুলি সনাক্ত করে এবং এটি সঠিকভাবে কথা বলে!
উদাহরণ স্বরূপ:
ইনস্টলেশন পরে আমি এটি একটি স্ক্রিপ্টে ব্যবহার করি:
#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav
তারপরে এটি পছন্দসই পাঠ্য সহ চালনা করুন:
<scriptname>.sh "hello world"
বা একটি সম্পূর্ণ ফাইলের বিষয়বস্তু পড়ুন:
<scriptname>.sh "$(cat <filename>)"
উবুন্টুতে হালকা ওজনের, স্থিতিশীল কর্মক্ষম টিটিএস হ'ল এটি।
pico2wave
libttspico-utils
উবুন্টুর সাম্প্রতিক সংস্করণগুলিতে প্যাকেজে রয়েছে। @ কার্লোস ইউজেনিও cat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
pico2wave -w a.wav "$(input.txt)"
=)। সম্মত হোন যে এই সিএলআই ইন্টারফেসটি খারাপ ডিজাইন: বিশাল সংখ্যক সিএলআইয়ের বিপরীতে, এবং ওএস সর্বাধিক সিএলআই আর্গ দৈর্ঘ্যে পৌঁছনো সম্ভব ।
echo {1..1000}
আমার বিশ্বাস আমি "স্পিকারআইটি" নামক একটি গুগল ক্রোম এক্সটেনশন ব্যবহার করে নিখরচায় সেরা টিটিএস সফ্টওয়্যার পেয়েছি। এটি কেবল উবুন্টুতে আমার জন্য ক্রোম ব্রাউজারে কাজ করে। এটি কোনও কারণে ক্রোমিয়ামের সাথে কাজ করে না। স্পিকআইটিটি দুটি মহিলা কণ্ঠস্বর নিয়ে আসে যা উভয়ই সেখানে থাকা সমস্ত কিছুর তুলনায় খুব বাস্তববাদী বলে মনে হয়। আপনি ক্রোম ওয়েব স্টোরটি আপনার জিজ্ঞাসা হিসাবে "টিটিএস" ব্যবহার করে অনুসন্ধান করলে কমপক্ষে আরও চারটি পুরুষ ও মহিলা ভয়েসগুলি ক্রোম এক্সটেনশনের তালিকাভুক্ত থাকে।
ব্যবহার : একটি ওয়েবসাইটে ব্যবহারের জন্য। আপনি যে পাঠ্যটি পড়তে চান তা হাইলাইট করেন এবং ডান ক্লিক করুন এবং "স্পিকআইটি" বা Chrome এর শীর্ষ বারের ডকড স্পিকার আইটনে ক্লিক করুন।
ফায়ারফক্স ব্যবহারকারীদের কাছে দুটি বিকল্প রয়েছে। ফায়ারফক্স অ্যাডোনসের মধ্যে, টিটিএসের জন্য অনুসন্ধান করুন এবং আপনার "স্পিক স্পিক" ক্লিক করুন এবং "টেক্সট টু ভয়েস" খুঁজে পাওয়া উচিত। ভয়েসগুলি ক্রোম স্পিকারআইট ভয়েসগুলির মতো ভাল নয় তবে এটি অবশ্যই ব্যবহারযোগ্য।
স্পিকআইটি এক্সটেনশানটি আইস্পিপ প্রযুক্তি ব্যবহার করে এবং বছরে $ 20 এর দামের জন্য সাইটটি এমপি 3 অডিও ফাইলগুলিতে পাঠ্য রূপান্তর করতে পারে। আপনি পাঠ্য, ইউআরএল, আরএসএস ফিডস, পাশাপাশি টিএক্সটি, ডিওসি, এবং পিডিএফ এবং এমপি 3 এ আউটপুট হিসাবে নথিগুলি ইনপুট করতে পারেন। আপনি পডকাস্ট, এম্বেড অডিও ইত্যাদি তৈরি করতে পারেন এখানে একটি লিঙ্ক এবং তাদের অডিওর একটি নমুনা (লিঙ্কটি কত দিন টিকবে তা জানেন না)।
পিকো এবং এসস্পিক মজাদার এবং কাজ করা সহজ work তবে এগুলি এতটা ভাল নয়। ডিফল্ট উত্সব ভয়েসগুলিও তেমন ভাল নয়। তবে, উত্সব একটি স্কিম-ভিত্তিক স্পিচ ফ্রেমওয়ার্ক, যেখানে বেশ কয়েকটি গবেষক আরও ভাল প্লাগ-ইন ভয়েস তৈরি করেছেন। উবুন্টু স্টকটিতে আপনি খুব সহজেই পিকো 2 ওয়েভের গুণমানকে ছাড়িয়ে যেতে পারেন, কারণ এই ভয়েসগুলির মধ্যে একটি রেডিমেড প্যাকেজ হিসাবে উপলব্ধ।
উত্সবটিকে প্রাকৃতিক শব্দ হিসাবে সুন্দর করার জন্য এখানে কী করা উচিত তা এখানে:
sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts)
festival> (SayText "Don't hate me, I'm just doing my job!")
আপনি কমান্ড লাইন থেকে -b
(বা --batch
) ব্যবহার করে এবং প্রতিটি কমান্ডকে একক উদ্ধৃতিতে রেখে এটি করতে পারেন :
festival -b '(voice_cmu_us_slt_arctic_hts)' \
'(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'
নাইটেক সংগ্রহস্থল থেকে আপনি অন্যান্য বেশ ভাল ভয়েস পেতে পারেন, তবে সেগুলি ইনস্টল করা চতুর, এবং ডিফল্ট পাথগুলি পরিবর্তিত হয় তাই স্ট্যান্ড উবুন্টুতে কাজ করার জন্য বান্ডিলযুক্ত স্কিম ফাইলগুলিতে ফাইলের নাম উল্লেখ ম্যানুয়ালি সম্পাদনা করতে হতে পারে need
প্রকল্পের পৃষ্ঠা থেকে আপডেট (2019-02) : এই প্রকল্পটি বর্তমানে অবিস্মরণীয় এবং ভবিষ্যতের জন্য তাই থাকবে
এর চেয়ে ভাল বিকল্পের অভাবে আমি একটি বাশ স্ক্রিপ্ট লিখেছিলাম যা গুগল অনুবাদের মাধ্যমে টিটিএস সরবরাহ করতে মাইকেল ফ্যাপসোর পার্ল স্ক্রিপ্টটির সাথে ইন্টারফেস করে । প্রকল্পের বিবরণ থেকে:
উদ্দেশ্যটি হ'ল গুগলের স্পিচ সংশ্লেষণ সিস্টেমের মাধ্যমে পাঠ্য থেকে স্পিচ আউটপুটটিতে ইন্টারফেসটি সহজেই ব্যবহার করা যায়। কোনও ইন্টারনেট সংযোগ না পাওয়া গেলে পিকোওয়েভ ব্যবহার করে একটি ফ্যালব্যাক বিকল্প স্বয়ংক্রিয়ভাবে টিটিএস সংশ্লেষণ সরবরাহ করে।
এটি যেমন দাঁড়িয়েছে, মোড়ক স্ট্যান্ডার্ড ইনপুট, প্লেইন টেক্সট ফাইল এবং এক্স নির্বাচন (হাইলাইটেড টেক্সট) থেকে পড়া সমর্থন করে।
প্রধান বৈশিষ্ট্যগুলি হ'ল:
প্রকল্পের পৃষ্ঠায় ইনস্টলেশন ও ব্যবহার নথিবদ্ধ হয় ।
আপনি যদি চেষ্টা করে দেখেন তবে আমি খুশি হব। বাগ রিপোর্ট এবং অন্য কোনও প্রতিক্রিয়া স্বাগত!
আমি উবুন্টুর পক্ষে টেক্সট টু স্পিচিংয়ের জন্য উচ্চ এবং নিম্নের দিকে চেয়েছি এটি উচ্চ মানের। কেউ নেই. আমার কণ্ঠ্য স্বর পক্ষাঘাতগ্রস্ত হয়, তাই আমি আমার ভয়েস নির্দেশাবলী যোগ করার জন্য TTS প্রয়োজন উবুন্টু ভিডিও । আপনি বক্তৃতা সফ্টওয়্যার বাণিজ্যিক উচ্চ মানের Linux টেক্সট পেতে পারেন এখানে । এটি আসলেই ব্যয়বহুল। আমি উইন্ডোজের জন্য ন্যাচারাল রিডার কিনে শেষ করেছি (ওয়বারের নীচে উবুন্টুতে কাজ করে না) 40 ডলারে। সম্ভবত পরে আমি লিনাক্সটি পেয়ে যাব।
আমি স্পিচ ভয়েসগুলিতে সেরা সাউন্ডিং এবং সহজেই সুরযুক্ত পাঠ্য নিয়ে গবেষণা করে চলেছি। নীচে সাউন্ড কোয়ালিটির ক্রমে শীর্ষে থাকা 5 টি পণ্য বলে আমি কী ভেবেছিলাম তার একটি তালিকা দেওয়া হল। এই পণ্যের সাথে যুক্ত বেশিরভাগ ওয়েবসাইটের একটি ইন্টারেক্টিভ ডেমো রয়েছে যা আপনাকে নিজের সিদ্ধান্ত নির্ধারণ করার অনুমতি দেবে।
আমি উত্সবে নাইটেচ এইচটিএস ভয়েসগুলি খুব প্রাকৃতিক এবং আমি শুনেছি অন্য কোনও ভয়েস পেয়ে স্বস্তি পেয়েছি। উত্সব সহ নাইটেক এবং অন্যান্য শব্দগুলি কীভাবে সেট আপ করবেন তার এই লিঙ্কটি দেখুন । আমি সেই ভাল ভয়েসগুলি কনফিগার করতে কিন্তু ফেস্টিভাল.এসএসএম এর মাধ্যমে সেটিংয়ের জন্য ব্যবহার করতে পারি এমন কোনও ভাল গুই আমি পাইনি still এই পোস্টটি খুব পুরানো এবং আপনি "ফ্যাশন ফেস্টিভাল" কমান্ড ব্যবহার করে প্রকৃত ইনস্টলেশন ডিরেক্টরিটি সন্ধান করতে পারেন
লিবারঅফিসের সাথে এসভিওএক্স সরঞ্জামগুলি (পিকো) একত্রিত করুন:
এসভিওএক্স (পিকো) সরঞ্জামগুলি ইনস্টল করা সহজ এবং উবুন্টুতে ভাল মানের ভয়েস নিয়ে আসে। এটি ইনস্টল করুন:
sudo apt-get install libttspico0 libttspico-utils libttspico-data
আপনি "পঠন পাঠ্য" এক্সটেনশনটি ইনস্টল করে এসভিওএক্স (পিকো) সরঞ্জামগুলির সাথে লিবারেফিস ব্যবহার করতে পারেন এবং এই দুর্দান্ত টিটিএস সফ্টওয়্যারটির জন্য আপনি একটি "জিইউআই" পান:
সরঞ্জামগুলি সহ অ্যাড-অনস - পঠন পাঠ্য এক্সটেনশনের বিকল্পগুলি সেট আপ করুন .... বহিরাগত প্রোগ্রাম হিসাবে / usr / বিন / পাইথন ব্যবহার করুন । একটি কমান্ড লাইন বিকল্প নির্বাচন করুন যাতে টোকেন (PICO_READ_TEXT_PY) অন্তর্ভুক্ত রয়েছে , আপনি তাদের কয়েকটি পরীক্ষা করতে চাইতে পারেন।
এখন আপনাকে কেবলমাত্র এলও রাইটার, ক্যালক, ইমপ্রেস বা অঙ্কনের কিছু পাঠ্য নির্বাচন করতে হবে এবং একটি সরঞ্জাম বার হিসাবে যোগ করা আইকনটিতে ক্লিক করতে হবে (ব্যালনযুক্ত একটি খুশি চেহারা)।
এখানে পিডিএফ এবং অন্যান্য পাঠ্য ফাইলগুলির জন্য খাঁটি প্রাকৃতিক বক্তৃতা করার জন্য আমি যা করেছি তা হল (অন্যান্য সমাধানগুলি প্রাকৃতিক নয় বা তারা কেবল প্রদেয় পরিষেবাদি রয়েছে)। এটি ক্রোমিয়াম বা ক্রোম ব্যবহারের চারপাশে কাজ তবে দ্রুত এবং সহজে কাজ করে।
ক্রোমে .doc এবং .txt এর মতো অন্যান্য ফাইলগুলি খোলার উপায় রয়েছে এবং এটিও করা যায়। ক্রোমের জন্য আরও কিছু এক্সটেনশন রয়েছে যা পিডিএফ ফাইলগুলি দেখে, এটি আপনার আরও ভাল ফিট করে কিনা তা পরীক্ষা করে দেখুন। এছাড়াও আপনি গুগল ড্রাইভে সমস্ত ধরণের পাঠ্য আপলোড করতে পারেন এবং স্পিকআইটি ব্যবহার করতে পারেন! আপনার জন্য এটি পড়তে। 'স্পিক টেক্সট' নামে অন্য একটি এক্সটেনশান একইভাবে কাজ করে এবং এতে প্রাকৃতিক বক্তৃতা রয়েছে।
নতুন ফায়ারফক্স 49 ন্যারেটিভ মোডের সাথে ব্যবহার করার জন্য আরও ভাল টিটিএস ইঞ্জিনের সন্ধান করার সময় আমি পিকো টিটিএস (স্বেক্স) পেয়েছি - আমার প্রিয় টিটিএস ইঞ্জিন।
sudo apt install espeak libttspico0 libttspico-data libttspico-utils
ডিফল্ট স্পিচ সংশ্লেষ ইঞ্জিন সিস্টেম প্রশস্ত কীভাবে পরিবর্তন করবেন?
খিলান লিনাক্সের লোকেরা আমাকে সঠিক পথে নিয়ে এসেছিল:
আপনার পছন্দ মতো মডিউলটি কমেন্ট করুন এবং স্পিচ-প্রেরণকারী সেটিংসে এটি ডিফল্ট করুন:
# sudo vim /etc/speech-dispatcher/speechd.conf
[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak" "sd_espeak" "espeak.conf"
AddModule "pico-generic" "sd_generic" "pico-generic.conf"
[...]
#DefaultModule espeak
DefaultModule pico-generic
ডেমন পুনরায় চালু করুন:
# sudo systemctl restart speech-dispatcher.service
কিন্তু, আবার ফায়ারফক্স শুরু করার সময়, কিছুই ঘটে না। উপরের লিঙ্ক অনুসারে (আর্চ ফোরাম পোস্ট # 10 এবং # 16) উত্সবে কাজ করে (চেষ্টা করেনি), তবে পিকোর জন্য বক্তৃতা-প্রেরণকারী উপলব্ধ ভয়েসগুলিকে তালিকাভুক্ত করে না। এটি চলবে না।
বাইরে যে কোনও ধারণা খুব প্রশংসিত হবে ;-)
আমার প্রিয় পাঠ্য থেকে স্পিচ প্রোগ্রামটিকে ম্যাজিক ইংলিশ বলা হয়, তবে জো স্টিয়েগার দ্বারা উল্লিখিত প্রাকৃতিক পাঠকের মতো এটি একটি উইন্ডোজ প্রোগ্রাম এবং আমি নিশ্চিত নই যে এটি ওয়াইনের অধীনে চলে কিনা।
এটিএমটিটি প্রাকৃতিক ভয়েসেস একটি ডেমো হিসাবে অনলাইনে উপলভ্য, তবে এটি একটি সমাধানের চেয়ে আরও বেশি কাজ ...
পিকো, এমব্রোলা, সিএমইউ, উত্সব, ফ্লাইট, 2017 এর সমস্ত এসইউসিকে (তারা 90 এর দশকে আশ্চর্যজনক ছিল)। এটিএন্ডটি প্রাকৃতিক বক্তৃতা (যা দুর্দান্ত) লিনাক্স কম্পাট নয় এবং এটি নিখরচায় নয়, তাই আমরা গুগল ব্যবহার করি
git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -
জিটিটিএস ( গুগল টেক্সট-টু স্পিচ ), একটি পাইথন লাইব্রেরি এবং গুগল অনুবাদকের পাঠ্য থেকে স্পিচ এপিআইয়ের সাথে ইন্টারফেস করার জন্য সিএলআই সরঞ্জাম।
mp3
আরও অডিও ম্যানিপুলেশনের জন্য কোনও ফাইল, একটি ফাইলের মতো অবজেক্ট (বাইট্রেস্টিং) -এ কথ্য ডেটা লিখেstdout
।
কনস : কেবলমাত্র সিএলআই গুগল পাবলিক ওপেন এন্ডপয়েন্টে অনুরোধ করার কারণে অনলাইন হওয়া দরকার।
sudo -H pip install gTTS # Install
ব্যবহার
gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -
কিছু ইতিমধ্যে উল্লেখ করা হয়েছিল
নকল । স্থাপন:
sudo apt-get install gcc make pkg-config automake libtool libasound2-dev
git clone https://github.com/MycroftAI/mimic.git # take a while
cd mimic
./dependencies.sh --prefix="/usr/local" # take a while
./autogen.sh
./configure --prefix="/usr/local"
make # take a while
make check
eSpeak + Gespeaker (GUI) ( গেসপেকার উত্স কোড )
কনস : পুরানো এবং কুরুচিপূর্ণ
sudo apt install espeak gespeaker
তার জন্য আমি বুদ্ধিমান স্পিকার তৈরি করি - গুগল ক্রোমের জন্য এক্সটেনশন। এটি পৃষ্ঠাগুলি নির্বাচন ছাড়াইও পড়তে পারে (যখন পাঠ্য আটকানো সঠিক হয়)।