ইউটিউবে ভিডিও আপলোড না করে গুগলের ইউটিউব স্পিচ সনাক্তকরণ কীভাবে ব্যবহার করবেন?


15

আমার কাছে প্রচুর লেকচার ভিডিও সামগ্রী রয়েছে যার জন্য আমি সাবটাইটেলগুলি রাখতে চাই। ইউটিউব কিছু শর্তে স্বয়ংক্রিয়ভাবে ভিডিওর জন্য সাবটাইটেল তৈরি করে (সেই শর্তগুলি এখনও আমার কাছে কিছুটা রহস্যের মধ্যে রয়েছে)।

আমি YouTube এর বাইরে এই ভাষণ স্বীকৃতি প্রযুক্তিটি ব্যবহার করতে সক্ষম হতে চাই। আমি প্রতিলিপিটি কেবল অনুলিপি পেতে (খুব বেশি সময় গ্রহণকারী) পেতে চাই না, আরও মনে করি না যে ইউটিউব প্রায় 30 মিনিটের বেশি দীর্ঘ ভিডিওগুলির (যার বেশিরভাগের বেশি) এর জন্য এটি করবে, আমি আরও মনে করি না ভাববেন না এটি এটি সর্বজনীন তালিকাভুক্ত ভিডিওর জন্য করবে (যা একটি সমস্যা কারণ এটি প্রিমিয়াম সামগ্রী যা বিক্রি করার অর্থ)।

নিখুঁত দৃশ্য: একটি প্রোগ্রাম রয়েছে যা আমি এই ভিডিওগুলি থেকে অনুলিপিটি পেতে আমার ডেস্কটপ থেকে চালাতে পারি এবং এটি ইউটিউবের তুলনায় সমান বা উন্নত মানের এবং এতে একটি এসআরটি বা এক্সএমএলের অনুরূপ টাইম কোড রয়েছে যা ইউটিউব জেনারেট করে [ কীভাবে YouTube সাবটাইটেলগুলি পান ]]

গ্রহণযোগ্য পরিস্থিতি: ব্যক্তিগত বা জনসাধারণের কাছে নির্ধারণ করা এবং দৈর্ঘ্য সত্ত্বেও ভিডিওগুলি প্রতিলিপি করতে YouTube কে বাধ্য করতে আমি কিছু কৌশল করতে পারি।

করণীয় দৃশ্য: একটি লাইব্রেরি বা এমন কিছু আছে যা আমি নিজের প্রোগ্রামটি কোড করার জন্য ব্যবহার করতে পারি। আমি সি # এর সাথে ভাল এবং সি ++ এর সাথে ঠিক আছি (তবে আমি সত্যি সি টি পছন্দ করি)।


2
লিঙ্ক আপের জন্য ধন্যবাদ - একটি বধির দৃষ্টিভঙ্গি থেকে, এটি কীভাবে কাজ করে তা শুনতে খুব আগ্রহী ...
স্টুডিওহ্যাক

পছন্দ করেছেন
287352

LOL, আমি এটা বুঝতে পারি না! : পি
স্টুডিওহাক

উত্তর:


10

গুগল ক্রোমে ওয়েব স্পিচ এপিআই ( স্পিচ স্বীকৃতি এবং সংশ্লেষণ উভয়ের জন্য) প্রয়োগ করেছে , আপনি যদি বিকাশকারী হন তবে আপনি এটি ব্যবহার করতে পারেন। কিছু ভিডিওতে ঘনিষ্ঠ ক্যাপশন তৈরি করতে ইউটিউব এটি ব্যবহার করে। সম্ভবত আপনি এটির সাথে যোগাযোগের জন্য কোড পাবেন find

ডেটা প্রবাহ সম্ভবত হবে:

একটি ভিডিও ফাইল => এক্সট্রাক্ট করুন এবং অডিও => এ রূপান্তর করুন এটি গুগল এপিআইতে প্রেরণ করুন => পাঠ্য => এসআরটিতে লিখুন।

সম্পাদনা: ডাব্লু 3 সি অনুমান ব্যতীত কোনও অফিসিয়াল এপিআই পৃষ্ঠা বলে মনে হচ্ছে না। সুতরাং এখানে আরও লিঙ্ক রয়েছে:

এই উদাহরণগুলি ক্রোমের অভ্যন্তর থেকে এপিআই ব্যবহার সম্পর্কে, তবে আপনি সরাসরি গুগলের অনলাইন স্পিচ স্বীকৃতি ইঞ্জিনটিকে জিজ্ঞাসা করতে পারেন। উদাহরণস্বরূপ, রাস্পবেরি পাই-এর জন্য একটি স্পিচ-স্বীকৃতি দেওয়ার ব্যক্তিগত সহায়ক , জ্যাস্পার আপনাকে গুগলকে ভাষণ স্বীকৃতি ইঞ্জিন হিসাবে বেছে নিতে দেয় ।


ধন্যবাদ! আমি অবশ্যই এটি চেষ্টা করব। যদি এটি দ্রুত করা যায় (প্রক্রিয়াজাতকরণের সময় ব্যতীত) তবে আমি এটি আমার পণ্যটিতে প্রয়োগ করতে পারি। কি এমন একটি বর হবে।
287352

এপিআইর আর একটি উত্স হতে পারে নোডওয়েবকিট পরিবেশ
জন ডিভোরাক

1

"অটোসব" নামে একটি সরঞ্জাম রয়েছে (গিথুব-এ অ্যাজম্যানিডিস / অটোসুব দেখুন) যা সঠিকভাবে এটি করে, যদিও এটি পুরানো গুগল স্পিচ এপিআই ব্যবহার করে। সরঞ্জামটি FLAC ফাইলগুলিতে অডিওটি ফ্রি করতে ffmpeg ব্যবহার করে এবং তারপরে লিঙ্কের জন্য FLAC ফাইলগুলি Google এ প্রেরণ করে। এটি একটি এসআরটি বা ভিটিটি ফাইল তৈরি করে।

পুরানো গুগল এপিআই এর কারণে নির্ভুলতা অংশে কম। এখানে আরও একটি সাম্প্রতিক API রয়েছে ( https://cloud.google.com/speech/docs/apis এ "ক্লাউড স্পিচ REST এপিআই" )। এই এপিআইটি বেশ সহজ এবং এক পর্যায়ে আমি এটি ব্যবহার করতে কাঁটাচামচ করতে চলেছি।

বিকল্পটি হ'ল ইউটিউবে আপলোড করা এবং ক্যাপশন দেওয়ার পরে ভিটিটি ফাইল ডাউনলোড করা। এর সাথে জটিলতা হ'ল ইউটিউব একটি বাক্য উদাহরণ না দিয়ে খুব সূক্ষ্ম ক্যাপশানগুলি (উদাহরণস্বরূপ কয়েকটি শব্দ) তৈরি করে। এটি ম্যানুয়াল স্ক্যান করার সময় ক্যাপশনগুলি পরীক্ষা করা আরও শক্ত করে তোলে।


1

সবচেয়ে সহজ উপায় হ'ল: গুগল ডক্সে যান, একটি নতুন পাঠ্য নথি খুলুন এবং সরঞ্জামগুলি "ভয়েস টাইপিং" থেকে নির্বাচন করুন, তারপরে আপনার টেপটি খেলুন। হ্যাঁ. এটা সহজ! (এবং একাধিক ভাষা সমর্থন করে)

অন্যথায় আপনি এইচটিএমএল 5 এর সাথে একটি স্থানীয় ওয়েবপৃষ্ঠা ব্যবহার করতে পারেন: https://www.labnol.org/software/add-speech-recognition-to-website/19989/

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.