কেবল একটি ভয়েস রেকর্ডিংয়ে কোথায় গাওয়া শুরু হবে তা সনাক্ত করুন

14

আমার কাছে কিছুটা কারাওকে-স্টাইলের অ্যাপ্লিকেশন রয়েছে যেখানে ব্যবহারকারী কোনও লাইনের মধ্যে একটি লাইন এক ফাঁক করে একটি গানের 4 টি লাইন গায়। কোনও ব্যাকিং মিউজিক নেই, সুতরাং এটি কেবলমাত্র কণ্ঠস্বর, আশা করা যায় সমস্যাটি সমাধান করা আরও সহজ করে তোলে।

আমি আমার রেকর্ডিংয়ে ব্যবহারকারী কোথায় লাইন 1 গাইতে শুরু করে এবং শেষ করা এবং 2 এর লাইন গাইতে শেষ করে ইত্যাদি ঠিক সনাক্ত করার সবচেয়ে শক্তিশালী উপায়টি সন্ধান করছি etc.

আমি একটি সাধারণ মনের অ্যালগরিদমকে একসাথে বাঁধিয়াছি যা রেকর্ডিংয়ের মধ্যে খুব কম পটভূমির শব্দ হলে (যেমন কখন ঘটে?) শব্দটি কার্যকর হয় তবে এটি ক্ষুদ্রতম শব্দের উপস্থিতিতে টুকরো টুকরো হয়ে যায়।

কেউ কি আমাকে আরও শক্তিশালী কিছু দিকে নির্দেশ করতে পারে?

audio signal-detection

— মাইক হোগান
সূত্র

আমার উত্তর আপনাকে সাহায্য করতে পারে - dsp.stackexchange.com/a/1543/440

— দীপন মেহতা

কিছু রেকর্ডিংয়ে ভয়েস হ'ল একমাত্র যন্ত্র যা উভয় চ্যানেলে একই প্রশস্ততার সাথে বাজানো হয়। আপনি এই তথ্যটি স্টেরিও রেকর্ডিং থেকে ভয়েস বের করতে ব্যবহার করতে পারেন।

— জ্যাডার ডায়াস

4

আওয়াজকে সাদা পর হয়, তাহলে আপনি পরিমাপ করতে পারে ভুতুড়ে একঘেয়েমি এবং যখন প্রশস্ততা কিছু থ্রেশহোল্ডের অধিক এবং ভুতুড়ে একঘেয়েমি কিছু থ্রেশহোল্ড নিচে এটা ভয়েস মনে হয়েছে।

মূলত আপনি কেবলমাত্র সিগন্যালের একটি অংশের একটি এফএফটি নেন, তারপরে বর্ণালীটির পরিমাপের জ্যামিতিক গড়কে পাটিগণিত দ্বারা ভাগ করুন।

আপনি কেবলমাত্র যে ফ্রিকোয়েন্সি অঞ্চলগুলিতে মানুষের ভয়েস বসেন সেখানে জোর দেওয়ার জন্য একটি ব্যান্ড-পাস ফিল্টারও ব্যবহার করতে পারেন (বর্ণালী সমতলতা পরিমাপ করার আগে এফএফটি-র অবাঞ্ছিত অঞ্চলগুলি 0 সেট করার মতো সহজ)

— endolith
সূত্র

এন্ডোলিথ, আপনার অভিজ্ঞতায় বর্ণালীর সমতলতা পরিমাপ করার আগে আপনি যদি মাত্রার স্কোয়ার্ড ভিএস মাত্রার মাত্রা নেন তবে এটি কি বড় পার্থক্য করে?

— স্পেসি

@ মোহাম্মদ: এর সাথে আমার কোনও অভিজ্ঞতা নেই। :) আমি পূর্ববর্তী প্রশ্ন জিজ্ঞাসা করেছি কারণ আমি অনুমানটি বুঝতে পারি নি, এবং কোন উপায়টি সঠিক তা এখনও নিশ্চিত নয়। যদিও আমি মনে করি না স্কোয়ারিং কোনও ব্যবহারিক পার্থক্য তৈরি করে। যদি আপনি কেবল একটি চৌম্বকটি পেরোনোর সময় ট্রিগার করে থাকেন তবে এটি স্কোয়ার্ড হোক বা না (একই সাথে আপনি চৌম্বকটি ম্যাচের সাথে সামঞ্জস্য করে) ধরে নিলে একইভাবে প্রতিক্রিয়া দেখা উচিত, সুতরাং মাত্রাটি কেবল গণনামূলকভাবে সস্তা।

— এন্ডোলিথ

@ ইন্ডোলিথ, এটি একটি দীর্ঘ শট একটি সামান্য: আপনি মতলব মধ্যে এই পদ্ধতির বাস্তবায়ন কিভাবে জানেন? আমি এখানে মাতলাবে বর্ণিত সমস্ত পদ্ধতির পরীক্ষা করতে চাই (বাস্তবে অষ্টকটি) কোনটি সেরা?

— মাইক হোগান

@ মাইকহোগান: না, আমি দীর্ঘদিন ধরে মতলব ব্যবহার করি নি। : / এছাড়াও এর জন্য সত্যিকারের কাজ করা প্রয়োজন। :) আমার কাছে প্রি-লিখিত কিছু নেই। সংকেতটিকে ছোট ছোট ভাগে ভাগ করুন, প্রত্যেকটির এফএফটি করুন এবং প্রতিটি এফএফটি-র জন্য, দৈর্ঘ্যের গাণিতিক গড় দিয়ে দৈর্ঘ্যের জ্যামিতিক গড়কে ভাগ করুন। উচ্চতর সংখ্যা শোরগোল, কম সংখ্যা টোনাল।

— এন্ডোলিথ

3

আমি অতীতে বর্ণালী-ফ্লাক্স ব্যবহার করেছি এবং এটি দুর্দান্তভাবে কাজ করছে বলে মনে হয়। মূল ধারণাটি হ'ল, আপনার যত্ন নেওয়া ব্যান্ডগুলি জুড়ে আপনার সিগন্যালের একটি বর্ণালী তৈরি করুন। আসুন আমরা ধরে নিই যে আপনার ফ্রিকোয়েন্সিটি y- অক্ষের উপর রয়েছে এবং আপনার সময়টি x- অক্ষের মতো রয়েছে ।

এর অর্থ হল আপনার স্পেকট্রগ্রামটি একটি ম্যাট্রিক্স। প্রতিটি কলাম আপনার সিগন্যালের সময় একটি স্ন্যাপ-শটের FFT এর নিখুঁত মান উপস্থাপন করে এবং প্রতিটি সারি প্রতিনিধিত্ব করে যে সময়ের সাথে সাথে একটি ব্যান্ডের শক্তি কীভাবে পরিবর্তিত হয়।

এখন, কলামগুলির পার্থক্যটি কেবল গ্রহণ করুন। এটি হ'ল, একটি কলাম নিন এবং এর আগে কলামটি নিজের থেকে বিয়োগ করুন এবং সমস্ত কলামের জন্য করুন। (প্রারম্ভিক কলামগুলি স্পষ্টতই একা রেখে দেওয়া)। তারপরে সমস্ত ব্যান্ড জুড়ে যোগফল। এটি হ'ল সমস্ত সারি একসাথে যোগ করুন।

আপনি একটি 1-ডি সংকেত দিয়ে শেষ করবেন যা আপনার সংকেতের অনসেটগুলিকে কোড করে । এটি আপনাকে বলবে কোথায় আপনার ভয়েস শুরু হয়।

সম্পাদনা করুন:

এখন আপনি অ্যানসেটগুলি সনাক্ত করেছেন, যদি আপনি বিপরীতটি সনাক্ত করতে চান, (এটি যখন কোনও সংকেত কারও কাছে থেকে কাজ করা থেকে যায়), বর্ণালি প্রবাহটি আপনাকে আসলে সেই তথ্য দেয়। আপনার যেদিকেই সূচনা আছে, আপনার ইতিবাচক শিখর হবে এবং যেখানেই আপনার 'ডিसेट' রয়েছে (আরও ভাল শব্দের অভাবে), আপনার নেতিবাচক শীর্ষটি থাকবে।

আমার সিগন্যালের মোট শুরু এবং থামার সময়গুলি চিহ্নিত করতে আমি কেবল প্রথম ধনাত্মক শীর্ষ এবং শেষ নেতিবাচক শিখরটি গ্রহণ করব।

— Spacey
সূত্র

মোহাম্মদ, "সারি" বলতে কী বোঝ?

— মাইক হোগান

@ মাইকহোগান দয়া করে আমার সম্পাদনাগুলি দেখুন, আমি উত্তরটি আবার লিখেছি।

— স্পেসি

যদিও এটি কোনও কিছুর অনসেটগুলি খুঁজে পাবে না? ড্রাম হিট বা অন্যান্য আবেগময় শব্দ এছাড়াও সনাক্ত করা হবে। এটি টোনাল শব্দ এবং কোলাহল শোনার মধ্যে পার্থক্য করে না।

— এন্ডোলিথ

@ এন্ডোলিথ আপনি একটি ভাল বক্তব্য উত্থাপন করেছেন - তবে আমি বিশ্বাস করি এটি এখনও কার্যকর হতে পারে। আমার যুক্তি হ'ল এই দৃশ্যে আপনি যে কোনও ভয়েস + সংগীত অবস্থায় আছেন বা কেবল সঙ্গীত অবস্থায় আছেন state বর্ণালী প্রবাহ গণনা করার সময়, আপনি সত্যিই কেবল ভয়েস + সংগীত এবং কেবল সংগীতের মধ্যে ব-দ্বীপটি গণনা করছেন। (অবশ্যই এটিকে আরও অনেক বিশ্লেষণ করতে হবে তবে আমি এখন এটি কীভাবে ভাবছি তা বুঝতে পারি) :

— স্পেসি

1

@ এন্ডোলিথ আমি কেবল পুনরায় পড়ি এবং ওপি বলছে যে কেবল ভয়েস আছে, (সম্ভবত এটি একটি সহজ অ্যাপ্লিকেশন), সুতরাং এক্ষেত্রে এটি কেবল ভয়েস ভিএস কিছুই হবে না।

— স্পেসি

2

আমার অভিজ্ঞতা থেকে আমি মেল-ফ্রিকোয়েন্সি-সেপস্ট্রাম-কোফিয়েনটিস (এমএফসিসি) সন্ধান করার চেষ্টা করব । আপনার যদি এফএফটি পাওয়া যায় এবং ভয়েস প্রসেসিংয়ে বেশ সাধারণভাবে ব্যবহৃত হয় তবে এমএফসিসিগুলি প্রয়োগ করা মোটামুটি সহজ।

এমএফসিসিগুলির সাথে আপনার আওয়াজ থেকে প্রকৃত ভয়েস ডেটা আলাদা করতে সক্ষম হওয়া উচিত।

— endolith
সূত্র

@ এন্ডোলিথ, সেই লিঙ্কটি সম্পূর্ণ আমার বাইরে! আমি যে কোনও ওপেন সোর্স বাস্তবায়ন সম্পর্কে জানি যে আমি এটি দেখতে পারি বা এটি কীভাবে কাজ করে তার আরও ধাপে ধাপে রেসিপিটি?

— মাইক হোগান

2

" স্পেকট্রাল ফ্লাক্স " ("বর্ণালী পার্থক্য" হিসাবেও পরিচিত) "অন্টেট সনাক্তকরণ" এর একটি সাধারণ পদ্ধতি। মূলত আপনি সিগন্যালের ক্রমযুক্ত এফএফটি নেন এবং একটি নমুনা থেকে পরের নমুনায় এফএফটি বালতিগুলির পার্থক্যের পরিমাণের সমষ্টি করেন। "সূচনা" সাধারণত এই মানটিতে উল্লেখযোগ্য "লাফিয়ে" উপস্থাপন করা হবে।

অন্যান্য ধারণার জন্য গুগল "সূচনা সনাক্তকরণ"।

— ড্যানিয়েল আর হিকস
সূত্র

2

একা বর্ণালী ফ্লাক্স ব্যবহার করা নির্দিষ্ট শব্দগুলির জন্য মিথ্যা ইতিবাচক উত্স তৈরি করতে পারে এবং সাথে সাথে একটি গাওয়া ভয়েস সনাক্ত করতে পারে।

গাওয়া সাধারণত পিচযুক্ত সিগন্যাল সামগ্রী বোঝায় তাই আপনি পিচ ডিটেক্টর বা অনুমানকারী (সিপস্ট্রাম ইত্যাদি) ব্যবহার করতে পারেন। আপনি সম্পূর্ণ সংকেত শক্তির তুলনায় পিচ হিসাবে চিহ্নিত শক্তির ভগ্নাংশটি স্যানিটি পরীক্ষা করতে পারেন এবং আনুমানিক পিচটি মানুষের ভয়েস সীমার মধ্যে রয়েছে। এটি সাধারণ কণ্ঠসীমার বাইরে প্লেইচড আওয়াজের পাশাপাশি বাদ্যযন্ত্রের জন্য মিথ্যা ইতিবাচক হারকে হ্রাস করবে।

— hotpaw2
সূত্র