স্টেরিও অডিও সিগন্যাল থেকে ভোকাল অংশ কীভাবে আহরণ করবেন?


15

আমি এখন এমপি 3 ফাইল প্রক্রিয়া করছি এবং এই সমস্যাটির মুখোমুখি। আমার এমপি 3 স্টেরিও এনকোডড। আমি যা করতে চাই তা হ'ল আরও প্রক্রিয়াজাতকরণের জন্য ভোকাল অংশটি নিষ্কাশন করা (আউটপুট সিগন্যালের মোড যাই হোক না কেন, মনো বা স্টেরিও উভয়ই ঠিক আছে)।

আমি যতদূর জানি অডিও এমপি 3-তে বিভিন্ন ডিস-জয়েন্ট সাব ফ্রিকোয়েন্সি ব্যান্ডগুলিতে এনকোড করা আছে। আমার মনে হয় আমি কাট-অফ ফ্রিকোয়েন্সি যথাযথ সেট সহ উচ্চ-পাস / লো-পাস ফিল্টারের মাধ্যমে ভোকাল সীমার মধ্যে সংকেতগুলি সীমাবদ্ধ করতে পারি। যাইহোক, ফলাফল অবশ্যই এই ক্ষেত্রে খাঁটি সংগীত সংকেত অংশ থাকতে হবে। বা গুগল করার পরে, আমি মনে করি আমি প্রথমে ব্যাকগ্রাউন্ড সিগন্যালগুলি গণনা করতে পারি (একটি চ্যানেল উল্টিয়ে অন্য চ্যানেল থেকে সংকেত যুক্ত করে ভোকাল অংশটি ধরে নেওয়া হয় যে স্টেরিও অডিওতে ফেজ বাতিল বলে কেন্দ্র করে)। এই রূপান্তরের পরে, সংকেতটি মনো হয়। তারপরে আমার আসল স্টেরিওটিকে মনোতে একীভূত করা উচিত যা থেকে পটভূমি সংকেত বের করা।

কার্যকারিতা দেওয়া, কোনটি পছন্দ করা হয় (বা অন্য কোনও সমাধান :)? যদি দ্বিতীয়টি হয়, পটভূমিটি গণনার সময় দুটি চ্যানেল এ এবং বি, (বিএ) বা (এবি) ব্যবহার করা যাক? দুটি চ্যানেল মার্জ করার সাথে সাথে, পাটিগণিতের অর্থ যথেষ্ট সঠিক? বা আমি প্রতিটি চ্যানেল দুটি এর গুণক দ্বারা ডাউনসাম্পল করতে পারি এবং মনো ফলাফল হিসাবে ডাউনস্যাম্পলড সিগন্যালগুলি ইন্টারলিভ করতে পারি?

ধন্যবাদ এবং আন্তরিক শ্রদ্ধা.

উত্তর:


21

প্রথমত, এমপি 3 ফাইলে ডেটা কীভাবে এনকোড করা হয় তা প্রশ্নের সাথে অপ্রাসঙ্গিক না যদি না আপনি সংকুচিত-ডোমেন প্রসেসিংয়ের লক্ষ্য না রাখেন (যা বেশ বোকামি হবে)। সুতরাং আপনি ধরে নিতে পারেন আপনার অ্যালগরিদম ডিকম্প্রেসড সময়-ডোমেন ডেটার সাথে কাজ করবে।

যোগ / পার্থক্য ভোকাল দমন (নিষ্কাশন নয়) জন্য খুব, খুব প্রাথমিক কৌশল trick এটি এই ধারণার উপর ভিত্তি করে তৈরি করা হয়েছে যে কণ্ঠগুলি স্টেরিও ক্ষেত্রের কেন্দ্রে মিশ্রিত হয়, অন্য যন্ত্রগুলি ইদানীং প্যান করা হয়। এটি খুব কমই সত্য। এলআর এবং আরএল একই শব্দ করবে (মানব কান একটি বিশ্বব্যাপী পর্বতমালার প্রতি সংবেদনশীল নয়) এবং আপনাকে কেন্দ্রে মিশ্রিত যন্ত্রগুলি ছাড়াই একটি মনো মিশ্রণ দেবে। সমস্যাটি হ'ল, একবার আপনি ব্যাকগ্রাউন্ডটি সেরে নিলে আপনি এটি দিয়ে কী করবেন? কেন্দ্র (গড়) সিগন্যাল থেকে এটি দমন করার চেষ্টা করবেন? এটি কার্যকর হবে না, আপনি (এল + আর) / 2 - (এল - আর) করছেন, এটি খুব আকর্ষণীয় নয় ... আপনি যেগুলির কোনও লিনিয়ার সংমিশ্রণ (গড় এবং "কেন্দ্র সরানো") চেষ্টা করতে পারেন, কিছুই নয় তা থেকে বেরিয়ে আসবে!

ফিল্টারিং পদ্ধতির বিষয়ে: ভয়েসটির f0 খুব কমই 1000 হার্জ ছাড়িয়ে গেছে তবে এর সুরেলা বাড়াতে পারে। সর্বাধিক ফ্রিকোয়েন্সি অপসারণ ব্যঞ্জনবর্ণগুলি (বিশেষত এসএসএস, সিএইচএইচ) অপ্রীতিকর করে তুলবে। কিছু পুরুষ ভয়েস 100 হার্জ এর নিচে যায়। যদিও আপনি 50 বা 60 হার্জ (বেস, কিক) এর নীচে যা আছে তা নিরাপদে কাটাতে পারেন

ভয়েস বিভাজনে সাম্প্রতিক কিছু উন্নয়নগুলি অন্বেষণ করার মতো:

  • জিন লুই ডুরিইউর ব্যাকগ্রাউন্ড এনএমএফ + সুরেলা কম্ব> ফিল্টার মডেল। পাইথন কোড এখানে
  • Rafii এর পটভূমি নিষ্কাশন পদ্ধতির । কোডে সোজা এবং ইলেক্ট্রো, হিপ-হপের মতো খুব পুনরাবৃত্ত নিদর্শনগুলির সাথে কম্পিউটার-উত্পাদিত সঙ্গীতে ভাল কাজ করে ...
  • F0 সনাক্তকরণ, ট্র্যাকিং এবং মাস্কিংয়ের ভিত্তিতে এইচএসুর যোগাযোগ করা হয়েছে। "সংগীত সংস্থান থেকে গাওয়া পিচ এক্সট্রাকশন এবং ভয়েস পৃথককরণের জন্য একটি ট্যান্ডেম অ্যালগরিদম" (অ্যাক্সেসযোগ্য পিডিএফ খুঁজে পাচ্ছে না)।

4

রেফারেন্সের জন্য ধন্যবাদ! আপনি ড্রাম বর্ধনের বিষয়ে আপনার কাজের কথা উল্লেখ করতে ভুলে গেছেন , যা সামার_মোর_আর_আর_আর_আর অ্যাপ্লিকেশনটির জন্যও আগ্রহী হতে পারে। ওয়েল, এটি সর্বোপরি নির্ভর করে আপনি এটির সাথে কী করতে চান। আপনার কি মনে আছে একটি নির্দিষ্ট "শেষ অ্যাপ্লিকেশন"?

আমি পিচনেটসের উপরের বক্তব্যগুলির সাথে সম্পূর্ণ একমত। সম্পূর্ণ হওয়ার জন্য, আমার অবশ্য বলা উচিত যে ফলাফলগুলি বাড়ানোর জন্য কারাওকে ট্র্যাক প্রজন্মের জন্য মাত্তি রাইন্যেনের দ্বারা আপনি উল্লেখ করেছেন কণ্ঠস্বর বৃদ্ধি হয়েছে mentioned

আপনার প্রশ্নের উত্তর দিতে:

কার্যকারিতা দেওয়া, কোনটি পছন্দ করা হয় (বা অন্য কোনও সমাধান :)?

পিচেনেটস যেমন বলেছে, তেমনি আপনার প্রয়োজন অনুসারে দেখা যাচ্ছে না: মানুষের কণ্ঠের সুরেলা কাঠামো (এবং আরও সাধারণভাবে কোনও "আকর্ষণীয়" শব্দ - অর্থাত সাইনোসয়েডের বাইরে কিছু নয় বলে) লো-পাস / হাই-পাস ফিল্টারিং ব্যর্থ হতে বাধ্য is )।

যদি দ্বিতীয়টি হয়, পটভূমিটি গণনার সময় দুটি চ্যানেল এ এবং বি, (বিএ) বা (এবি) ব্যবহার করা যাক? দুটি চ্যানেল মার্জ করার সাথে সাথে, পাটিগণিতের অর্থ যথেষ্ট সঠিক?

আবার, আপনি যে দ্বিতীয় পদ্ধতিটি উল্লেখ করেছেন সেটি তা করবে না কারণ আপনি কেবলমাত্র কেন্দ্রের সিগন্যালটি সরাতে পারবেন, এটি পুনরুদ্ধার করবেন না। অন্য কথায়, এমনকি কণ্ঠস্বরগুলি "সেন্টারে" রয়েছে, ভোকাল কেবল সিগন্যাল পাওয়ার জন্য কোনও সাধারণ গণিত নেই।

বা আমি প্রতিটি চ্যানেল দুটি এর গুণক দ্বারা ডাউনসাম্পল করতে পারি এবং মনো ফলাফল হিসাবে ডাউনস্যাম্পলড সিগন্যালগুলি ইন্টারলিভ করতে পারি?

এর ... উপরোক্ত পরামর্শ অনুসারে মনো-চ্যানেল সংকেত পাওয়ার জন্য চ্যানেলগুলির গড় গড় বোঝা যায় এবং এটি আপনার সিগন্যালের বর্ণাল বৈশিষ্ট্যগুলিকে ভেঙে ফেলবে না (ধরে নেওয়া হয় যে স্টেরিও সিগন্যালটি অধঃপতিত নয়)। সুতরাং আপনি একটি মনো সংকেত পান যাতে আপনার কাছে মূলত পূর্বের মতো একই সংগীত সামগ্রী।

প্রতিটি চ্যানেলকে সঠিকভাবে ডাউনস্যাম্পল করার অর্থ আপনি প্রথমে একটি লো-পাস ফিল্টার প্রয়োগ করুন (আপনার ক্ষেত্রে স্যাম্পলিং_রেট / 4 এর কাট-অফ ফ্রিকোয়েন্সি সহ) এবং তারপরে আপনি নিরাপদে প্রতি 2 টি নমুনা নিতে পারেন। চ্যানেলগুলিকে আন্তঃবিভক্ত করার বিষয়ে তেমন কিছু বলার নেই যা এইভাবে ডাউন স্যাম্পলড হয়: বেশিরভাগ সাধারণ ক্ষেত্রে এটি আপনার সংকেতের বর্ণালী বৈশিষ্ট্যগুলি ভঙ্গ করছে। আপনি সম্ভবত এটি চান না।

প্রকৃতপক্ষে, লো-পাস ফিল্টারিংয়ের ক্রিয়াকলাপের পরে প্রতি 2 টি নমুনা নির্ধারণ করে এবং উচ্চ 0 টি ফ্রিকোয়েন্সিগুলিতে রাখা কম ফ্রিকোয়েন্সি উপাদানগুলিকে "মিররিং" করতে এই 0 এর শীর্ষস্থানগুলি ফিউরিয়ার ডোমেনে রেখে। স্যাম্পলিং তত্ত্বের প্রক্রিয়াকরণের পাঠগুলির সংকেতটি মনে রাখবেন: ইমপ্লাইসগুলির ক্রম (বা ডায়রাক্স) দ্বারা গুণ করলে ফুরিয়ার ডোমেনের ডায়াকের আরও একটি অনুক্রমের সাথে সমঝোতার ফলাফল হয়, সেই ক্ষেত্রে, সংকেতের ফ্রিকোয়েন্সি বর্ণালী পুনরাবৃত্তি হয় (পর্যায়ক্রমিক) স্যাম্পলিং হারের সমান সময়কালে ফ্রিকোয়েন্সি অক্ষ বরাবর।

সাধারণত, ডাউনস্যাম্পলিং করার সময় আপনি 0 টি সরিয়ে ফেলেন (কারণ আপনি একটি নতুন নমুনার হার অনুমান করে)। তবে এখানে, এগুলি রাখা খুব বিরক্তিকর অতিরিক্ত উচ্চ ফ্রিকোয়েন্সি উপাদানগুলিতে করে। এই সংকেতগুলি ইন্টারলেভ করা এটি সংশোধন করে না।

ভাল, সব মিলিয়ে সংক্ষিপ্ত উত্তর: এটি করবেন না । :-)

শেষ অবধি, আমি আপনাকে এলভিএইসিএ ২০১২ সম্মেলনের জন্য উদ্ভূত জিইউআই ব্যবহার করার পরামর্শ দিচ্ছি: এর জন্য গিট রেপো রয়েছে । আমি এখনও এটি ডিবাগ করছি এবং এটি উন্নতি করছি, সুতরাং মন্তব্যগুলি স্বাগত: ডি

আশা করি এইটি কাজ করবে!

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.