এমন কোনও প্রোগ্রাম আছে যা কোনও অডিও ফাইলের মধ্যে সর্বোচ্চ গর্ত নির্ধারণ করতে পারে?


14

এমন কোনও উইন্ডোজ প্রোগ্রাম রয়েছে যা কোনও অডিও ফাইলের মধ্যে পাওয়া "সর্বোচ্চ শব্দ তরঙ্গ ফ্রিকোয়েন্সি" নির্ধারণ করতে পারে (যেমন mp3 ফাইল)?

উদাহরণস্বরূপ, এটি কুকুর-হুইসেল -0 ফাইল বিশ্লেষণ করতে এবং ফাইলের মধ্যে সর্বাধিক ফ্রিকোয়েন্সি মোটামুটি z 12000 হার্জ হয় তা নির্ধারণ করতে সক্ষম হওয়া উচিত ।

এছাড়াও, এটি পিয়ানো.এমপি 3 বিশ্লেষণ করতে এবং সর্বোচ্চ নোট নির্ধারণ করতে সক্ষম হওয়া উচিত ।

উত্তর:


13

আর ক্রস প্ল্যাটফর্ম এবং ফ্রি / ওপেন সোর্স।

এটি লোড করুন এবং লোড করুন tuneRএবং seewaveলাইব্রেরিগুলি (প্যাকেজ ম্যানেজার থেকে এটি ইনস্টল না করা থাকলে ইনস্টল করুন)।

library(tuneR)
library(seewave)

তারপরে, আপনার এমপিথ্রি বা ডাব্লুএইভি ফাইলটি লোড করুন:

w = readMP3("dog-whistle-0.mp3")
w = readWave("dog-whistle-0.wav")

এখন, বর্ণালী এবং এর শিখরগুলি প্লট করুন:

fpeaks(meanspec(w), nmax=1)

ফলাফল:

সংখ্যার ফলাফল:

fpeaks(meanspec(w), nmax=1, plot=FALSE)
12.05859

উপরেরটি কেবল অ-বাদ্যযন্ত্রের ডেটা নিয়ে কাজ করে। আপনি যখন সংগীতের ফ্রিকোয়েন্সি বিশ্লেষণ করেন, আপনি খুঁজে পাবেন যে সর্বাধিক ফ্রিকোয়েন্সিগুলি সর্বদা জড়িত উপকরণ (গুলি) এর উপর নির্ভর করে সর্বদা 12-20 kHz এর কাছাকাছি থাকবে। তবে, এই সর্বোচ্চ ফ্রিকোয়েন্সিটি আপনাকে যে নোটটি বাজানো হচ্ছে তার একটি প্রাক্কলন দেয় না, যেহেতু একটি বাদ্যযন্ত্র নোট, যখন কোনও যন্ত্র দ্বারা বাজানো হয়, একাধিক ফ্রিকোয়েন্সি নিয়ে গঠিত।

এটি একটি যন্ত্রের তথাকথিত "টিম্বব্র" এবং আপনি দেখতে পাবেন যে একটি বাঁশির দ্বারা 440 হার্জেডের একটি এ বৈদ্যুতিক গিটার দ্বারা বাজানো একটি এর তুলনায় বিভিন্ন ফ্রিকোয়েন্সি উপাদানগুলিকে অন্তর্ভুক্ত করবে।

আপনার সেরা বাজি হ'ল স্লাইডিং টাইম উইন্ডোজগুলির উপরে ফ্রিকোয়েন্সি শিখরগুলি দেখে একটি প্রভাবশালী ফ্রিকোয়েন্সি বিশ্লেষণ চালানো এবং সর্বোচ্চটি কোথায় ঘটে তা পরীক্ষা করে।

যদিও "সময়ের সাথে সাথে ফ্রিকোয়েন্সি" বলে কোনও জিনিস নেই। আপনি নির্দিষ্ট স্লাইডিং টাইম উইন্ডোগুলির উপর কেবল গড় (বা প্রভাবশালী) ফ্রিকোয়েন্সি প্লট করতে পারেন । স্যুওয়েভ সময়ের উইন্ডো নির্বাচন করার ক্ষেত্রে বেশ কয়েকটি কার্যকারিতা সরবরাহ করে তবে এটি জটিল হয়ে যায়।

আপনি ব্যবহার করতে পারেন

s = specprop(meanspec(w, from=10, to=11)) 

10 থেকে 11 সেকেন্ডের মধ্যে বর্ণালী বৈশিষ্ট্যগুলি পেতে এবং তারপরে কল করতে s$centroidবা s$meanসেই নির্দিষ্ট সময়ের উইন্ডোর সেন্ট্রয়েড বা গড় ফ্রিকোয়েন্সি পেতে (যদিও অডিও বিশ্লেষণের জন্য 1 সেকেন্ড বেশ বড়)।

যদি আপনার ওয়েভ ফাইলটি 44.1 কেএজেডজ স্যাম্পলিং ব্যবহার করে তবে আপনি এটি গণনা প্রচেষ্টা হ্রাস করতে উদাহরণস্বরূপ করতে পারেন, উদাহরণস্বরূপ 16 কেজি হার্জ।

w = downsample(w, 16000)

তবে মনে রাখবেন যে নাইকুইস্ট উপপাদ্য অনুসারে , এখন সর্বোচ্চ প্রতিনিধিত্ব করা যায় 8 কেএইচজেড 8

আপনি একটি পিচ সনাক্তকরণ সফ্টওয়্যারও সন্ধান করতে পারেন। ভালো লেগেছে এই এক , যদিও যা ম্যাটল্যাব প্রয়োজন।


এর পরিবর্তে বিটিডব্লিউ fpeaks, আপনি কি সচেতন হন যদি এমন কোনও ফাংশন থাকে যা সময়ের সাথে ফ্রিকোয়েন্সিটির গ্রাফ প্লট করে?
পেসিয়ার

আমার আপডেট দেখুন। এটা তুচ্ছ নয়। দুঃখিত, আমি আশেপাশে আরও ভাল কিছু আছে কিনা তা জানার জন্য অডিও নিয়ে এত বেশি কাজ করিনি।
slhck

8

আপনি কি অস্পষ্টতা চেষ্টা করেছেন ? এটি একটি ফ্রিওয়্যার সরঞ্জাম যা বিশ্লেষণ -> প্লট স্পেকট্রাম ... থেকে অ্যাক্সেস করা প্লট স্পেকট্রাম কমান্ড সহ কয়েকটি মোটামুটি পরিশীলিত বিশ্লেষণ সরঞ্জাম রয়েছে ।

স্ক্রিনশট

নোট করুন যে আপনি ডাব্লুএইভি সংস্করণের সাথে তুলনা করে ফাইলের এমপি 3 সংস্করণের সাথে বিভিন্ন ফলাফল পেয়েছেন কারণ এমপি 3 কম্প্রেশনটি তরঙ্গরূপটি পরিবর্তন করেছে এবং শিল্পকর্মগুলি / আলিয়াসিং প্রবর্তন করেছে।

সম্পাদনা: আপনি যে লিখিত শব্দগুলি লিঙ্ক করেছেন সেগুলি এর জন্য ভাল উদাহরণ নয়। উচ্চতর ফ্রিকোয়েন্সি ফাইলগুলি কেবল 44.1KHz এ নমুনাযুক্ত যা মানব শ্রবণ অনুসারে তৈরি হয় (প্রায় 20KHz সর্বোচ্চ)। নমুনার হার বাড়ানো ছাড়া আপনি আল্ট্রাসাউন্ড ফ্রিকোয়েন্সি উপস্থাপন করতে পারবেন না।


হুম, এটি পিয়ানো.এমপি 3 ফাইলটি নিয়ে কাজ করছে বলে মনে হচ্ছে না । আমার জন্য এটি 10121 হার্জেড (ডি # 9) স্ক্রিনশুট.এম / ইউজেজেড 2 এন 0 দেখায় , তবে এটি অত্যন্ত সম্ভাবনা নয় কারণ পিয়ানোতে বৃহত্তম চাবিটি সি 8 (4186Hz)। আমি কি কিছু ভুল করছি?
পেসারিয়ার

3
@ পেসারিয়ার না, তবে আপনি আপনার প্রশ্নটি কিছুটা পরিবর্তন করেছেন। কুকুরের হুইসেলের নমুনাটি সনাক্ত করা সহজ কারণ বর্ণালীতে সর্বোচ্চ চূড়া সহ ফ্রিকোয়েন্সিও সর্বোচ্চ ফ্রিকোয়েন্সি এবং একই সাথে প্রভাবশালী নোট। সংগীতের জন্য, সর্বোচ্চ ফ্রিকোয়েন্সি অগত্যা সর্বোচ্চ নোট নয়, কারণ কোনও যন্ত্র দ্বারা বাজানো একটি সংগীত নোট একাধিক ফ্রিকোয়েন্সি নিয়ে গঠিত।
স্ল্যাক করুন

@ এসএলএইচসি আইসি, আমি ভেবেছিলাম আমাদের যদি ফ্রিকোয়েন্সি থাকে তবে আমরা নোটটি অনুমান করতে পারি, দেখে মনে হচ্ছে এটি এতটা সোজা নয় ..
পেসারিয়ার

@Pacerier: যদি আপনি সেট ফাইলের আকার একটি উচ্চ মান আমি বিশ্বাস করি আরো সুনির্দিষ্ট ফলাফল দিতে এবং কিছু সুরবিজ্ঞান নিষ্কাশন হতে পারে।
জেমস পি

2
@ পেসারিয়ার না, এটি সত্যিকারের মতো সোজা নয়। পিচ সনাক্তকরণের জন্য আপনাকে প্রথমে তরঙ্গরূপটি একটি ফ্রিকোয়েন্সি স্পেকট্রামে (ফাস্ট ফুরিয়ার ট্রান্সফর্ম) রূপান্তর করতে হবে, তারপরে ফিল্টারগুলি প্রয়োগ করুন (বেশিরভাগ লো-পাস) এবং ফিল্টারগুলির আরও একটি রাউন্ড। সময়ের সাথে সাথে আপনি যদি এমন কোনও সরঞ্জাম খুঁজে না পান যা পিচটি অনুসরণ করে, আপনি যা খুঁজছেন তা সত্যই শক্ত হয়ে যাবে। আপনি মেলোডিনের মতো ভোকাল সংশোধন সরঞ্জামগুলিতে সন্ধান করতে পারেন ।
slhck
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.