বাস্তব সময়ে নিকট-মানব নির্ভুলতার সাথে অডিও সিগন্যালের ফ্রিকোয়েন্সি উপাদানগুলি সরিয়ে নেওয়ার সর্বাধিক দক্ষ উপায়

14

আমি কীভাবে (সম্ভব হলে) একটি এফএফটি-জাতীয় পদ্ধতিতে একটি স্বেচ্ছাসেবী অডিও নমুনার (সাধারণত সঙ্গীত) ফ্রিকোয়েন্সি উপাদানগুলি বের করার চেষ্টা করার চেষ্টা করছি, তবে এফএফটি অ্যালগরিদম সম্পর্কে আমার গবেষণায়, আমি শিখছি যে এটি কিছুটা ভুগছে এই উদ্দেশ্যে কঠোর বিধিনিষেধ।

এফএফটি উপস্থিত রয়েছে এমন 3 টি সমস্যা রয়েছে:

যেহেতু এফএফটি বিন-রেজোলিউশনটি আপনার উইন্ডোর আকারের সমান, বেশ যুক্তিসঙ্গত নির্ভুলতা অর্জনের জন্য (বলুন 1 হার্জ), আপনার একটি অযৌক্তিক দীর্ঘ উইন্ডো প্রয়োজন (বলুন 1 সেকেন্ড)। এর অর্থ আপনি দ্রুত স্থানান্তরকারী বা নতুনভাবে চালু হওয়া ফ্রিকোয়েন্সি সনাক্ত করতে পারবেন না। এর অর্থ হ'ল সমস্যাটি দ্রুত সিপিইউ এবং উচ্চতর নমুনা-হারের মাধ্যমে সমাধান করা যায় না - এই সীমাবদ্ধতাটি সময়ের সাথে অন্তর্ভুক্ত।
মানুষ ফ্রিকোয়েন্সি লগারিদমভাবে উপলব্ধি করে তবে এফএফটি বিনগুলি রৈখিকভাবে ব্যবধানে থাকে। উদাহরণস্বরূপ, আমাদের শ্রবণের নিম্ন প্রান্তে 20hz এর পার্থক্য বিশাল , যেখানে উচ্চ প্রান্তে 20hz এর পার্থক্য দুর্ভেদ্য। সুতরাং কম ফ্রিকোয়েন্সিগুলিতে আমাদের প্রয়োজনীয় নির্ভুলতা পেতে আমাদের উচ্চ ফ্রিকোয়েন্সিগুলির তুলনায় আমাদের আরও অনেক বেশি গণনা করতে হবে।
এফএফটি বিনের মধ্যে ইন্টারপোল্ট করে এই সমস্যার কিছু সমাধান করা যেতে পারে। এটি অনেকগুলি মিউজিকাল অডিওর জন্য কাজ করতে পারে, কারণ ফ্রিকোয়েন্সিগুলি প্রায়শই অনেক দূরে দূরে থাকে এবং তাই 1 এর বেশি কোনও ফ্রিকোয়েন্সি এক জোড়া জোড়ায় ফাঁস হয় না। তবে এটি সর্বদা ক্ষেত্রে হবে না, বিশেষত পার্সুসিভ যন্ত্রগুলির মতো অজমনীয় শব্দের জন্য। সুতরাং প্রকোপ প্রকৃতপক্ষে কেবল অনুমান করা।

আমি ডিএফটি / এফএফটি অ্যালগরিদম সম্পর্কে যা বুঝি সেগুলি থেকে আউটপুটগুলি (বিন অ্যাম্প্লিটিউডস) কার্যকরভাবে প্রতিটি বিনের ফ্রিকোয়েন্সিতে সাইন / কোসিনের সম্পর্ক রয়েছে। এটি আমাকে আঘাত করে যে যদি অ্যালগরিদমটি আবার ডিজাইন করা যায় যাতে বিন ফ্রিকোয়েন্সিগুলি অ-রৈখিকভাবে ফাঁক করে দেওয়া হয় (যেমন আমরা সাইনস / কোসাইনগুলির বিভিন্ন সেটকে সংযুক্ত করি), তবে আমরা সমস্ত ফ্রিকোয়েন্সিগুলিতে পাইস্কোঅচুস্টিক্যালি সমান রেজোলিউশন অর্জন করতে পারি। এটি কি সম্ভব, বা এটি জড়িত গণিত সম্পর্কে আমার অসম্পূর্ণ বোঝার ভিত্তিতে একটি পাইপ-স্বপ্ন?

আমি অনুমান করি যে আমি আগ্রহী প্রতি একক ফ্রিকোয়েন্সিতে সাইন / কোসাইনকে সংযুক্ত করে ব্রুট-ফোর্সের সাথেও সমস্যাটি সমাধান করতে পারি I'm আমি এখানে গণিতগুলিতে খুব বেশি আঁকড়ে নেই। এটা কি সম্ভব? দক্ষতা কি ধরণের? এটা কি আমার সমস্যার সমাধান করবে?

আরও সঠিক, রিয়েল-টাইম, সংকেতের ফ্রিকোয়েন্সি পঁচনের জন্য আলাদা উপায় আছে কি? সিপিইউ দক্ষতা একটি উদ্বেগ, তবে প্রধান উদ্বেগ নয় - এটি তাত্ত্বিকভাবে আদৌ করা যায় কিনা তা নিয়ে আমি আংশিক আগ্রহী। যাইহোক, একটি আধুনিক ডেস্কটপ মেশিনে রিয়েলটাইমের ক্ষেত্রে সম্ভাব্য এমন কিছু আদর্শ হতে পারে।

— bryhoyt
সূত্র

3

আপনি কোন সমস্যাটি সমাধান করার চেষ্টা করছেন? f0 সনাক্তকরণ, একাধিক- f0 সনাক্তকরণ (প্রতিলিপি জন্য), জ্যা স্বীকৃতি, টিম্বব্রে মডেলিং ...? এর মধ্যে কয়েকটি সমস্যার জন্য অ্যাড-হক সমাধান রয়েছে। আপনি কি ইনভারটিবিলিটি (কোন বিশ্লেষণ-> রূপান্তর-> পুনরায় সংশ্লেষ কাঠামোতে ব্যবহৃত হতে হবে) সম্পর্কে যত্নশীল?

— পিকনেটস

আমি যে সমস্যাটি সমাধান করার চেষ্টা করছি তা স্বীকার না করে বরং উন্মুক্ত। আপনার বেশিরভাগ তালিকাকে কভার করে আমি ডিজিটাল সঙ্গীতে সাধারণ আগ্রহী। তবে আমার অস্পষ্টতা আংশিকভাবে আমার কী করা যেতে পারে এবং আপনার উল্লিখিত প্রতিটি সমস্যা সমাধানের সুনির্দিষ্ট শিল্প-মানক বা সর্বোত্তম উপায়গুলি সম্পর্কে আমার জ্ঞানের অভাবের কারণে (আমি এই প্রশ্ন জিজ্ঞাসা না করা পর্যন্ত, আমি সবসময় এফএফটি ছিলাম তা অনুমান করেছি )। তবে আপনার কাছে আমার সবচেয়ে আগ্রহের তালিকার আইটেমটি হল টিম্বব্রে মডেলিং। আমি রেকর্ডিংয়ে একই সাথে শোনানো জটিল টিম্ব্রস বের করার উপায়গুলিও খুঁজে পেতে চাই। পুনরায় সংশ্লেষ উত্তেজনাপূর্ণ। এআই অ্যালগরিদমগুলি আগ্রহী।

— bryhoyt

আরও একটি নির্দিষ্ট সমস্যা যা আমি অতীতে সমাধান করার চেষ্টা করেছি এবং আবারও আবার চেষ্টা করতে চাই: আমি মাইক্রোফোনে রেকর্ডকৃত একদল খেলোয়াড় বা গায়কদের সাথে রিয়েল-টাইমে "ইমপ্রুভ" করার জন্য একটি প্রোগ্রাম লিখতে চাই। আমার কম্পিউটারটি আমার সাথে একটি সাইন "হুইসেল" রাখার মতোই পেয়ে গেছে, উল্লেখযোগ্যভাবে বিলম্ব হয়েছে এবং সুরের বাইরে চলে গেছে। এ জাতীয় সংশোধন সঠিকভাবে অন টিউন ও অন-বিট করা অতীব গুরুত্বপূর্ণ। অবশ্যই, এটি অর্জনের অন্যান্য উপায় রয়েছে (প্লেয়াররা ডিজিটাল যন্ত্র বাজায় বা কম্পিউটারকে কিছু "অভ্যন্তরীণ তথ্য" দেয় যেমন প্রাক-সেট জ্যোতি অগ্রগতি ইত্যাদি) তবে এটি আমার লক্ষ্য নয়।

— bryhoyt

"অ্যালগরিদমটি আবার ডিজাইন করা যেতে পারে যাতে বিন ফ্রিকোয়েন্সিগুলি অ-রৈখিকভাবে ফাঁক করে দেওয়া যায়, তবে আমরা সমস্ত ফ্রিকোয়েন্সিগুলিতে পাইস্কোঅচুস্টিক্যালি সমান রেজোলিউশন অর্জন করতে পারি।" অবিচ্ছিন্ন মরলেট তরঙ্গলেটের রূপান্তর মত শোনাচ্ছে

— এন্ডোলিথ

5

আমি যেমন আগের পোস্টে মন্তব্য করেছি, "সংক্ষিপ্ত মেয়াদ ফুরিয়ার ট্রান্সফর্ম" হিসাবে পরিচিত সময়-ফ্রিকোয়েন্সি বিশ্লেষণ পদ্ধতিটি আপনার সিগন্যাল বিশ্লেষণ করে একটি ফিল্টার ব্যাঙ্কের সমতুল্য । আকার এর প্রদত্ত বিশ্লেষণ উইন্ডো , ফ্রিকোয়েন্সি এর ফিল্টারটি হল: $X$ $x$ $w_n$ $N$ $k/N$

h_{n} = w_{- n} e^{j 2 π \frac{n k}{N}}

$h_n=w_{−n}e^{j2\pi\frac{nk}{N}}$

স্বাভাবিক বিশ্লেষণ উইন্ডোগুলি (Hann, Hamming, অথবা এমনকি আয়তক্ষেত্র), একটি কম পাস ফিল্টার এই মিলা, সঙ্গে কাটা ফ্রিকোয়েন্সি প্রায় জন্য , যা ফ্রিকোয়েন্সি বিন "স্থানান্তরিত" হয় $1/N$ $k$ (জটিল ক্ষতিকারক মড্যুলেশনের জন্য ধন্যবাদ) অতএব, একটি ব্যান্ড-পাস ফিল্টার বাড়ে।

এই মুহুর্তে, মানুষের উপলব্ধি প্রতিবিম্বিত করার বিষয়ে আপনার উদ্বেগের সরাসরি উত্তর দেওয়ার জন্য, কিছু লোক ["ধ্রুবক-কি রূপান্তর" (সিকিউটি)] [ব্রাউন 91] পেয়েছেন। এটি তার ফিল্টার ব্যাঙ্ক ব্যাখ্যায় এফটি হিসাবে একই নীতি উপর নির্ভর করে। তবে কেন্দ্রগুলি "র" সাধারণ "এফটি হিসাবে রৈখিকভাবে ফাঁকা নয়, বরং লগ 2-স্পেসযুক্ত। স্কেল তারপর ঘনিষ্ঠভাবে পশ্চিমা বাদ্যযন্ত্র স্কেল এর সাথে সম্পর্কিত হয়: যদি এক তা চয়ন , তাহলে আমরা অষ্টক প্রতি 12 ফ্রিকোয়েন্সি (? একটি ঘণ্টা রিং :-)) প্রাপ্ত, এবং ব্যান্ডউইথ সেট করা হয় বলুন, $f_k$ $f_{k+1} = 2^{1/12} f_k$ । আপনার প্রয়োজন অনুসারে আপনি অন্যান্য কেন্দ্রগুলিও চয়ন করতে পারেন best $\frac{2^{1/12} - 1}{2} f_k$

আপনি সিকিউটিটির বাস্তবায়নগুলি এখানে এবং সেখানে সন্ধান করতে পারেন, অধ্যাপক কালাপুরির সাম্প্রতিক একটি, এখানে একটি সুনির্দিষ্ট বিপরীতমুখী আসার জন্য পাওয়া যাবে । টেলিকম প্যারিসটেকের অডিও গ্রুপটিরও অধ্যাপক প্রডোর একটি বাস্তবায়ন রয়েছে , তবে আমি এখনও এটি চেষ্টা করি নি।

[ব্রাউন 91] জে ব্রাউন, "কন্সট্যান্ট কিউ স্পেকট্রাল ট্রান্সফর্মের গণনা", আমেরিকান অ্যাকোস্টিকাল সোসাইটির জার্নাল, 1991, 89, 425-434

সম্পাদনা 20121014: আপনার (bryhoyt এর) প্রশ্নের কিছু উত্তর এবং মন্তব্য।

মূল প্রশ্নের আপনার নিজস্ব মন্তব্যে কেবলমাত্র সাধারণ ধারণা: আপনি অনেকগুলি অ্যাপ্লিকেশনগুলিতে আগ্রহী বলে মনে হয়, যা আমার কাছে, একেবারে তুচ্ছ সমস্যার সমাধান করার নয়। "টিম্বব্র মডেলিং" আমার কাছে বক্তৃতা স্বীকৃতি বা এর মতো আরও সম্পর্কিত, যার জন্য পিচ বা ফ্রিকোয়েন্সি রেজোলিউশন বা নির্ভুলতা কোনও সমস্যার বেশি নয় (এমএফসিসি কীভাবে সাধারণত গণনা করা হয় তা বিবেচনা করুন)।

শীর্ষস্থানীয় গবেষকরাও বিবেচনা করুন ( এফ। পাচেট এবং কয়েকজন উদ্ধৃত করার জন্য ফ্রান্সের আইআরসিএএম এ রেপমাস টিম ) স্বয়ংক্রিয়ভাবে উন্নতি ও অনুদানের বিষয়ে কাজ করছেন তাও বিবেচনা করুন: কাজটি অসম্ভব নয়, তবে অনেক ক্ষেত্রে দক্ষতার প্রয়োজন। সংক্ষিপ্তসার হিসাবে, একটি সাধারণ ব্যবস্থায় মানব শ্রুতি সিস্টেমের অনুকরণ করা (কমপক্ষে) প্রয়োজন, শব্দ / সংগীত / পিচ / ছন্দ উপলব্ধি প্রয়োগ করা, সঙ্গীত তত্ত্ব সম্পর্কে জানতে এবং পূর্ববর্তী সমস্ত পদক্ষেপের অনুমানের ভিত্তিতে সিদ্ধান্ত গ্রহণ করা প্রয়োজন। ফুরিয়ার ট্রান্সফর্ম, বা যেকোন সিগন্যাল উপস্থাপনা হ'ল শেষ লক্ষের দিকে মাত্র একটি (ক্ষুদ্র) পদক্ষেপ - এবং সম্ভবত আমার মতে, এখন পর্যন্ত সবচেয়ে ভাল বোঝা গেছে।

এটি বলেছিল, এখনও সম্ভাবনা রয়েছে যে প্রত্যেকে প্রকৃতপক্ষে যা ঘটেছিল তার থেকে অনেক বেশি তাকিয়ে রয়েছে এবং আপনি এটিকে একটি সহজ, মার্জিত সমাধানে ক্র্যাক করতে পারেন! এটি শেষ হয়ে গেলে এ সম্পর্কে প্রকাশ করতে ভুলবেন না! :-)
44kHz এ 0.1 এর একটি নমুনা বিভিন্ন ফ্রিকোয়েন্সি ধারণ করতে যথেষ্ট to

$F_s / N = 44100/4410 = 10Hz$
এফএফটি কম এবং উচ্চ ফ্রিকোয়েন্সিগুলির জন্য এটি সনাক্ত করতে পারে না, তবে আপনি বলছেন যে অন্যান্য অ্যালগোরিদমগুলি পারেন: ট্রেড অফ কী?

সংক্ষিপ্ত উত্তর: সুরের অনুমানের উপর আমার থিসিসটি পড়ুন!

আরও কিছুটা ব্যাখ্যা করার জন্য: অনেকগুলি পিচ অনুমানের অ্যালগরিদম এফটি-র সীমাবদ্ধতার বাইরে চলে যায়, প্রক্রিয়া করার জন্য শব্দগুলি অনুমানের জন্য ধন্যবাদ। আমরা প্রত্যাশা করি প্রাকৃতিক শব্দগুলি (মানুষের ভয়েস, ওবো, স্যাক্স, পিয়ানো ...) একক সাইনোসয়েডের চেয়ে জটিল হবে। বেশিরভাগ পিচ শব্দগুলি কম বা কম সুরেলা হয় যার অর্থ এগুলি হ'ল সাইনোসয়েডগুলির পরিমাণ হিসাবে আদায় করা যেতে পারে যার ফ্রিকোয়েন্সি মূল ফ্রিকোয়েন্সিটির একাধিক।

বর্ণালী অঙ্কগুলি, বর্ণালী পণ্য বা স্বতঃসম্পর্কিত ফাংশনগুলির মতো সনাক্তকরণ ফাংশনগুলি ব্যবহার করার পদ্ধতিগুলির সাথে পিচটি নির্ধারণ করার সময় এই সুরেলাগুলি বিবেচনায় নেওয়া কার্যকর। কেউ সম্প্রতি সম্পর্কিত বিষয় শুরু করেছেন।
ট্রেড অফস কি? আরও সুনির্দিষ্টভাবে, আমি যুক্তিযুক্ত সংক্ষিপ্ত উইন্ডোটির জন্য কোন স্তরের ফ্রিকোয়েন্সি নির্ভুলতা আশা করতে পারি? (আমি বুঝতে পারি সিকিউটিতে উইন্ডোর আকার পরিবর্তনশীল - কতটা?) আরও সুনির্দিষ্টভাবে বলতে গেলে, আমি আমার কাছাকাছি যেতে কতটা সক্ষম হব। 0.005s একটি উইন্ডো দিয়ে 0.5% ফ্রিকোয়েন্সি পার্থক্যটির লক্ষ্য?

যেমন আগেই বলা হয়েছিল, 0.005s উইন্ডো সহ, আপনি "ফ্রিকোয়েন্সি ফাঁস" এর 200Hz এর মতো কিছু আশা করতে পারেন। এটি কেবল তখনই সমস্যা যখন আপনার কাছে 200Hz এর কাছাকাছি ফ্রিকোয়েন্সি সহ 2 টি সাইনোসয়েড থাকে যেমন এফটি 2 টি পৃথক সাইনোসয়েডগুলি প্রদর্শন করতে সক্ষম হবে না। ঠিক আছে, আমরা আপনার 0.5% থেকে দূরে (উপায় দ্বারা, একটি সেমিটোন ফ্রিকোয়েনির 6% এ রয়েছে!) এবং আপনার উদ্দেশ্যে 0.005s সত্যিই কিছুটা ছোট। তবে, আপনি যদি প্রতি 0.005 সেকেন্ডে একটি প্রাক্কলন সরবরাহ করতে চান তবে আপনি সাধারণত স্পিচ / মিউজিক প্রসেসিংয়ের মতো দীর্ঘতর ওভারল্যাপিং ফ্রেমগুলি প্রক্রিয়া করতে পারেন। আপনি কি আসলে এটি চান?

$N_{k} = \frac{F_{s}}{f_{k} (2^{1 / B} - 1)}$ $N_k = \frac{F_s}{f_k (2^{1/B} - 1)}$ $B$ $B=48$ $f_k=100Hz$ প্রায় 0.7s দীর্ঘ উইন্ডোজ প্রয়োজন। এটি বলার অপেক্ষা রাখে না যে আমরা তখন কিছুটা অস্থায়ী রেজোলিউশন হারাব ... তবে যেমনটি আগেই বলেছি, আমরা যদি শব্দটির কাঠামোটি ভুলে যাই তবে এটিই একটি সমস্যা। অধিকন্তু, সাইকোঅাকোস্টিকরা 500Hz এর নীচে মানবেরা সাইনোসাইডগুলিকে এত ভালভাবে আলাদা করে না: এমনকি মানুষকে সেখানে চ্যালেঞ্জ করা হয়েছে। অবশ্যই, আমরা আশা করতে পারি যে আমাদের কম্পিউটারগুলি আমাদের চেয়ে আরও ভাল করতে পারে, তবে এখানে, আমরা একটি কঠিন সমস্যার মুখোমুখি!
শেষ অবধি, লক্ষ্য করুন যে একটি শব্দের সময়-ফ্রিকোয়েন্সি উপস্থাপনা গণনা করার অন্যান্য উপায়গুলি উদাহরণস্বরূপ গ্যাম্যাটোন ফিল্টার-ব্যাংককে বিবেচনা করুন। আমি পূর্বে যে সিকিউটিটির কথা উল্লেখ করেছি তার সুবিধা হ'ল রূপান্তর এবং এর বিপরীত উভয়ের জন্য সফ্টওয়্যার রয়েছে। ব্যক্তিগতভাবে, আমি এখনও এসটিএফটির সাথে লেগে আছি, যদিও এর সরলতার জন্য এবং এ পর্যন্ত, উত্স বিচ্ছিন্নতার জন্য আমার কখনও কম ফ্রিকোয়েন্সিতে আরও ভাল রেজোলিউশনের প্রয়োজন হয়নি।

[শোয়েখুবার2010] শোয়ারখুবার, সি এবং কালাপুরি, এ। "সংগীত প্রসেসিংয়ের জন্য কনস্ট্যান্ট-কি রূপান্তরিত সরঞ্জামবক্স,", সপ্তম সাউন্ড এবং মিউজিক কম্পিউটিং কনফারেন্স, বার্সেলোনা, স্পেন, ২০১০।

— জিন লুইস ডুরিইউ
সূত্র

কিছুটা মন্তব্য: সিকিউটিটি আপনার উদ্বেগের 1 এবং 2 পয়েন্টটি সমাধান করতে সহায়তা করতে পারে তবে পয়েন্ট 3 নয় point পয়েন্ট 3 হিসাবে, সময় এবং ফ্রিকোয়েন্সি রেজোলিউশনের মধ্যে সর্বদা একটি বাণিজ্য থাকে এবং আপনি যদি কম ক্ষেত্রে একটি ভাল ফ্রিকোয়েন্সি রেজোলিউশন চান ফ্রিকোয়েন্সি উপাদানগুলি, আপনাকে সম্ভবত সময় রেজোলিউশন হারাতে হবে need এখন, পিচ অনুমানের জন্য, অন্য কিছু সমাধান হতে পারে, আপনি যদি আগ্রহী হন তবে আপনি আমার পিএইচডি

— থিসিসটিতে

আমি বেশ বুঝতে পারি না। আমি জানি যে আপনি নিখরচায় কিছুই পান না - আমি কোনও অ্যালগরিদমটি কমপক্ষে নিম্নতম ফ্রিকোয়েন্সিটির কমপক্ষে দু'দিক সময় ধরে ভাল রেজোলিউশনে নমুনা না করে এমন ফ্রিকোয়েন্সিগুলি সঠিকভাবে সনাক্ত করার আশা করতে পারি না। তবে ৪৪ কেএজেডজেটে 0.1 এর একটি নমুনা বিপুল পরিমাণে ফ্রিকোয়েন্সি ধারণ করার জন্য যথেষ্ট, যা কোনও মানুষ নির্ভুলভাবে পার্থক্য করতে পারে (আপেক্ষিক ভাষায় - "এখানে একটি 5 তম", "এখানে একটি ফ্ল্যাট হ্রাস 4 র্থ" ইত্যাদি) তথ্য প্রমাণ করে ing কোথাও আছে। এফএফটি কম এবং উচ্চ ফ্রিকোয়েন্সিগুলির জন্য এটি সনাক্ত করতে পারে না, তবে আপনি বলছেন যে অন্যান্য অ্যালগোরিদমগুলি পারেন: ট্রেড অফ কী?

— bryhoyt

উপরের সমস্ত দুর্দান্ত উত্তরের মধ্যে সিকিউটিটি আমার কাছে জিজ্ঞাসা করা প্রশ্নটির সবচেয়ে সঠিক ফিট মনে হচ্ছে। ট্রেড অফস কি? আরও সুনির্দিষ্টভাবে, আমি যুক্তিযুক্ত সংক্ষিপ্ত উইন্ডোটির জন্য কোন স্তরের ফ্রিকোয়েন্সি নির্ভুলতা আশা করতে পারি? (আমি বুঝতে পারি সিকিউটিতে উইন্ডোর আকার পরিবর্তনশীল - কতটা?) আরও সুনির্দিষ্টভাবে বলতে গেলে, আমি আমার কাছাকাছি যেতে কতটা সক্ষম হব। 0.005s একটি উইন্ডো দিয়ে 0.5% ফ্রিকোয়েন্সি পার্থক্যটির লক্ষ্য? (এটি যখন আমার কোনও সুর শোনার বা অফ-বিটের বাইরে শুনার শুরু হতে পারে তখনই আমার মোটামুটি

— অনুমান

5

প্রথমত, ক্লাসিক স্বল্পমেয়াদী ফুরিয়ার রূপান্তর পদ্ধতির সাথে, অন্তরঙ্গকরণের বিকল্প রয়েছে - বিশেষ কৌশলগুলিতে তাত্ক্ষণিক ফ্রিকোয়েন্সি পুনরুদ্ধারের জন্য পর্যায়ে তথ্য ব্যবহার করা হয় ( এই প্রশ্নটি দেখুন ) যা আপনাকে খুব নির্ভুলভাবে একটি বর্ণনামূলক শিখরের অবস্থান দিতে পারে যা ছাড়াই এফএফটি আকার বৃদ্ধি। অপূর্ণতা, যেমনটি আপনি সঠিকভাবে বলেছেন, এটি হ'ল আপনি পার্শ্ববর্তী শিখরকে বৈষম্য করার ক্ষমতা বাড়িয়ে দিচ্ছেন না - তবে এফএফটি বিন সূচকের কেন্দ্রীয় ফ্রিকোয়েন্সি ব্যবহারের তুলনায় এটি ইতিমধ্যে দুর্দান্ত উন্নতি।

$\frac{sr}{FFT\_size}$

আর একটি ব্রুট-ফোর্স পদ্ধতির রয়েছে যা কাজ করে: উইন্ডোড জটিল জটিল তদন্তকারী (গ্যাবার ওয়েভলেট) দিয়ে আপনার সংকেতগুলি "অনুসন্ধান" করুন। এগুলি কেন্দ্রের ফ্রিকোয়েন্সি, কেন্দ্রের সময় এবং একটি ব্যান্ডউইথ দ্বারা চিহ্নিত করা হয় (যা সময়ের সাথে বা ফ্রিকোয়েন্সি জুড়ে তরঙ্গলিটি কীভাবে ছড়িয়ে পড়ে তা পরিমাপ করে)। আপনার সিগন্যাল এবং এই ওয়েভলেটগুলির মধ্যে অনেকগুলি অফসেট, ফ্রিকোয়েন্সি এবং আপনার পছন্দ মতো ব্যান্ডউইদথের মধ্যে অনেকগুলি, অনেকগুলি, অনেকগুলি সম্পর্কের মূল্যায়ন করতে হবে। ফলাফলটি খুব নমনীয় "টাইল্ড" এসটিএফটির সমান হবে যেখানে প্রতিটি সময়সীমা এবং প্রতিটি ফ্রিকোয়েন্সি-ব্যান্ডের জন্য একটি অনুকূল উইন্ডোর আকার নির্বাচন করা হয়। গণনা ব্যয় ছাড়াও, খারাপ দিকটি হ'ল কোনও দক্ষ অ্যালগরিদম নেই, এবং কোনও কার্যকরী অ্যালগরিদম নেই (আপনার অভিধানের দীর্ঘতম তরঙ্গিনীর মতো আপনাকে আগে থেকে অনেকগুলি নমুনা জানতে হবে)। আপনি যদি এই কৌশলগুলি নিয়ে পরীক্ষা করতে চান,এমপিটিকে ।

$k$

$k$
তারা সাদা শব্দের উপস্থিতিতে ভাল সঞ্চালন করে - বিশ্লেষণের আগে এটিকে সিগন্যালটি সাদা করার প্রয়োজন হয়; ফিল্টার ব্যাঙ্কের পৃথক চ্যানেলে বিশ্লেষণ সম্পাদন করাও সহায়তা করে।

এগুলি গণনামূলকভাবে ব্যয়বহুল, তবে মডেল অর্ডার এবং / অথবা শব্দ কম থাকলে তারা শর্ট উইন্ডোজ সহ অনলাইনে কাজ করতে পারে।

— pichenettes
সূত্র

4

ফ্রিকোয়েন্সি বা পিচ? ইতিমধ্যে মানব পিচ উপলব্ধি সম্পর্কিত প্রচুর গবেষণা পত্র এবং বই রয়েছে। কিন্তু, আইআইআরসি, মানুষ যদি পিচ মৌলিক না হয় তবে সঠিকভাবে "এক্সট্রাক্ট" ফ্রিকোয়েন্সিগুলিতে মন্দ হওয়ার ঝোঁক থাকে। এবং "ক্রিটিকাল ব্যান্ড" এর মধ্যে একাধিক ফ্রিকোয়েন্সি শিখর শব্দ হিসাবে অনুভূত হয়। সুতরাং "মানুষের নির্ভুলতার নিকটবর্তী" যে কোনও পদ্ধতিতে কিছু মানব উপলব্ধিমূলক অনুমান ব্যর্থতাও অন্তর্ভুক্ত থাকতে পারে।

একটি এফএফটি হ'ল ফিল্টারগুলির একটি ব্যাংক যা অরথোগোনালটি এবং ইনভারটিভিটির প্রয়োজনীয়তা না থাকলে অনেকগুলি উদ্দেশ্যে অনুকূল নয়। অন্য ফিল্টার ব্যাংকগুলি সম্ভব যদি আপনি এই দুটি (এবং মানুষের উপলব্ধি স্পষ্টভাবে না করে) যেমন মেল ফ্রিক্যোয়েন্সি ফিল্টার ব্যাঙ্কের প্রয়োজন হয় না। একবার কোনও মেল ফ্রিক্যোয়েন্সি ফিল্টার ব্যাঙ্ক দ্বারা একটি ফ্রিকোয়েন্সি শিখর চিহ্নিত হয়ে গেলে, এফএফটি আন্তঃবিবর্তন বা ফেজ ভোকার কৌশলগুলি দ্বারা আরও বিশ্লেষণ কোনও বিচ্ছিন্ন বর্ণালী ফ্রিকোয়েন্সি শিখরের ফ্রিকোয়েন্সি অনুমানটিকে পরিমার্জন করতে কার্যকর হতে পারে।

নোট করুন যে কোনও এফএফটির সাথে তুলনা করে একই সময়-ডোমেন ডেটার একই স্প্যানে ব্যবহৃত ফিল্টারিং কৌশলগুলির দ্বারা আর কোনও তথ্য সংগ্রহ করা হয় না। যা ঘটছে তা হ'ল তথ্য শুনানির সিস্টেমের "অসম্পূর্ণতা" বা অসঙ্গতিগুলির সাথে আরও ভালভাবে মেলে information

এবং ফ্রিকোয়েন্সিগুলির একটি সেট থেকে পিচ অনুমান করা সম্পূর্ণ ভিন্ন সমস্যা, আবার অনেকগুলি গবেষণামূলক গবেষণামূলক প্রবন্ধ এবং অডিওলজি সম্পর্কিত বইগুলির অধ্যায় এবং এই জাতীয় বিষয়।

পারফরম্যান্স সম্পর্কে আপনার প্রশ্নের শেষ অংশটি একটি রেড হেরিং হতে পারে। আজকাল কেউ সেল ফোন প্রসেসরে রিয়েল-টাইমে কয়েক ডজন এফএফটি এবং কয়েক ডজন বিভিন্ন ফিল্টার ব্যাংক করতে পারেন। সিপিইউ বিক্রেতাদের কাছ থেকে পাওয়া খুব দক্ষ এফএফটি লাইব্রেরি দেওয়া, 1000 এর "অতিরিক্ত" বিনের সাথে একটি এফএফটি একটি উল্লেখযোগ্যভাবে ছোট তবে আরও নিষ্পাপ-কোডেড ফিল্টার ব্যাঙ্কের চেয়ে বেশি দক্ষ হতে পারে।

— hotpaw2
সূত্র

খুব তথ্যপূর্ণ উত্তর, ধন্যবাদ। আমি পিচ এবং ফ্রিকোয়েন্সি মধ্যে পার্থক্য সম্পর্কে সচেতন, কিন্তু আপনার উত্তরটি সত্যতা কতটা নির্দিষ্ট প্রয়োজনীয়তার উপর নির্ভর করে শব্দটির উপর নির্ভর করে তা হাইলাইট করতে সাহায্য করেছিল। এটি আমার সম্প্রীতির জ্ঞানের সাথে সত্য যে, মানুষগুলি ফ্রিকোয়েন্সিগুলি নিষ্কাশনে যথেষ্ট খারাপ যেগুলি কোনও পিচ মৌলিক নয়। আমি একে অপরের থেকে এবং সুরের বহির্মুখী অন্তরগুলি (বিচ্ছিন্নতার তুলনায় আরও সহজে ব্যঞ্জনাত্মক অন্তর) থেকে সঠিকভাবে ইন-টিউন অন্তরগুলি আলাদা করতে পারি। তবে দুটি আউট-অফ টিউন ("ফ্ল্যাট", "খুব ফ্ল্যাট", "ধারালো" ইত্যাদি) আলাদা করতে আমার সমস্যা হয়।

— bryhoyt

2

অনেকগুলি বিকল্প রয়েছে তবে এটি আপনি যা করছেন তার উপর নির্ভর করে। শারীরিকভাবে, আমি তর্ক করব যে আমাদের কানগুলি এফএফটির চেয়ে সমান্তরাল ফিল্টার ব্যাঙ্কের মতো, যা তাদের ভাল সময় রেজোলিউশন দেয় এবং "ফোকাসিং" নামক একটি প্রক্রিয়া তাদেরকে ভাল ফ্রিকোয়েন্সি রেজোলিউশন দেয়। সুতরাং, কিছু ক্ষেত্রে, আপনি তাত্ত্বিকভাবে একটি ফিল্টার ব্যাংক ব্যবহার করতে পারেন, তবে এটি প্রক্রিয়াজাতকরণের জন্য প্রচুর প্রসেসিং আপনাকে প্রচুর ডেটা রেখে দেয়।

ওয়েভলেটগুলি বিশেষত দক্ষ এবং সম্পর্কিত ফিল্টারগুলির সেট হিসাবে দেখা সম্ভব। বাদ্যযন্ত্র এবং অডিও বিশ্লেষণের জন্য তরঙ্গপত্রগুলির সমস্যাটি হ'ল তারা সাধারণত আপনাকে কেবল 1 টি অক্টাভ রেজোলিউশন দেয় (যদিও আপনি এটি সম্পর্কে বিভিন্ন কাজ করতে পারেন, আমি সত্যই ওয়েভলেটগুলি অডিওতে বিশেষভাবে কার্যকর হতে দেখিনি)।

আর একটি পদ্ধতি হ'ল ওভারল্যাপিং এফএফটি উইন্ডো ব্যবহার করা। আপনি এফএফটি-এর ফ্রিকোয়েন্সি রেজোলিউশনটি কেবলমাত্র পরিমাণের তথ্যগুলিতে নয়, তবে পর্যায়ের তথ্যগুলিতে দেখে বাড়াতে পারেন। এটি আপনাকে অন্যথায় ব্যবহারের তুলনায় আরও বেশি খাটো উইন্ডোজ ব্যবহার করতে দেয়, যার ফলস্বরূপ আরও ভাল পারফরম্যান্স এবং ভাল সময় রেজোলিউশনের ফলাফল। ওভারল্যাপিং উইন্ডোগুলি সঠিকভাবে পুনরায় সংশ্লেষ করা শক্ত এবং পর্ব সম্পর্কে অনেক বেশি অনুমান করাও বিপজ্জনক হতে পারে। সে যাই হোক না কেন, এই ধরণের কৌশলগুলি জটিল সময়-ফ্রিকোয়েন্সি বিশ্লেষণ সমস্যার সমাধানের মূল বিষয়।

নির্দিষ্ট অ্যাপ্লিকেশনগুলির পাশাপাশি অন্যান্য বেশ কয়েকটি সরঞ্জাম রয়েছে।

— জর্জন রোচে
সূত্র

1

x_{n}

$x_n$

X

$X$

k

$k$

m

$m$

w_{n}

$w_n$

{এক্স}_{চ মি} = \underset{এন}{Σ} {এক্স}_{এন + + মি} W_{এন} ই^{- ঞ 2 π \frac{এন ট}{এন}}

$X_{fm} = \sum_n x_{n+m} w_n e^{-j2\pi\frac{nk}{N}}$

N

$N$

x_{n}

$x_n$

m

$m$

{এক্স}_{চ মি} = \underset{পি}{Σ} {এক্স}_{পি} W_{পি - মি} ই^{- ঞ 2 π \frac{(পি - মি) ট}{এন}} = \underset{পি}{Σ} {এক্স}_{পি} জ_{মি - পি}

$X_{fm} = \sum_p x_{p} w_{p-m} e^{-j2\pi\frac{(p-m)k}{N}} = \sum_p x_p h_{m-p}$

h_{n} = w_{- n} e^{j 2 π \frac{n k}{N}}

$h_n = w_{-n} e^{j2\pi\frac{nk}{N}}$ ফিল্টার ব্যাঙ্কের ব্যাখ্যা!

— জিন লুইস ডুরিরিউ

1

একটি এসটিএফটি একটি ফিল্টার ব্যাংক হতে পারে তবে সমস্ত ফিল্টারব্যাঙ্কগুলি এসটিএফটি নয়।

— বজর্ন রোচে