আমি যেমন আগের পোস্টে মন্তব্য করেছি, "সংক্ষিপ্ত মেয়াদ ফুরিয়ার ট্রান্সফর্ম" হিসাবে পরিচিত সময়-ফ্রিকোয়েন্সি বিশ্লেষণ পদ্ধতিটি আপনার সিগন্যাল এক্স বিশ্লেষণ করে একটি ফিল্টার ব্যাঙ্কের সমতুল্য । আকার এন এর প্রদত্ত বিশ্লেষণ উইন্ডো ডাব্লু এন এর জন্য , ফ্রিকোয়েন্সি k / N এর ফিল্টারটি হল:
h n = w - n eXxwnNk/N
hn=w−nej2πnkN
স্বাভাবিক বিশ্লেষণ উইন্ডোগুলি (Hann, Hamming, অথবা এমনকি আয়তক্ষেত্র), একটি কম পাস ফিল্টার এই মিলা, সঙ্গে কাটা ফ্রিকোয়েন্সি প্রায় জন্য , যা ফ্রিকোয়েন্সি বিন কেতে "স্থানান্তরিত" হয়1/Nk (জটিল ক্ষতিকারক মড্যুলেশনের জন্য ধন্যবাদ) অতএব, একটি ব্যান্ড-পাস ফিল্টার বাড়ে।
এই মুহুর্তে, মানুষের উপলব্ধি প্রতিবিম্বিত করার বিষয়ে আপনার উদ্বেগের সরাসরি উত্তর দেওয়ার জন্য, কিছু লোক ["ধ্রুবক-কি রূপান্তর" (সিকিউটি)] [ব্রাউন 91] পেয়েছেন। এটি তার ফিল্টার ব্যাঙ্ক ব্যাখ্যায় এফটি হিসাবে একই নীতি উপর নির্ভর করে। তবে কেন্দ্রগুলি "র" সাধারণ "এফটি হিসাবে রৈখিকভাবে ফাঁকা নয়, বরং লগ 2-স্পেসযুক্ত। স্কেল তারপর ঘনিষ্ঠভাবে পশ্চিমা বাদ্যযন্ত্র স্কেল এর সাথে সম্পর্কিত হয়: যদি এক তা চয়ন চ ট + + 1 = 2 1 / 12 চ ট , তাহলে আমরা অষ্টক প্রতি 12 ফ্রিকোয়েন্সি (? একটি ঘণ্টা রিং :-)) প্রাপ্ত, এবং ব্যান্ডউইথ সেট করা হয় বলুন, 2 1fkfk+1=21/12fk। আপনার প্রয়োজন অনুসারে আপনি অন্যান্য কেন্দ্রগুলিও চয়ন করতে পারেন best21/12−12fk
আপনি সিকিউটিটির বাস্তবায়নগুলি এখানে এবং সেখানে সন্ধান করতে পারেন, অধ্যাপক কালাপুরির সাম্প্রতিক একটি, এখানে একটি সুনির্দিষ্ট বিপরীতমুখী আসার জন্য পাওয়া যাবে । টেলিকম প্যারিসটেকের অডিও গ্রুপটিরও অধ্যাপক প্রডোর একটি বাস্তবায়ন রয়েছে , তবে আমি এখনও এটি চেষ্টা করি নি।
[ব্রাউন 91] জে ব্রাউন, "কন্সট্যান্ট কিউ স্পেকট্রাল ট্রান্সফর্মের গণনা", আমেরিকান অ্যাকোস্টিকাল সোসাইটির জার্নাল, 1991, 89, 425-434
সম্পাদনা 20121014: আপনার (bryhoyt এর) প্রশ্নের কিছু উত্তর এবং মন্তব্য।
মূল প্রশ্নের আপনার নিজস্ব মন্তব্যে কেবলমাত্র সাধারণ ধারণা: আপনি অনেকগুলি অ্যাপ্লিকেশনগুলিতে আগ্রহী বলে মনে হয়, যা আমার কাছে, একেবারে তুচ্ছ সমস্যার সমাধান করার নয়। "টিম্বব্র মডেলিং" আমার কাছে বক্তৃতা স্বীকৃতি বা এর মতো আরও সম্পর্কিত, যার জন্য পিচ বা ফ্রিকোয়েন্সি রেজোলিউশন বা নির্ভুলতা কোনও সমস্যার বেশি নয় (এমএফসিসি কীভাবে সাধারণত গণনা করা হয় তা বিবেচনা করুন)।
শীর্ষস্থানীয় গবেষকরাও বিবেচনা করুন ( এফ। পাচেট এবং কয়েকজন উদ্ধৃত করার জন্য ফ্রান্সের আইআরসিএএম এ রেপমাস টিম ) স্বয়ংক্রিয়ভাবে উন্নতি ও অনুদানের বিষয়ে কাজ করছেন তাও বিবেচনা করুন: কাজটি অসম্ভব নয়, তবে অনেক ক্ষেত্রে দক্ষতার প্রয়োজন। সংক্ষিপ্তসার হিসাবে, একটি সাধারণ ব্যবস্থায় মানব শ্রুতি সিস্টেমের অনুকরণ করা (কমপক্ষে) প্রয়োজন, শব্দ / সংগীত / পিচ / ছন্দ উপলব্ধি প্রয়োগ করা, সঙ্গীত তত্ত্ব সম্পর্কে জানতে এবং পূর্ববর্তী সমস্ত পদক্ষেপের অনুমানের ভিত্তিতে সিদ্ধান্ত গ্রহণ করা প্রয়োজন। ফুরিয়ার ট্রান্সফর্ম, বা যেকোন সিগন্যাল উপস্থাপনা হ'ল শেষ লক্ষের দিকে মাত্র একটি (ক্ষুদ্র) পদক্ষেপ - এবং সম্ভবত আমার মতে, এখন পর্যন্ত সবচেয়ে ভাল বোঝা গেছে।
এটি বলেছিল, এখনও সম্ভাবনা রয়েছে যে প্রত্যেকে প্রকৃতপক্ষে যা ঘটেছিল তার থেকে অনেক বেশি তাকিয়ে রয়েছে এবং আপনি এটিকে একটি সহজ, মার্জিত সমাধানে ক্র্যাক করতে পারেন! এটি শেষ হয়ে গেলে এ সম্পর্কে প্রকাশ করতে ভুলবেন না! :-)
44kHz এ 0.1 এর একটি নমুনা বিভিন্ন ফ্রিকোয়েন্সি ধারণ করতে যথেষ্ট to
Fs/N=44100/4410=10Hz
এফএফটি কম এবং উচ্চ ফ্রিকোয়েন্সিগুলির জন্য এটি সনাক্ত করতে পারে না, তবে আপনি বলছেন যে অন্যান্য অ্যালগোরিদমগুলি পারেন: ট্রেড অফ কী?
সংক্ষিপ্ত উত্তর: সুরের অনুমানের উপর আমার থিসিসটি পড়ুন!
আরও কিছুটা ব্যাখ্যা করার জন্য: অনেকগুলি পিচ অনুমানের অ্যালগরিদম এফটি-র সীমাবদ্ধতার বাইরে চলে যায়, প্রক্রিয়া করার জন্য শব্দগুলি অনুমানের জন্য ধন্যবাদ। আমরা প্রত্যাশা করি প্রাকৃতিক শব্দগুলি (মানুষের ভয়েস, ওবো, স্যাক্স, পিয়ানো ...) একক সাইনোসয়েডের চেয়ে জটিল হবে। বেশিরভাগ পিচ শব্দগুলি কম বা কম সুরেলা হয় যার অর্থ এগুলি হ'ল সাইনোসয়েডগুলির পরিমাণ হিসাবে আদায় করা যেতে পারে যার ফ্রিকোয়েন্সি মূল ফ্রিকোয়েন্সিটির একাধিক।
বর্ণালী অঙ্কগুলি, বর্ণালী পণ্য বা স্বতঃসম্পর্কিত ফাংশনগুলির মতো সনাক্তকরণ ফাংশনগুলি ব্যবহার করার পদ্ধতিগুলির সাথে পিচটি নির্ধারণ করার সময় এই সুরেলাগুলি বিবেচনায় নেওয়া কার্যকর। কেউ সম্প্রতি সম্পর্কিত বিষয় শুরু করেছেন।
ট্রেড অফস কি? আরও সুনির্দিষ্টভাবে, আমি যুক্তিযুক্ত সংক্ষিপ্ত উইন্ডোটির জন্য কোন স্তরের ফ্রিকোয়েন্সি নির্ভুলতা আশা করতে পারি? (আমি বুঝতে পারি সিকিউটিতে উইন্ডোর আকার পরিবর্তনশীল - কতটা?) আরও সুনির্দিষ্টভাবে বলতে গেলে, আমি আমার কাছাকাছি যেতে কতটা সক্ষম হব। 0.005s একটি উইন্ডো দিয়ে 0.5% ফ্রিকোয়েন্সি পার্থক্যটির লক্ষ্য?
যেমন আগেই বলা হয়েছিল, 0.005s উইন্ডো সহ, আপনি "ফ্রিকোয়েন্সি ফাঁস" এর 200Hz এর মতো কিছু আশা করতে পারেন। এটি কেবল তখনই সমস্যা যখন আপনার কাছে 200Hz এর কাছাকাছি ফ্রিকোয়েন্সি সহ 2 টি সাইনোসয়েড থাকে যেমন এফটি 2 টি পৃথক সাইনোসয়েডগুলি প্রদর্শন করতে সক্ষম হবে না। ঠিক আছে, আমরা আপনার 0.5% থেকে দূরে (উপায় দ্বারা, একটি সেমিটোন ফ্রিকোয়েনির 6% এ রয়েছে!) এবং আপনার উদ্দেশ্যে 0.005s সত্যিই কিছুটা ছোট। তবে, আপনি যদি প্রতি 0.005 সেকেন্ডে একটি প্রাক্কলন সরবরাহ করতে চান তবে আপনি সাধারণত স্পিচ / মিউজিক প্রসেসিংয়ের মতো দীর্ঘতর ওভারল্যাপিং ফ্রেমগুলি প্রক্রিয়া করতে পারেন। আপনি কি আসলে এটি চান?
Nk=Fsfk(21/B−1)
BB=48fk=100Hzপ্রায় 0.7s দীর্ঘ উইন্ডোজ প্রয়োজন। এটি বলার অপেক্ষা রাখে না যে আমরা তখন কিছুটা অস্থায়ী রেজোলিউশন হারাব ... তবে যেমনটি আগেই বলেছি, আমরা যদি শব্দটির কাঠামোটি ভুলে যাই তবে এটিই একটি সমস্যা। অধিকন্তু, সাইকোঅাকোস্টিকরা 500Hz এর নীচে মানবেরা সাইনোসাইডগুলিকে এত ভালভাবে আলাদা করে না: এমনকি মানুষকে সেখানে চ্যালেঞ্জ করা হয়েছে। অবশ্যই, আমরা আশা করতে পারি যে আমাদের কম্পিউটারগুলি আমাদের চেয়ে আরও ভাল করতে পারে, তবে এখানে, আমরা একটি কঠিন সমস্যার মুখোমুখি!
শেষ অবধি, লক্ষ্য করুন যে একটি শব্দের সময়-ফ্রিকোয়েন্সি উপস্থাপনা গণনা করার অন্যান্য উপায়গুলি উদাহরণস্বরূপ গ্যাম্যাটোন ফিল্টার-ব্যাংককে বিবেচনা করুন। আমি পূর্বে যে সিকিউটিটির কথা উল্লেখ করেছি তার সুবিধা হ'ল রূপান্তর এবং এর বিপরীত উভয়ের জন্য সফ্টওয়্যার রয়েছে। ব্যক্তিগতভাবে, আমি এখনও এসটিএফটির সাথে লেগে আছি, যদিও এর সরলতার জন্য এবং এ পর্যন্ত, উত্স বিচ্ছিন্নতার জন্য আমার কখনও কম ফ্রিকোয়েন্সিতে আরও ভাল রেজোলিউশনের প্রয়োজন হয়নি।
[শোয়েখুবার2010] শোয়ারখুবার, সি এবং কালাপুরি, এ। "সংগীত প্রসেসিংয়ের জন্য কনস্ট্যান্ট-কি রূপান্তরিত সরঞ্জামবক্স,", সপ্তম সাউন্ড এবং মিউজিক কম্পিউটিং কনফারেন্স, বার্সেলোনা, স্পেন, ২০১০।