আমি অনলাইনে বিট এবং টুকরো পড়ছি কিন্তু আমি সবগুলি একসাথে টুকরা করতে পারি না। সিগন্যাল / ডিএসপি স্টাফ সম্পর্কে আমার কিছু পটভূমি জ্ঞান রয়েছে যা এর জন্য পর্যাপ্ত পূর্বশর্ত হওয়া উচিত। আমি শেষ পর্যন্ত জাভাতে এই অ্যালগরিদম কোডিং করতে আগ্রহী কিন্তু এখনও আমি এটি পুরোপুরি বুঝতে পারি না যে কেন আমি এখানে আছি (এটি গণিত হিসাবে গণনা করা হয়, তাই না?)।
আমি জানি যে এটি আমার জ্ঞানের ফাঁকগুলির সাথে কাজ করে think
আপনার অডিও স্পিচ নমুনা দিয়ে শুরু করুন, একটি .wav ফাইলটি বলুন, যা আপনি কোনও অ্যারেতে পড়তে পারেন। এই অ্যারের কল , যেখানে থেকে রেঞ্জ (তাই নমুনার)। মানগুলি অনুমান করা অডিও তীব্রতার সাথে মিলিত হয় - প্রশস্ততা।
অডিও সংকেতটি 10 মিমি বা "যেখানে স্পিচ সিগন্যালটি" স্থিতিশীল "বলে মনে করেন তার আলাদা" ফ্রেমে "বিভক্ত করুন। এটি কোয়ান্টাইজেশনের একটি রূপ। সুতরাং যদি আপনার নমুনার হার 44.1KHz হয়, 10 মিমি 441 নমুনার সমান বা মান ।
একটি ফুরিয়ার ট্রান্সফর্ম (গণনার জন্য এফএফটি) করুন। এখন এটি সম্পূর্ণ সিগন্যালে বা এর প্রতিটি পৃথক ফ্রেমে করা হয়েছে ? আমি মনে করি একটি পার্থক্য আছে কারণ সাধারণভাবে ফুরিয়ার রূপান্তর একটি সংকেতের সমস্ত উপাদানকে দেখে, তাই সাথে যোগ এফ ( এক্স 2 [ এন ] ) সাথে যোগ ... ফাঃ ( x N [ n ] ) যেখানে x আমি [ ছোট ফ্রেম হয়। যাইহোক, বলুন আমরা কিছু এফএফটি করি এবংএর বাকি অংশে এক্স [ কে ] দিয়ে শেষ করি।
মেল স্কেলে ম্যাপিং, এবং লগিং। আমি জানি কিভাবে নিয়মিত ফ্রিকোয়েন্সি নম্বরগুলি মেল স্কেলে রূপান্তর করতে হয়। এক্স [ কে ] এর প্রতিটি জন্য ("এক্স-অক্ষস" যদি আপনি আমাকে অনুমতি দিবেন), আপনি সূত্রটি এখানে করতে পারেন: http://en.wikedia.org/wiki/Mel_scale । তবে "y- মান" বা এক্স [ কে ] এর প্রশস্ততা সম্পর্কে কীভাবে ? এগুলি কি কেবল একই মান বজায় থাকলেও নতুন মেল (এক্স-) অক্ষের উপযুক্ত দাগগুলিতে স্থানান্তরিত হয়েছে? আমি কিছু কাগজে দেখেছি এক্স [ কে ] এর প্রকৃত মানগুলি লগ করার বিষয়ে কিছু ছিল কারণ যদি তবে এক্স [ কে ] = এ [ কে যেখানে এই সংকেতগুলির মধ্যে একটির আপনি যে শব্দটি চান না তা হ'ল মনে করা হচ্ছে, এই সমীকরণের লগ অপারেশনটি বহুগুণিত শব্দকে অ্যাডিটিভ আওয়াজে পরিণত করে, যা আশা করা যায় যে ফিল্টার করা যাবে (?)।
এখন চূড়ান্ত পদক্ষেপটি হ'ল উপরে থেকে আপনার পরিবর্তিত এর একটি ডিসিটি নেওয়া (তবে এটি পরিবর্তিত হয়ে শেষ হয়েছে)। তারপরে আপনি এই চূড়ান্ত ফলাফলটির প্রশস্ততা নিন এবং সেগুলি আপনার এমএফসিসি। আমি উচ্চ ফ্রিকোয়েন্সি মানগুলি ফেলে দেওয়ার বিষয়ে কিছু পড়েছি read
সুতরাং আমি এই লোকেদের কীভাবে ধাপে ধাপে গণনা করব তা সত্যই বোঝার চেষ্টা করছি এবং পরিষ্কারভাবে কিছু জিনিস আমাকে উপরের দিক থেকে সরিয়ে দিচ্ছে।
এছাড়াও, আমি "ফিল্টার ব্যাংক" ব্যবহারের কথা শুনেছি (মূলত ব্যান্ড পাস ফিল্টারগুলির একটি অ্যারে) এবং জানি না যে এটি আসল সংকেত থেকে ফ্রেমগুলি তৈরি করা বোঝায়, বা সম্ভবত আপনি এফএফটির পরে ফ্রেমগুলি তৈরি করেন?
শেষ অবধি, আমি এমএফসিসি সম্পর্কে 13 সহগ সহ কিছু দেখেছি?