এমএফসিসি নিষ্কাশন প্রক্রিয়াতে আমি কীভাবে ডিসিটি পদক্ষেপটি ব্যাখ্যা করব?


20

বেশিরভাগ অডিও প্রক্রিয়াজাতকরণের ক্ষেত্রে, সর্বাধিক ব্যবহৃত ট্রান্সফর্মেশনগুলির মধ্যে একটি হ'ল এমএফসিসি (মেল-ফ্রিকোয়েন্সি সিপস্ট্রাল সহগ)

আমি বেশিরভাগ এমএফসিসির পিছনে যে গণিতটি জানি তা: আমি ফিল্টারব্যাঙ্ক ধাপ এবং মেল ফ্রিক্যোয়েন্সি স্কেলিং উভয়ই বুঝতে পারি।

আমি যা পাই না তা হ'ল ডিসিটি (ডিসক্রেট কোসিন ট্রান্সফর্ম) পদক্ষেপ: এই ধাপে আমি কী ধরণের তথ্য পাব? এই পদক্ষেপের একটি ভাল ভিজ্যুয়াল উপস্থাপনা কী?


1
: আমি MFCC একটি সংক্ষিপ্ত ব্যাখ্যা অন্তত একটি লিঙ্ক যুক্ত, বা হবে en.wikipedia.org/wiki/Mel-frequency_cepstral_coefficient
রোবট কোন ধরণের

উত্তর:


16

আপনি ডিসিটি কে একটি সংক্ষেপণ পদক্ষেপ হিসাবে ভাবতে পারেন। সাধারণত এমএফসিসি সহ, আপনি ডিসিটি নেবেন এবং তারপরে কেবল প্রথম কয়েকটি সহগ রাখবেন। এটি মূলত একই কারণ যা জেপিইজি সংকোচনে ডিসিটি ব্যবহৃত হয়। ডিসিটিগুলি বেছে নেওয়া হয়েছে কারণ তাদের সীমানা শর্তগুলি এই ধরণের সংকেতগুলিতে আরও ভাল কাজ করে।

আসুন ডিসিটি ফুরিয়ার ট্রান্সফর্মের সাথে আলাদা করে তুলি। ফুরিয়ার ট্রান্সফর্মটি সাইনোসয়েড দ্বারা গঠিত যা একটি পূর্ণসংখ্যার চক্র রয়েছে। এর অর্থ, সমস্ত ফুরিয়ার ভিত্তিক ফাংশন একই মান থেকে শুরু এবং শেষ হয় - তারা বিভিন্ন মানগুলিতে শুরু এবং শেষ হওয়া সংকেতকে উপস্থাপনের একটি ভাল কাজ করে না। মনে রাখবেন যে ফুরিয়ার ট্রান্সফর্ম একটি পর্যায়ক্রমিক বর্ধন অনুমান করে: আপনি যদি কাগজের শীটে আপনার সিগন্যালটি কল্পনা করেন তবে ফুরিয়ার রূপান্তরটি সেই শীটটিকে সিলিন্ডারে রোল করতে চায় যাতে বাম এবং ডান দিকগুলি মিলিত হয়।

নেতিবাচক opeাল (যা বেশ সাধারণ) একটি লাইনের মতো মোটামুটি আকারযুক্ত একটি বর্ণালী সম্পর্কে চিন্তা করুন। ফুরিয়ার ট্রান্সফর্মটিকে এই আকারটি ফিট করার জন্য প্রচুর বিভিন্ন সহগ ব্যবহার করতে হবে। অন্যদিকে, ডিসিটির অর্ধ-পূর্ণসংখ্যার চক্র সহ কোসাইন রয়েছে। উদাহরণস্বরূপ, একটি ডিসিটি ভিত্তিক ফাংশন রয়েছে যা নেতিবাচক opeাল সহ with লাইনের মতো অস্পষ্টভাবে দেখায়। এটি কোনও পিরিয়ড এক্সটেনশন ধরে নেই (পরিবর্তে, এমনকি একটি বিস্তৃতি), সুতরাং এটি সেই আকারটি ফিট করার জন্য আরও ভাল কাজ করবে।

সুতরাং, এটি একসাথে রাখা যাক। একবার আপনি মেল-ফ্রিকোয়েন্সি বর্ণালী গণনা করার পরে, আপনার বর্ণালীটির একটি প্রতিনিধিত্ব রয়েছে যা মানুষের শ্রবণশক্তি কীভাবে কাজ করে তার অনুরূপভাবে সংবেদনশীল। এই আকারের কিছু দিক অন্যের চেয়ে প্রাসঙ্গিক। সাধারণত, বর্ণালীতে শোরগোলের সূক্ষ্ম বিবরণের চেয়ে বৃহত্তর আরও বেশি পরিমাণে বর্ণালী বর্ণনাই বেশি গুরুত্বপূর্ণ। বর্ণালী আকৃতিটি অনুসরণ করার জন্য আপনি একটি মসৃণ রেখা আঁকার কল্পনা করতে পারেন, এবং আপনার আঁকানো মসৃণ রেখাটি আপনাকে সম্ভবত সিগন্যাল সম্পর্কে প্রায় কিছু বলতে পারে।

আপনি যখন ডিসিটি নেন এবং উচ্চতর সহগগুলি ত্যাগ করেন, আপনি এই বর্ণালী আকারটি নিচ্ছেন এবং কেবল এই মসৃণ আকারটি উপস্থাপনের জন্য আরও গুরুত্বপূর্ণ অংশগুলি রাখছেন। আপনি যদি ফুরিয়ার রূপান্তর ব্যবহার করেন তবে গুরুত্বপূর্ণ তথ্যগুলি কম সহগ্রে রাখার মতো ভাল কাজ এটি করবে না।

আপনি যদি কোনও মেশিন লার্নিং অ্যালগরিদমের বৈশিষ্ট্য হিসাবে এমএফসিসিগুলিকে খাওয়ানোর বিষয়ে চিন্তা করেন তবে এই নিম্ন-আদেশের সহগগুলি ভাল বৈশিষ্ট্য তৈরি করবে, যেহেতু তারা বর্ণালী আকৃতির কিছু সাধারণ দিক উপস্থাপন করে, আপনি যে উচ্চতর-আদেশের সহগগুলি ফেলে দেন তা আরও শব্দ-মত এবং প্রশিক্ষণ গুরুত্বপূর্ণ নয়। অধিকন্তু, মেল বর্ণালী মাত্রার উপর তাদের প্রশিক্ষণ সম্ভবত ততটা ভাল হবে না কারণ বিভিন্ন ফ্রিকোয়েন্সিগুলিতে নির্দিষ্ট প্রশস্ততা বর্ণালীটির সাধারণ আকারের চেয়ে কম গুরুত্বপূর্ণ।



8

এমএফসিসি বোঝার মূল কথাটি লিঙ্ক-টু নিবন্ধের বাক্যটির শুরুতে:

এগুলি অডিও ক্লিপের এক ধরণের cepstral উপস্থাপনা থেকে প্রাপ্ত ...

এমএফসিসিগুলি স্পেকট্রাম-অফ-এ- লগ -স্পেকট্রামের মতো , সিপস্ট্রাম

এক্স(টি)

সি(z- র)=এফ-1(লগ(|এফ(এক্স(টি))|2)

এফএফ-1

সিপস্ট্রমে ঝরঝরে হওয়ার কারণ হ'ল আন্তঃপ্রবিভিত লগারিদম অপারেশন মানে মূল সংকেতের কনভোলিউশনগুলি সিপস্ট্রমে সাধারণ সংযোজন হিসাবে প্রদর্শিত হয়

এই সুবিধাটি এমএফসিসিগুলিতে বহন করে, যদিও লিফটারিং স্ট্যান্ডার্ড সিপস্ট্রামের মতো সরাসরি নয়।

যেখানে এমএফসিসির পার্থক্য রয়েছে তা বিপর্যস্ত ফুরিয়ার ট্রান্সফর্মের পরিবর্তে বিযুক্ত কোসাইন ট্রান্সফর্ম (ডিসিটি) কে চূড়ান্ত রূপান্তর হিসাবে ব্যবহারে।

ফুরিয়ার ট্রান্সফর্মের উপর ডিসিটির যে সুবিধা রয়েছে তা হ'ল ফলস্বরূপ গুণাগুণগুলি সত্যিকারের মূল্যবান , যা পরবর্তী প্রক্রিয়াজাতকরণ এবং স্টোরেজকে আরও সহজ করে তোলে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.