ফুরিয়ার ট্রান্সফর্ম এবং কোসাইন ট্রান্সফর্মের মধ্যে পার্থক্য কী?


75

বক্তৃতা স্বীকৃতি হিসাবে, সামনের প্রান্তটি সাধারণত অডিও স্ট্রিম থেকে বৈশিষ্ট্য নিষ্কাশনের অনুমতি দেওয়ার জন্য সংকেত প্রক্রিয়াকরণ করে। এই প্রক্রিয়াতে একটি পৃথক ফুরিয়ার ট্রান্সফর্ম (ডিএফটি) দুবার প্রয়োগ করা হয়। প্রথমবার উইন্ডোটিংয়ের পরে; এর পরে মেল বিনিং প্রয়োগ করা হয় এবং তার পরে অন্য ফুরিয়ার রূপান্তরিত হয়।

তবে আমি লক্ষ করেছি, স্পিচ সনাক্তকারীদের ( সিএমইউ স্পিনিক্সের ডিফল্ট ফ্রন্ট এন্ড , উদাহরণস্বরূপ) দ্বিতীয় অপারেশনের জন্য ডিএফটির পরিবর্তে একটি বিচ্ছিন্ন কোসাইন ট্রান্সফর্ম (ডিসিটি) ব্যবহার করা সাধারণ is এই দুটি অপারেশনের মধ্যে পার্থক্য কী? আপনি কেন প্রথমবার ডিএফটি করবেন এবং দ্বিতীয়বার কোনও ডিসিটি করবেন?


তাই বেশিরভাগই দুটি প্রক্রিয়ার মধ্যে পার্থক্য ব্যাখ্যা করেছেন। কেউ কি জানেন যে কেন বক্তৃতা স্বীকৃতিতে dft এবং dct বিভিন্ন সময়ে ব্যবহৃত হয়? প্রথম dft এর আউটপুট প্রতিসাম্য হিসাবে বিবেচনা করা হয়? অথবা ডিসিটির সংক্ষেপণটি প্রথম 13 পয়েন্টগুলিতে আরও তথ্য প্যাকিংয়ের জন্য উপযুক্ত (স্পিচ প্রসেসিং সাধারণত সেইগুলি ব্যবহার করে)?
নেট গ্লেন

আপনার প্রশ্নটি মেল-ফ্রিকোয়েন্সি সিপস্ট্রাম সম্পর্কিত যা অন্য প্রশ্নে জিজ্ঞাসা করা হয়েছিল ?
রওয়ং

আমার প্রশ্নটি ছিল দুটি অংশ: ডিসিটি এবং ডিএফটি-র মধ্যে পার্থক্য, এবং ডিএফটি এবং মেল বিনিং প্রয়োগ করার পরে কেন সিসিটি প্রসেসিংয়ের জন্য প্রায়শই ডিসিটি ব্যবহার করা হয়, অন্য কোনও ডিএফটির পরিবর্তে।
নেট গ্লেন

ইমেজ প্রসেসিংয়ে কেন, আমরা আলাদা আলাদা কোসাইন ট্রান্সফর্মের পরিবর্তে স্বতন্ত্র সাইন ট্রান্সফর্ম ব্যবহার করি না?

হাই রিমন্ডো, এটি একটি ভাল প্রশ্ন তবে আপনি এটি উত্তর হিসাবে পোস্ট করেছেন। এটি জিজ্ঞাসা করার জন্য আপনার একটি নতুন প্রশ্ন তৈরি করা উচিত।
নেট গ্লেন

উত্তর:


48

ডিস্ক্রিট ফুরিয়ার ট্রান্সফর্ম (ডিএফটি) এবং ডিসক্রিট কোসিন ট্রান্সফর্ম (ডিসিটি) একই রকম ফাংশন সম্পাদন করে: এরা উভয়ই একটি সীমাবদ্ধ দৈর্ঘ্যের ডিসক্রিট-টাইম ভেক্টরকে মাপানো-এবং-স্থানান্তরিত বেস ফাংশনগুলির একটি যোগে বিভক্ত করে। উভয়ের মধ্যে পার্থক্য হ'ল প্রতিটি রূপান্তর দ্বারা ব্যবহৃত ভিত্তিক ফাংশনের ধরণ; ডিএফটি সুরেলা-সংক্রান্ত জটিল তদন্তকারী ফাংশনগুলির একটি সেট ব্যবহার করে, যখন ডিসিটি কেবল (বাস্তব-মূল্যবান) কোসাইন ফাংশন ব্যবহার করে।

ডিএফটি সাধারণ বর্ণালী বিশ্লেষণ অ্যাপ্লিকেশনগুলির জন্য ব্যাপকভাবে ব্যবহৃত হয় যা বিভিন্ন ক্ষেত্রের মধ্যে তাদের উপায় খুঁজে পায়। এটি এমন কৌশলগুলির জন্য বিল্ডিং ব্লক হিসাবেও ব্যবহৃত হয় যা সংকেতগুলির ফ্রিকোয়েন্সি-ডোমেন উপস্থাপনার বৈশিষ্ট্যগুলির সুবিধা গ্রহণ করে যেমন ওভারল্যাপ-সেভ এবং ওভারল্যাপ-যুক্ত দ্রুত কনভোলিউশন অ্যালগরিদম।

ডেসিটি ঘনঘন ডেটা সংক্ষেপণের অ্যাপ্লিকেশনগুলিতে যেমন জেপিইজি চিত্র বিন্যাসে ব্যবহৃত হয়। ডিসিটির যে সম্পত্তি এটি সংকোচনের জন্য একেবারে উপযুক্ত করে তোলে তা হ'ল উচ্চতর ডিগ্রি "বর্ণাল সংযোগ;" একটি গুণগত স্তরে, সিএফএলটির মতো অন্যান্য রূপান্তরগুলির তুলনায় সিগন্যালের ডিসিটি উপস্থাপনায় এর বেশি শক্তি অল্প সংখ্যক সহগকে কেন্দ্র করে থাকে to এটি একটি সংক্ষেপণ অ্যালগরিদমের জন্য আকাঙ্খিত; আপনি যদি ডিজিটি সহগের তুলনামূলকভাবে ছোট সেটটি ব্যবহার করে মূল (সময়-বা স্থানিক-ডোমেন) সংকেতটিকে উপস্থাপন করতে পারেন তবে আপনি কেবলমাত্র ডিসিটি আউটপুটগুলি সঞ্চয় করে আপনার ডেটা সংরক্ষণের প্রয়োজনীয়তা হ্রাস করতে পারেন যা উল্লেখযোগ্য পরিমাণে শক্তি ধারণ করে।


4
@ জেসনআর "একটি গুণগত স্তরে, ডিএফটি-র মতো অন্যান্য রূপান্তরগুলির তুলনায় সিগন্যালের ডিসিটি উপস্থাপনায় খুব বেশি সংখ্যক সহগতে তার শক্তি কেন্দ্রীভূত হয়।" হুমমম ... আমি নিশ্চিত নই যে আমি এই বিষয়ে আপনার সাথে পুরোপুরি একমত হয়েছি - কেবলমাত্র যদি ডিএফটি ইতিমধ্যে একটি কোসাইন অন্তর্ভুক্ত করে যার উপর একটি সংকেত প্রবর্তিত হতে চলেছে - তবে কোনও ডিএফটি কীভাবে সেই প্রক্ষেপণের শক্তিটি দেখাতে পারে না? এবং একটি ডিসিটি পারেন? ধন্যবাদ।
স্পেসি

3
এটি ডিসিটির একটি খুব সুপরিচিত বৈশিষ্ট্য, যা এতগুলি সংক্ষেপণ অ্যালগরিদমে এর ব্যবহার ব্যাখ্যা করে। আমি বিশ্বাস করি যে এটি সিটিএলের প্রান্তে ডিসিটি দ্বারা ধার্য সীমানা শর্তগুলির সাথে সম্পর্কযুক্ত যা ডিএফটি-র চেয়ে পৃথক।
জেসন আর

23

আমি দেখেছি যে ডিসিটি উইকির কিছু বিবরণ (পিয়ারসনার্টফোটোও শেয়ার করেছেন) নির্দেশ করে যে ডিসিটি সংক্ষেপণের অ্যাপ্লিকেশনগুলির জন্য উপযুক্ত। শেষে অনানুষ্ঠানিক ওভারভিউ অধ্যায় সহায়ক (bolding আমার)।

বিশেষত, এটি সুপরিচিত যে কোনও ফাংশনে কোনও বিচ্ছিন্নতা ফুরিয়ার সিরিজের রূপান্তর হারকে হ্রাস করে ... ফাংশনটি যত সহজ, তার ডিএফটি বা ডিসিটি-তে খুব কম শর্তাবলী এটি সঠিকভাবে উপস্থাপন করার প্রয়োজন, এবং আরও বেশি সংকুচিত করা যেতে পারে ... তবে, ডিএফটি-র অন্তর্নিহিত সময়কাল বলতে বোঝায় যে বিচ্ছিন্নতা সাধারণত গণ্ডিগুলিতেই ঘটে ... বিপরীতে, একটি ডিজিটি যেখানে উভয় সীমানা এমনকি সর্বদা সীমানায় অবিচ্ছিন্ন বর্ধন লাভ করে। এই কারণেই ডিসিটি ... সাধারণত ডিএফটি এবং ডিএসটি-র চেয়ে সিগন্যাল সংক্ষেপণের জন্য আরও ভাল সম্পাদন করে। অনুশীলনে, গণনাগত সুবিধার কারণে কিছু ক্ষেত্রে সাধারণত এই জাতীয় অ্যাপ্লিকেশনগুলির জন্য টাইপ -2 ডিসিটি পছন্দ করা হয়।

উপরন্তু, আপনি খুঁজে পেতে পারেন যে এই উত্তর খুব দরকারী (math.stackexchange.com থেকে)। এতে বলা হয়েছে:

কোসিন ট্রান্সফর্মগুলি বিশেষ প্রতিসাম্য (যেমন যদি ক্রমটি এমনকি কোনও ফাংশন থেকে নমুনাগুলি উপস্থাপন করে) এর সাথে একটি অনুক্রমের ফুরিয়ার রূপান্তর গণনা করার শর্টকাট ছাড়া আর কিছুই নয়।


19

আপনি ফুরিয়ার রূপান্তরটি বৈশিষ্ট্য নিষ্কাশন প্রক্রিয়াতে দুটি বার প্রয়োগ করার কারণটি হ'ল বৈশিষ্ট্যগুলি সিপস্ট্রাম নামে একটি ধারণার উপর ভিত্তি করে। Cepstrum বর্ণালী শব্দের একটি নাটক - মূলত ধারণাটি হ'ল ফুরিয়ার ট্রান্সফর্ম দ্বারা ফ্রিকোয়েন্সি ডোমেনে সংকেত রূপান্তর করা এবং তারপরে অন্য রূপান্তরটি সম্পাদন করা যেমন ফ্রিকোয়েন্সি বর্ণালী একটি সংকেত।

যখন ফ্রিকোয়েন্সি বর্ণালী প্রতিটি ফ্রিকোয়েন্সি ব্যান্ডের প্রশস্ততা এবং ধাপ বর্ণনা করে, সিপস্ট্রাম ফ্রিকোয়েন্সি ব্যান্ডের মধ্যে বিভিন্নতা চিহ্নিত করে। সিপস্ট্রাম থেকে প্রাপ্ত বৈশিষ্ট্যগুলি ফ্রিকোয়েন্সি বর্ণালী থেকে সরাসরি নেওয়া বৈশিষ্ট্যের চেয়ে স্পিচকে আরও ভালভাবে বর্ণনা করতে পাওয়া যায়।

কিছুটা আলাদা আলাদা সংজ্ঞা রয়েছে। মূলত সিপস্ট্রাম ট্রান্সফর্মটিকে ফুরিয়ার ট্রান্সফর্ম -> জটিল লোগারিদম -> ফুরিয়ার ট্রান্সফর্ম [1] হিসাবে সংজ্ঞায়িত করা হয়েছিল। আরেকটি সংজ্ঞা হ'ল ফুরিয়ার ট্রান্সফর্ম -> জটিল লোগারিদম -> বিপরীত ফুরিয়ার রূপান্তর [2]] পরবর্তী সংজ্ঞাটির জন্য অনুপ্রেরণাটি সংশ্লেষিত সংকেতগুলি পৃথক করার দক্ষতায় হয় (মানুষের বক্তৃতা প্রায়শই একটি উত্তেজনা এবং ভোকাল ট্র্যাক্টের সংশ্লেষ হিসাবে মডেল করা হয়)।

স্পিচ রিকগনিশন সিস্টেমগুলিতে ভাল পারফরম্যান্সের জন্য যে জনপ্রিয় পছন্দ খুঁজে পাওয়া গেছে তা হ'ল ফ্রিকোয়েন্সি ডোমেনে একটি নন-লিনিয়ার ফিল্টার ব্যাংক প্রয়োগ করা (আপনি যে মেল বেনিংয়ের কথা উল্লেখ করছেন) [3]। নির্দিষ্ট অ্যালগরিদমকে ফুরিয়ার ট্রান্সফর্ম -> প্রস্থের বর্গক্ষেত্র -> মেল ফিল্টার ব্যাংক -> আসল লোগারিদম -> বিচ্ছিন্ন কোসাইন রূপান্তর হিসাবে সংজ্ঞায়িত করা হয়।

এখানে ডিসিটি দ্বিতীয় রূপান্তর হিসাবে নির্বাচন করা যেতে পারে, কারণ আসল-মূল্যবান ইনপুটটির জন্য, ডিএফটিটির আসল অংশটি এক ধরণের ডিসিটি। কেন ডিসিটি পছন্দ করা হয় তা হ'ল আউটপুটটি প্রায় সজ্জিত। সজ্জাযুক্ত বৈশিষ্ট্যগুলি একটি তির্যক কোভারিয়েন্স ম্যাট্রিক্স সহ গাউসীয় বিতরণ হিসাবে দক্ষতার সাথে মডেল করা যেতে পারে।

[1] বোগার্ট, বি, হিলি, এম।, এবং টুকি, জে (1963)। প্রতিধ্বনির জন্য টাইম সিরিজের কুইফেন্সি অ্যালানিসিস: সিপস্ট্রাম, সিউডো-অটোোকোরিয়েন্স, ক্রস-সিপস্ট্রাম এবং সাফ ক্র্যাকিং। টাইম সিরিজ বিশ্লেষণ অন সিম্পোজিয়ামের প্রসেসিং ইন, পি। 209-243।

[2] ওপেনহেইম, এ। এবং শ্যাফার, আর। (1968)। বক্তৃতার হোমোমর্ফিক বিশ্লেষণ। আইইইই লেনদেনগুলিতে অডিও এবং ইলেক্ট্রো-কৌস্টিক্স 16, পি। 221-226।

[3] ডেভিস, এস।, এবং মার্মেলস্টেইন, পি। (1980)। ক্রমাগত কথ্য বাক্যগুলিতে মনোসিলাব্লিক শব্দ স্বীকৃতির জন্য প্যারামেট্রিক প্রতিনিধির তুলনা। অ্যাকোস্টিকস, স্পিচ এবং সিগন্যাল প্রসেসিং সম্পর্কিত আইইইই লেনদেনগুলিতে 28, পৃষ্ঠা। 357-366।


করছেন। বৈশিষ্ট্য নিষ্কাশন পিসিএ: একটি সত্য পিসিএ এখানে অর্থহীন হবে কারণ এটি ডেটা নির্ভর করবে! আপনি যদি কোনও ডেটাसेट থেকে মেল-ফ্রিকোয়েন্সি লগ সহগের পিসিএ গণনা করেন, এবং তারপরে অন্য একটি থেকে, আপনি একটি আলাদা ভিত্তি খুঁজে পাবেন - যার অর্থ যদি পিসিএ বৈশিষ্ট্য নিষ্কাশন প্রক্রিয়াতে ব্যবহার করা হত, তবে একটি সংকেত প্রাপ্ত বৈশিষ্ট্যগুলি অন্যান্য সিগন্যালে ফিরিয়ে নেওয়া বৈশিষ্ট্যগুলির মতো 'টি' অর্থ একই হবে। এখন এই পরীক্ষাটি করুন: লগ মেল কোফের একটি সেটে পিসিএ গণনা করুন। 10 ঘন্টা থেকে সর্বাধিক বৈচিত্র্যযুক্ত অডিও থেকে নেওয়া হয়েছে। আপনি যে ভিত্তির সন্ধান পাবেন এটি ডিসিটি ভিত্তির সাথে অস্বাভাবিকভাবে মিল।
পিচনেটগুলি

3
অন্য কথায় রাখুন: স্বীকৃতি প্রয়োগে কার্যকর হতে, বৈশিষ্ট্য নিষ্কাশন প্রক্রিয়া শেষে সজ্জিত রূপান্তরটি অবশ্যই ডেটা সুনির্দিষ্ট না করে সাধারণভাবে "অডিও" এর জন্য উপযুক্ত এক ধরণের সমঝোতা হতে হবে। দেখা যাচ্ছে যে আপনি যখন অডিওর একটি বড় সেটটিতে পিসিএ চালাচ্ছেন তখন ডিসিটি ভিত্তি যা পান তার খুব কাছাকাছি!
পিচেনেটস

আমি সম্প্রতি পিসিএটিকে পরীক্ষামূলক স্পিচ সিস্টেমে বৈশিষ্ট্য নিষ্কাশন প্রক্রিয়ার শেষে ব্যবহার করতে দেখেছি। এই সিস্টেমটি প্রশিক্ষণের ডেটা থেকে পিসিএ প্রজেকশনটি গণনা করেছিল এবং পরে একই ভিত্তি ব্যবহার করে।
সেপ্পো এনার্ভি

8

একটি ডিস্ক্রিট ফুরিয়ার ট্রান্সফর্ম এবং একটি ডিস্ক্রিট কোসিন রূপান্তরের মধ্যে পার্থক্যটি হ'ল ডিসিটি কেবল আসল সংখ্যা ব্যবহার করে, অন্যদিকে ফুরিয়ার ট্রান্সফর্ম জটিল সংখ্যা ব্যবহার করতে পারে। একটি ডিসিটির সর্বাধিক সাধারণ ব্যবহার হ'ল সংক্ষেপণ। এটি দৈর্ঘ্যের দ্বিগুণ এফএফটির সমতুল্য।


1
জটিল ধারাবাহিকের ডিসিটি / ডিএসটি ধারণা করা সম্ভব, যেখানে একজন পৃথকভাবে বাস্তব এবং কাল্পনিক অংশগুলির ডিসিটি / ডিএসটি নেয়।

সুতরাং আমরা কী বলতে পারি যে আমি যদি ডিএফটি গণনা করি তবে আমি নিখরচায় ডিসিটি পাই, আমাকে যা করতে হবে তা হ'ল ভেক্টরের কাল্পনিক অংশগুলি সরিয়ে ফেলা। আমি ভুল হলে আমাকে সংশোধন করুন।
মারেক

1
এটি এর চেয়ে কিছুটা জটিল, তবে মোটামুটি সহজেই এফএফটি এবং ডিসিটি-র মধ্যে রূপান্তর করা সম্ভব।
পিয়ারসন আর্টফোটো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.