স্বতঃসংশোধনের "গুণমান" মূল্যায়নের সেরা উপায়?


9

এটি আমার স্নোরিং অ্যাপ্লিকেশন থেকে একটি পার্শ্ব ভ্রমণ ।

অডিও সিগন্যালের একটি স্বতঃসংশোধন তৈরি করতে আমার একটি ক্র্যাক হয়েছিল, তা দেখতে খুব সহজেই শ্বাসকষ্ট / শ্বাস-প্রশ্বাসের সাথে "পারস্পরিক সম্পর্ক" রয়েছে কিনা। আমার কাছে একটি সাধারণ অ্যালগরিদম চলছে (জেরোথ উপাদান হিসাবে 1.0 উত্পাদন করে, যা একটি ভাল লক্ষণ), তবে আমি কীভাবে ফলাফলটি মূল্যায়ন করব তা স্বতঃসংশ্লিষ্ট শক্তিশালী কিনা তা নির্ধারণ করার জন্য আমি ভাবছি এবং সম্ভবত আরও কীভাবে এটি পৃথক করতে ব্যবহার করবেন বিভিন্ন সম্ভাব্য শব্দ উত্স।

প্রশ্ন # 1: স্বতঃসংশ্লিষ্টতার আরএমএস কি (কোয়ালিটির শূন্য বাদ দেওয়া) কোনও "মানের" মেট্রিক হিসাবে ভাল, বা এর থেকে আরও ভাল কিছু আছে?

বিস্তারিত বলার জন্য: আমি কেবলমাত্র একটি স্বতঃআরঙ্কিত সংকেতকে কম ভাল স্বতঃআকৃত সম্পর্কিত একটি থেকে আলাদা করার জন্য একটি সংখ্যাসূচক উপায় (বনাম একটি চার্টের দিকে "দেখানো") চাই।

(অন্যান্য প্রশ্ন জিজ্ঞাসা করার জন্য আমি সত্যিকার অর্থে যথেষ্ট জানি না))

কিছু প্রাথমিক ফলাফল: কিছু ক্ষেত্রে স্বাবলম্বন (আরএমএস বা শিখর) একটি শামুকের উপর একটি নাটকীয় লাফ দেখায় - অবশ্যই আমি দেখতে চাই যে প্রতিক্রিয়া। অন্যান্য ক্ষেত্রে এই ব্যবস্থাগুলিতে মোটামুটি কোনও স্পষ্ট আন্দোলন নেই (এবং এটি দুটি প্রতিক্রিয়া সহ দুটি ক্রমাগত ঘনঘটিত হতে পারে), এবং উচ্চ-শোরগোলের পরিস্থিতিতে পরিমাপগুলি আসলে একটি শামুকের সময় ডুব দেয় (সামান্য)।

আপডেট - 22 মে: অবশেষে আমি এটিতে আরও কিছু কাজ করার জন্য কিছু সময় পেয়েছি। (আমাকে অন্য একটি অ্যাপে টেনে আনা হয়েছিল যা আক্ষরিক অর্থে একটি ব্যথা)) আমি স্বতঃসংশোধনের আউটপুটটিকে একটি এফএফটিতে খাওয়ালাম এবং আউটপুটটি কিছুটা আকর্ষণীয় - এটি যখন শ্বাসকষ্ট শুরু হয় তখন এটি উত্সের কাছাকাছি একটি মোটামুটি নাটকীয় শিখর দেখায়।

সুতরাং এখন আমি এই শিখরটি একরকম চূড়ান্ত করার সমস্যার মুখোমুখি হয়েছি। অদ্ভুতভাবে, সর্বোচ্চ শিখরগুলি, নিখুঁত মাত্রার পরিপ্রেক্ষিতে অন্যান্য সময়ে ঘটেছিল, তবে আমি শিখার অনুপাতটি গাণিতিক গড়ের সাথে চেষ্টা করেছি এবং এটি ট্র্যাকগুলি বেশ ভালভাবেই করেছে। সুতরাং এফএফটির "পীকতা" পরিমাপ করার কয়েকটি ভাল উপায় কী। (এবং দয়া করে এটি বলবেন না যে আমার এটির একটি এফএফটি নেওয়া দরকার - এই জিনিসটি ইতিমধ্যে তার নিজস্ব লেজ গ্রাস করার কাছাকাছি। :))

এছাড়াও, আমার কাছে এটি ঘটেছিল যে মাঝখানে শূন্য (যা সংজ্ঞা ১.০ মাত্রার দ্বারা হয়) দিয়ে আমি স্বতঃসংশ্লিষ্ট ফলাফলগুলি আয়নায় প্রতিবিম্বিত করে যদি এফএফটি এর মানের কিছুটা উন্নতি হতে পারে। এটি উভয় প্রান্তে "লেজ" লাগবে। এটি (সম্ভবত) একটি ভাল ধারণা? আয়না চিত্রটি খাড়া বা উল্টানো উচিত? (অবশ্যই, আপনি যা বলবেন তা বিবেচনা না করেই চেষ্টা করে দেখব, তবে আমি ভেবেছিলাম সম্ভবত আমি বিশদ সম্পর্কে কিছু ইঙ্গিত পেতে পারি))

চেষ্টা করা চ্যাপ্টা--

আমার পরীক্ষার কেসগুলি মোটামুটি "ভাল আচরণ" বিভাগ এবং "সমস্যা শিশু" বিভাগে ভাগ করা যায়।

"ভাল আচরণিত" পরীক্ষার ক্ষেত্রে অটোকোরিলেশন এর এফএফটির সমতলতা নাটকীয়ভাবে হ্রাস পায় এবং একটি শামুকের সময় শীর্ষে গড় স্বাবলম্বীকরণের চূড়ায় অনুপাত হয়। এই দুটি সংখ্যার অনুপাত (চূড়া দ্বারা বিভক্ত পিক রেশিও) বিশেষত সংবেদনশীল, এটি একটি শ্বাস / শ্বাসকালে 5-10x আরোহণের প্রদর্শন করে।

"সমস্যা বাচ্চাদের" জন্য, সংখ্যাগুলি একেবারে বিপরীত দিকে চলে। শিখর / গড় অনুপাত সামান্য হ্রাস পায় যখন চ্যাপ্টা আসলে 50-100% বৃদ্ধি পায়

এই দুটি বিভাগের মধ্যে পার্থক্য (বেশিরভাগ) ত্রিগুণ:

  1. "সমস্যা বাচ্চাদের" মধ্যে শোরগোলের মাত্রা (সাধারণত) বেশি থাকে
  2. "সমস্যা শিশু" এর মধ্যে অডিও স্তরগুলি (প্রায় সবসময়ই কম)
  3. "বাচ্চাদের সমস্যা" আরও শ্বাসকষ্ট এবং কম আসল শামুক নিয়ে গঠিত (এবং আমার উভয়ই সনাক্ত করা দরকার)

কোন ধারনা?

আপডেট - 5/25/2012: একটি বিজয় নৃত্যের জন্য এটি অল্প সময়ের আগে, তবে আমি যখন একটি বিন্দু সম্পর্কে স্বতঃসংশোধনকে প্রতিফলিত করি, তখন এর এফএফটি নিয়েছিলাম, এবং তারপরে বর্ণালী চাটুকারিতা করি, আমার সম্মিলিত অনুপাতের স্কিমটি একটি ভাল লাফ দেখিয়েছে বিভিন্ন পরিবেশ। স্বতঃসংশ্লিষ্ট প্রতিফলন এফএফটির গুণমান উন্নত বলে মনে হচ্ছে।

একটি গৌণ বিন্দু, এটি হ'ল যেহেতু প্রতিবিম্বিত "সংকেত" এর "ডিসি উপাদান" শূন্য, জিরোথ এফএফটি ফলাফল সর্বদা শূন্য, এবং এই ধরনের একটি জ্যামিতিক গড়কে শূন্য অন্তর্ভুক্ত করে। তবে জিরোথ উপাদানটি এড়িয়ে যাওয়া কাজ করছে বলে মনে হচ্ছে।

আমি যে ফলাফলটি পাচ্ছি তা নিজে থেকে শ্বাসকষ্ট / শ্বাস শনাক্ত করার পক্ষে যথেষ্ট নয়, তবে এটি বেশ সংবেদনশীল "নিশ্চিতকরণ" বলে মনে হচ্ছে - যদি আমি "লাফ" না পাই তবে সম্ভবত এটি শামুক / শ্বাস নয়।

আমি এটিকে নিবিড়ভাবে বিশ্লেষণ করিনি, তবে আমার সন্দেহ হয় যে ঘটছে তা হ'ল শ্বাস / শ্বাসকষ্টের সময় কোথাও হুইসেলিং শব্দ আসে এবং সেই শিসটিই সনাক্ত করা হচ্ছে।


পারস্পরিক সম্পর্কের 'শক্তি' পরিমাপ হিসাবে, আপনাকে যা করা দরকার তা হল আপনার দুটি সিগন্যালকে সম্পর্কযুক্ত করার আগে একটি সম্পর্ক স্থাপনের আগে স্বাভাবিক করা। (সাধারণীকরণের পরে, প্রতিটি সংকেতের যোগফল 1 হওয়া উচিত)। তারপরে পারস্পরিক সম্পর্কের শীর্ষটি সর্বদা -1 এবং 1 এর মধ্যে থাকবে This এটি আপনার শক্তি। আপনার বাকি প্রশ্ন সম্পর্কে আমি নিশ্চিত নই, সম্ভবত আপনি কিছুটা সম্পাদনা করতে পারেন।
স্পেসি

আমি স্বতঃসংশ্লিষ্টতার সাথে কাজ করছি, সুতরাং দুটি সংকেত একটি এবং একই এবং একে অপরের সাথে সম্পর্কিত "সাধারণীকরণ" সংজ্ঞা দ্বারা। "শক্তি" দ্বারা আমি বোঝাচ্ছি সেখানে কতটা স্বতঃসংশ্লিষ্টতা রয়েছে।
ড্যানিয়েল আর হিক্স

আপনি কী চান তা আমি বুঝতে পারি না তবে আমি মনে করি আপনি সম্পূর্ণরূপে আরএমএস মান নয়, স্বতঃসংশোধনের শীর্ষের সর্বোচ্চ মান পরিমাপ করতে চান।
এন্ডোলিথ

@ এন্ডোলিথ আমি মনে করি তিনি আপনার স্বায়ত্তশাসন ফাংশনটির 'শিখরতা' কিছুটা সম্পর্কে জিজ্ঞাসা করছেন, এটি অনেকগুলি শিখরের সিগন্যাল থেকে একটি ব-দ্বীপ, (শব্দের স্ব-স্বীকৃতি) দিয়ে একটি সংকেতকে আলাদা করার আদেশ দেয়? (হারমোনিক্স সহ সংকেতের স্বতঃসংশ্লিষ্ট)। বর্ণালী-ফ্ল্যাটনেস পরিমাপটি ব্যবহার করে এখানেও ব্যবহার করা যেতে পারে ...
স্পেসি

এটি বর্ণনামূলক ফ্ল্যাটনেস বলে মনে হচ্ছে যা সে চায়। ড্যানিয়েল: আপনি কি শোনার শব্দ থেকে সংকেতটি কতটা আলাদা তা নির্ধারণ করতে চান?
এমের

উত্তর:


3

preliminaries

এমএটিএলবিব প্যাকেজ অডিওরেডের সাহায্যে এই বিক্ষোভ আরও সহজ , যা এমপি 3 ফাইলগুলি পড়তে / লিখতে সক্ষম করে। বিকল্পভাবে, আপনি এমপি 3 ফাইলটি ম্যানুয়ালি WAV তে রূপান্তর করতে পারেন।

সহজ কেস

আমরা আপনার সমস্যাযুক্ত ফাইলটি পরীক্ষা করার আগে আসুন আমরা সাউন্ডক্লাউডের দিকে এগিয়ে যাই এবং একটি শালাগুলি দখল করি যাতে এসএনআর বেশি হলে কী আশা করা যায় তা আমরা জানি। এটি একটি 52s এর স্টিরিও 44.1KHz এমপি 3। এটি ম্যাটল্যাবের পথে কোনও ফোল্ডারে ডাউনলোড করুন

এবার বর্ণালীটি গণনা করা যাক (আমি একটি 8192-নমুনা হ্যান উইন্ডো বেছে নিয়েছি) এবং বর্ণাল সমতলতা:

[snd1,fs1]=mp3read('snoring - brobar.mp3'); % use wavread if you converted manually
[s1,f,t,p1]=spectrogram(mean(snd1,2),hann(8192));
sf1=10*log10(geomean(p1)./mean(p1)); % spectral flatness
plot(linspace(0,length(snd1)/fs1,length(sf1)),sf1); axis tight

ব্রোবারের শামুকের বর্ণালী ফ্ল্যাটনেস

বর্ণাল ফ্ল্যাটনেসে বিশাল ডুব (যেমন, সাদা শব্দ থেকে বিচ্যুতি) চেঁচামেচি করে "আমি শামুক করছি"। বেসলাইন (মিডিয়ান) থেকে বিচ্যুতি দেখে আমরা সহজেই এটিকে শ্রেণিবদ্ধ করতে পারি:

stem(linspace(0,length(snd1)/fs1,length(sf1)),median(sf1)-sf1>2*std(sf1)); axis tight

ব্রোবারের শামুকের শ্রেণিবদ্ধ বর্ণালী ফ্ল্যাটনেস

আমাদের হেডরুমের দুটিরও বেশি স্ট্যান্ডার্ড বিচ্যুতি ছিল। রেফারেন্সের জন্য স্ট্যান্ডার্ড তারতম্যটি 6.8487

হার্ড কেস

এখন আসুন আপনার ফাইলটি একবার দেখুন । এটি একটি 10 ​​মিনিট, 8KHz WAV ফাইল। স্তরটি যেহেতু এত কম তাই এটি সংকেতটি সংহত করতে সহায়তা করে ।

[snd,fs]=wavread('recordedFile20120408010300_first_ten_minutes');
cmp=compand(snd,255,1);
wavwrite(cmp,'companded'); % used for listening purposes
[s,f,t,p]=spectrogram(snd,hann(8192));
sf=10*log10(geomean(p)./mean(p));
plot(linspace(0,600,length(sf)),sf);

গোলমাল ফাইলের বর্ণালী ফ্ল্যাটনেস

প্রতিটি শামুকের সাথে সেই সুন্দর ডপগুলি দেখুন? আমিও না। কীভাবে সুন্দর শিখর? তারা শামুক করছে না, তবে বিষয়টির চলন্ত শব্দ। স্ট্যান্ডার্ড বিচ্যুতিটি একটি পাল্ট্রি 0.9388

উপসংহার

বর্ণালি স্থূলতার উপর নির্ভর করতে চাইলে আপনাকে একটি ক্লিনার সংকেত অর্জন করতে হবে! আমি কিছু শোনার জন্য এটি কম্প্যান্ড করেছি। যদি কোনও কম এসএনআর সনাক্ত হয়, ব্যবহারকারীকে ফোনটি কাছাকাছি রাখার জন্য পরামর্শ দিন বা হেডসেটের সাথে আসা ফোনের মতো মাইক্রোফোন ব্যবহার করুন।

সুসংবাদটি হ'ল এমনকি সমস্যাযুক্ত ক্ষেত্রেও শামুক সনাক্ত করা সম্ভব। যাইহোক, এই প্রশ্ন প্রায় নাক ডাকা সনাক্তকরণ ছিল না আমি এখানে থামুন, এবং যে কাজ করতে কিভাবে ব্যাখ্যা মধ্যে আপনার অন্য প্রশ্ন


এখন আমি বুঝতে পারি যে আমি কীসের বিরুদ্ধে আছি। আমার যে নমুনাগুলির সাথে কাজ করতে হবে তার মধ্যে সেই নমুনাটি "মাঝারি" মানের ছিল - এর চেয়ে আরও খারাপ কিছু আছে। এবং আমি আমার বিদ্যমান অ্যালগরিদমের সাথে সেই নমুনাটি বেশ ভালভাবে পড়তে পারি।
ড্যানিয়েল আর হিক্স

সেগুলি কি অ্যালগরিদম?
এমেরে

সংক্ষেপে: শব্দটি এফএফটি দিয়ে একটি সেকেন্ডে 8 বার সঞ্চালিত হয়, বর্ণালীটি 5 ফ্রিকোয়েন্সি ব্যান্ডগুলিতে কাটা হয়, প্রতিটি ব্যান্ডের জন্য শক্তি এবং বর্ণালী পার্থক্য গণনা করা হয়, তারপরে ফলাফলগুলি এমনভাবে স্কোর করা হয় যা প্রদর্শিত ব্যান্ডগুলিকে আরও ওজন দেয় which সঠিক হারে পরিবর্তিত হতে।
ড্যানিয়েল আর হিক্স

@ আগে আমি আপনার লিঙ্কগুলি অনুসরণ করছি, একটি সাউন্ডক্লাউড অ্যাকাউন্ট তৈরি করেছি, তবে আপনি কীভাবে ঠিক এই ঘোলাটি ডাউনলোড করেছিলেন তা দেখতে পাচ্ছি না। এর পাশেই বা অন্য কোথাও ডাউনলোড বোতাম নেই।
স্পেসি

@ মোহাম্মদ: আমি একটি ডাউনলোড লিঙ্ক সরবরাহ করেছি।
এমরে

1

স্বতঃসংশ্লিষ্টতা সরাসরি আপনার সংকেতের পাওয়ার বর্ণালী ঘনত্বের বিপরীত ডিএফটি সম্পর্কিত। সেই অর্থে, আপনার ডিএফটি-র প্রশস্ততা স্কোয়ারের মধ্যে যা কিছু তথ্য রয়েছে তা স্বতঃসংশোধনের ক্রিয়ায় অন্তর্ভুক্ত রয়েছে।

এটি অবশ্য বলেছে, স্বতঃসিদ্ধকরণ আপনাকে যে একটি জিনিস বলতে পারে তা হ'ল হারমোনিক্সের উপস্থিতি। (কেন্দ্রের শিখর থেকে পরের সর্বোচ্চ একের দূরত্ব)। সম্ভবত ভিএস শ্বাস প্রশ্বাসের বিভিন্ন মৌলিক সুরেলা রয়েছে, এবং যদি তা হয় তবে 'অটোকোরেলিয়েশন পদ্ধতি' অবশ্যই একটি ভাল সূচনার পয়েন্ট হবে যাতে বৈশিষ্ট্যগুলি (এই ক্ষেত্রে সুরেলা) বের করা যায়।

সুতরাং, সাদা শব্দের স্বতঃসংশ্লিষ্টতা একটি ব-দ্বীপ ফাংশন হবে এবং এর কেন্দ্র শিখরের বাইরে কোনও গৌণ শিখর (বা অন্য কোনও শিখর) থাকবে না। বিপরীতে, যদি সংকেতটিতে সুরেলা থাকে, তবে এর স্বতঃসংশোধনের ক্রিয়ায় মাধ্যমিক এবং তৃতীয় স্তরগুলি থাকবে, যা মৌলিক সুরেলা উপস্থিতির সাথে মিলে যায়। আপনার মৌলিক ফ্রিকোয়েন্সি সময়কালের প্রধান (মধ্য) শিখর থেকে মাধ্যমিক শিখরের দূরত্ব।

সম্পাদনা করুন:

আমি মনে করি আপনি যা পরে যাচ্ছেন তা একটি পরিমাপ - একটি সংখ্যা - একটি অটোকোররিলেশন ফাংশনটি একটি ব-দ্বীপের সাথে কতটা অনুরূপ কোড কোডিং, ভিএস একটি অটোকোরেলিকেশন ফাংশন যেমন এটির অনেকগুলি শীর্ষ রয়েছে looking সে লক্ষ্যে বর্ণালী-চ্যাপ্টাটির পরিমাপ প্রযোজ্য হতে পারে, বা আরও সাধারণ ক্ষেত্রে আপনার জ্যামিতিকের পরিমাপটি পাটিগণিত গড় থেকে বোঝায়।


আমি এই ধারণার মধ্যে ছিলাম যে স্বতঃসংশ্লিষ্টতা (ছন্দময়) সংকেতকে (এলোমেলো) শব্দ থেকে আরও ভালভাবে আলাদা করতে পারে - শব্দের শূন্যের কাছে অটোক্রেরিট করে দেবে। একটি ডিএফটি, ওটিওএইচ শব্দকে গোলমাল হিসাবে উপস্থাপন করবে - একটি স্প্রেড স্পেকট্রাম। কমপক্ষে এটি "তত্ত্ব" হিসাবে আমি এটি বুঝতে পারি।
ড্যানিয়েল আর হিক্স

আমার সম্পাদনা দেখুন।
স্পেসি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.