শামুক থেকে আলাদা করে কীভাবে?

22

পটভূমি: আমি একজন আইফোন অ্যাপ্লিকেশন (উল্লিখিত কাজ করছি মধ্যে বিভিন্ন অন্যান্য পোস্ট ) যে snoring / শ্বাস যখন এক ঘুমন্ত এবং নির্ধারণ করে "কথা শোনে" যদি সেখানে ( "ঘুম ল্যাব" এর জন্য একটি প্রাক-স্ক্রীন যেমন নিদ্রাহীনতা লক্ষণ পরীক্ষামূলক). অ্যাপ্লিকেশনটি মূলত snores / শ্বাস শনাক্ত করার জন্য "বর্ণালী পার্থক্য" নিযুক্ত করে এবং স্লিপ ল্যাব রেকর্ডিংয়ের (যা আসলে বেশ গোলমাল) এর বিরুদ্ধে পরীক্ষা করা হয় তখন এটি বেশ ভাল (সিএ 0.85--0.90 পারস্পরিক সম্পর্ক) কাজ করে।

সমস্যা: বেশিরভাগ "বেডরুম" শব্দ (ভক্ত ইত্যাদি) আমি বেশ কয়েকটি কৌশলগুলির মাধ্যমে ফিল্টার আউট করতে পারি এবং প্রায়শই নির্ভরযোগ্যভাবে এস / এন পর্যায়ে শ্বাসকষ্ট সনাক্ত করতে পারি যেখানে মানুষের কান এটি সনাক্ত করতে পারে না। সমস্যা কণ্ঠস্বর। ব্যাকগ্রাউন্ডে টেলিভিশন বা রেডিও চালানো (বা কেবল দূরত্বে কাউকে কথা বলার জন্য) অস্বাভাবিক কিছু নয়, এবং শব্দের ছন্দটি শ্বাস-প্রশ্বাসের সাথে ঘনিষ্ঠভাবে মেলে। প্রকৃতপক্ষে, আমি অ্যাপটির মাধ্যমে প্রয়াত লেখক / গল্পকার বিল হলমের রেকর্ডিং চালিয়েছি এবং এটি ছন্দ, স্তরের পরিবর্তনশীলতা এবং অন্যান্য বেশ কয়েকটি পদক্ষেপের মধ্যে শোষক হওয়া থেকে মূলত পৃথক ছিল। (যদিও আমি বলতে পারি যে আপাতদৃষ্টিতে তার ঘুমের শোধ হয়নি, কমপক্ষে জাগ্রত অবস্থায় not

সুতরাং এটি কিছুটা দীর্ঘ শট (এবং সম্ভবত ফোরামের বিধিগুলির একটি প্রসার), তবে কীভাবে ভয়েসকে আলাদা করতে হবে সে সম্পর্কে আমি কিছু ধারণা খুঁজছি। আমাদের কোনওভাবেই শামুকগুলি ফিল্টার করার দরকার নেই (মনে হয় এটি দুর্দান্ত হবে), তবে আমাদের কেবল "খুব শোরগোল" শব্দ হিসাবে প্রত্যাখ্যান করার একটি উপায় প্রয়োজন যা অতিরিক্ত কণ্ঠের সাথে দূষিত।

কোন ধারনা?

ফাইল প্রকাশিত: আমি ড্রপবক্স.কম এ কিছু ফাইল রেখেছি:

প্রথমটি রক (বরং আমি অনুমান করি) সংগীতের একটি বরং এলোমেলো টুকরো, এবং দ্বিতীয়টি বিল বিল হোল কথা বলার রেকর্ডিং। উভয়ই (যা আমি "শোরগোল" এর আমার নমুনাগুলি হিসাবে ব্যবহার করি তা শুকানোর জন্য আলাদা করা যায়) সংকেতকে বাছাই করতে শোরগোলের সাথে মিশ্রিত করা হয়েছে। (এটি তাদের চিহ্নিত করার লক্ষণটিকে আরও বেশি কঠিন করে তোলে)) তৃতীয় ফাইলটি সত্যই আপনার রেকর্ডিংয়ের দশ মিনিট যেখানে প্রথম তৃতীয়টি বেশিরভাগ শ্বাস নেয়, মাঝারি তৃতীয়টি মিশ্র শ্বাস / স্নোরিং হয় এবং চূড়ান্ত তৃতীয়টি মোটামুটি স্থির নৃত্যের হয়। (আপনি বোনাসের জন্য কাশি পান)

তিনটি ফাইলই ".wav" থেকে "_wav.dat" নামকরণ করা হয়েছে, যেহেতু অনেক ব্রাউজার ওয়েভ ফাইলগুলি ডাউনলোড করা পাগল করে তোলে। ডাউনলোডের পরে কেবল তাদের পুনরায় নামকরণ ".wav" করুন।

আপডেট: আমি ভেবেছিলাম এনট্রপি আমার জন্য "কৌশলটি করছিল", তবে এটি বেশিরভাগ ক্ষেত্রে আমি যে পরীক্ষাগুলি ব্যবহার করছিলাম সেগুলির বিশেষত্ব হতে পারে, পাশাপাশি একটি অ্যালগরিদমও খুব ভালভাবে ডিজাইন করা হয়নি। সাধারণ ক্ষেত্রে এন্ট্রপি আমার জন্য খুব সামান্য কাজ করে।

পরবর্তীকালে আমি এমন একটি কৌশল চেষ্টা করেছি যেখানে আমি সামগ্রিক সংকেত প্রস্থের এফএফটি (বিভিন্ন উইন্ডো ফাংশন ব্যবহার করে) গণনা করি (আমি শক্তি, বর্ণালী প্রবাহ এবং আরও কয়েকটি ব্যবস্থা চেষ্টা করেছি) সেকেন্ডে প্রায় 8 বার নমুনা (মূল এফএফটি চক্র থেকে স্ট্যাটাস গ্রহণ করে) যা প্রতি 1024/8000 সেকেন্ডে হয়)। 1024 নমুনা সহ এটি প্রায় দুই মিনিটের সময়সীমা জুড়ে। আমি আশা করছিলাম যে আমি ভিড় / সংগীত বনাম ঘোরাঘুরি / শ্বাস প্রশ্বাসের ধীর ছন্দের কারণে এতে নিদর্শনগুলি দেখতে সক্ষম হব (এবং এটি " পরিবর্তনশীলতা " ইস্যুটি সমাধান করার আরও ভাল উপায় হতে পারে ), তবে ইঙ্গিতগুলি থাকাকালীন এখানে এবং সেখানে একটি নিদর্শন, আমি সত্যিই এটি ল্যাচ করতে পারেন কিছুই।

( আরও তথ্য: কিছু ক্ষেত্রে সিগন্যাল প্রস্থের এফএফটি প্রায় 0.2Hz এবং সিঁড়ির সুরের সুরকারে একটি শক্ত শিখর সহ একটি খুব স্বতন্ত্র প্যাটার্ন তৈরি করে But তবে বেশিরভাগ সময় প্যাটার্নটি এতটা স্বতন্ত্র নয়, এবং ভয়েস এবং সংগীত কম স্বতন্ত্র উত্পন্ন করতে পারে অনুরূপ প্যাটার্নের সংস্করণ me যোগ্যতার একটি চিত্রের জন্য একটি পারস্পরিক সম্পর্কের মান গণনা করার কিছু উপায় থাকতে পারে তবে মনে হয় এটির জন্য একটি চতুর্থ অর্ডারের বহুবর্ষীয় জন্য বক্ররেখা লাগানো দরকার এবং ফোনে সেকেন্ডে একবার করা অবাস্তব বলে মনে হয়))

আমি বর্ণালীকে বিভক্ত করেছি এমন 5 টি পৃথক "ব্যান্ড" এর জন্য গড় প্রশস্ততার একই এফএফটি করার চেষ্টাও করেছি। ব্যান্ডগুলি 4000-2000, 2000-1000, 1000-500 এবং 500-0 হয়। প্রথম 4 টি ব্যান্ডের প্যাটার্নটি সামগ্রিক প্যাটার্নের সাথে সাধারণত একই রকম ছিল (যদিও কোনও সত্য "স্ট্যান্ড আউট" ব্যান্ড ছিল না, এবং প্রায়শই উচ্চতর ফ্রিকোয়েন্সি ব্যান্ডগুলিতে ছোট ছোট সংকেত পাওয়া যায়) তবে 500-0 ব্যান্ডটি সাধারণত এলোমেলো ছিল।

অনুগ্রহ: আমি নাথনকে এই অনুগ্রহটি দিতে যাচ্ছি, যদিও তার এখন পর্যন্ত সবচেয়ে উত্পাদনশীল পরামর্শ ছিল যদিও তিনি নতুন কিছু প্রস্তাব করেন নি offered আমার এখনও কয়েকটি পয়েন্ট রয়েছে যে আমি অন্য কাউকে পুরষ্কার দিতে রাজি হব, যদিও তারা কিছু ভাল ধারণা নিয়ে আসে।

— ড্যানিয়েল আর হিকস
সূত্র

2

আপনি কিছু প্রতিনিধি বর্ণালী পোস্ট করতে পারেন? (ডেটা কথা বলতে দিন।) আপনি কীভাবে "বর্ণালি পার্থক্য" গণনা করছেন?

— এমরে

"বর্ণালী পার্থক্য" কখনও কখনও "বর্ণালী প্রবাহ" এবং কয়েকটি অন্যান্য পদ হিসাবে উল্লেখ করা হয়। মূলত এটি শব্দের ধারাবাহিক এফএফটি-তে স্বতন্ত্র পার্থক্যের স্কোয়ারের যোগফল।

— ড্যানিয়েল আর হিকস 0

2

এটি ভাবতে আসুন, অডিও ক্লিপগুলি আরও ভাল হবে। স্পষ্টির জন্য ধন্যবাদ।

— এমরে

আমি সেরা উপস্থাপনাটি কী হবে তা জানার চেষ্টা করছি। সংক্ষিপ্ত নমুনাগুলির জন্য স্পেকট্রা করার জন্য আমার কাছে অভিনব সফ্টওয়্যার নেই (আমার আসল এফএফটিগুলি ব্যতীত) - স্বতন্ত্রতার জন্য পৃথক শব্দের বর্ণালী ক্যাপচার করতে খুব বেশি নমুনার প্রয়োজন হয়। এবং প্রকৃত রোগীর শব্দ পোস্ট করার সাথে মেডিকেল গোপনীয়তার কিছু সমস্যা রয়েছে।

— ড্যানিয়েল আর হিকস

1

@ ড্যানিয়েলআরহিক্স টিভি + শামুক সহ স্পেকট্রোগ্রাম এবং কেবল শামুক বা এরকম কিছু সত্যই অনেক বেশি এগিয়ে যাবে।

— স্পেসি

10

পটভূমি

নীচের কাগজপত্র অনুসারে, স্নোরিং প্রায় 130Hz এর শিখর দ্বারা চিহ্নিত করা হয় এবং পুরো 12kHz এর নীচে কেন্দ্রীভূত হয়:

আসুন দেখুন আমরা এটির সুবিধা অর্জন করতে পারি কিনা।

ম্যাটল্যাব উদাহরণ

আমাদের বাচ্চার শামুকের রেকর্ডিং কম রয়েছে ; একটি 10 মিনিটের, 8-বিট মনো WAV ফাইল। স্যাম্পলিংয়ের হার 8KHz, যার অর্থ অডিও সিগন্যালের ব্যান্ডউইথ 4KHz। স্তরটি খুব কম তাই আমি এটি প্রথমে তুলনা করব ।

[snd,fs]=wavread('recordedFile20120408010300_first_ten_minutes');
cmp=compand(snd,255,1);
wavwrite(cmp,'companded'); % used for listening purposes
[s,f,t,p]=spectrogram(snd,hann(8192));
surf(linspace(0,600,length(t)),f/pi,10*log10(p),'edgecolor','none'); 
axis tight; view(0,90);

পূর্ণ বর্ণালী rog

Y অক্ষটি ব্যান্ডউইথ, 4KHz এ স্বাভাবিক করা হয়েছে, যাতে আপনি খাঁজটি 0.1 এ দেখতে পান যা 400Hz এর ফ্রিকোয়েন্সিটির সাথে মিলে যায়। 186 ডলারে কাশির সাথে সম্পর্কিত স্পাইক রয়েছে; তা উপেক্ষা করুন। প্রতিটি শামুকের সময় আমরা অস্পষ্টভাবে দেখতে পাচ্ছি। কেবল তা-ই নয়, তারা 0.2 x 4KHz = 800Hz এর নিচে ঘনীভূত বলে মনে হচ্ছে। আসুন আরও ঘুরে দেখুন।

idx_max_freq=round(0.2*length(f));
surf(linspace(0,600,length(t)),fs*f(1:,idx_max_freq:)/(2*pi),10*log10(p(1:idx_max_freq,:)),'edgecolor','none');
axis tight; view(0,90);

স্পেকট্রামের জুম 0-800Hz এ।

এবার ফ্রিকোয়েন্সি অক্ষটি হার্টজে লেবেলযুক্ত ছিল। এখন notches বেশ পরিষ্কার। এমনকি আমরা পাওয়ার লাইনের শব্দের ওভারটোনগুলি 60Hz (180Hz, 300Hz, 420Hz) থেকে শুরু করে দেখতে পাই। এখন এলগোরিদমের সারমর্মটি আসে: আসুন লাইন আওয়াজ সরিয়ে দিয়ে এই সাবব্যান্ডের শক্তির উপর ভিত্তি করে সিগন্যালটিকে শ্রেণিবদ্ধ করি।

freq_list=round([1:57 63:177 183:297 303:417 423:800]*idx_max_freq/800);
y=10*log10(sum(p(freq_list,:)));
plot(linspace(0,600,length(y)),y-median(y))
stem(linspace(0,600,length(y)),y-median(y)>.5*std(y))

আমরা অভিনবতা পেতে চাইলে, আমরা বড় আকারের স্পাইকগুলি বাতিল করতে পারি:

stem(linspace(0,600,length(y)),(y-median(y)>.5*std(y)).*(y-median(y)<5*std(y)))

খাঁজকাটা সাবব্যান্ড 0-800Hz এ শক্তির প্লট

চূড়ান্ত ফলাফল

প্রথম প্লটের সংকেত সনাক্তকরণে অসুবিধা প্রকাশিত স্বল্প এসএনআর এর অর্থ আমাদের কেবলমাত্র অর্ধেক স্ট্যান্ডার্ড বিচ্যুতি থেকে মুক্ত হয়েছে (যার মূল্য ছিল ৪.১)। কান্ডগুলি শৃঙ্খলাগুলিকে চিহ্নিত করে।

— Emre
সূত্র

হ্যাঁ, আমার বর্তমান অ্যালগরিদম আরও বা কম ধ্রুবক স্তরে থাকা এফএফটি বালতিগুলি শূন্য করে হাম এবং অন্যান্য সুরেলা শব্দ (ভেন্টিলেটর শোর প্রায় 110Hz হতে থাকে) বাতিল করে। আপনি যখন "এই সাবব্যান্ডের শক্তির উপর ভিত্তি করে সিগন্যালটিকে শ্রেণিবদ্ধ করুন" বলবেন তখন আপনি কী বলতে চাইছেন তা আমি অস্পষ্ট - আপনি কোন সাবব্যান্ডটি উল্লেখ করছেন?

— ড্যানিয়েল আর হিকস

ওহ, আমি দেখছি, আপনি 800 Hz এর নিচে কথা বলছেন - আমি কিছুটা মিস করেছি।

— ড্যানিয়েল আর হিক্স

আপনি যদি আপনার উপরের চার্টটি দেখেন তবে আপনি দেখতে পাবেন যে শীর্ষের কাছাকাছি প্রায় কিছুটা তথ্য আছে এবং মাঝখানে নীচে অন্য একটি ব্যান্ড। এবং এই ব্যান্ডগুলির প্রতিযোগিতামূলক কম শব্দ রয়েছে। আমার বর্তমান স্কিমটি বর্ণালীকে টুকরো টুকরো করে এবং প্রতিটি স্লাইসের এসএনআর মূল্যায়নের চেষ্টা করে, সেগুলি অনুযায়ী সেগুলি ওজন করে।

— ড্যানিয়েল আর হিকস

আপনি কয়েকটি বৈশিষ্ট্য যুক্ত করতে পারেন, যেমন নির্বাচিত সাবব্যান্ডগুলিতে শক্তি, বর্ণালী সমতলতা এবং তেমন কোনও অস্থায়ী বৈশিষ্ট্য ভেক্টর তৈরি করতে। তারপরে শেষ কাগজে বর্ণিত, কোনটি সবচেয়ে বেশি গুরুত্বপূর্ণ তা খুঁজে পেতে পিসিএ সঞ্চালন করুন।

— এমরে

এটিই মূলত আমি যা করছি, পিসিএর কঠোরতা অনুপস্থিত।

— ড্যানিয়েল আর হিক্স

9

সমস্ত সম্ভাবনা কভার করার জন্য কেবল এখানে এটি ছুঁড়ে ফেলা, আপনি এনট্রপি ব্যবহার করতে সক্ষম হতে পারেন, আমি জানি না বনামের বক্তৃতার এনট্রপির স্তরটি কী তবে এটি যদি আলাদা হয় তবে এটি কার্যকর হতে পারে। http://www.ee.columbia.edu/~dpwe/papers/ShenHL98-endpoint.pdf

— নাথান ডে
সূত্র

আমি এটি দিয়ে কী করছি তা সম্পূর্ণরূপে বুঝতে পারি না (তথ্য তত্ত্বটি আমার মাথাটি বিস্ফোরিত করে) তবে আমি একটি অশোধিত এনট্রপি গণনা কার্যকর করেছি, কিছুটা সম্পূর্ণ তাত্ত্বিক স্বাভাবিককরণের মধ্যে ফেলেছি এবং মনে হচ্ছে এটি কাজ করছে। সংগীত এবং ভয়েসের একটি কম (নেতিবাচক) এনট্রপি রয়েছে, যখন স্নোরিং উল্লেখযোগ্যভাবে বেশি। এবং ব্যাকগ্রাউন্ড শব্দের সাধারণভাবে (নেতিবাচক) মান হ্রাস পেয়েছে বলে মনে হচ্ছে এটি যথেষ্ট যোগ্যতার যোগ্যতা সরবরাহ করে। যদিও আরও পরীক্ষামূলক প্রয়োজন।

— ড্যানিয়েল আর হিক্স

একটি বিষয় অবশ্যই খেয়াল রাখতে হবে যেহেতু আপনাকে একটি সাধারণ স্তরের গেটও অন্তর্ভুক্ত করতে হবে, আপনি অত্যন্ত নিম্ন স্তরের পিছনে শব্দ করতে পারেন যা আপনি যে স্টাফ দিয়ে যাওয়ার চেষ্টা করছেন তার সাথে এটি মিলতে পারে, এছাড়াও আমার অভিজ্ঞতাটি ডিজিটের পরিমাণ নির্ধারণের পরামর্শ দেয় বলে মনে হয় চূড়ান্ত নিম্ন স্তরের শব্দটি সিগন্যালে ক্রম সম্পর্কে বাড়িয়ে তুলতে পারে, যেহেতু নিম্ন স্তরে সম্ভাব্য নমুনা মানগুলি হ্রাস করা হয় এবং কেবলমাত্র এনট্রপি প্রশস্ততার মধ্যে পার্থক্য বিবেচনা করে না।

— নাথান ডে

হ্যাঁ, আমি নিয়মিত শব্দ নিয়ে যুদ্ধ করছি, এবং আলাদাভাবে এটি গজানোর জন্য খুব ভাল উপায় have যখন শব্দ একটি নির্দিষ্ট স্তর ছাড়িয়ে যায় আমি পন্ট করি। (আওয়াজটি পরিমাপ করা সত্যিই আশ্চর্যজনকভাবে কঠিন))

— ড্যানিয়েল আর হিকস

হায়রে, আমি আবিষ্কার করেছি যে আমি আমার অপরিশোধিত এনট্রপি গণনার সাথে যা পরিমাপ করছিলাম তার বেশিরভাগই গণনার একটি নিদর্শন ছিল (পরীক্ষার ডেটাতে শূন্যের কারণে)। এটি বাছাই আমার প্রয়োজনের জন্য কাজ করে, তবে যতটা প্রথম চিন্তা করেছিলাম তত সুন্দরভাবে নয়।

— ড্যানিয়েল আর হিক্স

ফলোআপ: আমি একটি স্থির / ফ্লোট এফএফটি প্রতিস্থাপন করেছি যা আমি একটি সম্পূর্ণ ভাসমান বিন্দুর সাথে ব্যবহার করছিলাম (এটি স্তরগুলি কম হলে জিরো উত্পাদন করে না), এবং এন্ট্রপির উপযোগিতা টিউবগুলির আরও নিচে চলে যায় - না বিশেষভাবে দরকারী কিছু সরবরাহ করতে প্রদর্শিত হবে।

— ড্যানিয়েল আর হিকস

3

সময় ডোমেন পরিসংখ্যান সম্ভবত? ঘোরাঘুরির তুলনায় স্থির অবস্থার তুলনামূলকভাবে দীর্ঘ সময় রয়েছে বলে মনে হচ্ছে যখন স্বল্প সময়ের মধ্যে স্পিচ এনার্জি বেশ খানিকটা পরিবর্তিত হয়। বর্ণালি বিশ্লেষণের সাথে এটিও মিলিত হতে পারে। স্বরগুলিতে আরও কম ফ্রিকোয়েন্সি সামগ্রী এবং ব্যঞ্জনবর্ণগুলি আরও উচ্চ ফ্রিকোয়েন্সি থাকে। বক্তৃতা চলাকালীন বর্ণালী দ্রুত সেই রাজ্যগুলির মধ্যে দ্রুত পিছনে পিছনে ফিরে আসতে পারে এবং স্টোরেজ দীর্ঘ সময়ের জন্য এক রাজ্যে থাকতে পারে।

— Hilmar
সূত্র

মৌলিক সময়-ডোমেনের পরিসংখ্যানগুলি পৃথক পৃথক। যাইহোক, এটি একটি ভাল পয়েন্ট যে আমি স্বল্পমেয়াদী পরিবর্তনশীলতার দিকে নজর দিতে পারি (যা আমি সাধারণত সাবলীল করি)। ফ্রিকোয়েন্সি ব্যান্ডগুলির মধ্যে "বাউন্সিং" সন্ধান করাও একটি ভাল ধারণা ... আমি বর্তমানে 5 টি ব্যান্ডে বিভক্ত হয়েছি এবং আপাত নিম্ন এস / এন দিয়ে ব্যান্ডগুলি প্রত্যাখ্যান করি।

— ড্যানিয়েল আর হিকস 0

@ ড্যানিয়েলআরহিক্স আমি দেখেছি কীভাবে অন্য কোথাও cepstral খামের গণনা করা যায় , তবে আপনি সম্ভবত এটি শুদ্ধ বর্ণালির পরিবর্তে আপনার বর্ণাল পরিবর্তনের পরিমাপ হিসাবে ব্যবহার করতে পারেন যা আরও 'গোলমাল / জাগেদি' হবে তবে cepstrum (গুলি) আমাকে আরও মসৃণ করে তোলে whereas । আমি শুনেছি মেল-ফ্রিকোয়েন্সি সিপস্ট্রাম ভয়েস রিকাগে ব্যবহৃত হয় এবং এই শব্দগুলি আপনার কাছে ব্যবহার করতে পারে বলে মনে হচ্ছে।

— স্পেসি

@ ড্যানিয়েলআরহিক্স: কোন পদ্ধতিতে পৃথক্যোগ্য? তারা অবশ্যই আমার কাছে আলাদা।

— এন্ডোলিথ

@endolith - আমার বর্তমান মেট্রিকগুলি - "বর্ণালী পার্থক্য" প্লাস সামগ্রিক জ্বালানি স্তরের কারণে পৃথকযোগ্য। তবে এগুলি লো-পাসে প্রায় 0.5 দ্বিতীয় বারের ধ্রুবক দিয়ে ফিল্টার করা হয়। আমি মনে করি আমি কিছুটা না ছাপানো ডেটা দেখার চেষ্টা করব।

— ড্যানিয়েল আর হিক্স

স্বল্প-সময়ের সময়ের পরিসংখ্যানগুলি ক্যাপচার করতে গিয়েছিলাম। কিছু "ইঙ্গিত", তবে নির্দিষ্ট কিছু নয়।

— ড্যানিয়েল আর হিক্স

1

সময়ের সাথে সাথে বর্ণালী জটিলতা। আমি অনুমান করবো যে মানুষের বক্তৃতা সম্ভবত আরও বেশি ফোনমেস ব্যবহার করে, এবং সিকোয়েন্সিংয়ের ফোনম সিকোয়েন্সগুলির তুলনায় তাদের সিকোয়েন্সিংয়ে আরও অনেক বেশি পরিসংখ্যানগত জটিলতা রয়েছে।

ধারাবাহিক বক্তৃতা স্বীকৃতিগুলির তুলনায় এটি সম্ভবত একটি খুব সহজ সমস্যা, কারণ আপনাকে কোনও নির্দিষ্ট ফোনমে বা বাক্যটি সঠিকভাবে সনাক্ত করতে হবে না, কেবলমাত্র ফোনম শোনা বর্ণালী বিভাগগুলির সংখ্যা এবং তাদের ক্রমগুলির কিছু পরিসংখ্যানগত জটিলতা পরিমাপ (একটি এনট্রপি বা সংকোচযোগ্যতা পরীক্ষা কাজ করতে পারে)। তারপরে দেখুন আপনি এই ব্যবস্থাগুলির জন্য একটি নির্ভরযোগ্য প্রান্তিক নির্ধারণ করতে পারেন কিনা।

— hotpaw2
সূত্র

সমস্যাটি হ'ল যে, স্নোরিং আশ্চর্যজনকভাবে জটিল / এলোমেলো এবং এর বর্ণালী পরীক্ষা করা হয় যখন স্বতন্ত্র বৈশিষ্ট্যগুলির মধ্যে অনেক কিছু অভাব হয়।

— ড্যানিয়েল আর হিক্স

আকর্ষণীয় তথ্য হবে যদি কোনও ঘুমন্ত ব্যক্তি জেগে ও কথা বলার সময় ঘুমন্ত অবস্থায় বিভিন্ন স্বরবর্ণের ফিল্টার এবং প্লোসিভস (এবং সময়ের সাথে সাথে ঘনত্বের সময়ে ডিজাগ্রাফ এবং ট্রাইগ্রাফ) এবং পিচ ইনফ্লাকশন (ইত্যাদি) গঠন করে।

— হটপাউ 2

বৈশিষ্ট্যগুলির অভাব একটি উল্লেখযোগ্য বৈশিষ্ট্য হতে পারে। বক্তৃতার বৈশিষ্ট্য রয়েছে।

— হটপাউ 2

একটি সমস্যা হ'ল শ্বাসরুদ্ধার এক শ্বাসের থেকে অন্য শ্বাসের মধ্যে প্রচুর পরিমাণে পৃথক হতে পারে। একটি সহজ ভারী শ্বাস খুব "সাদা", তবে একটি শামুকের কিছু খুব শক্ত স্পাইক থাকতে পারে। এটি মূলত একটি বর্গাকার তরঙ্গ, যদিও এটি একটি অতি-সরলকরণ। এবং আমাদের একটি স্মার্ট ফোনে রিয়েল টাইমে বিশ্লেষণ করা দরকার, সুতরাং অ্যালগরিদমের জটিলতা সীমিত।

— ড্যানিয়েল আর হিক্স