আপনি কীভাবে বলতে পারেন যে কোনও সংকেত রয়েছে (যখন আপনার সিগন্যালটি অনেকটা আওয়াজের মতো দেখাচ্ছে)?


11

এটি আমার স্নোরিং ডিটেক্টর আবার।

আমি যখনই কিছু থাকি তখন সিগন্যাল শনাক্ত করতে আমি বেশ ভালোভাবেই পেরেছি - দেওয়াল-খোঁচা ফাঁক থেকে নিঃশ্বাস নেওয়ার জন্য ট্র্যাক করতে পারে যা আপনি এমনকি রেকর্ডিংয়ে শুনতে পাচ্ছেন না। সমস্যাটি হ'ল, আমি কখনই বলতে পারি না যে সিগন্যালটি সনাক্তযোগ্য স্তরের নিচে নেমে গেছে এবং অ্যাপটি কেবল "শুনানির জিনিস"। এবং, দুর্ভাগ্যক্রমে, শামুক / শ্বাস প্রায়শই পর্যাপ্ত পরিমাণে অনিয়মিত হয় যে একটি সাধারণ স্বতঃসংশোধন বা অনুরূপ ব্যবধান সময় স্কিম খুব বেশি সাহায্য করার সম্ভাবনা কম। (এবং এটি সম্ভবত সম্ভবত কিছু ক্ষেত্রে শ্বাসের চেয়ে শব্দ বেশি নিয়মিত)

সুতরাং, যখন কোনও সংকেত নেই তখন আমি কী কৌশল খুঁজে বের করার জন্য নিখোঁজ হচ্ছি? এটির মতো মনে হচ্ছে যে আমি এখানে কঠোর জায়গার বিরুদ্ধে আছি, "সংকেত" দেওয়া শুরু করার মতো শোরগোলের মতো।

(এবং সম্ভবত এটি আমার যে অন্য সমস্যার মুখোমুখি হচ্ছে তার সাথে সম্পর্কিত: আশ্চর্যের বিষয়, আমি মোটামুটি জোরে বলার পরেও সিগন্যাল স্তরটি সঠিকভাবে (বা এমনকি প্রায়) মাপতে পারি না Since যেহেতু সিগন্যাল সনাক্তকরণের জন্য আমাকে রোলিং গড় এবং অনুপাত ব্যবহার করা প্রয়োজন, স্তর সম্পর্কিত ধরণের তথ্য হারিয়ে যায় it আমি এটি পুনর্গঠন করার জন্য কিছু কৌশল খুঁজছি))

বেসিক কৌশল

(যোদার জন্য)

অডিও সংকেত নমুনাযুক্ত (সাধারণত 8000Hz এ, বিভিন্ন কারণে), তারপরে 1024 ব্লকে এফএফটিড হয়। (আমার পরীক্ষায় হামিং ফিল্টার এবং ওভারল্যাপিং ব্লকগুলির খুব কম প্রভাব আছে বলে মনে হয়, যদিও সেগুলি পরে পুনর্বিবেচনা করা হতে পারে।)

এফএফটি "ব্যান্ডগুলি" (বর্তমানে 5 টি, নিম্ন প্রান্তে আরও বিশদ রাখার জন্য আকারে সামান্য স্কুড) বিভক্ত এবং প্রতিটি ব্যান্ডের "বর্ণালী পার্থক্য" এবং স্তর সংক্ষিপ্ত করা হয়। শীর্ষ-সীমিত মানগুলির দীর্ঘমেয়াদী গড় গড় "থ্রেশহোল্ডস" হিসাবে ব্যবহৃত হয়, এবং আরও পক্ষপাত সমন্বয় প্রায় 20% "ওভার থ্রেশহোল্ড" হার বজায় রাখতে ব্যবহৃত হয়।

প্রতিটি "ওভার থ্রেশহোল্ড" মানকে 1 ওজন দেওয়া হয় (প্রান্তিকের নীচে 0 ওজন দেওয়া হয়) তবে ব্যান্ডগুলিকে আরও ওজন দেওয়ার জন্য ব্যান্ডটিতে আপাত "পরিবর্তনশীলতা" (মোটামুটি 2Hz) দ্বারা ওজনটি সামঞ্জস্য করা হয় যে আরও সুস্পষ্ট সংকেত বহন করে।

ব্যান্ডগুলির ওজনগুলি যোগ করা হয় এবং তারপরে ব্লকগুলির যোগ করা ওজনগুলি একটি চলমান "স্কোর" উত্পাদনের জন্য প্রায় এক সেকেন্ড জুড়ে যোগ করা হয়। এটিকে আবার চলমান গড় থ্রোসোল্ডের সাথে তুলনা করা হয় (প্লাস বেশ কয়েকটি হিউরিস্টিক্স) শামুকের সূচনা / অফসেট সনাক্ত করতে।

হালনাগাদ

হঠাৎ করে আমার কাছে এটি ঘটেছিল যে যদি আমার অ্যালগরিদম কার্যকরভাবে একটি ধ্রুবক-স্তরের সিগন্যাল বজায় রাখে (আমার সিগন্যাল স্তরের সমস্যা অনুযায়ী), কোনও সংকেত না থাকলে এসএনআরকে কার্যকরভাবে গেজ করার উপায় হ'ল শব্দটি পরিমাপ করে।

সুবিধামতভাবে, শামুকগুলি মাঝে মাঝে মাঝে মাঝে প্রচুর "মৃত বায়ু" থাকে। এবং আমি ইতিমধ্যে শামুক খামগুলি সনাক্ত করছি। সুতরাং খামের বাইরের যে কোনও কিছু (একটি শামুকের শেষে এবং পরবর্তীটির শুরুতে) সম্ভবত গোলমাল! এটি আমি (কিছুটা নির্ভুলতার পুনরাবৃত্তি / পুনরাবৃত্তির সাথে) পরিমাপ করতে পারি। (এটি অর্ধদৈর্ঘ্য শালীন অ্যালগরিদম নিয়ে আসতে তিনটি প্রচেষ্টা নিয়েছিল, অবশ্যই - বাস্তবতা তত্ত্বের সাথে কখনই মেলে না))

সুতরাং আমার কাছে এখনও পুরো উত্তর নেই তবে আমি অগ্রগতি করেছি।

(যদিও উপরের কৌশলটি আমাকে এসএনআরের জন্য মোটামুটি ভাল প্রক্সি দেয়, তবে এখনও সত্যিকারের সংকেত স্তর অনুমান করতে আমার সমস্যা হচ্ছে My আমার "আপেক্ষিক স্তর" ইঙ্গিতগুলি সবেমাত্র শ্রুতিমধুর শ্বাসের জন্য এবং উইন্ডো র‌্যাটারের জন্য তাই স্কেল ছাড়িয়ে যেতে পারে। পরম স্তরের জন্য আমার এক প্রকার প্রক্সি প্রয়োজন))


"এটি আমার স্নোরিং ডিটেক্টর আবার" - আপনি কি দয়া করে আপনার আগের প্রশ্নের সাথে লিঙ্ক করতে পারেন (যেখানে আপনি সম্ভবত এটি বিস্তারিতভাবে বর্ণনা করেছেন) বা এই প্রশ্নে আপনার ডিটেক্টর সম্পর্কে কিছু বিশদ যুক্ত করতে পারেন?
Lorem Ipsum

@ ইয়োদা - ডিএসপি.স্ট্যাকেক্সেঞ্জাও.ইউকশনস / ৪৪৫০/২ , ডিএসপি.স্ট্যাকেক্সেঞ্জাওয়েজ / প্রশ্নগুলি / ১২৯২/২ এবং ডিএসপি.স্ট্যাকেক্সেঞ্জাওয়েজ / প্রশ্নগুলি / ১৩৯৯ /
ড্যানিয়েল আর হিক

উত্তর:


5

এখনও অবধি আপনি অডিওতে একটি শক্তিশালী পর্যায়ক্রমিক প্যাটার্নের উপস্থিতির মধ্য দিয়ে শামুক শনাক্ত করার শনাক্ত করেছেন। আপনি যদি আমাকে বলেন যে একই সম্পত্তি সহ অন্যান্য উত্স থাকতে পারে, তবে এটি স্নোয়ারিংয়ের আরও সুনির্দিষ্ট সংকেতের সংস্থার দিকে এগিয়ে যাওয়ার এবং ফোকাস করার সময়; এবং আমি রেকর্ড করা শব্দের নিজেই কাঠের কাঠের দিকে আরও সুনির্দিষ্টভাবে দেখার পরামর্শ দেব। প্রদত্ত যে কোনও মানব শ্রোতা শ্বাস প্রশ্বাস থেকে ত্বককে বাড়িয়ে তুলতে পারে, আপনি প্রচলিত অডিও সংকেত শ্রেণিবিন্যাসের পদ্ধতিটি গ্রহণ করতে পারেন। আপনার অডিও ডেটাতে এমএফসিসি এবং ওঠানামা প্যাটার্নগুলির মতো গণনা বৈশিষ্ট্যগুলি এবং শ্বাসকষ্ট থেকে শ্বাসকষ্টকে বৈষম্যমূলক করার জন্য একটি বায়সিয়ান শ্রেণিবদ্ধ (বা আরও পরিশীলিত) প্রশিক্ষণ দিন।

এই বিষয়টিতে সাহিত্য পর্যালোচনা করাও সময় হতে পারে ... উদাহরণস্বরূপ আমি এটি পেয়েছি: http://web.itu.edu.tr/kamasak/pubs/pdf/pm7_8_007.pdf


একটি সমস্যা হ'ল শব্দের প্রকৃতি স্বতন্ত্র থেকে একেক ব্যক্তির এমনকি এক রাতের মধ্যে একক ব্যক্তির পক্ষেও অনেক বেশি পরিবর্তিত হয়। তবে ক্লুগুলির জন্য ধন্যবাদ - আমি সেগুলি দেখব।
ড্যানিয়েল আর হিক্স

যদি আপনার প্রশিক্ষণের সেটটি যথেষ্ট পরিমাণে বড় হয় তবে এটি মেশিন লার্নিং কৌশলগুলি ব্যবহার করে এখনও সম্ভব হবে।
পিচনেটগুলি

আমার কাছে 50 টির বেশি ডেটা সেট রয়েছে। দুর্ভাগ্যক্রমে, একটি অ্যালগরিদম যা পুরোপুরি এক সেটে কাজ করে তার পরের অংশে খারাপভাবে ব্যর্থ হয়। কারও কারও পটভূমিতে টিভি আছে, কারও কাছে এয়ার হ্যান্ডলারগুলি দৌড়াদৌড়ি করছে ইত্যাদি B কোনও বিষয় অবস্থান পরিবর্তন করতে পারে এবং পুরোপুরি তার শামুকের প্রকৃতি পরিবর্তন করতে পারে। কিছু ধরণের স্ব-টিউনিং স্কিমের স্পষ্টরূপে প্রয়োজনীয়।
ড্যানিয়েল আর হিক্স

শ্রেণিবিন্যাসের জন্য আপনি কোন বৈশিষ্ট্যগুলি ব্যবহার করছেন?
পিকনেটগুলি

"সূচনা" এবং "অফসেট" সনাক্ত করতে প্রাথমিকভাবে কেবল "বর্ণালী পার্থক্য" ("বর্ণালী প্রবাহ" হিসাবেও পরিচিত)। তবে আমার বর্তমান স্কিমটি বর্ণালীটিকে ব্যান্ডগুলিতে ভাগ করে এবং সেই ব্যান্ডের আপাত সংকেত শক্তির উপর ভিত্তি করে প্রতিটি ব্যান্ডকে "ওজন" দেয় (যা প্রায় 1/2 হার্জেডে বর্ণালী পার্থক্যের পরিবর্তনের পরিমাণ দ্বারা বিচার করা হয়)। এটি পুরো ভলিউম পরিসীমা জুড়ে শ্বাস প্রশ্বাস / শামুক সনাক্তকরণে এমনকি ভাল লক্ষণ সহ ভালভাবে কাজ করে, তবে এটি কার্যকরভাবে প্রকৃত আয়তনের সমস্ত ইঙ্গিত হারিয়ে ফেলে। এবং কেবল একযোগে মোট শব্দ স্তরের দিকে তাকানো শব্দ সমস্যার কারণে কাজ করে না।
ড্যানিয়েল আর হিক্স

0

আপনার প্রয়োজন হতে পারে একটি গতিশীল শ্রেণিবদ্ধকারী তৈরি করতে, যা বর্তমানের বিষয়, স্লিপ ফেজ, এবং অডিও পরিবেশের সাথে কোনও নির্দিষ্ট প্রশিক্ষণের সংস্থার পরিবর্তে মানিয়ে নিতে পারে।


এটাই আমি ভাবছি।
ড্যানিয়েল আর হিক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.