শব্দ শ্রেণিবিন্যাসের জন্য বৈশিষ্ট্য নিষ্কাশন


16

আমি একটি সাউন্ড ফাইল থেকে বৈশিষ্ট্যগুলি বের করার চেষ্টা করছি এবং শব্দটিকে একটি নির্দিষ্ট বিভাগের (যেমন: কুকুরের ছাল, গাড়ির ইঞ্জিন ইত্যাদি) শ্রেণিভুক্ত হিসাবে শ্রেণিবদ্ধকরণ করার চেষ্টা করছি। আমি নিম্নলিখিত বিষয়গুলি সম্পর্কে কিছু স্পষ্টতা চাই:

1) এই আদৌ কি doable? এমন প্রোগ্রাম রয়েছে যা স্পিচকে চিনতে পারে এবং বিভিন্ন ধরণের কুকুরের ছালের মধ্যে পার্থক্য করতে পারে। তবে কী এমন কোনও প্রোগ্রাম করা সম্ভব যা সাউন্ড নমুনা গ্রহণ করতে পারে এবং কেবল এটি কী ধরণের শব্দ বলতে পারে? (ধরে নিই এমন একটি ডেটাবেস রয়েছে যাতে উল্লেখ করার জন্য প্রচুর শব্দ নমুনা রয়েছে)। ইনপুট সাউন্ড নমুনাগুলি কিছুটা গোলমাল হতে পারে (মাইক্রোফোন ইনপুট)।

2) আমি ধরে নিই যে প্রথম ধাপটি অডিও বৈশিষ্ট্য নিষ্কাশন। এই নিবন্ধটি এমএফসিসিগুলি বের করার এবং তাদের একটি মেশিন লার্নিং অ্যালগরিদমকে খাওয়ানোর পরামর্শ দেয়। এমএফসিসি কি যথেষ্ট? এমন কি অন্য কোনও বৈশিষ্ট্য রয়েছে যা সাধারণত শব্দ শ্রেণিবিন্যাসের জন্য ব্যবহৃত হয়?

সময় দেয়ার জন্য ধন্যবাদ.

উত্তর:


15
  1. দীর্ঘ শট দ্বারা এটি করণীয় - কি প্রসারিত? তুমি দেখবে. পরিবেশগত শব্দ শ্রেণিবিন্যাসের এই কাজটি খুব ভালভাবে অধ্যয়ন করা হয় না। এছাড়াও মেশিন লার্নিং দৃষ্টান্ত বেছে নেওয়া গুরুত্বপূর্ণ - পরিসংখ্যানগত পদ্ধতির বা বাইনারি শ্রেণিবদ্ধকারী? আপনি জিএমএম, এএনএন এবং এসভিএম এর সাথে শুরু করতে পারেন - আমি জিএমএম এবং এএনএন এর জন্য বেছে নিই।
  2. হ্যাঁ, বেশিরভাগ লোক এমএফসিসির ব্যবহার করছেন কারণ তারা আসলে যা শুনছেন তার সাথে তারা ভালভাবে সম্পর্কযুক্ত এবং এর পরে আর কেউ এর থেকে ভাল কিছু নিয়ে আসে না। আপনি MPEG-7 বর্ণনাকারীর মতো অতিরিক্ত বৈশিষ্ট্য যুক্ত করতেও পারেন। যথাযথ বৈশিষ্ট্য অপটিমাইজেশন করা উচিত কারণ কখনও কখনও আপনার এতগুলি বৈশিষ্ট্যের প্রয়োজন হয় না, বিশেষত যখন সেগুলি পৃথকযোগ্য হয় না। আরও তথ্যের জন্য দয়া করে আমার আগের উত্তরগুলি দেখুন:

বর্ণালী থেকে বৈশিষ্ট্য নিষ্কাশন

এমএফসিসি নিষ্কাশন

শব্দের সনাক্তকরণ


আমি সন্ধ্যায় আমার উত্তরটি প্রসারিত করব।
জোজেক

এখনও বর্ধিত উত্তরের অপেক্ষায় ...
নিতিন

সন্ধ্যায় ...
জোজেক

4

অ-মৌখিক অডিও (পরিবেশগত যাক একাকী পরিবেশ) ইমেজ, বক্তৃতা, পাঠ্যের মতো প্রধান স্ট্রিম মেশিন লার্নিং মিডিয়া প্রকারের ছোট ভাই বলে মনে হয়।

আপনার প্রশ্নের উত্তর দেওয়ার জন্য কোনও প্রদত্ত শব্দ সনাক্ত করার জন্য কোনও নেটওয়ার্ককে প্রশিক্ষণ দেওয়া সম্ভব? হ্যাঁ, এটা! তবে এটি একই কারণে মেশিন শেখা শক্ত কারণ hard

তবে কী অডিওকে সত্যই পিছনে ফেলেছে এবং কেন আমি এটিকে চিত্র এবং বক্তৃতাকে ছোট ভাই বলি কারণ এটি অডিওর বৃহত আকারের লেবেলযুক্ত ডেটাসেটের অভাব। স্পিচের জন্য এখানে সীমাবদ্ধতা রয়েছে, চিত্রগুলির জন্য বেশ কয়েকটি ইমেজেন নেট, সিআইএফএআর, ক্যালটেক, পাঠ্য এবং প্রাকৃতিক ভাষা প্রসেসিংয়ের জন্য রয়েছে বিশাল আকারের সাহিত্য ইত্যাদি etc.

আমার জানা মতে বৃহত্তম দুটি অ-মৌখিক মানব * লেবেলযুক্ত অডিও ডেটাসেট হ'ল আরবানসাউন্ডস এবং ইসি -100 ডেটাসেটস, যা সত্যিকারের গভীর শেখার পদ্ধতির জন্য নিরোধকভাবে ছোট। এই ডেটাসেটগুলিতে 2-স্তর কনভনেট ব্যবহার করে কিছু প্রকাশিত মিশ্র ফলাফল রয়েছে।

এমএফসিসি বৈশিষ্ট্যগুলি সাধারণভাবে বক্তৃতা স্বীকৃতি এবং অডিও বিশ্লেষণে একটি সুপ্রতিষ্ঠিত বেসলাইন বৈশিষ্ট্য উপস্থাপনা। তবে অন্যান্য অডিও বৈশিষ্ট্যের উপস্থাপনা রয়েছে! এই কাগজটি অডিও বৈশিষ্ট্যের ধরণের একটি দুর্দান্ত শৈলী দেয়।

আমি সম্প্রতি দেখেছি শব্দ শ্রেণিবদ্ধকরণের মধ্যে সবচেয়ে উত্তেজনাপূর্ণ কাজটি ওয়েপ নেট নামে পরিচিত ডিপমাইন্ডের কিছু লোকের দ্বারা করা হচ্ছে ।


3

এখানে 10 ক্লাসের জন্য শব্দ শ্রেণিবদ্ধকরণের জন্য একটি সমাধান রয়েছে: কুকুরের ছাঁটা, গাড়ি শিঙা, বাচ্চাদের খেলা ইত্যাদি It এটি নিউরাল নেটওয়ার্কগুলি ব্যবহার করে টেনসরফ্লুয়ে গ্রন্থাগারের উপর ভিত্তি করে। সাউন্ড ক্লিপগুলি বর্ণালীতে রূপান্তর করে বৈশিষ্ট্যগুলি বের করা হয়


3
উত্তর হিসাবে লিঙ্কিং যথেষ্ট ভাল নয়।
গিলস

হ্যাঁ, দয়া করে লিঙ্কটি কী বলে তা প্রসারিত করুন।
পিটার কে।

2
তবে তবুও লিঙ্কটির জন্য ধন্যবাদ।
কেভিন মার্টিন জোস

আসলে আমি লিঙ্কটিতে প্রদত্ত টিউটোরিয়ালটিতে ব্যবহৃত কৌশলগুলি সম্পর্কে আরও বোঝার চেষ্টা করছি। আমি কম্পিউটার ভিশন এবং ইমেজ প্রসেসিং লোক হিসাবে সাউন্ড সিগন্যালে আমার জ্ঞান খুব সীমাবদ্ধ। আমি যখন আরও কিছুটা ভাল বুঝতে পারি তখন আমি উত্তরটি আরও বিশদ দেওয়ার চেষ্টা করব।
abggcv

1

হ্যাঁ, এটি অত্যন্ত কার্যকর। যদিও এনএনগুলি এই ধরণের শ্রেণিবিন্যাস প্রশিক্ষণে দুর্দান্ত, তবে এটি এমনকি প্রয়োজনীয় নাও হতে পারে - একটি নির্দিষ্টভাবে নির্বাচিত বৈশিষ্ট্য সহ গৌসীয় মিশ্রণ মডেল বা মূল উপাদান বিশ্লেষণের মতো ক্লাসিক ক্লাস্টারিং অ্যালগরিদম সম্ভবত এটিও করতে পারে । আধুনিক পাঠাগারগুলি প্রায় 95% সময় বা তারও বেশি সময় এই জিনিসগুলি পেতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.