লাইভ অডিও ইনপুটটিতে আমি শিস, পপস এবং অন্যান্য শব্দ সনাক্ত করতে কীভাবে যাব?


9

আমি এসও-তে অনেকগুলি প্রশ্ন পড়েছি এবং সত্যই, তাদের প্রত্যেকে এটি সম্পর্কে কোনও বিশেষ উপায় বর্ণনা করছে না। কেউ কেউ "ডু এফএফটি" বলে এবং কেউ কেউ "জিরো ক্রসিং" ইত্যাদি বলে থাকে তবে আমি কেবল এতদূর বুঝতে পেরেছি যে ডিজিটাল অডিও ইনপুটটিতে একটি নির্দিষ্ট ফ্রিকোয়েন্সিটির জন্য প্রশস্ত পরিমাণের অ্যারে থাকে এবং ভালভাবে .. আসলে বেশি কিছু জানেন না এর বাইরে.

এখন আমি নাইকুইস্ট উপপাদ্য, ফ্রিকোয়েন্সি, প্রশস্ততা, ফুরিয়ার সিরিজ ইত্যাদি জানি এবং এটি 2-3 বছর আগে থেকে যখন আমি আমার বিশ্ববিদ্যালয়ের কোন প্রোগ্রামে সেমিস্টারে করেছিলাম। তবে তারপরেও আমাদের ফুরিয়ারের সত্যিকারের বিশ্ব ব্যবহার শেখানো হয়নি এবং আমি সাবজেক্টটি পাস করার মতো পর্যাপ্ত শিক্ষার বাইরে এই বিষয়ে আরও বেশি খোঁজ নেওয়ার মাথা ঘামাইনি। তবে এখন আমাকে all সমস্ত জিনিস ব্যবহার করতে হবে।

আমি শব্দের একটি স্ন্যাপশট এখানে সনাক্ত করতে চেষ্টা করছি:

আঙুলের স্ন্যাপগুলির অনন্য গ্রাফ এবং হালকা স্যুইচ চালু / বন্ধ

স্পষ্টতই শব্দগুলির অনন্য গ্রাফ রয়েছে। আমি কেবল বুঝতে চাই কীভাবে গ্রাফে তাদের অনন্য স্পিকি লাইনের জন্য তাদের বিশেষ অনন্য বৈশিষ্ট্যগুলি নিষ্কাশন করতে হয়। কি প্রশস্ততা, ফ্রিকোয়েন্সি, ইত্যাদি পছন্দ করুন এবং কত সময়ের জন্য - যদিও এটি তুচ্ছ বলে মনে করি।

আমি ধাপে ধাপে একটি সাধারণ পদক্ষেপ চাই, অ-অস্পষ্ট নির্দেশিকা তালিকা - আমি যে পরিভাষাটি বুঝতে পারি না তা গুগল করতে পারি।

এই মত সম্ভবত? -

  1. ইনপুট অডিও ডেটা পান

  2. প্লট বর্ণালী ram

  3. শব্দহীন পরিবেশে আপনি যে শব্দটি সনাক্ত করতে চান তার জন্য বর্ণালী গ্রাফ পান

  4. সেই গ্রাফটি অধ্যয়ন করুন - সেই শব্দের অনন্য বৈশিষ্ট্য আঁকুন

  5. (4) পাওয়া শব্দটির বৈশিষ্ট্যগুলি ব্যবহার করে লাইভ অডিও ফিডে particular বিশেষ বৈশিষ্ট্যগুলি সনাক্ত করতে পারে এমন কোনও ফাংশন তৈরি করুন

  6. যদি কোনও মিল খুঁজে পাওয়া যায় তবে ভাল - কাজটি শেষ হয়েছে।

  7. মিথ্যা নেতিবাচকতা ছড়িয়ে দিতে অ্যালগরিদমটি পোলিশ করুন।

যেখানে আমি বিভ্রান্ত তা হল - আমি কীভাবে প্রায় 3,4,5 যেতে পারি। বিশেষত 3 এবং 4 কারণ আমি এমন একটি সফ্টওয়্যার তৈরি করছি যেখানে ব্যবহারকারী কোনও ইশারার ইনপুট হিসাবে পরে ব্যবহার করার জন্য কোনও শব্দ রেকর্ড করতে সক্ষম হবে, আমি চাইব আমার সিস্টেমটি কোনও শব্দ রেকর্ড করতে এবং লাইভ অডিওর সাথে এটি মেলে যে শব্দ অঙ্গভঙ্গি সনাক্ত করতে ফিড। যেমনটি বলা, কাশি, বা আঙুলের টুকরো টুকরো বা হুইসেল বা হাততালি। বা ব্যঞ্জনবর্ণ বলতে - বা বা বা । কোন শব্দ সম্পর্কে।ABXZ

আমি ভাবছিলাম যে ব্যবহারকারীরা শব্দটি বেশ পরিবেশে ইশারা হিসাবে সংরক্ষণ করতে চান তা রেকর্ড করে রাখবেন। এবং ব্যবহারকারী কেবল শান্ত সময় প্যাডিংয়ের মধ্যে শব্দটি তৈরি করত ; শুরুতে এবং রেকর্ডিংয়ের শেষে 3 সেকেন্ড।

সুতরাং বলুন, প্রথম 3 সেকেন্ডের সময়, আমার সিস্টেমটি প্রতিষ্ঠিত করবে যে বর্তমান ইনপুটটি স্বাভাবিক শান্ত ব্যাকগ্রাউন্ড শব্দ। এবং তারপরে গ্রাফটিতে হঠাৎ পরিবর্তন হবে সাউন্ড ইনপুট শুরু। এবং যখন এটি বন্ধ হয়ে যায়, রেকর্ডিংটি আরও 3 সেকেন্ডের জন্য চলতে থাকবে, চলমান শান্ত সময় প্যাডিং । এটি ব্যবহারকারীর দ্বারা ম্যানুয়ালি করা হবে। এরপরে এটি কেবলমাত্র সেই অংশের বৈশিষ্ট্যগুলি স্বয়ংক্রিয়ভাবে সংরক্ষণ করবে যার সময় গ্রাফের আকস্মিক পরিবর্তনটি চলেছিল - কোথাও প্যাডিংয়ের সময়ের মধ্যে।

এবং এইভাবে সেই অংশটির বৈশিষ্ট্যগুলি সেই শব্দের অঙ্গভঙ্গির ডেটা হিসাবে সংরক্ষণ করা হবে যা পরে নির্দিষ্ট লাইভ অডিও ফিডে সেই নির্দিষ্ট শব্দটি সনাক্ত করতে ব্যবহৃত হত।

সমস্যাটি হ'ল, আমি এই সব স্পষ্ট ইংরাজিতে ভাবছি। আমার কোডে দক্ষতার সাথে এটি প্রয়োগ করতে সক্ষম হওয়ার জন্য আমার গণিত এবং পদার্থবিজ্ঞানের চিন্তা করা দরকার। আমার কোডে কী লিখতে হবে এবং কোথায় লিখতে হবে - আমি এমনকি এতগুলি লাইব্রেরি এবং আমার কাছে এসও-তে প্রশ্ন থাকা সত্ত্বেও আমি এতটাই নির্দোষ।

এবং দুঃখিত যদি এই দীর্ঘ ছিল।


1
কৌতূহলের বাইরে, সেই বর্ণালী কি কোনও ফোন বা ট্যাবলেটে তৈরি? যদি তা হয় তবে আপনি অ্যাপটির নাম বলতে পারবেন। এটি দেখতে দুর্দান্ত লাগছে। আপনার প্রশ্নের সাথে আমি তখন মনে করি আপনার আবেদনটি বিচ্ছিন্ন শব্দের স্বীকৃতি দেওয়ার বিষয় / কার্যের সাথে সমান। আপনি সম্ভবত এটি গুগল করে প্রচুর ধারণা এবং অনুপ্রেরণা পেতে পারেন। শক্ত অংশটি অঙ্গভঙ্গির সীমিত আপেক্ষিক ছোট সেটটিতে অঙ্গভঙ্গিগুলি সনাক্ত করা নয়, শক্ত অংশটি হ'ল অঙ্গভঙ্গি নয় এমন সামগ্রীগুলি ফিল্টার করে।
নায়ারেন

এটি অ্যাপটি: play.google.com/store/apps/… এবং আপনার দৃষ্টিভঙ্গির জন্য ধন্যবাদ for তবে আমি চাই আপনি কীভাবে শব্দের নয়, শোনার জন্য (এখনই অন্ততপক্ষে) শব্দগুলি শোনান, যেমন হুইসেলিং, পপ, তালি ইত্যাদি, আমি পাইথনে কাজ করছি।
খারাপ_কিপয়েন্ট

1
দুর্ভাগ্যক্রমে এই ধরণের জিনিসটি এখনও একটি গবেষণা ক্ষেত্র। এই নির্দিষ্ট সমস্যাটির সমাধান কারও সম্পর্কে আমি অবগত নই।
বজর্ন রোচে

উত্তর:


2

আমি বক্তব্যের স্বীকৃতি কৌশলগুলি ব্যবহার শুরু করা একটি ভাল শুরু হতে পারে এমন একটি মন্তব্যের সাথে একমত হয়েছি, তবে এই শব্দগুলি পৃথক এবং আমি তাদের শ্রেণিভুক্ত করার জন্য যে কোনও গবেষণা করেছেন সে সম্পর্কে আমি অবগত নই (নাথনের উদ্ধৃত কাগজটি কেবল বক্তৃতার মধ্যে পার্থক্য করার জন্য উপস্থিত হয়) এবং শব্দ), সুতরাং যে কেউ এর বিপরীতে কিছু উপস্থাপন না করে, আপনাকে নিজের কৌশল উদ্ভাবন করতে হবে, এবং এটি প্রচুর শেখা এবং প্রচুর কাজ নিতে চলেছে। আমি আপনাকে যা করতে পারি তা হ'ল সেরা কাজ।

প্রথমে, কেউ আশা করবেন না যে কেউ কিছু যাদু সূত্র তৈরি করতে সক্ষম হবে। শব্দ থেকে শব্দটি কী তা পাওয়ার কোনও সমীকরণ নেই। মানুষ এবং কম্পিউটারগুলি শব্দগুলি কী তা সম্পর্কে শিক্ষিত অনুমান করার জন্য ডেটা সংযুক্ত করে শিখতে হবে। লোকেরা তাদের উত্তরে "এফএফটি ব্যবহার করুন" বা "জিরো ক্রসিং ব্যবহার করুন" বলার কারণ হ'ল এগুলি বক্তৃতা স্বীকৃতি এবং সম্পর্কিত অ্যালগরিদমে ব্যবহৃত কিছু প্রাথমিক ডিএসপি বিল্ডিং ব্লক। তবে এফএফটি এবং শূন্য ক্রসিং রেট সাধারণত শব্দটির বিবরণ দিয়ে প্যারামিটারের একটি সেট তৈরির প্রথম ধাপ হয়। এই প্যারামিটারগুলি সম্ভবত পরিসংখ্যানগতভাবে (কোনও যাদু ফাংশনের মাধ্যমে নয়) বিশ্লেষণ করা হয় তারা সম্ভবত কোন বিভাগের অন্তর্ভুক্ত তা নির্ধারণ করতে। নোট করুন যে আমি বলেছি "সম্ভবত": এমনকি সর্বোত্তম বক্তৃতা সনাক্তকরণ (এবং মানব মস্তিষ্ক!

সুতরাং, কিছু প্যারামিটারগুলির জন্য আপনি সন্ধান করতে পারেন এর মধ্যে রয়েছে:

  • শূন্য-ক্রসিং হার
  • ফ্রিকোয়েন্সি সেন্ট্রয়েড
  • খাম (এটি আসলে প্যারামিটারগুলির একটি সেট, উদাহরণস্বরূপ, আক্রমণ সময়)
  • বর্ণালী খাম
  • এমনকি / বিজোড় সুরেলা ভারসাম্য
  • voiciness
  • মৌলিক পিচ

একবার আপনার কাছে এমন প্যারামিটারের সেট হয়ে গেছে যা আপনি মনে করেন যে আপনার শব্দগুলি আলাদা করতে দেয়, আপনার সেগুলি শ্রেণিবদ্ধ করার জন্য কিছু পরিসংখ্যানিক পদ্ধতি ব্যবহার করতে হবে। লুকানো মার্কভ মডেল প্রায়শই বক্তৃতায় ব্যবহৃত হয়। আপনি লজিস্টিক রিগ্রেশন, কে-মানে এবং এটিও নিশ্চিত যে এখানে অন্য পছন্দগুলি রয়েছে, তবে আমি মনে করি এইচএমএম চেষ্টা করা হয়েছে এবং সত্য।


আপনার উত্তরটি ভাল, তবে আমি মূলত ব্যবহারকারীর নিজস্ব শব্দের সাথে আমার সফ্টওয়্যারটি ব্যবহার করার পরে তিনি যে শব্দগুলি করেন তার সাথে মিলে যাওয়ার অনুরোধ করছি। মত, অনুরূপ স্টাফ। বলুন যে কোনও ব্যবহারকারী বিভিন্ন ধরণের শব্দ এ, বি এবং সি তৈরি করে এবং এই শব্দগুলির বৈশিষ্ট্যগুলি যথাক্রমে সি_এ, সি_বি এবং সি_সি হিসাবে সংরক্ষণ করা হয়।
খারাপ_কিপয়েন্ট

কৌশলটি এখনও একই: 1. আপনি কোন প্যারামিটারগুলি পরিমাপ করতে চলেছেন তা নির্ণয় করুন, 2. সেগুলি পরিমাপ করুন, ৩. প্রতিটি শব্দকে কী আলাদা করে তোলে তা শিখতে পরিসংখ্যান ব্যবহার করুন, ৪. সেই ডেটাটিকে শ্রেণিবদ্ধ করতে ব্যবহার করুন।
বজর্ন রোচে

সুতরাং এটি মূলত আমি যা ভেবেছিলাম তবে আমি অনুমান করি যে আপনি সরবরাহ করেছেন এমন দীর্ঘ দীর্ঘ তালিকা থেকে কোন প্যারামিটারগুলি আমাকে বিভ্রান্তিকর শব্দগুলির সাথে চিহ্নিত করতে হবে।
খারাপ_কিপয়েন্ট

1
সত্যি কথা বলতে, আমি প্রচুর নমুনা তথ্য ছাড়াই বিভিন্ন পরিবেশে আঙুলের স্ন্যাপ এবং হালকা স্যুইচের মতো জিনিসগুলিতে আলাদা করতে সক্ষম হওয়া সম্পর্কে খুব হতাশাবোধ করি এবং আমি যে চেয়ে বেশি পরামিতি দিয়েছি তা আশা করি তবে আমি ভুল বলেছি wrong কিছুক্ষণ সময় নিলেও আপনার ফলাফল সম্পর্কে আবার রিপোর্ট করুন।
বজর্ন রোচে

এছাড়াও, সঙ্গীত-ডিএসপি মেলিং তালিকার কিছু কিছু লোকের ( মিউজিক.কম্বম্বিয়া.ইডু / সিএমসি / মিউজিক- ডিএসপি ) অন্যান্য পরামর্শ থাকতে পারে।
বজর্ন রোচে 31'13

0

আমি এই কাগজটি এনট্রপি ভিত্তিক প্রান্তে ব্যবহার করেছি যখন আমি ফোন কলগুলিতে এই ধরণের শব্দগুলিকে উপেক্ষা করার চেষ্টা করছিলাম, কম্পিউটার স্পিচ স্বীকৃতির জন্য ব্যবহৃত হয়েছিল, আপনি যে শব্দগুলি ক্যাপচার করার চেষ্টা করছেন তা যদি বাক্য হয় তবে এনট্রপি সত্যই ভাল কাজ করতে পারে, সংগীতের জন্য এটি হতে পারে দরকারী না।


0

আমি মনে করি বিজর্নের সুপারিশগুলি খুব ভাল তবে আমি অতিরিক্ত কিছু তথ্য সরবরাহ করতে চাই। আপনার বিবরণ থেকে, এটি অনেকটা কাঠের সনাক্তকরণ সমস্যার মতো শোনাচ্ছে। কম্পিউটার সংগীত প্রসঙ্গে এই ক্ষেত্রটিতে কিছু গবেষণা রয়েছে (বিভিন্ন যন্ত্র সনাক্তকরণ একটি কার্যকর জিনিস যা করতে সক্ষম হবেন এবং একটি স্ন্যাপ এবং তালি এর মধ্যে পার্থক্য জানানোর কারণ শব্দটির কাঠবাদাম)। উইলিয়াম ব্রেন্টএই অঞ্চলে কিছু গবেষণা করেছেন (তার পৃষ্ঠায় লম্বা বার্তা দেখুন) এবং খাঁটি ডেটা ব্যবহার করার জন্য কিছু সফ্টওয়্যার তৈরি করেছেন। প্রতিটি পরিস্থিতিতে আপনি নির্দিষ্ট ইভেন্টগুলির সন্ধান করছেন, সুতরাং সূত্র সনাক্তকরণের মাধ্যমে কিছু স্বয়ংক্রিয় বিভাগকরণ করা ভাল ধারণা হবে। যেহেতু আপনি ইতিমধ্যে একটি এসটিএফটি নিচ্ছেন, একটি সূত্রপাত নির্ধারণের জন্য খুব বেশি অতিরিক্ত কাজের প্রয়োজন হবে না (স্পেকট্রাল ফ্লাক্স অনসেট সনাক্তকরণটি দেখুন)। সিস্টেমের রূপরেখাটি এরকম হতে পারে:

প্রশিক্ষণ

  • উপযুক্ত বৈশিষ্ট্যগুলি নির্ধারণ করুন (যেমন শূন্য-ক্রসিং হার, বর্ণালী সেন্ট্রয়েড, এমএফসিসির)
  • একটি সূচনা সনাক্ত করুন
  • ইনপুট অডিওতে এই বৈশিষ্ট্যগুলি গণনা করুন (আপনার অঙ্গভঙ্গি রেকর্ডিংগুলি)
  • বৈশিষ্ট্য গণনার একটি ডাটাবেস রাখুন। এটি নির্ধারিত বা তদারক করা প্রশিক্ষণের পরিস্থিতি কিনা তা আপনাকে নির্ধারণ করতে হবে। উদাহরণস্বরূপ, ব্যবহারকারীরা কি আগেই নির্দিষ্ট করে দেয় যে একটি স্ন্যাপটি "শব্দ 1" এবং একটি তালিটি "শব্দ 2", বা আপনার সিস্টেম প্রশিক্ষণের পরে এগুলি ক্লাস্টার করার চেষ্টা করে?

শ্রেণীবিন্যাস

  • রিয়েল-টাইমে একটি সূচনা সনাক্ত করুন এবং আগত অডিওতে বৈশিষ্ট্য গণনা করুন
  • আপনার ডাটাবেস থেকে "নিকটতম" শব্দ নির্ধারণ করতে নিকটতম প্রতিবেশী বা কে-নিকটতম প্রতিবেশী শ্রেণিবিন্যাস করতে দূরত্বের মেট্রিক (ইউক্যালিডিয়ান দূরত্ব বা অন্য এলপি দূরত্ব) ব্যবহার করুন

পার্সুসিভ টিম্বব্রি শনাক্তকরণ সম্পর্কিত এই কাগজটি কিছুটা কার্যকর হতে পারে। এটি আগত শব্দ এবং লেখকের শ্রেণিবদ্ধকরণ পদ্ধতিতে গণনা করার জন্য সম্ভাব্য বৈশিষ্ট্যগুলির সংজ্ঞাটির বাহ্যরেখা দেয়। এটি পার্সুসিভ শব্দগুলির জন্য মোটামুটি কার্যকরভাবে কাজ করবে, তবে স্পিচ (একাধিক সিলেবল) এর মতো কোনও কিছুর জন্য ভাল কাজ করতে পারে না, তবে এইচএমএম পদ্ধতি আরও উপযুক্ত suitable একইভাবে, আপনি যে শব্দ খুঁজছেন তার উপর নির্ভর করে আপনার সূচনা সনাক্তকরণের নির্ভুলতা পৃথক হবে।

আপনি যদি স্ন্যাপ বনাম হালকা স্যুইচগুলি সম্পর্কে বিশেষত উদ্বিগ্ন হন, তবে কোন বৈশিষ্ট্যগুলি সঠিকভাবে দুটি শব্দের মধ্যে পার্থক্য করতে পারে তা নির্ধারণ করার জন্য কিছুটা সময় ব্যয় করুন।


আগত অডিও ডেটাতে হঠাৎ পরিবর্তনগুলি সনাক্ত করে আমি সূচনাটি সনাক্ত করব। এটা কাজ করা উচিত। আমি সঞ্চয় করার জন্য অঙ্গভঙ্গিগুলির শুরু এবং শেষ শনাক্তকরণের দিকে আছি।
Bad_keypPoint

হ্যাঁ বেশিরভাগ কাজ করা উচিত। আমি স্পেকট্রাল ফ্লাক্সের পরামর্শ দেওয়ার একমাত্র কারণ, আপনি যে কোনও উপায়ে STFT নিচ্ছেন। আপনি যদি খুব শান্ত পরিবেশের প্রত্যাশা করেন, তবে একটি বেসিক প্রশস্ততা প্রসারিতভাবে যথেষ্ট ভালভাবে কাজ করা উচিত।
গ্রেটস্কট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.