আমি এসও-তে অনেকগুলি প্রশ্ন পড়েছি এবং সত্যই, তাদের প্রত্যেকে এটি সম্পর্কে কোনও বিশেষ উপায় বর্ণনা করছে না। কেউ কেউ "ডু এফএফটি" বলে এবং কেউ কেউ "জিরো ক্রসিং" ইত্যাদি বলে থাকে তবে আমি কেবল এতদূর বুঝতে পেরেছি যে ডিজিটাল অডিও ইনপুটটিতে একটি নির্দিষ্ট ফ্রিকোয়েন্সিটির জন্য প্রশস্ত পরিমাণের অ্যারে থাকে এবং ভালভাবে .. আসলে বেশি কিছু জানেন না এর বাইরে.
এখন আমি নাইকুইস্ট উপপাদ্য, ফ্রিকোয়েন্সি, প্রশস্ততা, ফুরিয়ার সিরিজ ইত্যাদি জানি এবং এটি 2-3 বছর আগে থেকে যখন আমি আমার বিশ্ববিদ্যালয়ের কোন প্রোগ্রামে সেমিস্টারে করেছিলাম। তবে তারপরেও আমাদের ফুরিয়ারের সত্যিকারের বিশ্ব ব্যবহার শেখানো হয়নি এবং আমি সাবজেক্টটি পাস করার মতো পর্যাপ্ত শিক্ষার বাইরে এই বিষয়ে আরও বেশি খোঁজ নেওয়ার মাথা ঘামাইনি। তবে এখন আমাকে all সমস্ত জিনিস ব্যবহার করতে হবে।
আমি শব্দের একটি স্ন্যাপশট এখানে সনাক্ত করতে চেষ্টা করছি:
স্পষ্টতই শব্দগুলির অনন্য গ্রাফ রয়েছে। আমি কেবল বুঝতে চাই কীভাবে গ্রাফে তাদের অনন্য স্পিকি লাইনের জন্য তাদের বিশেষ অনন্য বৈশিষ্ট্যগুলি নিষ্কাশন করতে হয়। কি প্রশস্ততা, ফ্রিকোয়েন্সি, ইত্যাদি পছন্দ করুন এবং কত সময়ের জন্য - যদিও এটি তুচ্ছ বলে মনে করি।
আমি ধাপে ধাপে একটি সাধারণ পদক্ষেপ চাই, অ-অস্পষ্ট নির্দেশিকা তালিকা - আমি যে পরিভাষাটি বুঝতে পারি না তা গুগল করতে পারি।
এই মত সম্ভবত? -
ইনপুট অডিও ডেটা পান
প্লট বর্ণালী ram
শব্দহীন পরিবেশে আপনি যে শব্দটি সনাক্ত করতে চান তার জন্য বর্ণালী গ্রাফ পান
সেই গ্রাফটি অধ্যয়ন করুন - সেই শব্দের অনন্য বৈশিষ্ট্য আঁকুন
(4) পাওয়া শব্দটির বৈশিষ্ট্যগুলি ব্যবহার করে লাইভ অডিও ফিডে particular বিশেষ বৈশিষ্ট্যগুলি সনাক্ত করতে পারে এমন কোনও ফাংশন তৈরি করুন
যদি কোনও মিল খুঁজে পাওয়া যায় তবে ভাল - কাজটি শেষ হয়েছে।
মিথ্যা নেতিবাচকতা ছড়িয়ে দিতে অ্যালগরিদমটি পোলিশ করুন।
যেখানে আমি বিভ্রান্ত তা হল - আমি কীভাবে প্রায় 3,4,5 যেতে পারি। বিশেষত 3 এবং 4 কারণ আমি এমন একটি সফ্টওয়্যার তৈরি করছি যেখানে ব্যবহারকারী কোনও ইশারার ইনপুট হিসাবে পরে ব্যবহার করার জন্য কোনও শব্দ রেকর্ড করতে সক্ষম হবে, আমি চাইব আমার সিস্টেমটি কোনও শব্দ রেকর্ড করতে এবং লাইভ অডিওর সাথে এটি মেলে যে শব্দ অঙ্গভঙ্গি সনাক্ত করতে ফিড। যেমনটি বলা, কাশি, বা আঙুলের টুকরো টুকরো বা হুইসেল বা হাততালি। বা ব্যঞ্জনবর্ণ বলতে - বা বা বা । কোন শব্দ সম্পর্কে।
আমি ভাবছিলাম যে ব্যবহারকারীরা শব্দটি বেশ পরিবেশে ইশারা হিসাবে সংরক্ষণ করতে চান তা রেকর্ড করে রাখবেন। এবং ব্যবহারকারী কেবল শান্ত সময় প্যাডিংয়ের মধ্যে শব্দটি তৈরি করত ; শুরুতে এবং রেকর্ডিংয়ের শেষে 3 সেকেন্ড।
সুতরাং বলুন, প্রথম 3 সেকেন্ডের সময়, আমার সিস্টেমটি প্রতিষ্ঠিত করবে যে বর্তমান ইনপুটটি স্বাভাবিক শান্ত ব্যাকগ্রাউন্ড শব্দ। এবং তারপরে গ্রাফটিতে হঠাৎ পরিবর্তন হবে সাউন্ড ইনপুট শুরু। এবং যখন এটি বন্ধ হয়ে যায়, রেকর্ডিংটি আরও 3 সেকেন্ডের জন্য চলতে থাকবে, চলমান শান্ত সময় প্যাডিং । এটি ব্যবহারকারীর দ্বারা ম্যানুয়ালি করা হবে। এরপরে এটি কেবলমাত্র সেই অংশের বৈশিষ্ট্যগুলি স্বয়ংক্রিয়ভাবে সংরক্ষণ করবে যার সময় গ্রাফের আকস্মিক পরিবর্তনটি চলেছিল - কোথাও প্যাডিংয়ের সময়ের মধ্যে।
এবং এইভাবে সেই অংশটির বৈশিষ্ট্যগুলি সেই শব্দের অঙ্গভঙ্গির ডেটা হিসাবে সংরক্ষণ করা হবে যা পরে নির্দিষ্ট লাইভ অডিও ফিডে সেই নির্দিষ্ট শব্দটি সনাক্ত করতে ব্যবহৃত হত।
সমস্যাটি হ'ল, আমি এই সব স্পষ্ট ইংরাজিতে ভাবছি। আমার কোডে দক্ষতার সাথে এটি প্রয়োগ করতে সক্ষম হওয়ার জন্য আমার গণিত এবং পদার্থবিজ্ঞানের চিন্তা করা দরকার। আমার কোডে কী লিখতে হবে এবং কোথায় লিখতে হবে - আমি এমনকি এতগুলি লাইব্রেরি এবং আমার কাছে এসও-তে প্রশ্ন থাকা সত্ত্বেও আমি এতটাই নির্দোষ।
এবং দুঃখিত যদি এই দীর্ঘ ছিল।