নীচে একটি সংকেত দেওয়া হয়েছে যা কারও সাথে কথা বলার রেকর্ডিং উপস্থাপন করে। আমি এর উপর ভিত্তি করে ছোট ছোট অডিও সিগন্যাল তৈরি করতে চাই। ধারণাটি 'গুরুত্বপূর্ণ' শব্দটি কখন শুরু হয় এবং শেষ হয় তা সনাক্ত করা হয় এবং চিহ্নিতকারীদের অডিওর নতুন স্নিপেট তৈরি করতে এটি ব্যবহার করে। অন্য কথায়, আমি কখনই কোনও অডিও 'অংশ' শুরু বা বন্ধ হয়ে যায় এবং এর ভিত্তিতে নতুন অডিও বাফার তৈরি করে তা হিসাবে নির্দেশক হিসাবে নীরবতাটি ব্যবহার করতে চাই।
সুতরাং উদাহরণস্বরূপ, যদি কোনও ব্যক্তি নিজেকে বলার রেকর্ড করে
Hi [some silence] My name is Bob [some silence] How are you?
তারপরে আমি এ থেকে তিনটি অডিও ক্লিপ তৈরি করতে চাই। একটি যে বলে Hi
, একটি যা বলে My name is Bob
এবং যা বলে How are you?
।
আমার প্রাথমিক ধারণাটি অডিও বাফারের মাধ্যমে নিয়মিত যাচাই করা উচিত যেখানে কম প্রশস্ততার ক্ষেত্র রয়েছে। হতে পারে আমি প্রথম দশটি নমুনা গ্রহণ করে এটি করতে পারব, মানগুলি গড় করুন এবং ফলাফল যদি কম হয় তবে এটিকে নীরব হিসাবে লেবেল করুন। আমি পরবর্তী দশটি নমুনা যাচাই করে বাফারে নামব। এই পথে বর্ধন করে আমি সনাক্ত করতে পারি যে খামগুলি কোথায় শুরু হয় এবং বন্ধ হয়।
কারও কাছে যদি কোনও ভাল, তবে সাধারণ উপায় সম্পর্কে কোনও পরামর্শ থাকে তবে তা দুর্দান্ত। আমার উদ্দেশ্যে সমাধান করতে বেশ প্রাথমিক হও।
আমি ডিএসপিতে প্রো না, তবে কিছু প্রাথমিক ধারণাটি বুঝতে পারি। এছাড়াও, আমি এই প্রোগ্রামটিমেটিভভাবে করব তাই অ্যালগরিদম এবং ডিজিটাল নমুনাগুলি সম্পর্কে কথা বলা ভাল।
সব ধরনের সাহায্য করার জন্য ধন্যবাদ!
সম্পাদনা 1
এখন পর্যন্ত দুর্দান্ত প্রতিক্রিয়া! কেবল এটি স্পষ্ট করে বলতে চেয়েছিলেন যে এটি লাইভ অডিওতে নেই এবং আমি সি বা অবজেক্টিভ-সিতে নিজেই অ্যালগরিদমগুলি লিখব তাই লাইব্রেরি ব্যবহার করা কোনও সমাধান আসলেই কোনও বিকল্প নয়।