টেম্পোরাল ডেটার জন্য প্যাটার্ন স্বীকৃতি


9

আমি বক্তৃতাবিহীন শব্দগুলি সনাক্ত এবং শ্রেণীবদ্ধ করার চেষ্টা করছি। বর্তমানে, আমি যে বৈশিষ্ট্যগুলি সন্ধান করছি সে হিসাবে প্রশিক্ষণের শব্দগুলি থেকে ক্রমবর্ধমান ওভারল্যাপযুক্ত পাওয়ার বর্ণালীগুলিকে ব্যবহার করছি।

আমি যখন বিশ্লেষণ করি তখন আমি কেবল একই পরিমাণে ওভারল্যাপ করা বর্ণালীগুলিকে গণনা করি যাতে বৈশিষ্ট্যের সংখ্যা একই হয়। এই মুহুর্তে পারফরম্যান্স খুব ভাল নয়, এটি কেবল নীরবতা এবং নীরবতা সনাক্ত করতে পারে।

এই জাতীয় সংকেত সনাক্তকরণের জন্য কী কৌশল রয়েছে? আমার উদ্বেগের একটি হ'ল সময় ডোমেনের বিভিন্ন দৈর্ঘ্যের শব্দের ফলে বিভিন্ন দৈর্ঘ্যের ফিচার ভেক্টর তৈরি হয় যা আমি একই শ্রেণিবদ্ধ ব্যবহার করতে পারি না, আমি এই নিয়ে আটকে আছি।

উত্তর:


3

আপনি কি বাক-মুখোমুখি বাক-বক্তৃতা সনাক্ত করার চেষ্টা করছেন, বা বক্তৃতাবিহীন শব্দের এমন কোনও শ্রেণি রয়েছে যা থেকে আপনি বৈষম্যের চেষ্টা করছেন? আমি আপনার প্রশ্ন থেকে পরিষ্কার না।

আমার মনে হয় আপনার প্রথম সিগন্যালটিকে ফ্রেমে ব্লক করা এবং মেল-ফ্রিকোয়েন্সি সেপস্ট্রাল কোফিয়েনটিস (এমএফসিসি), পাশাপাশি ব-দ্বীপ-এমএফসিসি (সংলগ্ন ফ্রেমের এমএফসিসিগুলির মধ্যে পার্থক্য) এবং এমএফসিসিগুলির মধ্যে পার্থক্য ফ্রেমে যা দুটি ফ্রেম পৃথক পৃথক)। এটি করার একমাত্র উপায় নয়, তবে সমস্যা ডোমেন সম্পর্কে আরও সুনির্দিষ্ট জ্ঞান ছাড়াই এটি শুরু করার জন্য সম্ভবত একটি ভাল জায়গা।

এমপিএফসিসিগুলির সাথে ইতিমধ্যে পরিচিত না হলে কীভাবে গুগলিং আপনাকে কিছু ভাল রেফারেন্স দেয়। মূলত আপনি ডিএফটি গ্রহণ করেন, ত্রৈমাসিক উইন্ডোর ভিতরে শক্তিগুলি গণনা করুন, শ্রবণশক্তি অনুসারে এই গুণাগুলির ডিসিটি নিন, মূলত একটি সংকোচন পদক্ষেপ হিসাবে, এবং তারপরে উচ্চ অর্ডার সহগকে বাতিল করুন, সাধারণত প্রথম বারোটি সহগের সম্পর্কে । আমার এই পোস্টে ডিসিটি পদক্ষেপের অর্থের ব্যাখ্যা রয়েছে: এমএফসিসি নিষ্কাশন প্রক্রিয়াতে আমি কীভাবে ডিসিটি পদক্ষেপটি ব্যাখ্যা করব?

আপনি তখন বলতে পারেন, এসভিএমের বৈশিষ্ট্য হিসাবে এই সহগগুলি ব্যবহার করতে পারেন।


2

আমি মনে করি আপনি সাধারণত বক্তৃতা সনাক্তকরণের সমস্যাটির দিকে তাকাচ্ছেন যা চিরকাল থেকে চলেছে, এবং এটি করার জন্য অজস্র পদ্ধতির অস্তিত্ব রয়েছে। দেখে মনে হচ্ছে এই কাগজটি উদাহরণস্বরূপ বর্ণালী কৌশলও ব্যবহার করে, তাই আপনি সেখানে শুরু করতে পারেন। একটি ভাল পুরানো গুগল অনুসন্ধান কাগজ এবং নিবন্ধগুলির লিঙ্ক সহ অনেক ফলাফল ফিরিয়ে দেবে।

সাধারণত বক্তৃতা সনাক্তকরণের জন্য কিছুটা পৃথক পদ্ধতি রয়েছে aches একটি ভাল বক্তৃতা থেকে শব্দের অনুপাতের অনুমানের অনুমতি দেয় (পরিবেষ্টনের শব্দ, সংগীত, অন্যান্য অপ্রাসঙ্গিক সামগ্রীর চেয়ে ভয়েস আরও জোরে), এবং অন্যটি এ জাতীয় কোনও অনুমান করে না এবং খুব শোরগোল সংকেতগুলিতে বক্তৃতার উপস্থিতি সনাক্ত করার চেষ্টা করে না (বক্তৃতাটি কবর দেওয়া হয়) গোলমাল)। আপনি কোনটি করার চেষ্টা করছেন তার উপর নির্ভর করে আপনি খুব আলাদা কাগজপত্রটি সন্ধান করবেন। সম্ভবত আপনি যদি নিজের প্রশ্নটি কিছুটা স্পষ্ট করে জানান এবং আপনি যে ধরণের স্পিচ সিগন্যালের সাথে কাজ করছেন সে সম্পর্কে বিস্তারিতভাবে বর্ণনা করেন তবে এই সাইটটি আরও সাহায্য করতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.