হাসির ট্র্যাক কবে প্রবেশ করবে?


14

আমার উইকএন্ডের একটি প্রকল্প আমাকে সিগন্যাল প্রসেসিংয়ের গভীর জলে নিয়ে এসেছে। আমার সমস্ত কোড প্রকল্পগুলির জন্য যেমন কিছু ভারী শুল্কের গণিত প্রয়োজন, তাত্ত্বিক ভিত্তির অভাব সত্ত্বেও আমি কোনও সমাধানের পথে আমার ঝাঁকুনি দেওয়ার চেয়ে বেশি আনন্দিত, তবে এই ক্ষেত্রে আমার কোনও কিছুই নেই, এবং আমার সমস্যার বিষয়ে কিছু পরামর্শ পছন্দ করবো , যথা: যখন কোনও টিভি শো চলাকালীন সরাসরি শ্রোতারা হাসেন তখন আমি ঠিক ঠিক বের করার চেষ্টা করি।

আমি হাসি শনাক্ত করার জন্য মেশিন লার্নিং পদ্ধতির উপর পড়তে বেশ কিছুটা সময় ব্যয় করেছি, কিন্তু বুঝতে পেরেছি যে ব্যক্তিগত হাসি সনাক্তকরণে আরও অনেক কিছু করা সম্ভব। একসাথে হাসতে হাসতে দু'শ লোকের মধ্যে অনেক আলাদা শাব্দিক বৈশিষ্ট্য থাকবে এবং আমার অন্তর্নিহিততাটি হল যে তারা নিউরাল নেটওয়ার্কের চেয়ে অনেক ক্রুডার কৌশলগুলির মাধ্যমে পৃথক হওয়া উচিত। আমি সম্পূর্ণ ভুল হতে পারে, যদিও! এই বিষয়ে চিন্তাভাবনা প্রশংসা করবে।

আমি এ পর্যন্ত যা চেষ্টা করেছি তা এখানে: আমি স্যাটারডে নাইট লাইভের সাম্প্রতিক পর্ব থেকে পাঁচ সেকেন্ডের দুটি অংশ দুটি দ্বিতীয় ক্লিপে কাটা করেছি। আমি তখন এই "হাসি" বা "না-হাসি" লেবেল করেছি। লাইব্রোসার এমএফসিসি বৈশিষ্ট্য নিষ্ক্রিয়কারী ব্যবহার করে, আমি তখন ডেটাতে একটি কে-মিনস চালিয়েছিলাম এবং ভাল ফলাফল পেয়েছি - দুটি ক্লাস্টারগুলি আমার লেবেলে খুব ঝরঝরে ম্যাপ করেছে। তবে আমি যখন দীর্ঘ ফাইলটি দিয়ে পুনরাবৃত্তি করার চেষ্টা করেছি তখন অনুমানগুলিতে জল থাকে না।

আমি এখন যা চেষ্টা করতে যাচ্ছি: আমি এই হাসির ক্লিপগুলি তৈরি করতে আরও সুনির্দিষ্ট হতে যাচ্ছি। একটি অন্ধ বিভাজন এবং সাজানোর পরিবর্তে, আমি ম্যানুয়ালি সেগুলি বের করতে যাচ্ছি যাতে কোনও সংলাপ সংকেতকে দূষিত না করে। তারপরে আমি এগুলিকে দ্বিতীয় চতুর্থ ক্লিপগুলিতে ভাগ করব, এর মধ্যে এমএফসিসির গণনা করব এবং এসভিএম প্রশিক্ষণ দেওয়ার জন্য সেগুলি ব্যবহার করব।

এই মুহুর্তে আমার প্রশ্নগুলি:

  1. এই কোন বোঝার আছে?

  2. পরিসংখ্যান এখানে সহায়তা করতে পারেন? আমি অড্যাসিটির বর্ণালী ভিউ মোডে চারদিকে স্ক্রোল করে চলেছি এবং হাসিগুলি যেখানে ঘটে তা আমি বেশ স্পষ্ট দেখতে পাচ্ছি। লগ পাওয়ারের বর্ণালীতে বক্তৃতাটির একটি খুব স্বতন্ত্র, "ফুরোইড" চেহারা রয়েছে। বিপরীতে, হাসি প্রায় একটি সাধারণ বিতরণের মত প্রায় সমানভাবে ফ্রিকোয়েন্সি বিস্তৃত বর্ণালী coversাকা। এমনকি সাধুবাদে উপস্থাপন করা আরও সীমিত ফ্রিকোয়েন্সিগুলির সেট দ্বারা হাসির হাত থেকে সাধুভাবে চোখের পাতাকে আলাদা করে দেখা সম্ভব। এটি আমাকে স্ট্যান্ডার্ড বিচ্যুতির কথা ভাবতে বাধ্য করে। আমি দেখছি কোলমোগোরভ-স্মারনভ পরীক্ষা নামে কিছু আছে, এটি কি এখানে সহায়ক হতে পারে? লগ-পাওয়ার বর্ণালী (আপনি উপরের চিত্রটিতে হাসি দেখতে পাচ্ছেন কমলার দেওয়াল হিসাবে 45৫% পথে ting

  3. রৈখিক বর্ণালীটি দেখায় যে হাসি কম ফ্রিকোয়েন্সিগুলিতে আরও শক্তিশালী এবং উচ্চতর ফ্রিকোয়েন্সিগুলির দিকে ফিকে হয়ে যায় - এর অর্থ কী এটি গোলাপী শব্দের যোগ্যতা অর্জন করে? যদি তা হয়, তবে তা কি সমস্যার এক পাদদেশ হতে পারে? বর্ণালির আলোকক চিত্র বা রেখা চিত্র

আমি যদি কোন জার্গনকে অপব্যবহার করি তবে আমি ক্ষমা চাইছি, আমি এইটির জন্য উইকিপিডিয়ায় কিছুটা ছিলাম এবং কিছুটা ঝাঁপিয়ে পড়লে অবাক হব না।


1
"আমি হাসির ট্র্যাকগুলির জন্য একটি সন্ধানী ডিটেক্টর পেতে কোনও নিউরাল নেটওয়ার্কের প্রয়োজন হবে না" এর সাথে আমি একমত। আপনি যদি কোমোগোরভকে সিগন্যালে নিক্ষেপ করতে সম্মত হন তবে আমি এই বিষয়েও একমত যে আপনি যদি সঠিক হন এবং হাসির ট্র্যাকটি হ'ল আইডের সমান (ওজনযুক্ত) যোগ হয় তবে আপনার কোনও প্রকারের স্বাভাবিক বৈশিষ্ট্য পাওয়া উচিত । সম্ভবত আপনি এখনও ফ্রিকোয়েন্সি রেজোলিউশন বাড়াতে চান। যাইহোক, যিনি ডিএসপিতে "প্রবেশ করেন না" তার পক্ষে আপনার জারগানটি বেশ ভাল :) :) দুঃখের বিষয়, আমি কোনও অডিও লোক নই, তাই আমি সম্ভবত খুব সহায়ক না।
মার্কাস মুলার

আমি সাহায্য করে খুশি। প্রশিক্ষণের জন্য আপনার কি কোনও ডেটা আছে? সবচেয়ে গুরুত্বপূর্ণ বিষয়গুলির মধ্যে একটি হ'ল ডেটা লেবেলিং। আবর্জনা আবর্জনা. সবচেয়ে সহজ এবং কার্যকর পন্থাগুলির মধ্যে একটি হ'ল ব্যাগ-অফ-ফ্রেম জিএমএম প্রশিক্ষণ দেওয়া এবং সম্ভাবনাটি মূল্যায়ন করা।
জোজেক

আপনি প্রথমে যাচাই করতে চাইতে পারেন, যদি আপনি নির্দিষ্ট সময়ে আপনার সংকেতের শক্তি / প্রশস্ততা পরীক্ষা করে নিরবতা থেকে হাসি আলাদা করতে পারেন। "কিছু" ঘটছে এমন মুহুর্তগুলিকে দ্বারপ্রান্তের সম্ভাবনা প্রদান করা। তারপরে আপনি ফ্রিকোয়েন্সি বিতরণটি দেখার চেষ্টা করতে পারেন। উদাহরণস্বরূপ, বক্তৃতার কিছু স্বতন্ত্র তীক্ষ্ণ পীক থাকতে পারে (এই পিকগুলি ঠিক কোথায় রয়েছে সেদিকে খেয়াল রাখবেন না), যদিও হাসি আপনি বলেছেন বলে অভিন্ন। এটি ট্র্যাকিং যদি এটি হাসি হয় তবে সিদ্ধান্ত নেওয়ার জন্য কোনও মান অর্জন করতে পারে। (আপনার কেবল অভিন্ন নীরবতা নেই তা নিশ্চিত করতে আপনার ভলিউমের তথ্য প্রয়োজন)
ব্যবহারকারী 6522399

উত্তর:


0

আপনার পর্যবেক্ষণের ভিত্তিতে, সিগন্যালের সেই বর্ণালীটি যথেষ্ট পার্থক্যযোগ্য, আপনি বক্তৃতা থেকে হাসিকে শ্রেণিবদ্ধ করার জন্য এটি বৈশিষ্ট্য হিসাবে ব্যবহার করতে পারেন।

আপনি সমস্যাটি দেখতে পারেন এমন অনেকগুলি উপায় রয়েছে।

পন্থা # 1

একবারে, আপনি কেবল এমএফসিসির ভেক্টরের দিকে নজর দিতে পারেন। এবং এটি কোনও শ্রেণিবদ্ধে প্রয়োগ করুন। যেহেতু আপনার ফ্রিকোয়েন্সি ডোমেনের অনেক সহ-দক্ষ, তাই এর ভিত্তিতে অ্যাডাবুস্টের মতো আলগোরিদিমগুলি বাড়িয়ে আপনি ক্যাসকেড ক্লাসিফায়ার কাঠামোটি দেখতে চাইতে পারেন , আপনি বক্তৃতা শ্রেণি বনাম হাসি শ্রেণির মধ্যে তুলনা করতে পারেন।

পদ্ধতির # 2

আপনি বুঝতে পেরেছেন যে আপনার বক্তব্যটি মূলত সময় পরিবর্তিত সংকেত। সুতরাং এটির কার্যকর উপায়গুলির মধ্যে একটি হ'ল সিগন্যালের সময় পরিবর্তনের দিকে লক্ষ্য করা। এর জন্য, আপনি নমুনার ব্যাচে সংকেতগুলি বিভক্ত করতে পারেন এবং সেই সময়ের জন্য বর্ণালীটি দেখুন। এখন, আপনি বুঝতে পারেন যে একটি নির্দিষ্ট সময়কালের জন্য হাসির আরও পুনরাবৃত্তি প্যাটার্ন থাকতে পারে যেখানে বক্তৃতা সহজাতভাবে আরও তথ্য থাকে এবং সুতরাং বর্ণালীটির প্রকরণটি আরও বড় হতে পারে। আপনি যদি কোনও ফ্রিকোয়েন্সি বর্ণালীতে ধারাবাহিকভাবে একই অবস্থায় রয়ে যান বা আপনি ক্রমাগত পরিবর্তন করে থাকেন তা দেখতে আপনি এইচএমএম ধরণের মডেলটিতে এটি প্রয়োগ করতে পারেন । এখানে, এমনকি যদি মাঝে মাঝে বক্তৃতার বর্ণালী হাসির সাথে সাদৃশ্যপূর্ণ তবে এটি আরও বেশি সময় পরিবর্তন করতে পারে।

পদ্ধতির # 3

সিগন্যালে এলপিসি / সিইএলপি জাতীয় কোডিং প্রয়োগ করতে এবং অবশিষ্টাংশ পর্যবেক্ষণ করতে বাধ্য করুন। সিইএলপি কোডিং বক্তৃতা উত্পাদনের একটি খুব সঠিক মডেল তৈরি করে।

এখানে রেফারেন্স থেকে: কেল্ড কোড অফ থিওরি

স্পিচ সিগন্যালের অপ্রয়োজনীয় স্বল্পমেয়াদী ভবিষ্যদ্বাণী এবং স্পিচ সিগন্যালের দীর্ঘমেয়াদী পূর্বাভাসের পরে প্রায় অপসারণ করা হয়েছে এবং অবশিষ্টাংশের মধ্যে খুব কম পারস্পরিক সম্পর্ক রয়েছে। তারপরে একটি উত্তেজনা অনুসন্ধান করা হয় যা বক্তৃতা এবং কোডবুক সূচকে সংশ্লেষ করে এবং স্থির কোডবুক থেকে প্রাপ্ত সন্ধান করা হয়। স্থানীয় সংশ্লেষিত বক্তৃতা এবং মূল স্পিচ সিগন্যালের মধ্যে এমএমএসই-এর উপর ভিত্তি করে সর্বোত্তম কোডবুক সূচক নির্বাচনের মানদণ্ড।

এটিকে সহজভাবে বলতে গেলে, বিশ্লেষক থেকে ভবিষ্যদ্বাণী করা সমস্ত বক্তব্য সরিয়ে দেওয়ার পরে - যা অবশিষ্ট থাকে তা হ'ল সঠিক তরঙ্গরূপটি পুনরায় তৈরি করতে প্রেরণ করা হয়।

কীভাবে এটি আপনার সমস্যার সাথে সহায়তা করে? মূলত, আপনি যদি CELP কোডিং প্রয়োগ করেন তবে সিগন্যালে বক্তৃতাটি বেশিরভাগ সরিয়ে ফেলা হয়, যা অবশিষ্ট থাকে তা অবশিষ্টাংশ। হাসির ক্ষেত্রে বেশিরভাগ সংকেত বজায় রাখা যেতে পারে কারণ সিইএলপি ভোকাল ট্র্যাক্ট মডেলিংয়ের সাথে এমন সংকেত পূর্বাভাস দিতে ব্যর্থ হবে, যেখানে স্বতন্ত্র বক্তৃতার খুব কম অবশিষ্ট থাকবে। আপনি হাসির বা বক্তৃতা কিনা তা দেখতে ফ্রিকোয়েন্সি ডোমেনেও এই অবশিষ্টাংশগুলি আবার বিশ্লেষণ করতে পারেন।


0

বেশিরভাগ স্পিচ সনাক্তকারীরা কেবল এমএফসিসির সহগগুলিই নয় এমএফসিসি স্তরের প্রথম এবং দ্বিতীয় ডেরিভেটিভগুলিও ব্যবহার করেন। আমি অনুমান করছি যে অনসেটগুলি এই ক্ষেত্রে খুব কার্যকর হবে এবং অন্যান্য শব্দগুলির তুলনায় একটি হাসি আলাদা করতে আপনাকে সহায়তা করবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.