আমার উইকএন্ডের একটি প্রকল্প আমাকে সিগন্যাল প্রসেসিংয়ের গভীর জলে নিয়ে এসেছে। আমার সমস্ত কোড প্রকল্পগুলির জন্য যেমন কিছু ভারী শুল্কের গণিত প্রয়োজন, তাত্ত্বিক ভিত্তির অভাব সত্ত্বেও আমি কোনও সমাধানের পথে আমার ঝাঁকুনি দেওয়ার চেয়ে বেশি আনন্দিত, তবে এই ক্ষেত্রে আমার কোনও কিছুই নেই, এবং আমার সমস্যার বিষয়ে কিছু পরামর্শ পছন্দ করবো , যথা: যখন কোনও টিভি শো চলাকালীন সরাসরি শ্রোতারা হাসেন তখন আমি ঠিক ঠিক বের করার চেষ্টা করি।
আমি হাসি শনাক্ত করার জন্য মেশিন লার্নিং পদ্ধতির উপর পড়তে বেশ কিছুটা সময় ব্যয় করেছি, কিন্তু বুঝতে পেরেছি যে ব্যক্তিগত হাসি সনাক্তকরণে আরও অনেক কিছু করা সম্ভব। একসাথে হাসতে হাসতে দু'শ লোকের মধ্যে অনেক আলাদা শাব্দিক বৈশিষ্ট্য থাকবে এবং আমার অন্তর্নিহিততাটি হল যে তারা নিউরাল নেটওয়ার্কের চেয়ে অনেক ক্রুডার কৌশলগুলির মাধ্যমে পৃথক হওয়া উচিত। আমি সম্পূর্ণ ভুল হতে পারে, যদিও! এই বিষয়ে চিন্তাভাবনা প্রশংসা করবে।
আমি এ পর্যন্ত যা চেষ্টা করেছি তা এখানে: আমি স্যাটারডে নাইট লাইভের সাম্প্রতিক পর্ব থেকে পাঁচ সেকেন্ডের দুটি অংশ দুটি দ্বিতীয় ক্লিপে কাটা করেছি। আমি তখন এই "হাসি" বা "না-হাসি" লেবেল করেছি। লাইব্রোসার এমএফসিসি বৈশিষ্ট্য নিষ্ক্রিয়কারী ব্যবহার করে, আমি তখন ডেটাতে একটি কে-মিনস চালিয়েছিলাম এবং ভাল ফলাফল পেয়েছি - দুটি ক্লাস্টারগুলি আমার লেবেলে খুব ঝরঝরে ম্যাপ করেছে। তবে আমি যখন দীর্ঘ ফাইলটি দিয়ে পুনরাবৃত্তি করার চেষ্টা করেছি তখন অনুমানগুলিতে জল থাকে না।
আমি এখন যা চেষ্টা করতে যাচ্ছি: আমি এই হাসির ক্লিপগুলি তৈরি করতে আরও সুনির্দিষ্ট হতে যাচ্ছি। একটি অন্ধ বিভাজন এবং সাজানোর পরিবর্তে, আমি ম্যানুয়ালি সেগুলি বের করতে যাচ্ছি যাতে কোনও সংলাপ সংকেতকে দূষিত না করে। তারপরে আমি এগুলিকে দ্বিতীয় চতুর্থ ক্লিপগুলিতে ভাগ করব, এর মধ্যে এমএফসিসির গণনা করব এবং এসভিএম প্রশিক্ষণ দেওয়ার জন্য সেগুলি ব্যবহার করব।
এই মুহুর্তে আমার প্রশ্নগুলি:
এই কোন বোঝার আছে?
পরিসংখ্যান এখানে সহায়তা করতে পারেন? আমি অড্যাসিটির বর্ণালী ভিউ মোডে চারদিকে স্ক্রোল করে চলেছি এবং হাসিগুলি যেখানে ঘটে তা আমি বেশ স্পষ্ট দেখতে পাচ্ছি। লগ পাওয়ারের বর্ণালীতে বক্তৃতাটির একটি খুব স্বতন্ত্র, "ফুরোইড" চেহারা রয়েছে। বিপরীতে, হাসি প্রায় একটি সাধারণ বিতরণের মত প্রায় সমানভাবে ফ্রিকোয়েন্সি বিস্তৃত বর্ণালী coversাকা। এমনকি সাধুবাদে উপস্থাপন করা আরও সীমিত ফ্রিকোয়েন্সিগুলির সেট দ্বারা হাসির হাত থেকে সাধুভাবে চোখের পাতাকে আলাদা করে দেখা সম্ভব। এটি আমাকে স্ট্যান্ডার্ড বিচ্যুতির কথা ভাবতে বাধ্য করে। আমি দেখছি কোলমোগোরভ-স্মারনভ পরীক্ষা নামে কিছু আছে, এটি কি এখানে সহায়ক হতে পারে? (আপনি উপরের চিত্রটিতে হাসি দেখতে পাচ্ছেন কমলার দেওয়াল হিসাবে 45৫% পথে ting
রৈখিক বর্ণালীটি দেখায় যে হাসি কম ফ্রিকোয়েন্সিগুলিতে আরও শক্তিশালী এবং উচ্চতর ফ্রিকোয়েন্সিগুলির দিকে ফিকে হয়ে যায় - এর অর্থ কী এটি গোলাপী শব্দের যোগ্যতা অর্জন করে? যদি তা হয়, তবে তা কি সমস্যার এক পাদদেশ হতে পারে?
আমি যদি কোন জার্গনকে অপব্যবহার করি তবে আমি ক্ষমা চাইছি, আমি এইটির জন্য উইকিপিডিয়ায় কিছুটা ছিলাম এবং কিছুটা ঝাঁপিয়ে পড়লে অবাক হব না।