এমএফসিসি কি পুনরুদ্ধার সিস্টেমে সংগীত উপস্থাপনের সর্বোত্তম পদ্ধতি?


10

একটি সিগন্যাল প্রক্রিয়াজাতকরণ কৌশল, মেল ফ্রিকোয়েন্সি সিপস্ট্রাম প্রায়শই একটি যন্ত্র শেখার কাজে ব্যবহারের জন্য একটি বাদ্যযন্ত্রের টুকরোগুলি থেকে তথ্য আহরণের জন্য ব্যবহৃত হয়। এই পদ্ধতিটি একটি স্বল্প-মেয়াদী পাওয়ার বর্ণালী দেয় এবং সহগগুলি ইনপুট হিসাবে ব্যবহৃত হয়।

সংগীত পুনরুদ্ধার সিস্টেমগুলি ডিজাইনের ক্ষেত্রে, এই জাতীয় সহগগুলি একটি অংশের বৈশিষ্ট্য হিসাবে বিবেচিত হয় (স্পষ্টতই অদ্বিতীয় নয়, তবে পৃথক)। এমন কোনও বৈশিষ্ট্য রয়েছে যা একটি নেটওয়ার্কের সাথে আরও ভাল শেখার পক্ষে উপযুক্ত? এলম্যান নেটওয়ার্কের মতো কিছুতে ব্যবহৃত টুকরাটির খাদ অগ্রগতির মতো সময়-পরিবর্তিত বৈশিষ্ট্যগুলি আরও কার্যকরভাবে কাজ করবে?

কোন বৈশিষ্ট্যটি একটি শ্রেণিবিন্যাস সংঘটিত হতে পারে তার উপর ভিত্তি করে যথেষ্ট পরিমাণে সেট তৈরি করবে?


আপনি কি পুনরুদ্ধারে কাজ করছেন, যেখানে আপনি একটি নির্দিষ্ট অডিও ক্লিপের অনন্য গুণাবলীর সন্ধান করছেন? বা আপনি কি অনুরূপ সংগীত সনাক্ত করতে চান?
অ্যান্ড্রু রোজেনবার্গ

অনুরূপ সংগীত শনাক্তকরণের লাইন ধরে অ্যান্ড্রুআরজেনবার্গ আরও
jonsca

(বছর পরে), এমএফসিসির সাথে টিঙ্কার করার অনেকগুলি উপায় রয়েছে; কিনুনেন এট এল।, ফ্রিকোয়েন্সি ওয়ার্পিং এবং মজবুত স্পিকার যাচাইকরণ: বিকল্প মেল-স্কেল উপস্থাপনাগুলির তুলনা 2013, 5 পি, 60 সহগের ব্যবহার করুন। এবং, কি অপ্টিমাইজ? কোন নন-ওপেন ডাটাবেস? সুতরাং আমি (অ-বিশেষজ্ঞ) বলব যে প্রশ্নটি জবাবদিহি করার পক্ষে খুব বিস্তৃত।
ডেনিস

@ এডিসিস তথ্যের জন্য ধন্যবাদ। এটি দুর্ভাগ্যজনক মেশিন লার্নিং বিটা (প্রথমবারের মতো) থেকে এসেছে। আমি প্রশংসা করি যে এটি কিছুটা অস্পষ্ট।
jonsca

উত্তর:


8

আমরা এক পর্যায়ে এ নিয়ে কিছুটা কাজ করেছি। আমরা উত্তোলিত বৈশিষ্ট্যগুলির সেটটি এই এনআইপিএস ওয়ার্কশপ পেপারে দেওয়া আছে । আমাকে স্বীকার করতে হবে যে আমরা ক্ষেত্রের আরও কিছু লেখকের ফলাফলের প্রতিরূপ তৈরি করতে পারিনি, যদিও এইগুলিতে ব্যবহৃত ডেটাসেটগুলি সম্পর্কে কিছু সন্দেহ ছিল (নোট করুন যে এই ক্ষেত্রের লেখকরা ব্যবহৃত ডেটাসেটগুলি হাতে তুলে নেওয়া হয়েছে এবং প্রকাশিত হয়নি) কপিরাইট কারণে জনসাধারণের কাছে, যদিও এটি সর্বদা হয় না)। মূলত এগুলি ছিল স্বল্প-মেয়াদী বর্ণাল বৈশিষ্ট্যঅটোরগ্রেশন সহগের সাথেও ফেলে দেওয়া হয়েছে। আমরা শৈলীর শ্রেণিবিন্যাসের দিকে তাকিয়ে ছিলাম, যা আমরা জানি মানুষ খুব কম সংক্ষিপ্ত টাইমস্প্যানস (<1s) এর মধ্যে (যদিও বিস্ময়কর নির্ভুলতার সাথে নয় এবং ধারাবাহিক চুক্তির সাথে নয়) সম্পন্ন হতে পারে, যা স্বল্পমেয়াদী বৈশিষ্ট্যগুলির ব্যবহারকে বৈধতা দেয় । আপনি যদি সাধারণ জেনার / শিল্পী / অ্যালবাম / প্রযোজক শ্রেণিবিন্যাসের চেয়ে আরও জটিল কিছু করতে আগ্রহী হন তবে আপনার আরও দীর্ঘ-পরিসরের বৈশিষ্ট্যগুলির প্রয়োজন হতে পারে, অন্যথায় এই স্বল্প-মেয়াদী বর্ণালী বৈশিষ্ট্যগুলি সর্বোত্তমভাবে সম্পাদন করার ঝোঁক।


এআর সহগগুলিতে ফেলে দেওয়ার উদ্দেশ্য কী ছিল?
jonsca

1
@ জোনসকা যেহেতু আমরা উত্সাহদানের পদ্ধতিগুলি ব্যবহার করছিলাম যা অনেক "দুর্বল" শিক্ষার্থীদের একত্রিত করে কাজ করে, তাই আমরা সহজেই গণনা করা যায় এমন কোনও বৈশিষ্ট্য ব্যবহার করার সিদ্ধান্ত নিয়েছিলাম যা কিছু সুবিধা দিতে পারে। এটি কার্যকর হওয়ার জন্য দুর্বল শিক্ষার্থীর জন্য যা প্রয়োজন তা হ'ল এটি সুযোগ স্তরের চেয়ে বৃহত্তর শ্রেণিবদ্ধ করতে পারে। এআর সহগ বা বর্ণালী খামের সংকোচনের সমতুল্য, যা কেবল খুব আলগাভাবেই যদিও এই উইন্ডোটির মধ্যে সংগীতের স্বল্পমেয়াদী তথ্য জটিলতার কিছু ধারণা দেয়।
tdc

@tdc, "ডেটাসেটগুলি জনসাধারণের কাছে প্রকাশিত হবে না ...": আপনি ফোনমাস লেবেলযুক্ত কোনও বিনামূল্যে অনলাইন ডেটাসেটের কথা জানতে পারবেন?
ডেনিস

@ এডেন কেবলমাত্র আমিই এটির পরিচিত
আইফোন্ম

@ টিডিসি, ধন্যবাদ, তবে এটি স্ট্যাট লার্নিংয়ের উপাদানগুলির মধ্যে কেবল 11 স্বর, x 1000 x 11 বৈশিষ্ট্য (প্রাচীন এলপিসি)।
ডেনিস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.