এফএফটি স্পেকট্রামগুলি ব্যবহার করে অনুরূপ সংগীত সন্ধান করুন


16

সংগীত বিভিন্ন জেনারস সহ একটি লাইব্রেরিতে অনুরূপ গান মিলে যাওয়ার / সন্ধান করার জন্য আমি কিছু সপ্তাহ পরীক্ষা করে দেখছি।

আমার প্রথম চেষ্টাটি ছিল টেম্পোর মতো বৈশিষ্ট্যগুলি নির্ধারণ করা বা গ্রুপে গঠনের জন্য গানে কতটা বাস রয়েছে তা সনাক্ত করা, তবে আমি এই পন্থাটি (ভলিউম পরিবর্তনগুলি ভিত্তিক বিট সনাক্তকরণ) দিয়ে পৌঁছতে পারি নি, যেহেতু প্রায় 20% গানে বিট ডিংকে গণনা করতে হবে না সর্বদা, কখনও কখনও তাদের মধ্যে 1/2 বা 1/3 এবং আমি এটি বাস্তবায়ন করতে পারি না।

কয়েক সপ্তাহ ব্যর্থ চেষ্টা করার পরে আমি একটি নতুন ধারণা পেয়েছি যা এই পোস্টে পরে বর্ণিত হয়েছে। সহজভাবে এটি ফাইলগুলির স্পেকট্রাম নমুনা গ্রহণের মাধ্যমে ফাইলগুলির তুলনা করার জন্য একটি "গড় স্পেকট্রাম" এর মতো কিছু তৈরি করে কাজ করে। পেছনের আইডিয়াটি ছিল যে উদাহরণস্বরূপ হার্ডস্টাইলের গড় রক সংগীতের চেয়ে অনেক বেশি বাস রয়েছে, আমি অড্যাসিটির কিছু স্পেকট্রামগুলি দেখে এটিও যাচাই করেছি।

  • ফাইল 1: সম্পূর্ণ ফাইল এফএফটি স্পেকট্রামগুলি নিন (2048 নমুনা আকার atm, প্রশস্ততা লগ। মাপা)
  • সমস্ত স্পেকট্রাম অ্যারে যোগ করুন, প্রতিটি বিনের গড় নিন
  • অন্য কিছু ফাইল একই করুন, সমস্ত ফলাফল সঞ্চয় করুন
  • ফাইল 1 এবং অন্যান্য ফাইলগুলির মধ্যে এফএফটি মানগুলির তালিকা তৈরি করুন
  • ফাইল 1 এবং ফাইল এক্স এর মধ্যে পার্থক্য গড় করুন
  • এই গড় অনুসারে আরোহণ বাছাই করুন
  • সর্বনিম্ন "পার্থক্য মান" সহ গানগুলি অনুরূপ বলে মনে করা হয়।

আপনারা যাদের মধ্যে ভাল জ্ঞান রয়েছে তারা কি আমাকে বলতে পারবেন যে আমার আইডিয়াটি বাস্তবায়নের সঠিক / ভাল উপায় এটি যদি হয়?


1
আপনি যদি টেম্পো সনাক্ত করার চেষ্টা করছেন, আপনি সিগন্যালটিকে স্কোয়ার করার চেষ্টা করতে পারেন এবং তারপরে একটি ফুরিয়ার রূপান্তর গ্রহণ করতে পারেন। 1 হার্টের আদেশে ফ্রিকোয়েন্সিগুলি কোনও সাধারণ (অপ্রত্যাশিত) এফএফটি বর্ণালীতে উপস্থিত হবে না, কারণ তারা ফিল্টার আউট। সম্পর্কিত সম্পর্কিত ধারণা, যা পিচ সনাক্তকরণের জন্য ব্যবহৃত হয়, তাকে "সিপস্ট্রাম" বলা হয়; গুগল করে আপনি এটি সম্পর্কে জানতে পারেন। ধ্রুপদী থেকে পপ এবং জাজকে আলাদা করতে, আপনি ড্রাম কিটের শব্দগুলি শনাক্ত করার চেষ্টা করতে পারেন যা খালি নেই। Vibrato মেশিন সনাক্তকরণযোগ্য হওয়া উচিত। অসম্পূর্ণতার এমন ব্যবস্থা রয়েছে যা মেশিন-গণনা করা যায়।

1
হতে পারে আপনার মডারেটরদের এটিকে dsp.SE এ স্থানান্তরিত করতে বলা উচিত
দিলীপ

আমি আমার প্রশ্নটিকে এসই এর ডিএসপিতে স্থানান্তরিত করার অনুরোধ সহ পতাকাঙ্কিত করেছি। আপনি বলতে চাইছেন যে আমি কোনও ড্রামকিট উপস্থিত আছে কিনা তা ইনপুটকে শ্রেণিবদ্ধ করার জন্য সনাক্ত করতে পারি? স্কোয়ার সিগন্যাল কীভাবে টেম্পোর দিকে নিয়ে যায় আপনি ব্যাখ্যা করতে পারেন?

3
সঙ্গীত রেকর্ড করা হয় এবং তাদের বর্ণালী স্প্রেড সর্বাধিকীকরণের জন্য বিশেষভাবে এই দিনগুলিতে আয়ত্ত করা হয়। আমি মনে করি না যে পূর্ণ দৈর্ঘ্যের বর্ণালী আপনাকে সংগীত শ্রেণিবদ্ধ করার জন্য একটি ভাল মানদণ্ড দেবে।
ফোনন

2
বর্ণালী পরিবর্তে আপনার বর্ণালীর দিকে নজর দেওয়া উচিত। স্পেকট্রামগুলি কেবল একবারে পুরো গানের ফ্রিকোয়েন্সি সামগ্রী আপনাকে প্রদর্শন করে। স্পেকট্রামগুলি দেখায় যে সময়ের সাথে সাথে ফ্রিকোয়েন্সি সামগ্রীগুলি কীভাবে পরিবর্তিত হয়।
এন্ডোলিথ

উত্তর:


17

আপনি যা করতে চেষ্টা করছেন তা শত শত গবেষকরা চেষ্টা করেছেন এবং এ সম্পর্কে বেশ বড় একটি কাজ রয়েছে। ইসমির সম্মেলনের কার্যক্রম পরীক্ষা করে দেখুন। এমনকি যদি এটা আপ টু ডেট নয়, পড়া ইলিয়াস Pampalk থিসিস: http://www.ofai.at/~elias.pampalk/publications/pampalk06thesis.pdf

আপনাকে দ্রুত সঠিক পথে চালিত করতে:

সংগীত অনেক মাত্রা অনুসারে একই হতে পারে: ক) কাঠ / টেক্সচার / জেনার; খ) ছন্দময় প্যাটার্ন; গ) সুর / জলের অগ্রগতি ... এবং আরও অনেক কিছু! আপনার বার্তাটি থেকে আপনি কী পরিমাপ করতে চান তা পরিষ্কার নয়!

  • আপনি যদি ক) আগ্রহী হন তবে আপনি যে বৈশিষ্ট্যগুলি সন্ধান করতে চান সেগুলি হ'ল এমএফসিসি (মেল ফ্রিকোয়েন্সি সিপস্ট্রাম কোফিয়েনটিস), যেহেতু তারা কোনওভাবেই মানবিক শ্রমের কাজ (ফ্রিকোয়েন্সি ওয়ার্পিং, লগ স্কেল) ক্যাপচার করে, যেহেতু তারা সজ্জিত (মডেলিং সহজ করে তোলে) , এবং যেহেতু তাদের নিম্ন মাত্রিকতা রয়েছে (13 সহগের বনাম 2048)।
  • যদি আপনি আগ্রহী হন খ), "ফ্ল্যাচুয়েশন প্যাটার্নস" (পাম্পালক, 0.1. কয়েকটি সংখ্যক ব্যান্ডের মধ্যে 10 হার্জ হার্টের পরিসীমাতে সংকেতের সংক্ষিপ্ত স্ব-সংবিধানে) নামে একটি বৈশিষ্ট্যটি দেখুন; বা হুইটম্যানের "পেনি" বৈশিষ্ট্যগুলি (সময়ের অক্ষ সহ এমএফসিসির এফএফটি)।
  • আপনি যদি গ) এর প্রতি আগ্রহী হন তবে ক্রোমাগ্রামগুলি দেখুন। এলিসের ক্রোমাগ্রাম কোড দিয়ে শুরু করুন (http://labrosa.ee.columbia.edu/matlab/chroma-ansyn/) তারপরে যদি আপনার আরও কিছু দৃ something়তার প্রয়োজন হয় তবে (http://isophonics.net/nnls-chroma )।

বৈশিষ্ট্য জন্য এটি। আপনার গানের সাথে সেগুলির বৈশিষ্ট্যগুলির ক্রম হিসাবে প্রতিনিধিত্ব করা হয়ে গেলে এখন আপনাকে তুলনা করার আরও ভাল উপায়ের কথা ভাবতে হবে। সিকোয়েন্সগুলির মধ্যে জোড় জোড় পার্থক্য গণনা খুব স্মার্ট নয় - যেমন: একটি গান এবং কিছুটা নীরবতার সাথে অফসেট করা একই গানটির তুলনা করলে তাত্ক্ষণিক ফল পাওয়া যাবে যখন এটি ঠিক একই! আপনি বরং এই বৈশিষ্ট্যগুলির বিতরণকে তুলনা করতে চান; উদাহরণস্বরূপ গানের গানের ওপরে বৈশিষ্ট্যগুলির গড় / মানক বিচ্যুতি এবং গানের বিয়ের সাথে বৈশিষ্ট্যগুলির গড় / মানক বিচ্যুতি গণনা করুন এবং তারপরে একটি সম্ভাব্য দূরত্ব (কেএল, ভট্টাচার্য) সেগুলি নিয়ে যান।

শেষ পয়েন্ট, তবে যা পরে বিষয়টি বিবেচনা করবে: নিকটতম ম্যাচগুলি খুঁজতে কোনও গান এবং কর্পাসের বাকী অংশগুলির মধ্যে দূরত্বের গণনা করা বেশ দক্ষ। বড় সংগ্রহগুলি নিয়ে কাজ করার সময়, এলএসএইচ বা বল গাছের মতো কৌশলগুলি যেমন নিকটস্থ প্রতিবেশীদের অনুসন্ধানগুলি পুরো কর্পাসের সাথে সুস্পষ্ট তুলনা ছাড়াই সম্পাদন করতে দেয়।

একপাশে, টেম্পো সনাক্তকরণ একটি সম্পূর্ণ আলাদা বিষয়। আপনি যদি এটি সন্ধান করতে চান তবে বিষয়টির সেরা পারফরম্যান্স / অ্যাক্সেসিবিলিটি পেপার হ'ল ডায়নামিক প্রোগ্রামিংয়ের মাধ্যমে এলিসের বিট ট্র্যাকিং। http://www.ee.columbia.edu/~dpwe/pubs/Ellis07-beattrack.pdf । এটি অবিশ্বাস্যরূপে সহজ তবে শিল্প অ্যালগরিদমের রাজ্যের কাছাকাছি।


আপনার বিস্তারিত উত্তরের জন্য ধন্যবাদ, আমি ইতিমধ্যে এই প্রসঙ্গে এমএফসিসির একাধিকবার শুনেছি এবং খালি এফএফটি ফলাফল ব্যবহার না করা যুক্তিসঙ্গত বলে মনে হচ্ছে। আমার বর্তমান "জ্ঞানের অবস্থা" এবং বিকাশের পরিবেশ (সি #, বাস লাইব্রেরির এফএফটি ফলাফল) দিয়ে এটি প্রয়োগ করা বেশ জটিল বলে মনে হচ্ছে তবে আমি চেষ্টা করব।
gfg
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.