একটি গানের অংশগুলি সনাক্ত করা হচ্ছে


9

আশা করি এটি খুব বেশি বিষয়মূলক নয় ...

আমি সংগীত শৈলী নির্বিশেষে কোনও গানের বিভিন্ন "অংশ" সনাক্ত করার প্রয়াসে কিছু দিক খুঁজছি। কোথায় দেখতে হবে সে সম্পর্কে আমার কোনও ধারণা নেই তবে অন্যান্য স্ট্যাকওভারফ্লো সাইটগুলির শক্তির উপর ভরসা করে আমি অনুভব করেছি যে এখানে কেউ দিক নির্দেশ করতে সহায়তা করতে পারে।

বেশিরভাগ মৌলিক পদগুলিতে, কেবল একের পর এক পুনরাবৃত্তি নিদর্শনগুলি ভাগ করে এবং সেগুলিকে "অংশ" বলে গানের বিভিন্ন অংশ সনাক্ত করা যায়। এটি সম্ভবত এতটা কঠিন নয় - কিছু সংখ্যক ভিন্নতা থাকা সত্ত্বেও কম্পিউটারগুলি সিগন্যালে পুনরাবৃত্তি সনাক্ত করতে বেশ ভাল।

তবে বেশিরভাগ সংগীতে যেমন "অংশগুলি" ওভারল্যাপ হয় তখন এটি শক্ত।

এই ধরণের সিস্টেমে কোন ধরণের সংগীত সবচেয়ে উপযুক্ত হবে তা বলা শক্ত। আমি অনুমান করব যে বেশিরভাগ ধ্রুপদী ধাঁচের সিম্ফোনিক সংগীত প্রক্রিয়া করা সহজ হবে।

এই অঞ্চলে গবেষণার সন্ধান করার জন্য কোন ধারণা?


আমি মনে করি স্নিপেট রেকর্ডিং থেকে গানটি স্বীকৃতি দেওয়ার জন্য একটি আইফোন অ্যাপ রয়েছে। এবং আমি মনে করি এই অ্যাপ্লিকেশন বর্ণনা করে একটি নিবন্ধ ছিল। আমি দুঃখিত যে আমার লিঙ্ক নেই তবে আমি এটি দিয়েই শুরু করব।
এমপিক্টাস

1
@mpiktas: আপনি সম্ভবত অন্য কোনো অ্যাপ্লিকেশানে উল্লেখ করছি SoundHound বা Shazam জন্য । শাজাম কীভাবে কাজ করে তার একটি শ্বেতপত্র রয়েছে , যদিও এটি বিশদে খুব বেশি যায় না। যদিও আমি নিশ্চিত নই যে ওপি'র যা দরকার তা এটি একটি ভাল সূচনা পয়েন্ট হতে পারে।
নিকো

একটি ভাল, সংক্ষিপ্ত ব্লগ পোস্ট Shazam জন্য উপর জন্য (ভিত্তিক, আমি বিশ্বাস করি, সাদা কাগজে), তবে আপনাকে চেষ্টা করতে পারেন laplacian.wordpress.com/2009/01/10/how-shazam-works
raegtin

উত্তর:


6

আমি সিগন্যাল প্রক্রিয়াজাতকরণে কোনও বিশেষজ্ঞ নই, তবে আমি সংগীত তত্ত্ব সম্পর্কে মোটামুটি জানি। আমি বলতে পারি যে, বিপরীতে, শাস্ত্রীয় সংগীত সম্ভবত সহজ গাণিতিক পদ্ধতি দ্বারা বিশ্লেষণ করা সবচেয়ে শক্ত সংগীত হতে পারে। আপনি সবচেয়ে সহজ এবং আরও পুনরাবৃত্তিযোগ্য, যেমন পপ বা টেকনো সঙ্গীত দিয়ে শুরু করতে পারেন। পপের প্রায়শই একটি শ্লোক-কোরাস-শ্লোক ... ইত্যাদি ফর্ম্যাট থাকে যা আপনার লক্ষ্যগুলির সরল সংস্করণের পক্ষে উপযুক্ত হতে পারে।

আপনার ডেটাটিকে এর সর্বাধিক বিশিষ্ট উপাদান ফ্রিকোয়েন্সিগুলিতে ভাঙতে ফুরিয়ার ট্রান্সফর্ম ব্যবহার করে দেখুন , বিভিন্ন বিভাগের মধ্যে সম্ভবত স্তরক্রমিকভাবে এটি ie আপনি কীভাবে আপনার ডেটার "অংশগুলি" গ্রুপ করতে চান তার উপর ভিত্তি করে বিশেষত আপনি বিভিন্ন জিনিসের সন্ধান করতে পারেন।

  1. আপনার পপ সংগীতের সবচেয়ে ধীর দোলনাগুলি সম্ভবত শ্লোক এবং কোরাস এবং শ্লোকে ফিরে আসবে (সম্ভবত প্রতি মিনিটে 0.75 দোলনা?)

  2. এরপরে আপনি আপনার জগের অগ্রগতিগুলির মধ্যে উচ্চতর ফ্রিকোয়েন্সি দোলনগুলি খুঁজে পেতে পারেন, এটি আপনার গানের প্রতিটি পরিমাপের মধ্যে (সম্ভবত প্রতি মিনিটে প্রায় 6 দোলন?)।

  3. পরবর্তী সর্বোচ্চ ফ্রিকোয়েন্সি যা আমি মনে করি একটি পরিমাপের মধ্যে একটি বার (সম্ভবত প্রতি মিনিটে প্রায় 24 টি দোলন?) যার মধ্যে গানের সুরকারের বিন্যাস এবং সিনকোপেশন প্রায়শই পপ / লোক সংগীতে পুনরাবৃত্তি করে।

  4. বেহাল বিবরণে নেমে, তারপরে আপনি আপনার গানের প্রতিটি বারের মধ্যে পুনরাবৃত্তি করা মার এবং তালগুলি খুঁজে পাবেন। এগুলির মধ্যে একটি বাছাই এবং পৃথক করা (সম্ভবত প্রতি মিনিটে 148 দোলন / বীট?) সম্ভবত একটি বাস ড্রাম কিক, বা একটি কাউবেল হিট, বা অনুরূপ ক্রম বরাবর কিছু অর্জন করতে পারে।

  5. বীট এবং সুরগুলির মধ্যে কোথাও কোথাও আপনি আপনার গানের দ্রুত শৈলীগত উপাদানগুলি যেমন বৈদ্যুতিক গিটারে গতি / ঝাড়ু বাছাই করা বা দ্রুত ভোকাল র‌্যাপিংয়ের ছন্দ খুঁজে পেতে পারেন। (এগুলি কত দ্রুত হতে পারে সে সম্পর্কে আমার কোনও ধারণা নেই তবে আমি প্রতি মিনিট বা তার বেশি 1000 বিটের ক্রম অনুসারে কোথাও অনুমান করব)।

  6. শেষ অবধি, দ্রুত এবং সম্ভবত খুব জটিলভাবে স্বন এবং কাঠের উপাদান। আমি জানি যে "মিডল এ" নোটটি 440 হার্জেড হিসাবে মানক করা হয়েছে, অর্থাৎ SECOND প্রতি 440 দোলন। আমি নিশ্চিত যে টোনাল কোয়ালিটি এবং কাঠের কাঠের উপর ভিত্তি করে কী ধরণের যন্ত্রপাতি ব্যবহার করা হচ্ছে তার ভিত্তিতে পার্থক্য করার কৌশল রয়েছে; এমনকি মানুষের কণ্ঠ সনাক্তকরণের জন্য মোটামুটি ভাল অ্যালগরিদম রয়েছে। তবে আমি যেমন বলেছিলাম, আমি কোনও সংকেত প্রক্রিয়াকরণ বিশেষজ্ঞ নই।


6

কিছু চলমান উইন্ডো পদ্ধতির দ্বারা তৈরি টুকরো টুকরোতে গণনা করা এমএফসিসিগুলির মতো এমপিইজি 7 বর্ণনাকারী ব্যবহার করে সঙ্গীতটি সাধারণত বর্ণনা করা হয় (যেমন আপনার কিছু উইন্ডোর আকার এবং হপ রয়েছে, শব্দটির শুরুতে রাখা উইন্ডোটি দিয়ে শুরু করুন, গণনা করুন) উইন্ডোতে বর্ণনাকারী, তারপরে এটিকে হপ দিয়ে সরান এবং শেষ না হওয়া পর্যন্ত পুনরাবৃত্তি করুন)। এইভাবে একটি টুকরো টেবিলের মধ্যে রূপান্তরিত হয়; আপনার ক্ষেত্রে এটি খণ্ডগুলিতে কিছু গুচ্ছ প্রয়োগ করতে ব্যবহার করা যেতে পারে এবং সেই "অংশগুলি" সনাক্ত করতে পারে।


এখন এটা হচ্ছে অনেকটা এটার মত! ভাল প্রযুক্তিগত উত্তর।
মেশিনটি

5

বিবিধ দৃষ্টিকোণ থেকে এই বিষয়টিতে প্রচুর বিভিন্ন পদ্ধতি এবং সাহিত্যের আধিক্য রয়েছে। এখানে কয়েকটি হাইলাইট রয়েছে যা আপনার অনুসন্ধানের জন্য ভাল পয়েন্ট হতে পারে।

গাণিতিক বা গণনীয় আপনি কাজ আগ্রহী হতে পারে আপনার পটভূমি চেয়ে বেশি বাদ্যযন্ত্র হয়, তাহলে ডেভিড Cope তার প্রকাশিত কাজের সবচেয়ে ধ্রুপদী সঙ্গীত টুকরা বিশ্লেষণ উপর ফোকাস, কিন্তু তিনি একটি ব্যক্তিগত উদ্যোগ বলা রিকম্বিট্যান্ট আরও সাধারণ মনে হচ্ছে যে। তাঁর বেশিরভাগ রচনা সংগীতকে ভাষার ধরণের মডেল হিসাবে ব্যবহার করেছিল, তবে আমি বিশ্বাস করি যে তার সাম্প্রতিকতম কিছু কাজ পুরো বাদ্যযন্ত্রের জিনোমের দিকে মনোনিবেশ করেছে । তার কাছে অনলাইনে প্রচুর সফ্টওয়্যার রয়েছে , তবে এটি সাধারণত লিস্পে লেখা হয় এবং কিছু কেবল অ্যাপল এর ওএসের বিভিন্ন সংস্করণে চলতে পারে যদিও কারও কারও লিনাক্সে কাজ করা উচিত বা অন্য কোথাও আপনি চালানোর জন্য সাধারণ লিস্প পেতে পারেন ।

সাধারণভাবে সংকেত এবং সংগীত বিশ্লেষণ মেশিন লার্নিংয়ে একটি খুব জনপ্রিয় সমস্যা হয়ে দাঁড়িয়েছে। প্যাটার্ন রিকগনিশন এবং প্যাটার্ন রিকগনিশন এবং মেশিন লার্নিংয়ের জন্য ক্রিস্টোফার বিশপ পাঠ্য নিউরাল নেটওয়ার্কগুলিতে ভাল শুরু করার কভারেজ রয়েছে । এখানে এমএসসি কাগজের একটি উদাহরণ রয়েছে যা সংগীতের শ্রেণিবদ্ধকরণ অংশ রয়েছে, তবে বৈশিষ্ট্য নিষ্কাশন সম্পর্কে ভাল কভারেজ রয়েছে, সেই লেখক বিশপ গ্রন্থের কমপক্ষে একটি এবং অন্যান্য কয়েকটি উত্স উদ্ধৃত করেছেন। তিনি বিষয়গুলিতে আরও বর্তমান কাগজপত্রের জন্য বেশ কয়েকটি উত্সের পরামর্শ দেন।

যেসব বই বেশি গাণিতিক বা পরিসংখ্যানগত (তাদের লিখিতভাবে অন্তত তাদের বিষয়বস্তু দ্বারা না হলে):

যেহেতু আমি বিশপ এবং মেশিন লার্নিং এর গণনামূলক দৃষ্টিভঙ্গির কথা উল্লেখ করেছি আমি হ্যাস্টির দ্বারা পরিসংখ্যানগত শিক্ষার সাম্প্রতিকতম উপাদানগুলির (যা বিনামূল্যে আইনী ডাউনলোডের জন্য উপলব্ধ) এক নজরে নেওয়ার পরামর্শ দিই না যদি আমি কেবল অর্ধেক গল্পই বলি , তিবশিরানী এবং ফ্রেডম্যান। আমার মনে নেই এই পাঠ্যে বিশেষত একটি অডিও প্রক্রিয়াকরণের উদাহরণ রয়েছে, তবে আচ্ছাদিত বেশ কয়েকটি পদ্ধতি এই সমস্যার সাথে অভিযোজিত হতে পারে।

আরও একটি পাঠ্য বিবেচ্য বিষয় হ'ল জ্যান বেরানের সংগীতবিদ্যায় পরিসংখ্যান । এটি বিশেষত বাদ্যযন্ত্রের বিশ্লেষণের জন্য বেশ কয়েকটি পরিসংখ্যান সরঞ্জাম সরবরাহ করে এবং এর সাথে অনেকগুলি উল্লেখ রয়েছে।

আবার সেখানে আরও অনেক উত্স রয়েছে। এর অনেকটাই নির্ভর করে আপনার পটভূমিটি কী এবং আপনি যে সমস্যার সাথে সবচেয়ে বেশি স্বাচ্ছন্দ্য বোধ করছেন তার দিকে নির্ভর করে। আশা করি এর উত্তরে অনুসন্ধানে আপনাকে অন্ততপক্ষে এর কিছুটা আপনাকে গাইড করবে। আপনি যদি আপনার ব্যাকগ্রাউন্ড, সমস্যা সম্পর্কে অতিরিক্ত বিশদ, বা এই পোস্টের জবাবে একটি প্রশ্ন জিজ্ঞাসা করেন তবে আমি নিশ্চিত যে আমি বা এখানকার আরও অনেকে আপনাকে আরও নির্দিষ্ট তথ্যের দিকে পরিচালিত করতে পেরে খুশি হব। শুভকামনা করছি!


4

দুর্দান্ত উত্তর নয় তবে গবেষণার জন্য দুটি জায়গা হ'ল:

ইন্টারন্যাশনাল সোসাইটি ফর মিউজিক ইনফরমেশন পুনরুদ্ধারটিতে কেবলমাত্র এই বিষয়টি সম্পর্কে প্রচুর প্রকাশিত কাগজপত্র রয়েছে, www.ismir.net কতটা তথ্য রয়েছে তা আশ্চর্যজনক

ইকোনেস্ট ডটকম এবং ইকো নেস্ট (অনুরূপ স্টাফগুলি করার জন্য একটি এপিআই সহ একটি সূচনা)

আপডেট: তারা কিছু ওপেন সোর্স ফিঙ্গারপ্রিন্টিং কোডও প্রকাশ করেছে। http://echoprint.me/


0

আমি একই সমস্যা আগ্রহী ছিল। সমাধান এখানে। এটি এত পুরানো বৈজ্ঞানিক প্রস্তাব নয় যা একে স্কেপ প্লট বলেবিশদটির জন্য এই নিবন্ধটি দেখুন (এটি দুর্দান্ত দেখাচ্ছে)

এছাড়াও, আমি আপনাকে লেখকের ওয়েবসাইটে দেখার পরামর্শ দিচ্ছি কারণ সংগীতে পরিসংখ্যানের অনেকগুলি অনুরূপ প্রয়োগ রয়েছে। অন্যান্য অনুরূপ উত্স অনুসন্ধান করার সময়, আমি অনুরূপ ক্ষেত্রগুলি অন্তর্ভুক্ত সঙ্গীত তথ্য পুনরুদ্ধার শব্দটি ব্যবহার করার পরামর্শ দিই ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.