বিভিন্ন (বাদ্যযন্ত্র?) সুরগুলির বৈষম্যের জন্য কোন পদ্ধতিটি ব্যবহার করবেন


12

এই সমস্যাটি কীভাবে সেরা আক্রমণ করা যায় তা আমি অনুসন্ধান করার চেষ্টা করছি। এটি মিউজিক প্রসেসিং, চিত্র প্রক্রিয়াকরণ এবং সংকেত প্রক্রিয়াকরণকে স্তম্ভিত করে এবং তাই এটি দেখার মতো অগণিত সংখ্যক উপায় রয়েছে। আমি এটির কাছে যাওয়ার সর্বোত্তম উপায়গুলি সম্পর্কে জিজ্ঞাসা করতে চেয়েছিলাম যেহেতু খাঁটি সিগ-প্রোক ডোমেনে জটিল মনে হতে পারে এমন ব্যক্তি (যারা ইতিমধ্যে সমাধান করেছেন) যারা চিত্র বা সংগীত প্রক্রিয়াকরণ করেন তাদের দ্বারা সহজ হতে পারে। যাইহোক, সমস্যাটি নিম্নরূপ:এখানে চিত্র বর্ণনা লিখুন

যদি আপনি সমস্যার হাত থেকে আমার অঙ্কন ক্ষমা করেন তবে আমরা নিম্নলিখিতটি দেখতে পাচ্ছি:

উপরের চিত্র থেকে আমার কাছে সিগন্যালের 3 টি আলাদা 'প্রকার' রয়েছে। প্রথমটি একটি পালস যা থেকে এফ 4 থেকে ফ্রিকোয়েন্সিতে 'ধাপগুলি' সাজায় এবং তারপরে পুনরাবৃত্তি করে। এটির একটি নির্দিষ্ট নাড়ি সময়কাল এবং একটি নির্দিষ্ট স্পন্দন-পুনরাবৃত্তি সময় রয়েছে hasf1f4

দ্বিতীয়টি কেবল এ উপস্থিত রয়েছে তবে এর পাল্টের সংক্ষিপ্ততর পালস এবং একটি দ্রুত পালস পুনরাবৃত্তি ফ্রিকোয়েন্সি রয়েছে।f1

শেষ পর্যন্ত তৃতীয়টি কেবল এ একটি স্বর ।f1

সমস্যাটি হ'ল আমি কীভাবে এই সমস্যাটির কাছে যাই, যেমন আমি এমন একটি শ্রেণিবদ্ধ লিখতে পারি যা সংকেত -1, সংকেত -2 এবং সংকেত -3 এর মধ্যে পার্থক্য করতে পারে। এটি হ'ল, যদি আপনি এটিকে কোনও একটি সিগন্যাল খাওয়ান তবে এটি আপনাকে এই সংকেতটি তাই বলতে সক্ষম হবে। কোন সেরা শ্রেণিবদ্ধকারী আমাকে একটি তির্যক কনফিউশন ম্যাট্রিক্স দেবে?

কিছু অতিরিক্ত প্রসঙ্গ এবং আমি এতদূর যা নিয়ে ভাবছিলাম:

আমি যেমন বলেছি এটি বেশ কয়েকটি ক্ষেত্রকে বিভক্ত করে। আমি এটি জিজ্ঞাসা করতে চেয়েছিলাম যে আমি আগে বসে এইটি নিয়ে যুদ্ধে নামার আগে কী পদ্ধতি ইতিমধ্যে বিদ্যমান থাকতে পারে। আমি অজান্তেই চাকাটি পুনরায় উদ্ভাবন করতে চাই না। আমি বিভিন্ন ভিউ পয়েন্টগুলি থেকে দেখেছি এমন কিছু ধারণা এখানে।

সিগন্যাল-প্রসেসিং স্ট্যান্ডপয়েন্ট: আমি যে বিষয়টির দিকে লক্ষ্য করেছি সেগুলি ছিল একটি সিপস্ট্রাল বিশ্লেষণ করা , এবং তারপরে সম্ভবত অন্য 2 থেকে বৈষম্যমূলক সংকেত -3 ব্যবহার করে সিপস্ট্রামের গ্যাবার ব্যান্ডউইদথ ব্যবহার করা, এবং তারপরে বৈষম্যমূলক সিগন্যালের সর্বোচ্চ শিখর পরিমাপ করা- সিগন্যাল -২ থেকে। এটি আমার বর্তমান সিগন্যাল-প্রক্রিয়াজাতকরণ কার্য সমাধান।

চিত্র-প্রক্রিয়াজাতকরণ অবস্থান: আমি ভাবছি যেহেতু আমি প্রকৃতপক্ষে বর্ণালী-সংক্রান্ত চিত্র তৈরি করতে পারি, সম্ভবত আমি সেই ক্ষেত্র থেকে কোনও কিছু অর্জন করতে পারি? আমি এই অংশটির সাথে ঘনিষ্ঠভাবে পরিচিত নই, তবে হাফ ট্রান্সফর্ম ব্যবহার করে একটি 'লাইন' সনাক্ত করার পরে কীভাবে লাইনগুলি 'গণনা' করবে (যদিও সেগুলি লাইন এবং ব্লব না হলেও?) এবং সেখান থেকে যাচ্ছি? অবশ্যই যে কোনও সময়ে আমি যখন একটি বর্ণালী গ্রহণ করি তখন আপনি যে সমস্ত নাড়ি দেখেন সেটি সময়ের অক্ষ বরাবর স্থানান্তরিত হতে পারে, তাই এই বিষয়টি কি হবে? নিশ্চিত না...

সংগীত-প্রক্রিয়াজাতকরণ অবস্থান: সিগন্যাল প্রসেসিংয়ের একটি সাবসেট নিশ্চিত হওয়া নিশ্চিত, তবে এটি আমার কাছে ঘটে যে সংকেত -১ এর একটি নির্দিষ্ট, সম্ভবত পুনরাবৃত্তিযোগ্য (সংগীত?) গুণ রয়েছে যা সংগীত-প্রকল্পের লোকেরা সব সময় দেখেন এবং ইতিমধ্যে সমাধান করেছেন in সম্ভবত বৈষম্যমূলক যন্ত্র? নিশ্চিত নয়, তবে চিন্তা আমার কাছে ঘটেছে। সম্ভবত এই স্ট্যান্ড পয়েন্টটি এটি দেখার সেরা উপায়, সময় ডোমেনের একটি অংশ নিয়ে এবং সেই পদক্ষেপগুলি হ্রাস করে? আবার এটি আমার ক্ষেত্র নয়, তবে আমি ভারীভাবে সন্দেহ করি এটি এমন কিছু যা আগে দেখা গিয়েছিল ... আমরা কি সমস্ত 3 সংকেতকে বিভিন্ন ধরণের বাদ্যযন্ত্র হিসাবে দেখতে পারি?

আমার আরও যোগ করা উচিত যে আমার কাছে প্রশিক্ষণের জন্য একটি উপযুক্ত পরিমাণের তথ্য রয়েছে, তাই সম্ভবত এই পদ্ধতিগুলির কয়েকটি ব্যবহার করে আমাকে কিছু বৈশিষ্ট্য নিষ্কাশন করতে দেওয়া হতে পারে যা আমি তখন কে-নিকটবর্তী নিকটবর্তীকে ব্যবহার করতে পারি , তবে এটি কেবল একটি চিন্তাভাবনা।

যাইহোক এই মুহুর্তে আমি এখন যেখানে দাঁড়িয়ে আছি, কোনও সাহায্যের প্রশংসা করা হয়।

ধন্যবাদ!

মন্তব্যগুলিতে ভিত্তিক সম্পাদনাগুলি:

  • f1f2f3f4f1f2f2

  • নাড়ি পুনরাবৃত্তি হার এবং সংকেত তিনটি শ্রেণীর নাড়ি দৈর্ঘ্য এছাড়াও সমস্ত আগে থেকেই পরিচিত। (আবার কিছু ভিন্নতা কিন্তু খুব সামান্য)। কিছু সতর্কতা যদিও, ডাল পুনরাবৃত্তি হার এবং 1 এবং 2 সংকেতের পালস দৈর্ঘ্য সর্বদা পরিচিত, তবে এগুলি একটি ব্যাপ্তি। ভাগ্যক্রমে যদিও, এই ব্যাপ্তিগুলি মোটেই ওভারল্যাপ হয় না।

  • ইনপুটটি একটানা সময় সিরিজ যা আসল সময়ে আসবে, তবে আমরা ধরে নিতে পারি যে 1, 2 এবং 3 সংকেত পারস্পরিক একচেটিয়া, এর মধ্যে যে কোনও একটি সময়ে যে কোনও সময়ে উপস্থিত রয়েছে। আপনি যে কোনও সময় প্রক্রিয়াতে সময় গ্রহণের সময়টিকে কতটা গ্রহণ করেন তা সম্পর্কে আমাদের অনেক নমনীয়তা রয়েছে।

  • f1f2f3f4


আপনার ইনপুট কি হবে? 1 / একটি অবিচ্ছিন্ন স্ট্রিম যেখানে আপনি সংকেত 1/2/3 (বিভাগকরণ + শ্রেণিবদ্ধকরণ সমস্যা) বা কেবলমাত্র এক ধরণের সংকেত সহ 2 / স্বতন্ত্র নমুনাগুলি 1/2/3 বিভাগগুলিতে শ্রেণিবদ্ধ করতে চান সেগুলি পৃথক করতে চান? আপনি সংকেতগুলির কয়েকটি বৈশিষ্ট্য বর্ণনা করেছেন: সিগন্যাল 1 এর PRT; সংকেত 2 এর পুনরাবৃত্তি ফ্রিকোয়েন্সি; সংকেত 3 এর ফ্রিকোয়েন্সি; f1 / f2 / f3 / f4 এর মান। এই পরামিতিগুলি আগাম বা পরিবর্তনশীল হিসাবে পরিচিত? অবশেষে, যদি আপনার ইনপুটটিতে সেগমেন্টে sign সংকেতগুলির বেশ কয়েকটি ঘটনা ঘটে থাকে তবে কোনও বিভাগের নির্দিষ্ট সময়কালটি কত?
পিচনেটগুলি

আরেকটি প্রশ্ন: আপনার অঙ্কনগুলি থেকে দেখে মনে হচ্ছে আপনি খাঁটি টোনগুলি নিয়ে কাজ করছেন (কোনও সুরেলা নেই এবং কোনও শব্দ নেই)। এটাই কি, বা ডেটা আপনার আঁকার চেয়ে অনেক বেশি নিবিড়?
পিচনেটগুলি

@ পাইচেনেটস ধন্যবাদ, আমি একটি সম্পাদনায় আপনার প্রয়োজনীয় তথ্য যুক্ত করেছি।
স্পেসি

আপনার অগ্রগতি সম্পর্কে একটি ফলোআপ এবং এই প্রশ্নের সমাধানগুলি প্রশংসা করা হবে। বিশ্লেষণটি বেশিরভাগ অধ্যয়নের শব্দের সময় পরিবর্তনের উপর নির্ভর করে। যদি সেগুলি একটি ফিট উইন্ডোর তুলনায় দ্রুত হয় তবে 256 নমুনার নীচে বলুন আপনার উচ্চ রেস স্পেকট্রগ্রাম দরকার হবে। স্পেকট্রাম যত বেশি সুনির্দিষ্ট হয়, তত বেশি আপনি নিজের শব্দগুলিতে ছোট বিশদ তথ্য দেখতে পাবেন। এফএফটি সম্ভবত ঠিক আছে, এর পরে প্রশ্নটি সহজ প্যাটার্ন বিশ্লেষণের রুটিন ব্যবহার করে শব্দগুলিকে শ্রেণিবদ্ধ করতে যুক্তি অপারেটরদের যুক্ত করার একটি বিষয়। ডালের সময়কাল, তাদের মধ্যে দূরত্ব, পুরো জলের প্রকৃতি ইত্যাদি বিশ্লেষণ করুন।
com. অপরিবর্তনীয়

প্রতিটি এক্স লাইনের সর্বোচ্চ মান পরীক্ষা করেই মূল সুরেলা সন্ধান করা সহজ, এবং তারপরে আপনি কেবল প্যাটার্ন স্বাক্ষর বিশ্লেষণ প্রোগ্রামিং ব্যবহার করে বিশ্লেষণ করার জন্য একটি গ্রাফটি শেষ করবেন, যা ঠিক সেভাবে অগ্রসর হয় যেন আপনি সেগুলি বাগাড়ম্বর বিশ্লেষণ করে যাচ্ছেন, ঠিক সংখ্যার অগ্রগতির তুলনা ও শ্রেণিবদ্ধকরণ করার সময় আপনি সচ্ছলতার সাথে ব্যবহার করেন এমন সেরা বিভাজনকারীদের বিধিগুলি আঁকুন।
com. অপরিবর্তনীয়

উত্তর:


7

ধাপ 1

S(m,k)mk

ধাপ ২

প্রতিটি এসটিএফটি ফ্রেমের জন্য, YIN এর মতো কিছু ব্যবহার করে প্রভাবশালী মৌলিক ফ্রিকোয়েন্সিটি গণনা করুন, পাশাপাশি "পিচ আত্মবিশ্বাস" সূচক যেমন YIN দ্বারা গুণিত ডিএমএফ "ডিপ" এর গভীরতা।

f(m)mv(m)m

r0

e(m)m

ধাপ 3

MMM=50

নিম্নলিখিত বৈশিষ্ট্যগুলি নিষ্কাশন করুন:

  • σf(k)(f(m))m[kM,k+M],v(m)>τ
  • σv(k)(v(m))m[kM,k+M]
  • σe(k)(e(m))m[kM,k+M]

σfσvσe

σfσvσeσfσvσeσfσvσe

আপনার প্রশিক্ষণ ডেটাতে এই 3 টি বৈশিষ্ট্য গণনা করুন এবং একটি নিষ্পাপ বায়সিয়ান শ্রেণিবদ্ধ প্রশিক্ষক (কেবল গাউসীয় বিতরণগুলির একগুচ্ছ) প্রশিক্ষণ দিন। আপনার ডেটা কতটা ভাল তার উপর নির্ভর করে আপনি এমনকি শ্রেণিবদ্ধদের সাথে সরে যেতে পারেন এবং বৈশিষ্ট্যগুলিতে হ্যান্ড-সংজ্ঞায়িত থ্রেশহোল্ডগুলি ব্যবহার করতে পারেন, যদিও আমি এটি প্রস্তাব করি না।

পদক্ষেপ 4

M

যদি আপনার ডেটা এবং শ্রেণিবদ্ধকারী ভাল থাকে তবে আপনি এরকম কিছু দেখতে পাবেন:

1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 3, 3, 3, 3, 3 3, 3, 3

এটি সূচনা এবং শেষ সময় এবং প্রতিটি সংকেতের ধরণটি বেশ ভালভাবে সীমানা দেয়।

যদি আপনার ডেটা শোরগোল হয় তবে অবশ্যই জালিয়াতিযুক্ত ভুল শ্রেণিবদ্ধ ফ্রেম থাকতে হবে:

1, 1, 1, 1, 1, 2, 1, 1, 1, 2, 2, 3, 2, 2, 1, 1, 1, 3, 1, 1, 1, 3, 3, 3, 2, 3, 3, 3

আপনি যদি দ্বিতীয় ক্ষেত্রে এর মতো প্রচুর ক্রেপ দেখেন তবে 3 বা 5 সনাক্তকরণের আশেপাশের অঞ্চলে ডেটাগুলিতে একটি মোড ফিল্টার ব্যবহার করুন; অথবা এইচএমএম ব্যবহার করুন।

হোম বার্তা নিয়ে

আপনি কীভাবে নিজের সনাক্তকরণটিকে ভিত্তি করতে চান তা কোনও বর্ণালী বৈশিষ্ট্য নয়, তবে উইন্ডোজগুলিতে বর্ণালি বৈশিষ্ট্যের সমষ্টিগত টেম্পোরাল পরিসংখ্যান যা আপনার সিগন্যালের সময়কালের মতো একই স্কেল। এই সমস্যাটি সত্যিকার অর্থে দুটি সময়ের স্কেলগুলিতে একটি প্রক্রিয়াজাতকরণের ডাক দেয়: যে এসটিএফটি ফ্রেম যার উপর আপনি খুব স্থানীয় সংকেত বৈশিষ্ট্য (প্রশস্ততা, প্রভাবশালী পিচ, পিচ শক্তি) এবং বড় আকারের উইন্ডোগুলি গণনা করেন যা আপনি সেই সংকেত বৈশিষ্ট্যের অস্থায়ী পরিবর্তনশীলতার দিকে তাকান।


মনে রাখবেন যে আপনি যদি এইচ টি কে বা এই জাতীয় উপায়ে লাভ করতে চান তবে আপনি এটি স্পিচ রিকগনিশন স্টাইলটিও করতে পারেন ... অ্যাকোস্টিক মডেল: 4 ফোন পি 1, পি 2, পি 3, পি 4 (এফ 1 এ টোন, এফ 2 এ টোন, এফ 3 এ টোন, এফ 4 এ টোন ) নীরবতার জন্য + 1 প্রতীক এস। প্রতি ফোনে 1 বা 2 গাউসিয়ান। সংকেত 1 এর জন্য শব্দ মডেল ডাব্লু 1: (পি 1 এস পি 2 এস পি 3 এস পি 4 এস) + + সংকেত 2 এর জন্য ওয়ার্ড মডেল ডাব্লু 2: (পি 1 এস) +। সংকেত 3 এর জন্য ওয়ার্ড মডেল ডাব্লু 3: (পি 1) +। বাক্য মডেল: (W1 | W2 | W3) *। একমাত্র সতর্কতা হ'ল আপনি যদি একটি স্পিচ রিকগনিশন টুলবক্স ব্যবহার করেন তবে আপনাকে এমএফসিসি খুব কম রেজোলিউশন এবং পিচ-অজোনস্টিক এফ 1 / এফ 2 / এফ 3 / এফ 4 বলার জন্য তার বৈশিষ্ট্য নিষ্কাশন ফ্রন্ট-এন্ডটি সাময়িক করতে হবে।
পিচেনেটস

@ পিচনেটেস আপনাকে ধন্যবাদ পিচনেটস, এটি একটি খুব ভাল উত্তর - যদিও আমার একটি দম্পতি ফলোআপ রয়েছে যদিও: 1) আপনি যে 'ইআইএন' উল্লেখ করেছেন, এবং 'ডিএমএফ' কী? গুগলের মাধ্যমে আমি তাদের কিছুই খুঁজে পাইনি। 2) পরিমাপ হিসাবে 'পিচ আত্মবিশ্বাস' ঠিক কী? 3) আপনি উল্লেখ করেছেন যে আপনি পিচ-আত্মবিশ্বাসের জন্য অটো-রিলেশন ব্যবহার করতে পারেন - কিসের স্বতঃসংশ্লিষ্টতা, টাইম ডোমেন ফ্রেম বা ফ্রেমের এসটিএফটি? (আমি সম্ভবত এটি বুঝতে পারছি না কারণ আপনি জানেন যে আপনি পিচের আত্মবিশ্বাসের অর্থ কী)। (নিয়ন্ত্রিত ...)
স্পেসি

@ পিচনেটস (নিয়ন্ত্রিত) ৪) পিয়ার উইন্ডোতে উপস্থিত বৈশিষ্ট্যগুলি সম্পর্কে কি কেবল হ্যাঁ? সুতরাং আপনি উইন্ডো প্রতি তিনটি স্টাডি গণনা করছেন, এর (এই ক্ষেত্রে) 101 ফ্রেম? এই ক্ষেত্রে যখন ট্রেনিংয়ের সময় আসে তখন আমার 3-ডি 'পয়েন্ট' 101 টি ফ্রেম থেকে 3 স্টাড থেকে তৈরি হয়েছিল, তাই না? 5) আপনার 4 ধাপে, যখন আপনার সংখ্যা 1,1,1,2,2 ইত্যাদি রয়েছে, তখন প্রতিটি সংখ্যা আপনি কীভাবে উইন্ডোটিকে সঠিকভাবে শ্রেণিবদ্ধ করেছেন তার সাথে মিলছে? প্রথম '1' ফ্রেম -50 থেকে 50 দিয়ে তৈরি উইন্ডোটির শ্রেণিবিন্যাস, এবং দ্বিতীয় '1' ফ্রেম -49 থেকে 51 দিয়ে গঠিত উইন্ডো থেকে সঠিক ছিল? (উইন্ডোটি প্রতি সময় 1 ফ্রেমে স্লাইড হয়) ...
স্পেসি

@ পিচনেটেস 6) পরিশেষে, আমার উল্লেখ করা উচিত ছিল যে এটি একটি 'অ্যালার্ম' হিসাবে ব্যবহার করা উচিত, যাতে যদি সংকেত -১ বা সিগন্যাল -২ উপস্থিত থাকে, আমি বাজানোর জন্য একটি অ্যালার্ম পেয়েছি, তবে তারপরে কিছুই থামানো উচিত নয় সেখানে কিছুই নেই - এমনকি চেষ্টা এবং শ্রেণিবদ্ধকরণ শুরু করার আগে কি কিছু থ্রোসোল্ড মিলিত হওয়া উচিত নয় যাতে আপনি কোনও কিছুর চেয়ে মিথ্যা ধনাত্মকতা না পান? (উদাহরণস্বরূপ কেবল পটভূমি শব্দ)। (আমি এখন নায়েভ বেয়েস ক্লাসিফায়ার সম্পর্কেই শিখছি, সুতরাং এটির বহু-শ্রেণীর কিনা তা জানেন না)। 7) উপায় দ্বারা অনেক ধন্যবাদ এবং অগ্রিম ধন্যবাদ! আপনার জন্য একটি প্রচলিত এবং একটি পছন্দ! :-)
স্পেসি

1
1 / YIN হ'ল বক্তৃতা এবং সঙ্গীত সংকেতের জন্য একটি ক্লাসিক পিচ সনাক্তকরণ অ্যালগরিদম। recherche.ircam.fr/equines/pcm/cheveign/pss/2002_JASA_YIN.pdf । ডিএমএফ হল "পার্থক্য মাত্রার ফাংশন", পিচ অনুমানের জন্য YIN এর মতো অ্যালগোরিদম দ্বারা পরিমিত পরিমাণ। 2 / YIN এর মতো একটি পিচ সনাক্তকরণ অ্যালগরিদম মৌলিক ফ্রিকোয়েন্সিটির অনুমান এবং একটি "আত্মবিশ্বাস স্কোর" উপস্থাপন করবে এটি নির্দেশ করে যে প্রত্যাবর্তন পিচটি সঠিক উত্তর। বেশ কয়েকটি পিচ প্রদর্শনকারী কোলাহলপূর্ণ সংকেত বা সংকেতগুলিতে, এটি কম হবে, খাঁটি সাইন ওয়েভের উপর এটি খুব বেশি হবে।
পিচনেটগুলি

3

একটি বিকল্প পদ্ধতির চারটি হেটেরোডিন ডিটেক্টর হতে পারে: 4 টি ফ্রিকোয়েন্সি এবং লো পাসের একটি স্থানীয় দোলকগুলির সাথে ইনপুট সংকেতকে গুণিত করুন ফলাফল ফলাফলগুলি ছাঁকুন। প্রতিটি আউটপুট আপনার ছবিতে একটি উল্লম্ব রেখা উপস্থাপন করে। সময়ের ক্রিয়া হিসাবে আপনি 4 টি ফ্রিকোয়েন্সিগুলির প্রতিটিতে আউটপুট পাবেন। লো পাস ফিল্টারের সাহায্যে আপনি ডায়াল করতে পারেন যে আপনি কতটা ফ্রিকোয়েন্সি বিচ্যুতির জন্য অনুমতি দিতে চান এবং আউটপুটগুলি কত দ্রুত পরিবর্তন করতে চান, অর্থাৎ প্রান্তগুলি কত তীক্ষ্ণ।

সিগন্যালটি মোটামুটি গোলমাল হলেও এটি ভালভাবে কাজ করবে।


আমি এই পদ্ধতিটি সম্পর্কে ভাবছিলাম - আপনি স্প্রেট্রোগ্রাম ইত্যাদি ব্যবহার করে সরাসরি পাস-প্যান্ডে কাজ করার চেয়ে এই পদ্ধতির কোনও সুবিধা (মিক্সডাউন এবং এলপিএফ'ইং) বাদ দিচ্ছেন?
স্পেসি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.