আমার একটি খুব বড় ডেটাসেট অ্যাক্সেস রয়েছে। চারটি জেনারগুলির মধ্যে একটির থেকে সংগীত অংশগুলি শোনার লোকদের এমইজি রেকর্ডিং থেকে ডেটা । তথ্য নিম্নরূপ:
- 6 বিষয়
- 3 পরীক্ষামূলক পুনরাবৃত্তি (যুগ)
- যুগে যুগে 120 ট্রায়াল
- 275 মেগা চ্যানেল থেকে 500Hz (= 4000 নমুনা) এ পরীক্ষার জন্য 8 সেকেন্ডের ডেটা
সুতরাং এখানে প্রতিটি "উদাহরণ" আকারের একটি ম্যাট্রিক্স [4000x275], এবং এরকম উদাহরণগুলির মধ্যে 2160 রয়েছে এবং এটি কোনও বৈশিষ্ট্য নিষ্কাশনের আগে। ব্রেন সিগন্যালের উপর ভিত্তি করে জেনারটির পূর্বাভাস দেওয়া (4-শ্রেণির শ্রেণিবিন্যাস) লক্ষ্য।
স্পষ্টতই এখানে কিছু চ্যালেঞ্জিং সমস্যা রয়েছে, যথা:
- ডেটাসেট মেমরির সাথে খাপ খায় না
- ডেটাতে শক্তিশালী টেম্পোরাল পারস্পরিক সম্পর্ক থাকবে এবং আন্তঃ-বিষয় বৈচিত্র্য বিশাল হবে। ফলস্বরূপ এটি কীভাবে ডেটা বিভক্ত করবেন তা স্পষ্ট নয়
- সংকেত-থেকে-শব্দ অনুপাত খুব কম
- শ্রেণিবদ্ধের জন্য সঠিক বৈশিষ্ট্যগুলি কী হবে তা স্পষ্ট নয়
এগুলি ঘুরে দেখছি:
কেউ করতে পারে বিভিন্ন জিনিস আছে। প্রথমত আমরা নিরাপদে 500Hz থেকে 200Hz এ ডাউনস্যাম্পল করতে পারি, এমনকি Nyquist সীমাটিকে বিবেচনায় নেওয়া হিসাবে, মস্তিষ্কের ক্রিয়াকলাপটি 100Hz এর বেশি ঘটে না। আমরা চ্যানেলগুলির সেট থেকেও নমুনা পেতে পারি (যেমন শ্রুতি ক্ষেত্রগুলির উপরে কেন্দ্র) তবে আমরা এটির চেয়ে প্রাক অগ্রাধিকারটি করব না , কারণ অন্যান্য ক্ষেত্রগুলিতে (সম্মুখভাগ ইত্যাদি) আগ্রহ থাকতে পারে। আমরা সম্ভবত সময় উইন্ডোর একটি অংশ বাদ দিতে পারি। সম্ভবত প্রথম 2s কাজের জন্য গুরুত্বপূর্ণ? এটি আসলে জানা যায়নি। অবশ্যই সকলেই চিৎকার করবেন " মাত্রা হ্রাস! "তবে তা তুচ্ছ নয়। প্রথমত, আমাদের আমাদের ট্রেন / পরীক্ষা বিভাজন সম্পর্কে খুব সাবধানতা অবলম্বন করতে হবে (দেখুন ২.) এবং বৈশিষ্ট্য উত্পন্ন করার আগে বা পরে এটি করা উচিত কিনা তাও স্পষ্ট নয়। দ্বিতীয়ত, ব্যয়বহুল ছাড়া অন্য ক্রস-বৈধকরণ, বা শ্রমসাধ্য চাক্ষুষ পরিদর্শন, উপযুক্ত পদ্ধতি বা উপযুক্ত মাত্রাগুলি নির্বাচন করার কোনও সুস্পষ্ট উপায় নেই We আমরা অবশ্যই কেবলমাত্র পিসিএ, আইসিএ, বা এলোমেলো প্রজেকশন ব্যবহার করতে পারি এবং সেরাের জন্য আশা করি ....
এটা কৌতুকপূর্ণ। প্রশিক্ষণ সংস্থায় যদি আমাদের ধারাবাহিক নমুনা থাকে তবে আমরা সম্ভবত প্রশিক্ষণ সেটকে উপকার করতে পারি, যদিও আমাদের যদি ধারাবাহিক নমুনাগুলি ট্রেন এবং পরীক্ষার সেটগুলিতে বিভক্ত হয় তবে আমরা প্রশিক্ষণের সেটটি উপকারের সম্ভাবনা রাখি, তবে এখনও পরীক্ষার সেটটি মাপসই করতে পারি। এখানে বিভিন্ন বিকল্প বলে মনে হচ্ছে:
- একক বিষয় শ্রেণিবিন্যাস । প্রতিটি স্বতন্ত্র বিষয় তাদের নিজস্ব হিসাবে নিন এবং মহাকর্ষ অনুসারে বিভাজন করুন। এটি সবচেয়ে সহজ কাজ হওয়া উচিত , কারণ আমরা মস্তিষ্ক জুড়ে ভবিষ্যদ্বাণী করার চেষ্টা করছি না। এর মধ্যে একজন ক্রস-বৈধকরণের জন্য দু'জন যুগের ব্যবহার করতে পারে। সম্পূর্ণতার জন্য একজনকে সমস্ত সংমিশ্রণ ঘোরানো উচিত। আমরা কেবল সমস্ত বিষয়ে গড় নির্ভুলতার প্রতিবেদন করব। অবশ্যই আমরা আশা করি না যে এই মডেলগুলি মোটেই ভাল জেনারালাইজ হবে।
- বিষয়ের শ্রেণিবিন্যাসের মধ্যে । সমস্ত বিষয় একসাথে নিয়ে যান এবং পর্ব অনুসারে বিভক্ত হন। এটি সম্ভবত সবচেয়ে সহজ কাজ হতে পারে, যেহেতু আমরা প্রশিক্ষণের ক্ষেত্রে সমস্ত বিষয় দেখব। তবে আমরা সম্ভবত মডেলগুলি নতুন বিষয়ে ভাল জেনারেলাইজড হওয়ার আশা করব না। এর মধ্যে একজন ক্রস-বৈধকরণের জন্য দু'জন যুগের ব্যবহার করতে পারে। সম্পূর্ণতার জন্য একজনকে সমস্ত সংমিশ্রণ ঘোরানো উচিত।
- বিষয়গুলির শ্রেণিবদ্ধকরণের মধ্যে । এটি "লেভ-ওয়ান-আউট" নামে পরিচিত, যেখানে একটি একক বিষয়কে পরীক্ষার ডেটা হিসাবে নেওয়া হয় এবং বাকিগুলি প্রশিক্ষণের জন্য ব্যবহৃত হয়। আমরা তখন সমস্ত বিষয় ঘোরান। ক্রস-বৈধকরণের পরে বিষয়গুলির উপর সঞ্চালিত হবে। আমরা আশা করব এটি আরও অনেক কঠিন কাজ হবে, কারণ আমরা প্রতিবার একটি "নতুন মস্তিষ্ক" সম্পর্কে ভবিষ্যদ্বাণী করার চেষ্টা করছি। এখানে আমরা আশা করব মডেলগুলি বৃহত্তর জনগোষ্ঠীর কাছে ভাল জেনারেলাইজড হবে, যদিও টেস্ট-রিস্টেস্ট নির্ভরযোগ্যতার একটি সমস্যা রয়েছে (যেমন টেম্পোরাল পারস্পরিক সম্পর্কের ফলে কতটা বেশি ফিট করা হয়)।
এটি একটি ধ্রুপদী "খড়ের ছোঁয়া" সমস্যা - বাদ্যযন্ত্রের স্বীকৃতি সম্পর্কিত কোনও প্রকৃত সংকেত বা কোনও জেনার-নির্দিষ্ট প্রক্রিয়াজাতকরণ, মস্তিষ্কের ক্রিয়াকলাপের "স্যুপ" এর তুলনায় বিয়োগাত্মক হওয়ার সম্ভাবনা রয়েছে। এখানে উল্লেখযোগ্য নিদর্শনগুলিও রয়েছে যা কেবলমাত্র আংশিকভাবে মুছে ফেলা যায় (মূলত আন্দোলনের সাথে সম্পর্কিত)। আমরা ডেটা থেকে প্রাপ্ত কোনও বৈশিষ্ট্য এবং ডেটা চিকিত্সা করা হয় এমন কোনও উপায়ে আগ্রহের সিগন্যালের অংশ নষ্ট করা এড়ানো উচিত।
এখানে কেউ বিভিন্ন জিনিস করার কল্পনা করতে পারে। প্রথমটি হ'ল বৈশিষ্ট্য ভেক্টর হিসাবে কেবল কাঁচা ডেটা (একটি ভেক্টরে সংযুক্ত) ব্যবহার করা হবে। আমি নিশ্চিত না যে এটি কতটা ফলদায়ক - আমি মনে করি এই ভেক্টরগুলি সম্ভবত অভিন্নভাবে এলোমেলো হতে পারে। এটি তখন সত্যই সিগন্যাল প্রসেসিং প্রশ্ন, তবে কিছু সাধারণ নির্দেশিকা রয়েছে যা অনুসরণ করতে পারে। একটি হ'ল স্লাইডিং উইন্ডোতে স্ট্যান্ডার্ড ফুরিয়ার অ্যানালাইসিস করা, সেখান থেকে উপাদানগুলি পৃথক ফ্রিকোয়েন্সি ব্যান্ডগুলিতে বিভক্ত করা যেতে পারে (আলফা / বিটা / গামা ইত্যাদি), এবং এর পরিসংখ্যানগুলির (মানে, স্ট্যান্ড। ডিভিয়েশন) বৈশিষ্ট্য হিসাবে ব্যবহার করা যেতে পারে। অথবা কেউ ওয়েভলেটস, হিলবার্ট ট্রান্সফর্মস ব্যবহার করতে পারেন, বা বিশৃঙ্খলা আকৃষ্টকারীদের সন্ধানের চেষ্টাও করতে পারেন। অবশ্যই তখন আমাদের কাছে কার্নেলের পছন্দ রয়েছে (লিনিয়ার, বহুভিত্তিক, আরবিএফ ইত্যাদি) যা ক্রমের পরিমাণকে বহুগুণ করে। সম্ভবত এখানে করার সর্বোত্তম কাজটি হ'ল যথাসম্ভব বিভিন্ন বৈশিষ্ট্য সেট তৈরি করা এবং তারপরে তাদের একত্রিত করার জন্য এমকেএল বা বুস্টিং পদ্ধতি ব্যবহার করুন।
আপনি কীভাবে এই ধরণের ডেটাসেটের কাছে যাবেন (যদি এটি নির্দিষ্টভাবে না হয়)? পথে আমি কি কিছু মিস করেছি? অবিরাম পরিমাণে গবেষক সময় এবং গণনার সংস্থান ব্যয় না করে সফল হওয়ার সবচেয়ে সম্ভাব্য কৌশল কী?