আমি একটি নির্দিষ্ট শ্রেণীর (নিউরোপেপটাইড হরমোন পূর্ববর্তী) এর অন্তর্গত হিসাবে {প্রোটিন} ক্রম শ্রেণিবদ্ধ করার জন্য, একটি বিদ্যমান তত্ত্বাবধানে শ্রেণিবদ্ধকারীকে উন্নত করতে কাজ করছি।
প্রায় ১৩ মিলিয়ন প্রোটিন সিকোয়েন্সের ("অজানা / দুর্বল মন্তব্যযুক্ত ব্যাকগ্রাউন্ড") এর ব্যাকগ্রাউন্ডের বিপরীতে বা প্রায় ১০০,০০০ পর্যালোচনা করা হয়েছে, প্রাসঙ্গিক প্রোটিন রয়েছে যা বিভিন্ন ধরণের সংখ্যার সাথে টিকা আছে (তবে খুব কম সংখ্যক স্পষ্টতই টিকা আছে) "নেতিবাচক" উপায়)।
আমার পূর্ববর্তী বাস্তবায়ন এটিকে বাইনারি শ্রেণিবদ্ধকরণ সমস্যা হিসাবে দেখেছিল: ইতিবাচক সেট = প্রোটিনগুলি নিউরোপেপটিডস হিসাবে চিহ্নিত হয়েছে। নেতিবাচক সেট: মোটামুটি একই দৈর্ঘ্য-বন্টনের অবশিষ্ট প্রোটিনগুলির মধ্যে থেকে 1,300 নমুনা (মোট) এর এলোমেলো নমুনা।
এটি কাজ করেছিল, তবে আমি মেশিনগুলিকে বৈষম্যমূলক দক্ষতার ব্যাপক উন্নতি করতে চাই (বর্তমানে এটি একাধিক এলোমেলোভাবে নমুনা নেতিবাচক সেটগুলিতে সিভি দ্বারা পরিমাপক নির্ভুলতার, এটিউ, এফ 1, প্রায় 83-86% এর উপরে রয়েছে)।
আমার মতামতগুলি ছিল: 1) এটিকে একটি বহুবর্ণের সমস্যা হিসাবে তৈরি করুন, প্রোটিনের ২-৩ টি পৃথক শ্রেণীর বেছে নিন যা তাদের সম্পত্তি / ক্রিয়াকলাপী শ্রেণীর দ্বারা (সম্ভবত) অন্য এলোমেলোভাবে নমুনাযুক্ত সেট সহ অবশ্যই নেতিবাচক হবে। (এখানে অগ্রাধিকারটি নেতিবাচক সেটগুলি হবে যা তাদের বৈশিষ্ট্যগুলি / বৈশিষ্ট্যের সাথে ধনাত্মক সেটের সাথে সমান, যদিও এখনও নির্ধারিত বৈশিষ্ট্য রয়েছে)। ২) এক শ্রেণির পড়াশুনা - দুর্দান্ত হবে তবে আমি এটি বুঝতে পেরেছি, এটি কেবলমাত্র তাত্পর্যপূর্ণ সনাক্তকরণের জন্য, এবং বৈষম্যমূলক পদ্ধতির চেয়ে দরিদ্র অভিনয় রয়েছে performance
*) আমি পিইউ শিখার কথা শুনেছি, যা ঝরঝরে শোনাচ্ছে তবে আমি একটি প্রোগ্রামিং এন 100 বি, এবং এর কোনও বিদ্যমান বাস্তবায়ন সম্পর্কে আমি জানি না। (পাইথন / সাই-কিট শিখুন)।
সুতরাং, 1 পন্থাটি কি কোনও তাত্ত্বিক পিওভের মধ্যে অর্থবোধ করে? একাধিক নেতিবাচক সেট করার জন্য কি সর্বোত্তম উপায় আছে? (আমি খুব সহজেই "নেতিবাচক" প্রোটিনগুলির একটি বিশাল [50K] বাছাই ব্যবহার করতে পারি, তবে সেগুলি একে অপরের থেকে একেবারেই আলাদা, তাই আমি জানি না যে শ্রেণিবদ্ধকারী তাদেরকে কত বড়, ভারসাম্যহীন মিশ্রণ হিসাবে পরিচালনা করবে) )। ধন্যবাদ!