ভারসাম্যহীন, ভিন্ন ভিন্ন নেতিবাচক পটভূমিতে এক-শ্রেণীর বৈষম্যমূলক শ্রেণিবিন্যাস?

16

আমি একটি নির্দিষ্ট শ্রেণীর (নিউরোপেপটাইড হরমোন পূর্ববর্তী) এর অন্তর্গত হিসাবে {প্রোটিন} ক্রম শ্রেণিবদ্ধ করার জন্য, একটি বিদ্যমান তত্ত্বাবধানে শ্রেণিবদ্ধকারীকে উন্নত করতে কাজ করছি।

প্রায় ১৩ মিলিয়ন প্রোটিন সিকোয়েন্সের ("অজানা / দুর্বল মন্তব্যযুক্ত ব্যাকগ্রাউন্ড") এর ব্যাকগ্রাউন্ডের বিপরীতে বা প্রায় ১০০,০০০ পর্যালোচনা করা হয়েছে, প্রাসঙ্গিক প্রোটিন রয়েছে যা বিভিন্ন ধরণের সংখ্যার সাথে টিকা আছে (তবে খুব কম সংখ্যক স্পষ্টতই টিকা আছে) "নেতিবাচক" উপায়)।

আমার পূর্ববর্তী বাস্তবায়ন এটিকে বাইনারি শ্রেণিবদ্ধকরণ সমস্যা হিসাবে দেখেছিল: ইতিবাচক সেট = প্রোটিনগুলি নিউরোপেপটিডস হিসাবে চিহ্নিত হয়েছে। নেতিবাচক সেট: মোটামুটি একই দৈর্ঘ্য-বন্টনের অবশিষ্ট প্রোটিনগুলির মধ্যে থেকে 1,300 নমুনা (মোট) এর এলোমেলো নমুনা।

এটি কাজ করেছিল, তবে আমি মেশিনগুলিকে বৈষম্যমূলক দক্ষতার ব্যাপক উন্নতি করতে চাই (বর্তমানে এটি একাধিক এলোমেলোভাবে নমুনা নেতিবাচক সেটগুলিতে সিভি দ্বারা পরিমাপক নির্ভুলতার, এটিউ, এফ 1, প্রায় 83-86% এর উপরে রয়েছে)।

আমার মতামতগুলি ছিল: 1) এটিকে একটি বহুবর্ণের সমস্যা হিসাবে তৈরি করুন, প্রোটিনের ২-৩ টি পৃথক শ্রেণীর বেছে নিন যা তাদের সম্পত্তি / ক্রিয়াকলাপী শ্রেণীর দ্বারা (সম্ভবত) অন্য এলোমেলোভাবে নমুনাযুক্ত সেট সহ অবশ্যই নেতিবাচক হবে। (এখানে অগ্রাধিকারটি নেতিবাচক সেটগুলি হবে যা তাদের বৈশিষ্ট্যগুলি / বৈশিষ্ট্যের সাথে ধনাত্মক সেটের সাথে সমান, যদিও এখনও নির্ধারিত বৈশিষ্ট্য রয়েছে)। ২) এক শ্রেণির পড়াশুনা - দুর্দান্ত হবে তবে আমি এটি বুঝতে পেরেছি, এটি কেবলমাত্র তাত্পর্যপূর্ণ সনাক্তকরণের জন্য, এবং বৈষম্যমূলক পদ্ধতির চেয়ে দরিদ্র অভিনয় রয়েছে performance

*) আমি পিইউ শিখার কথা শুনেছি, যা ঝরঝরে শোনাচ্ছে তবে আমি একটি প্রোগ্রামিং এন 100 বি, এবং এর কোনও বিদ্যমান বাস্তবায়ন সম্পর্কে আমি জানি না। (পাইথন / সাই-কিট শিখুন)।

সুতরাং, 1 পন্থাটি কি কোনও তাত্ত্বিক পিওভের মধ্যে অর্থবোধ করে? একাধিক নেতিবাচক সেট করার জন্য কি সর্বোত্তম উপায় আছে? (আমি খুব সহজেই "নেতিবাচক" প্রোটিনগুলির একটি বিশাল [50K] বাছাই ব্যবহার করতে পারি, তবে সেগুলি একে অপরের থেকে একেবারেই আলাদা, তাই আমি জানি না যে শ্রেণিবদ্ধকারী তাদেরকে কত বড়, ভারসাম্যহীন মিশ্রণ হিসাবে পরিচালনা করবে) )। ধন্যবাদ!

— GrimSqueaker
সূত্র

আপনি সম্ভবত দেখেছেন, পিইউ শেখার উইকিপিডিয়া নিবন্ধে একটি কাগজের উল্লেখ রয়েছে যেখানে এটি জিন সনাক্তকরণের জন্য প্রয়োগ করা হয়েছে। তারা লেখকরা কী সফটওয়্যারটি ব্যবহার করেছেন তা জিজ্ঞাসা করা / জিজ্ঞাসার জন্য এটি মূল্যবান।

— আন্দ্রে হল্জনার

আছে: মধ্যে scikit এখানে জানতে জন্য Pu শেখার উপর কিছু আলোচনা stackoverflow.com/questions/25700724/... (ক 'এক শ্রেণী' সমর্থন ভেক্টর মেশিন ব্যবহার করে)

— আন্দ্রে Holzner

পিইউ লার্নিংটি একটি ক্যাভিয়েটের সাথে স্ট্যান্ডার্ড দ্বি-শ্রেণীর শ্রেণিবিন্যাসের সমস্যা - আপনি শ্রেণিবদ্ধকরণের নির্ভুলতা নয়, বক্ররেখার অধীনে অঞ্চলটিকে অনুকূলিত করেন। এটি ঠিক করার জন্য আপনি সোফিয়া এমএল সফ্টওয়্যার প্যাকেজটি ব্যবহার করতে পারেন (কোনও প্রোগ্রামিংয়ের প্রয়োজন নেই)। ব্যবহারিক দিক থেকে, আপনি আপনার ইতিবাচক উদাহরণগুলিকে +1 এবং আরও কিছু হিসাবে -1 হিসাবে টিকিয়ে রাখেন (হ্যাঁ, ইতিবাচক থাকতে পারে এমন সমস্ত অন্যান্য লেবেলযুক্ত ডেটা)।

— ভ্লাদিস্লাভস ডভগ্যালিক্স

5

এই সমস্যাটিতে আমি যেভাবে আক্রমণ করব তা হ'ল এই প্রোটিন সিকোয়েন্সগুলির মধ্যে কোন বৈশিষ্ট্যগুলি প্রোটিনকে নিউরোপেপটিড হরমোন পূর্ববর্তী হিসাবে শ্রেণীবদ্ধ করার জন্য সবচেয়ে উপযুক্ত determine

এটি করার জন্য, আপনাকে প্রোটিন সিকোয়েন্সগুলি সংখ্যার ডেটাতে রূপান্তর করতে হবে, তবে আমি বিশ্বাস করি এমিনো অ্যাসিড পিসিএতে উত্সযুক্ত সূত্রগুলি ব্যবহার করে ইতিমধ্যে কিছু কাজ করা হয়েছে।

এই দুটি লিঙ্ক দেখুন: http://www.ncbi.nlm.nih.gov/pubmed/24496727

http://www.ncbi.nlm.nih.gov/pubmed/16615809

কাজটি শেষ হয়ে গেলে, পিসিএ গুরুত্বপূর্ণ হিসাবে চিহ্নিত করে ডেটা স্লিম করার সময় পুরো ডেটাসেট এবং নাইভ বেয়েসের মতো একটি পুনর্বহাল শেখার অ্যালগরিদম ব্যবহার করে শ্রেণিবদ্ধ করার চেষ্টা করব ।

আমি বায়েসকে ব্যবহার করার চেষ্টা করবার কারণ হ'ল এটি স্প্যাম বনাম নিয়মিত ইমেল নির্ধারণের জন্য সেরা পদ্ধতির একটি বলে প্রমাণিত হয়েছে, যার একই রকম স্কিউড ডেটাসেট রয়েছে।

সব বলেছে ...

নেতিবাচক শ্রেণিবদ্ধার সংখ্যা বা প্রকার হ্রাস করা আপনার ফলাফলগুলি এক বা অন্য উপায়ে আঁকতে পারে তবে আমি মনে করি না আপনি কীভাবে সরাবেন সেরা উপায় নির্ধারণের লেগের কাজ না করা পর্যন্ত আপনি দীর্ঘমেয়াদী কার্যকারিতা যথেষ্ট পরিমাণে পরিবর্তন দেখতে পাবেন I আপনার প্রশিক্ষণ তথ্য থেকে অস্পষ্টতা। এর জন্য হয় ক্ষেত্র বিশেষজ্ঞ বা পরিসংখ্যান বিশ্লেষণের প্রয়োজন হবে।

আমি সম্পূর্ণ বেস থেকে যেতে পারে। আমি আরও কিছু উত্তর দেখতে আগ্রহী, তবে এটি আমার 2 সেন্ট।

— স্টিভ কালেস্তাদ
সূত্র

1

আমি ইতিমধ্যে বৈশিষ্ট্য নিষ্কাশন এবং এর জন্য একটি সরঞ্জামকিট কার্যকর করেছি (প্রকাশনায় কিছু বাগচেকিং অপেক্ষা করছে))

— গ্রিমস্পেকার

5

এক ক্লাস লার্নিং

আমি এক শ্রেণির শ্রেণিবদ্ধকরণ পদ্ধতিগুলি (বিকল্প 2) নিক্ষেপ করার জন্য খুব তাড়াতাড়ি করব না - মূলটি হ'ল এক-শ্রেণীর মডেলের সাথে ধনাত্মক (সংখ্যালঘু) শ্রেণীর মডেল।

এমন একটি গবেষণা রয়েছে যেখানে এক শ্রেণীর শ্রেণিবদ্ধকরণ অত্যন্ত ভারসাম্যহীন ডেটার জন্য নমুনা দেওয়ার মতো অন্যান্য পদ্ধতিগুলি প্রায়শই প্রোটিন শ্রেণিবদ্ধকরণের কার্যগুলিতে দেখা যায় out

আমি যে গবেষণাটি পুনরুদ্ধার করেছি তা খুঁজে পেলাম না, তবে আমি অন্যান্য কিছু তুলনা খুঁজে পেয়েছি, যেখানে এক শ্রেণীর শ্রেণিবদ্ধ (সাধারণত সংখ্যালঘু শ্রেণির মডেলিং) ব্যবহার করে বাইনারি শ্রেণিবদ্ধকরণের চেয়ে সাধারণত বড় সেট থেকে নমুনাযুক্ত "নেতিবাচক" ব্যবহার করে ভাল বা উন্নত পারফরম্যান্স অর্জন করেছি ইতিবাচক হিসাবে পরিচিত না প্রোটিন।

অতিরিক্তভাবে এই পদ্ধতিটি অনেক উন্নত রান-টাইমের সুবিধাও দেয় - যেহেতু আপনাকে কেবল ছোট, ধনাত্মক সেটটিতে শ্রেণিবদ্ধকারী প্রশিক্ষণ দিতে হবে। একটি দম্পতি কাগজপত্র:

"এক-শ্রেণীর শ্রেণিবদ্ধকরণ পদ্ধতি ব্যবহার করে এবং বিভিন্ন জৈবিক ডেটা সংহত করার জন্য প্রোটিন-প্রোটিন মিথস্ক্রিয়াগুলির পূর্বাভাস"

"প্রোটিন সিকোয়েন্সস এবং কাঠামোর জন্য একটি শ্রেণির শ্রেণিবিন্যাসের পদ্ধতি"

খুব কমপক্ষে আমি কয়েকটি এক-শ্রেণীর পদ্ধতি চেষ্টা করব এবং আপনার বাইনারি / বহু-শ্রেণীর শ্রেণিবদ্ধকরণ পদ্ধতির সাথে বৈধতা ব্যবহার করে পারফরম্যান্সটি তুলনা করব। এগুলির অনেকের জন্য ওপেন সোর্স বাস্তবায়নও রয়েছে তাই এগুলি চেষ্টা করে দেখার জন্য খুব ব্যয় করা উচিত নয়, উদাহরণস্বরূপ, LibSVM এর একটি শ্রেণির এসভিএম বাস্তবায়ন রয়েছে। অতিরিক্তভাবে, এটি বাইনারি শ্রেণিবদ্ধকারীগুলির সাথে একটি সংযুক্তকরণে ব্যবহারের জন্য মূল্যবান প্রমাণিত হতে পারে, যেহেতু তাদের ভবিষ্যদ্বাণীগুলিতে আরও মতবিরোধ থাকতে পারে।

এম্বেডিং / ক্লাস্টারিং উচ্চ স্তরের প্রতিনিধিত্ব

আপনি (1) এবং পিসিএর পরামর্শের সাথে অন্য পোস্টের সাথে কী ভাবছিলেন তার পংক্তির পাশাপাশি ক্লাস্টারিং, স্পারস কোডিং, বা এমনকি টপিক মডেলিংয়ের মতো পদ্ধতির - প্রতিটি প্রোটিনকে একটি ডকুমেন্ট স্ট্রিং এবং বিভিন্ন প্রোটিন পরিবারকে বিভিন্ন বিষয় হিসাবে বিবেচনা করা - উপস্থাপনা পেতে পারে এটি প্রোটিনগুলিকে সোজা করে শ্রেণীবদ্ধ করতে পারে।

উদাহরণস্বরূপ, আপনি সনাক্ত করতে পারেন কোন গ্রুপ / ক্লাস্টার কোন প্রোটিন ক্লাস্টারের সদস্যতা / এমবেডেড উপস্থাপনার অন্তর্ভুক্ত বা শ্রেণিবদ্ধ করে।

উদাহরণস্বরূপ, বিরল কোডিংয়ের মতো এম্বেডিং পদ্ধতিগুলি এমন উপস্থাপনা আনতে পারে যেগুলি বোঝায় যে কোন ক্লাস্টারে কোনও প্রোটিনও খুব বেশি - তাই একই বৈশিষ্ট্যগুলির কিছু সেট একই ক্লাস্টারের প্রোটিনগুলির জন্য কেবল সক্রিয় (শূন্য নয়) - যা তাদের শ্রেণিবদ্ধকরণকে আরও সহজ করে তুলতে পারে।

অতিরিক্তভাবে ক্লাস লেবেল বা পরিচিত ক্লাস্টার সদস্যতা বেশিরভাগ পদ্ধতির এম্বেডিং প্রক্রিয়ায় অন্তর্ভুক্ত করা যেতে পারে।

আঁসাঁব্ল

একাধিক শ্রেণিবদ্ধের অন্তর্ভুক্তগুলি সর্বোত্তম কাজ করার প্রবণতা রাখে - বিশেষত যখন শ্রেণিবদ্ধগুলি খুব বিবিধ হয় এবং স্বতন্ত্রভাবে তুলনামূলক পারফরম্যান্স অর্জন করতে পারে।

এই সমস্যার জন্য অন্তত দুটি উপায় ব্যবহার করুন।

আপনি একাধিক বিভিন্ন একই আকারের নেতিবাচক সেটগুলির নমুনা তৈরি করে এবং প্রতিটিতে একটি শ্রেণিবদ্ধ প্রশিক্ষণ দিয়ে বাইনারি শ্রেণিবদ্ধের একটি নকশা তৈরি করতে পারেন।
এম্বেড করা তথ্যের উপর প্রশিক্ষিত শ্রেণিবদ্ধকরণ মডেলগুলির সাথে একত্রে শ্রেণীবদ্ধকরণ পদ্ধতির সাথে মিলিত বিভিন্ন নেতিবাচক নমুনাযুক্ত বাইনারি শ্রেণিবদ্ধকারীগুলির মতো আপনি বিভিন্ন পদ্ধতির একটি টোপ তৈরি করতে পারেন।

— ব্রায়ান
সূত্র

2

আপনি নিতে পারেন এমন তিনটি পন্থা রয়েছে: অ্যাপ্লিকেশন, ওএএএ, এএও। সমস্ত সম্ভাব্য জোড় শ্রেণীর উপর ভিত্তি করে অ্যাপ্লিকেশন হ'ল অ্যাপ্লিকেশন discrimination ওএএ সমস্ত (বাকী ক্লাস) এর বিরুদ্ধে ওয়ান-এর ব্যবহার এবং এএও সব একবারে একসাথে একাধিক ক্লাসের জন্য এফ-পরীক্ষার ব্যবহার (বা এমভিএন-এর জন্য হোটেলিংয়ের পরীক্ষা)। অ্যাপ্লিকেশন এবং এএও আসলে একাধিক বাইনারি শ্রেণিবিন্যাস চলে তবে আপনার দুটি মূল ক্লাসের সাথে। এই প্রতিটি পদ্ধতির নিয়োগকৃত বিভিন্ন শ্রেণিবদ্ধদের জন্য আলাদা ফলাফল পাওয়া যায়।

এলোমেলো নমুনা একটি ভাল কৌশল। আপনি কে-মেনস ব্যবহার করে কেন্দ্রগুলিতে সমস্ত বস্তুকে ক্লাস্টার করার চেষ্টা করতে পারেন এবং তারপরে কেন্দ্রগুলিকে নতুন বস্তু হিসাবে ব্যবহার করতে পারেন। যে কোনও উপায়ে, লিনিয়ার এবং অ-রৈখিক মাত্রা হ্রাস পদ্ধতিগুলি বড় নমুনার আকার থেকে দূরে যেতে সহায়তা করতে পারে।