শ্রেণিবিন্যাস গাছগুলির বিকল্প, আরও ভাল ভবিষ্যদ্বাণীমূলক (উদাহরণস্বরূপ: সিভি) পারফরম্যান্স সহ?


23

আমি শ্রেণিবদ্ধ গাছগুলির বিকল্প খুঁজছি যা আরও ভাল ভবিষ্যদ্বাণীপূর্ণ শক্তি অর্জন করতে পারে।

আমি যে ডেটাটির সাথে কথা বলছি তাতে ব্যাখ্যামূলক এবং ব্যাখ্যাযোগ্য ভেরিয়েবল উভয়ের কারণ রয়েছে।

আমার মনে আছে এ প্রসঙ্গে র্যান্ডম অরণ্য এবং নিউরাল নেটওয়ার্কগুলি জুড়ে আসা, যদিও তাদের আগে কখনও চেষ্টা করা হয়নি, এমন মডেলিং টাস্কের (আর, স্পষ্টতই) আর কোনও ভাল প্রার্থী আছেন?


5
নিউরাল নেটওয়ার্কগুলির সাথে বিরক্ত করবেন না, এটি একটি অপ্রচলিত প্রযুক্তি।

1
@ এমবিকিউ আপনি কি এখনও এই বক্তব্যটি নিয়ে দাঁড়িয়ে আছেন?
রোম্বিডোডেহেড্রন

@ রোম্বিডোডেকাহেড্রন শিওর, ২০১০ থেকে এনএনদের সাথে খেলুন এবং আপনি সম্মত হবেন। এছাড়াও, আমি সন্দেহ করি যে কোনও ডিএল মডেল এ জাতীয় ছোট আকারের ডেটা সহ কোনও টেবিলে কিছু আনবে।

উত্তর:


25

আমি মনে করি এটি র‌্যান্ডম অরণ্যগুলিতে (র্যান্ডমফরেস্ট ) চেষ্টা করে দেখার মতো হবে ; সম্পর্কিত প্রশ্নের জবাবে কিছু তথ্য সরবরাহ করা হয়েছিল: মেশিন লার্নিংয়ের ক্রস-বৈধতা সম্পাদন করার সময় "চূড়ান্ত" মডেলের জন্য বৈশিষ্ট্য নির্বাচন ; কার্ট মডেল কি শক্তিশালী করা যায়? । বুস্টিং / ব্যাগিং তাদের একক কার্টের তুলনায় আরও স্থিতিশীল করে তোলে যা ছোট ছোট ভাঁড়ের কাছে অত্যন্ত সংবেদনশীল হিসাবে পরিচিত। কিছু লেখক যুক্তি দিয়েছিলেন যে এটি কার্যকর হিসাবে শাস্তিযুক্ত এসভিএম বা গ্রেডিয়েন্ট বুস্টিং মেশিনগুলিও সম্পাদন করেছে (দেখুন, উদাহরণস্বরূপ এট আল।, ২০০৯)। আমি মনে করি তারা অবশ্যই এনএনএসকে ছাড়িয়ে গেছে।

বুলেস্টেইক্স এবং স্ট্রোবিল অনুকূল শ্রেণিবদ্ধ নির্বাচনের বেশ কয়েকটি শ্রেণিবদ্ধের এবং ত্রুটির হার অনুমানের ক্ষেত্রে নেতিবাচক পক্ষপাতের একটি সুন্দর ওভারভিউ সরবরাহ করে: উচ্চ-মাত্রিক পূর্বাভাসের উপর একটি অভিজ্ঞতামূলক গবেষণা (বিএমসি এমআরএম 2009 9: 85)। আমি চতুর্থ EAM সভায় আরেকটি ভাল অধ্যয়নের কথা শুনেছি , যা মেডিসিনের পরিসংখ্যানগুলিতে পর্যালোচনা করা উচিত ,

জোয়াও মারোকো , দিনা সিলভা, মানুয়েলা গেরেরিও , আলেকজান্দ্রি দে মেন্ডোনিয়া। র্যান্ডম অরণ্যগুলি কি নিউরাল নেটওয়ার্কগুলি সমর্থন করে, ভেক্টর মেশিনগুলি এবং বৈষম্যমূলক বিশ্লেষণ শ্রেণিবদ্ধকে সমর্থন করে? জ্ঞানীয় অভিযোগ সহ প্রবীণ রোগীদের ডিমেনশিয়া সম্পর্কিত বিবর্তনে কেস স্টাডি

আমিও কেরেট পছন্দ করি প্যাকেজটিও : এটি ভালভাবে নথিভুক্ত এবং একই ডেটা সেটে বিভিন্ন শ্রেণিবদ্ধদের ভবিষ্যদ্বাণীমূলক নির্ভুলতার তুলনা করতে দেয়। এটি প্রশিক্ষণ / পরীক্ষার নমুনাগুলি, কম্পিউটিং যথার্থতা ইত্যাদি ব্যবহারকারীর পক্ষে কয়েকটি কার্যক্রমে পরিচালনা করার যত্ন নেয়।

Glmnet প্যাকেজ, ফ্রিডম্যান এবং Coll থেকে।, কার্যে প্রচলন শাস্তি GLM (পর্যালোচনার দেখতে পরিসংখ্যানগত সফটওয়্যার জার্নাল ), তাই আপনি একটি সুপরিচিত মডেলিং কাঠামোর মধ্যে থাকা।

অন্যথায়, আপনি অ্যাসোসিয়েশন রুলস ভিত্তিক শ্রেণিবদ্ধও সন্ধান করতে পারেন ( মেশিন লার্নিংয়ের সিআরএএন টাস্ক ভিউ বা তাদের কয়েকটিটির মৃদু পরিচয়ের জন্য ডেটা মাইনিংয়ের শীর্ষ 10 অ্যালগরিদম দেখুন )।

আমি আর একটি আকর্ষণীয় পদ্ধতির উল্লেখ করতে চাই যা আমি আর-এ পুনরায় বাস্তবায়নের পরিকল্পনা করছি (আসলে এটি মাতলাব কোড) যা হেরেব আব্বির কাছ থেকে পৃথক পৃথক চিঠিপত্রের বিশ্লেষণ । যদিও প্রাথমিকভাবে প্রচুর পরিমাণে ব্যাখ্যামূলক ভেরিয়েবল (শেষ পর্যন্ত সুসংহত ব্লকগুলিতে শ্রেণিবদ্ধ) দিয়ে ছোট-নমুনা অধ্যয়নের সাথে মোকাবিলা করার জন্য বিকাশ করা হয়েছিল তবে এটি ক্লাসিকাল ডিএকে দক্ষতার সাথে ডেটা হ্রাস কৌশলগুলির সাথে একত্রিত করে বলে মনে হচ্ছে।

তথ্যসূত্র

  1. ক্যাটলার, এ।, ক্যাটলার, ডিআর এবং স্টিভেন্স, জেআর (২০০৯)। ক্যান্সার গবেষণায় হাই-ডাইমেনশনাল ডেটা অ্যানালাইসিসে ট্রি-ভিত্তিক পদ্ধতিগুলি , লি, এক্স এবং এক্স, আর (অ্যাড।), পিপি। 83-101, স্প্রঞ্জার।
  2. সিয়েস, ওয়াই।, ইনজা, আই। এবং ল্যারাগাগা, পি। (2007)। বায়োইনফরম্যাটিক্সে বৈশিষ্ট্য নির্বাচন কৌশলগুলির একটি পর্যালোচনা । বায়োইনফরম্যাটিকস, 23 (19): 2507-2517।

2
+1 দুর্দান্ত উত্তর। আমিও ক্যারেটের সুপারিশের সাথে একমত।
শেন

12

এটি মনে রাখা গুরুত্বপূর্ণ যে এমন কোনও অ্যালগরিদম নেই যা সর্বদা অন্যের চেয়ে ভাল। ওলপার্ট এবং ম্যাকডিয়ার বক্তব্য অনুসারে, "সমস্ত সম্ভাব্য সমস্যা জুড়ে যখন তাদের পারফরম্যান্স গড় হয় তখন কোনও দুটি অ্যালগরিদম সমান" " ( বিস্তারিত জানার জন্য উইকিপিডিয়া দেখুন ))

প্রদত্ত অ্যাপ্লিকেশনটির জন্য, "সেরা" হ'ল সাধারণত এমন একটি যা আপনার আবেদনের সাথে সর্বাধিক ঘনিষ্ঠভাবে ধারনা করা হয় এটি যে অনুমানগুলি করে তা, যে ধরণের ডেটা এটি পরিচালনা করতে পারে, যে অনুমানগুলি এটি উপস্থাপন করতে পারে ইত্যাদি terms

সুতরাং মানদণ্ড অনুসারে আপনার ডেটা বৈশিষ্ট্যযুক্ত করা ভাল ধারণা:

  • আমার কি খুব বড় ডেটা সেট আছে বা বিনয়ী?
  • মাত্রাটি কি উচ্চতর?
  • ভেরিয়েবলগুলি সংখ্যাসূচক (অবিচ্ছিন্ন / বিযুক্ত) বা প্রতীকী, বা একটি মিশ্রণ, এবং / অথবা প্রয়োজনে সেগুলি রূপান্তর করা যায়?
  • ভেরিয়েবলগুলি সম্ভবত বহুলাংশে স্বতন্ত্র বা বেশ নির্ভরশীল হতে পারে?
  • অপ্রয়োজনীয়, গোলমাল বা অপ্রাসঙ্গিক ভেরিয়েবলগুলি থাকার সম্ভাবনা আছে কি?
  • আমি কি উত্পন্ন মডেলটি পরীক্ষা করতে এবং এটি বোঝার চেষ্টা করতে সক্ষম হতে চাই?

এগুলির উত্তর দিয়ে, আপনি কিছু অ্যালগরিদমগুলি নির্মূল করতে পারেন এবং অন্যদেরকে সম্ভাব্য প্রাসঙ্গিক হিসাবে চিহ্নিত করতে পারেন, এবং তারপরে আপনি প্রার্থী পদ্ধতিগুলির একটি ছোট সেট দিয়ে শেষ করতে পারেন যা আপনি বুদ্ধিমানের সাথে দরকারী হিসাবে বেছে নিয়েছেন।

আপনাকে একটি সহজ উত্তর না দেওয়ার জন্য দুঃখিত, তবে আমি আশা করি এটি তবেই সহায়তা করে!


2
+1 উদ্ধৃতি ভালবাসা। ("সমস্ত সম্ভাব্য সমস্যা জুড়ে যখন তাদের পারফরম্যান্স গড় হয় তখন কোনও দুটি অ্যালগরিদম সমান" ")
আসাদ ইব্রাহিম

8

বহু শ্রেণীর শ্রেণিবিন্যাসের জন্য, সমর্থন ভেক্টর মেশিনগুলিও একটি ভাল পছন্দ। আমি সাধারণত এর জন্য আর কার্নলব প্যাকেজটি ব্যবহার করি।

একটি ভাল আলোচনার জন্য নিম্নলিখিত জেএসএস কাগজটি দেখুন: http://www.jstatsoft.org/v15/i09/


@ টাল এখানে এসভিএম বনাম আরএফগুলির একটি ন্যায্য (বা আমার মনে হয়) পর্যালোচনা : মাইক্রোরেয়ে-ভিত্তিক ক্যান্সারের শ্রেণিবিন্যাস, j.mp/ab7U8V এর জন্য এলোমেলো বন এবং সমর্থন ভেক্টর মেশিনের একটি বিস্তৃত তুলনা j । আমিও পছন্দ kernlabকরতে e1071
chl

2
@ সিএইচএল আমি এই কাগজটি এসভিএম শেখার দৃষ্টিকোণ থেকে তৈরি করার সময় পছন্দ করি না - একটি স্টোকাস্টিক অ্যালগরিদম (আরএফ) এর একটি পুনরাবৃত্তি করা কেবল একটি জাঙ্ক; এছাড়াও পরিশিষ্ট 2 দেখায় যে আরএফ-তে এসভিএম ওয়ার্কফ্লো প্রয়োগ করা কতটা খারাপ হতে পারে। তবুও আমি সম্মত হই যে প্রায় সবসময় SVM কার্নেল ট্রিকের কারণে আরএফকে ছাড়িয়ে যেতে পারে (যা সাধারণ আরএফের নেই, যদিও এর অর্থ এটি সাধারণভাবে থাকতে পারে না), তবে তাত্পর্যপূর্ণ ক্রমবর্ধমান অপ্টিমাইজেশান প্রচেষ্টা দিয়ে with

@ এমবিকিউ প্রকৃতপক্ষে, এটি একটি ভাল পয়েন্ট।
chl

3

ইতিমধ্যে উল্লিখিত র্যান্ডম বনগুলি প্রাকৃতিক "আপগ্রেড" এবং আজকাল এসভিএম সাধারণত ব্যবহারের জন্য প্রস্তাবিত কৌশল।

আমি আরও প্রায়শই এসভিএম পরিবর্তন না করে খুব হতাশাজনক ফলাফল দেয় তা যুক্ত করতে চাই। কথাটি হ'ল, এলোমেলো গাছের মতো কৌশলগুলি ব্যবহারের জন্য প্রায় তুচ্ছ, এসভিএম কিছুটা জটিল।

আমি যখন প্রথমবারের জন্য এসভিএম ব্যবহার করলাম তখন এই কাগজটি অমূল্য ফিরে পেলাম (ভেক্টর শ্রেণিবিন্যাস সমর্থন করার জন্য একটি ব্যবহারিক গাইড) http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf

আর-তে আপনি এসভিএমের জন্য ই 1071 প্যাকেজটি ব্যবহার করতে পারেন, এটি ডি ফ্যাক্টো স্ট্যান্ডার্ডের সাথে লিঙ্ক করে (কমপক্ষে ফ্রি সফ্টওয়্যারটিতে) লাইবএসভিএম লাইব্রেরি।


2
কার্নল্যাব অপ্টিমাইজেশনের জন্যও লিবসভিএম ব্যবহার করে, সুতরাং সেই অর্থে কোনও বড় পার্থক্য নেই (যদিও এটি অনেক বেশি নমনীয়)।
শেন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.