আমি প্রকাশিত প্রমাণ, ব্যক্তিগত অভিজ্ঞতা এবং অনুমানের সংমিশ্রণে এই প্রশ্নের উত্তর দেওয়ার চেষ্টা করব।
ক) প্রকাশিত প্রমাণ।
আমি জানি যে একমাত্র কাগজটি প্রশ্নের উত্তর দিতে সহায়তা করে তা হ'ল দেলগাদো এট আল 2014 - রিয়েল ওয়ার্ল্ড ক্লাসিফিকেশন সমস্যাগুলি সমাধান করার জন্য আমাদের কি কয়েকশ শ্রেণিবদ্ধ দরকার? - জেএমএলআর যা ইউসিআই থেকে 121 ডেটাসেটে শত শত বিভিন্ন অ্যালগরিদম এবং বাস্তবায়ন পরিচালনা করে। তারা দেখতে পান যে যদিও আরবিএফ এসভিএম "সেরা" অ্যালগরিদম না (এটি সঠিকভাবে মনে রাখলে এটি এলোমেলো বন) তবে এটি শীর্ষ 3 (বা 5) এর মধ্যে রয়েছে।
আপনি যদি বিবেচনা করেন যে তাদের ডেটাসেটগুলি নির্বাচন করা বাস্তব জগতের সমস্যার একটি "ভাল নমুনা", এসভিএমের চেয়ে অবশ্যই একটি অ্যালগরিদম যা নতুন সমস্যার জন্য চেষ্টা করা উচিত তবে প্রথমে একটি এলোমেলো বন চেষ্টা করা উচিত!
ফলাফলটি সাধারণীকরণের সীমাটি হ'ল ডেটাসেটগুলি প্রায় সমস্ত লম্বা এবং চর্মসার (n >> p), খুব কম বিরাট নয় - যা আমি অনুমান করি যে আরএফের জন্য আরও বেশি সমস্যা হওয়া উচিত, এবং খুব বড় নয় (এন এবং পি উভয়)।
অবশেষে, এখনও প্রকাশিত প্রমাণে, আমি দুটি সাইট সুপারিশ করি যা এলোমেলো বনগুলির বিভিন্ন বাস্তবায়নকে তুলনা করে:
খ) ব্যক্তিগত অভিজ্ঞতা।
আমি বিশ্বাস করি যে মেশিন লার্নিং সম্প্রদায়ের জন্য দেলগাদো এবং এ জাতীয় সমস্ত কাগজপত্র খুব গুরুত্বপূর্ণ, তাই আমি তাদের ফলাফলগুলি কিছু ভিন্ন শর্তে প্রতিলিপি করার চেষ্টা করেছি। আমি 100+ বাইনারি ডেটাসেটে (দেলগাদোর ডেটাসেটের সেট থেকে) প্রায় 15 টি পৃথক অ্যালগরিদম চালিয়েছি। আমি আরও মনে করি যে হাইপারপ্যারামিটারগুলি সেগুলির ক্ষেত্রে আমি আরও যত্নবান ছিলাম।
আমার ফলাফলগুলি হ'ল এসভিএম হ'ল "সেরা অ্যালগরিদম" (মানে র্যাঙ্ক ৪.৯)। আমার গ্রহণযোগ্যতাটি হ'ল এসভিএম আরএফ পাস করেছে কারণ মূল ডেটাসেটটিতে অনেকগুলি মাল্টিক্লাস সমস্যা রয়েছে - যা আমি অনুমানের অংশে আলোচনা করব - এসভিএমের জন্য সমস্যা হওয়া উচিত।
সম্পাদনা (জুন / 16):
কিন্তু আরএফ হয় পথ পথ দ্রুত, এবং এটি 2nd সেরা আলগোরিদিম (গড় র্যাঙ্ক 5.6) gbm (5.8) দ্বারা অনুসরণ nnets (7.2), ইত্যাদি) ছিল। আমি এই সমস্যাগুলিতে স্ট্যান্ডার্ড লজিস্টিক রিগ্রেশন চেষ্টা করি নি, তবে আমি একটি ইলাস্টিক নেট (এল 1 এবং এল 2 নিয়ন্ত্রিত এলআর) চেষ্টা করেছি তবে এটি ভাল সম্পাদন করতে পারেনি (মানে 8.3 রেঙ্ক) ~
আমি ফলাফলগুলি বিশ্লেষণ বা কাগজ লেখার কাজ শেষ করি নি তাই ফলাফলগুলি সহ কোনও প্রযুক্তিগত প্রতিবেদনের দিকেও নির্দেশ করতে পারি না। আশা করি, কয়েক সপ্তাহের মধ্যে আমি এই উত্তরটি পুনরায় সম্পাদনা করতে এবং ফলাফলগুলি সহ কোনও প্রযুক্তিগত প্রতিবেদনের দিকে নির্দেশ করতে পারি।
কাগজটি http://arxiv.org/abs/1606.00930 এ পাওয়া যায় এটি প্রমাণিত হয় যে সম্পূর্ণ বিশ্লেষণের পরে আরএফ এবং এসভিএম প্রত্যাশিত ত্রুটির হারের ক্ষেত্রে প্রায় সমতুল্য এবং এসভিএম দ্রুততম (আমার অবাক হওয়ার জন্য)! আরএফ (গতির ভিত্তিতে) সুপারিশ করার ক্ষেত্রে আমি আর জোরদার নই।
সুতরাং আমার ব্যক্তিগত অভিজ্ঞতা হ'ল যদিও এসভিএম আপনাকে কিছুটা অতিরিক্ত নির্ভুলতা পেতে পারে তবে এটি একটি আরএফ ব্যবহার করা প্রায় সর্বদা একটি ভাল পছন্দ।
এছাড়াও বড় সমস্যাগুলির জন্য, ব্যাচের এসভিএম সলভার ব্যবহার করা অসম্ভব হতে পারে (আমি কখনই কোনও অনলাইন এসভিএম সলভার যেমন এলএএসভিএম বা অন্যদের ব্যবহার করি নি )।
অবশেষে আমি কেবল একটি পরিস্থিতিতে লজিস্টিক রিগ্রেশন ব্যবহার করেছি। আমি একটি চিত্র শ্রেণীবদ্ধের সমস্যাটিতে কিছু "তীব্র" বৈশিষ্ট্য ইঞ্জিনিয়ারিং করছিলাম (যেমন - চিত্রটির দুটি পৃথক বিবরণ এবং বর্ণনার মাত্রিকতা একত্রিত করুন বা না)। এবং আমি অনেক বিকল্পের মধ্যে নির্বাচন করতে লজিস্টিক রিগ্রেশন ব্যবহার করেছি (কারণ এলআর তে হাইপারপ্যারামিটার অনুসন্ধান নেই)। একবার আমরা সর্বোত্তম বৈশিষ্ট্যগুলিতে স্থির হয়ে গেলে (এলআর অনুসারে) আমরা চূড়ান্ত শ্রেণিবদ্ধের জন্য একটি আরএফ (সেরা হাইপারপ্যারামিটারগুলির জন্য নির্বাচন করা) ব্যবহার করি।
গ) জল্পনা
মাল্টিক্লাস সমস্যার ক্ষেত্রে আমি কখনই গুরুত্ব সহকারে কাজ করি নি, তবে আমার অনুভূতি হ'ল এসভিএম তাদের পক্ষে তেমন ভাল নয়। সমস্যাটি এক-বনাম-এক বা এক-বনাম-সমস্ত সমাধানের মধ্যে সমস্যা নয়, তবে যে সমস্ত বাস্তবায়ন আমি জানি, সেগুলি (ওভিও বা ওভিএ) শ্রেণিবদ্ধদের জন্য একই হাইপারপ্যারামিটার ব্যবহার করবে। এসভিএমের জন্য সঠিক হাইপারপ্যারামিটারগুলি নির্বাচন করা এতটাই ব্যয়বহুল যে আমি জানি যে শেল্ফ বাস্তবায়নগুলির কোনওটিই প্রতিটি শ্রেণিবদ্ধের জন্য অনুসন্ধান করবে না। আমি অনুমান করি যে এটি এসভিএমের জন্য সমস্যা (তবে আরএফের জন্য কোনও সমস্যা নয়)।
তারপরে আবার, মাল্টিক্লাস সমস্যার জন্য আমি সরাসরি আরএফতে যাব।