কোনও এসভিএম গ্রিড অনুসন্ধানের চারপাশে কম নির্ভুলতার সাথে একটি উচ্চ-নির্ভুলতা অঞ্চলটি দেখাতে হবে?


12

আমার কাছে 12 টি ইতিবাচক প্রশিক্ষণ সেট রয়েছে (ক্রিয়াকলাপের 12 টি বিভিন্ন পদ্ধতির প্রত্যেকের সাথে ড্রাগগুলির সাথে চিকিত্সা করা ক্যান্সার সেল)। এই প্রতিটি ইতিবাচক প্রশিক্ষণ সেটগুলির জন্য, আমি পরীক্ষার চেয়ে নমুনাযুক্ত সমান আকারের নেতিবাচক সেট থেকে আলাদা করতে একটি সমর্থন-ভেক্টর মেশিনকে প্রশিক্ষণ দিতে চাই। প্রতিটি সেটে 1000 থেকে 6000 কোষের মধ্যে রয়েছে এবং প্রতিটি কক্ষের 476 টি বৈশিষ্ট্য (চিত্র বৈশিষ্ট্য) রয়েছে, প্রতিটি স্ক্রিনকে রৈখিকভাবে [0, 1] এ মাপা হয়।

আমি এলআইবিএসভিএম এবং গাউসিয়ান আরজিবি কার্নেল ব্যবহার করি । পাঁচগুণ ক্রসঅ্যাক্টিফিকেশন ব্যবহার করে, আমি লগ-সি ∈ [-5, 15] এবং লগ-এ-[[-15, 3] এর জন্য একটি গ্রিড অনুসন্ধান করেছি। ফলাফলগুলো নিম্নে প্রদর্শিত হল:

গ্রিড অনুসন্ধানের ফলাফল

আমি হতাশ হয়েছি যে এখানে কোনও 12 টি শ্রেণিবিন্যাস সমস্যার জন্য উচ্চতর মূল্যায়নকারী পরামিতিগুলির সেট নেই। আমি আরও আশ্চর্য হয়েছি যে গ্রিডগুলি সাধারণত কম নির্ভুলতায় ঘেরা উচ্চ-নির্ভুলতার অঞ্চলটি দেখায় না। এর অর্থ কি এই যে এই যে আমার অনুসন্ধানের প্যারামিটারের স্থানটি প্রসারিত করা দরকার, বা গ্রিড অনুসন্ধানটি ইঙ্গিত দিচ্ছে যে অন্য কিছু ভুল হয়েছে?


2
হতাশা পুনরায়: আপনি প্রতিটি সমস্যার একই পরামিতিগুলির প্রত্যাশা করবেন না, তাই সমস্যাগুলি হাইপারপ্যারামিটারগুলির জন্য (লগ গামা এবং সি) ভাল মান ভাগ করার আশা করবেন কেন ?
কনজুগেটপায়ার

@ কনজুগেট পূর্ব: প্রশিক্ষণ সেটগুলি একই পরীক্ষার সাবসেট, এবং নেতিবাচক প্রশিক্ষণ সেটগুলি একই জনসংখ্যার থেকে নমুনাযুক্ত, তাই আমি আশা করেছি যে একই আরবিএফ কার্নেলের প্রস্থ কার্যকর হবে। যেহেতু ইতিবাচক সেটগুলি একই পটভূমির (নেতিবাচক) জনসংখ্যা থেকে বৈষম্য করা হচ্ছে, আমি আশা করেছি যে আদর্শ পেনাল্টি সিটিও একই রকম হবে। যদি এটি না হয় তবে এটি এসভিএমকে প্রয়োগ করা সত্যই শক্ত করে তোলে। নম্র বুস্টিং, উদাহরণস্বরূপ, টিউন করা অনেক সহজ easier
Vebjorn Ljosa

আহা। তবে আমার কাছে মনে হয় এটি শারীরিক অর্থে একই পরীক্ষা হলেও আপনি তবুও পরিসংখ্যানগত দিক থেকে পৃথক এবং বিভিন্ন সমস্যার উপর আক্রমণ করছেন। বিশেষত যদি প্রতিটি চিকিত্সার জন্য নেতিবাচক কেসগুলি পুনরায় মডেল করা হয়।
কনজুগেটপায়ার

1
বিটিডাব্লু, গ্রিড অনুসন্ধান বরং অদক্ষ, নেল্ডার-মিড সিমপ্লেক্স অপ্টিমাইজেশন অ্যালগরিদম খুব কার্যকর, যেমন গ্রেডিয়েন্ট বংশোদ্ভূত অপ্টিমাইজেশন পদ্ধতি রয়েছে। গ্রিড অনুসন্ধান সহজ তবে কিছুটা "ব্রুট ফোর্স"।
ডিকরান মার্সুপিয়াল

@ ওয়েবেজর্ন লজোসা (এক বছর পরে), 5 টি মান কতটা ছড়িয়ে দেয়, ফাইনালে (সি, গামা) বলে? 12 টি প্লট কি একইরকম, যেমন 50% .. 100% সঠিক ভবিষ্যদ্বাণী? ধন্যবাদ
ড্যানিস

উত্তর:


9

হাইপার-প্যারামিটারগুলির সর্বোত্তম মানগুলি বিভিন্ন শিক্ষার জন্য পৃথক হবে, প্রতিটি সমস্যার জন্য আপনার সেগুলি আলাদা করে টিউন করা দরকার।

আপনি একটিও সর্বোত্তম না পাওয়ার কারণটি হ'ল কার্নেল প্যারামিটার এবং নিয়মিতকরণ পরামিতি উভয়ই মডেলের জটিলতা নিয়ন্ত্রণ করে। সি ছোট হলে আপনি একটি মসৃণ মডেল পাবেন, একইভাবে কার্নেলটি বিস্তৃত হলে আপনি একটি মসৃণ মডেল পাবেন (বেস ফাংশনগুলি খুব স্থানীয় নয়)। এর অর্থ হ'ল সি এবং কার্নেলের প্রস্থের বিভিন্ন সংমিশ্রণ একই রকম জটিল মডেলগুলিতে নেতৃত্ব দেয়, একই রকম পারফরম্যান্স সহ (যার কারণে আপনি আপনার অনেক প্লটে তির্যক বৈশিষ্ট্যটি পেয়েছেন)।

সর্বোত্তম প্রশিক্ষণ সেট নির্দিষ্ট নমুনা উপর নির্ভর করে। ক্রস-বৈধকরণের ত্রুটিটিকে অত্যধিক ফিট করা সম্ভব, সুতরাং ক্রস-বৈধকরণের মাধ্যমে হাইপার-প্যারামিটারগুলি চয়ন করা যদি আপনি দুর্ভাগ্য হন তবে কার্যকারিতা আরও খারাপ করতে পারে। এ সম্পর্কে কিছু আলোচনার জন্য কাওলি এবং টালবোট দেখুন ।

হাইপার-প্যারামিটারগুলির জন্য যেখানে আপনি একইভাবে ভাল মান পেয়ে থাকেন সেখানে মূল্যগুলির একটি বিস্তৃত মালভূমি রয়েছে তা আসলে সমর্থন ভেক্টর মেশিনগুলির একটি ভাল বৈশিষ্ট্য কারণ এটি নির্দেশ করে যে তারা মডেল নির্বাচনের ক্ষেত্রে অতিরিক্ত ফিট করার জন্য অত্যধিক ঝুঁকিপূর্ণ নয়। আপনার যদি সর্বোত্তম মানগুলির উপর একটি তীক্ষ্ণ শীর্ষ থাকে তবে এটি একটি খারাপ জিনিস হবে কারণ একটি শীর্ষ সীমাবদ্ধ ডেটাসেট ব্যবহার করা শিখরটি খুঁজে পাওয়া মুশকিল হবে যা সেই চূড়াটি আসলে কোথায় রয়েছে তার একটি অবিশ্বাস্য ইঙ্গিত সরবরাহ করবে।


বিটিডাব্লু আমি গ্রিড-অনুসন্ধান ব্যবহার করে মডেল নির্বাচনের ওভার-ফিটিংয়ের উপর একটি গবেষণা চালিয়ে যাচ্ছি যা আমি ভেবেছিলাম এমন আরও আকর্ষণীয় হতে পারে। এমনকি কয়েকটি হাইপার-প্যারামিটারের পরেও, আপনি যদি কোনও গ্রিডকে অনুকূল করে তুলেন তবে এটি মডেল নির্বাচনের মানদণ্ডকে অতিরিক্ত ফিট করতে পারে!
ডিকরান মার্সুপিয়াল

আমি এখন সিমুলেশন কাজের সমাপ্তির দিকে এগিয়ে যাচ্ছি, আশা করি আমি এক বা
দু'মাসে

আমি যদি কাগজটি পড়া শেষ করতে আগ্রহী? আমি গ্রিড অনুসন্ধান অপ্টিমাইজেশনে কিছু অদ্ভুত স্পাইক ইত্যাদিতে এসেছি যা আপনি এখানে আলোচনার অনুরূপ বলে মনে করছেন।
বিগ্রিন

সমস্ত সিমুলেশন কাজ এখন সম্পূর্ণ, আমি কেবল এই মুহুর্তে কাগজটি একসাথে রাখছি (বেশিরভাগ ক্ষেত্রে কেবল এটি নিশ্চিত করা হয় যে এটি সম্পূর্ণরূপে পুনরুত্পাদনযোগ্য)। আমি সমস্ত গ্রিডগুলি সংরক্ষণ করেছি তাই কিছু পুনরায় বিশ্লেষণ করা অন্যান্য প্রশ্নগুলির তদন্ত করা উচিত যা আমি তখন ভাবিনি।
ডিকরান মার্শুপিয়াল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.