পাঠ্য শ্রেণিবিন্যাসের সমস্যাগুলি বেশ উচ্চ মাত্রিক (অনেকগুলি বৈশিষ্ট্য) হতে থাকে এবং উচ্চ মাত্রিক সমস্যাগুলি সম্ভবত লাইনীয়ভাবে পৃথক হওয়ার সম্ভাবনা থাকে (যেমন আপনি পয়েন্টগুলি নির্বিশেষে লিনিয়ার শ্রেণিবদ্ধের সাথে কোনও ডি-ডাইমেনশনাল স্পেসে কোনও ডি + 1 পয়েন্ট আলাদা করতে পারবেন) লেবেলযুক্ত)। সুতরাং লিনিয়ার শ্রেণিবদ্ধীরা, রিজ রিগ্রেশন বা লিনিয়ার কার্নেল সহ এসভিএম, ভাল করার সম্ভাবনা রয়েছে। উভয় ক্ষেত্রেই, এসভিএমের জন্য রিজ প্যারামিটার বা সি (যেমন টিডিসি +1 উল্লেখ করেছেন) শ্রেণিবদ্ধের জটিলতা নিয়ন্ত্রণ করে এবং প্রতিটি শ্রেণির নিদর্শনগুলিকে বড় মার্জিন দ্বারা পৃথক করে ওভার-ফিটিং এড়াতে সহায়তা করে (যেমন সিদ্ধান্তের পৃষ্ঠটি নীচে চলে যায়) দুটি পয়েন্টের সংগ্রহের মধ্যে ব্যবধানের মাঝামাঝি)। তবে ভাল পারফরম্যান্স পেতে রিজ / নিয়মিতকরণের প্যারামিটারগুলি সঠিকভাবে সুর করা দরকার (আমি সস্তা হিসাবে লিভ-ওয়ান-আউট ক্রস-বৈধতা ব্যবহার করি)।
তবে, যে কারণে রিজ রিগ্রেশনটি ভালভাবে কাজ করে তা হ'ল অ-রৈখিক পদ্ধতিগুলি খুব শক্তিশালী এবং ওভার-ফিটিং এড়ানো কঠিন। একটি লিনিয়ার শ্রেণিবদ্ধ থাকতে পারে যা সর্বোত্তম রৈখিক মডেলের চেয়ে আরও সাধারণীকরণের কর্মক্ষমতা দেয় তবে আমাদের যে প্রশিক্ষণ ডেটা রয়েছে তার সীমাবদ্ধ নমুনা ব্যবহার করে সেই পরামিতিগুলি অনুমান করা খুব কঠিন। অনুশীলনে, মডেলটি যত সহজ, পরামিতিগুলি অনুমান করার ক্ষেত্রে আমাদের যত কম সমস্যা রয়েছে তাই ওভার-ফিটের প্রবণতা কম থাকে, সুতরাং আমরা অনুশীলনে আরও ভাল ফলাফল পাই।
আর একটি সমস্যা বৈশিষ্ট্য নির্বাচন, রিজ রিগ্রেশন ওজন ছোট রাখার জন্য নিয়মিত করে ওভার-ফিটিং এড়িয়ে চলে এবং মডেল নির্বাচনটি সরাসরি এগিয়ে থাকে কারণ আপনাকে কেবলমাত্র একটি একক রিগ্রেশন প্যারামিটারের মানটি বেছে নিতে হবে। যদি আপনি বৈশিষ্ট্যগুলির সর্বোত্তম সেটটি বাছাই করে অতিরিক্ত ফিটনেস এড়াতে চেষ্টা করেন, তবে প্রতিটি বৈশিষ্ট্যের জন্য একটি ডিগ্রি স্বাধীনতা (সাজানো) থাকায় মডেল নির্বাচন করা কঠিন হয়ে পড়ে, যা বৈশিষ্ট্য নির্বাচনের মানদণ্ডকে ওভার-ফিট করা সম্ভব করে এবং আপনি ডেটাগুলির এই নির্দিষ্ট নমুনার জন্য অনুকূল যে বৈশিষ্ট্যগুলির একটি সেট দিয়ে শেষ করুন, তবে যা দুর্বল সাধারণীকরণের কর্মক্ষমতা দেয়। তাই বৈশিষ্ট্য নির্বাচন সম্পাদন না করা এবং নিয়মিতকরণ ব্যবহার করা প্রায়শই আরও ভাল ভবিষ্যদ্বাণীপূর্ণ কর্মক্ষমতা দিতে পারে।
আমি প্রায়শই ব্যাগিং (প্রশিক্ষণ সেট থেকে বুটস্ট্র্যাপযুক্ত নমুনাগুলির উপর প্রশিক্ষিত মডেলগুলির একটি কমিটি গঠন) ব্যবহার করি যা প্রায়শই পারফরম্যান্সে উন্নতি করে এবং সমস্ত মডেল লিনিয়ার হিসাবে আপনি তাদের একত্রিত করে একটি একক রৈখিক মডেল গঠন করতে পারেন , সুতরাং অপারেশন কোনও পারফরম্যান্স হিট নেই।