দীর্ঘ গল্প সংক্ষিপ্ত : @ অ্যান্টিলেটড প্রোগ্রামার যা বলেছিলেন তা করুন, দুটি বেছে নিতে মডেল ব্যবহার করুন এবং একটি বাছাইয়ের জন্য ক্রস-বৈধতা দিন।
উভয় সিদ্ধান্ত গাছ (বাস্তবায়নের উপর নির্ভর করে, যেমন সি 4.5) এবং লজিস্টিক রিগ্রেশন কেবল অবিচ্ছিন্ন এবং শ্রেণিবদ্ধ ডেটা পরিচালনা করতে সক্ষম হওয়া উচিত। লজিস্টিক রিগ্রেশন এর জন্য, আপনি আপনার শ্রেণিবদ্ধ ভেরিয়েবলগুলি ডামি কোড করতে চান ।
@ কন্টিলেডপ্রগ্রামার হিসাবে উল্লেখ করা হয়েছে, কোন ধরণের প্রযুক্তি আপনি কী ধরণের বৈশিষ্ট্যগুলির উপর নির্ভর করে চালিয়ে যাবেন তা ধারাবাহিকভাবে বা অন্য কোনও উপায়ে আরও ভাল হবে তা আগে জানা শক্ত। এটি আপনার নির্দিষ্ট সমস্যা এবং আপনার যে ডেটা রয়েছে তা নির্ভর করে। ( নিখরচায় দুপুরের খাবারের উপপাদ্যটি দেখুন )
আপনি মনে রাখতে চাইবেন যে লজিস্টিক রিগ্রেশন মডেলটি আপনার বৈশিষ্ট্য স্পেসে একক লিনিয়ার সিদ্ধান্তের সীমানা সন্ধান করছে, অন্যদিকে একটি সিদ্ধান্ত গাছ অক্ষরযুক্ত রেখাযুক্ত সিদ্ধান্ত সীমানাগুলি ব্যবহার করে আপনার বৈশিষ্ট্য স্থানটিকে অর্ধ-ফাঁকে ফাঁকা করে দেবে । নেট এফেক্টটি হ'ল আপনার একটি অ-রৈখিক সিদ্ধান্তের সীমানা রয়েছে, সম্ভবত একের বেশি।
এটি খুব ভাল যখন আপনার ডেটা পয়েন্টগুলি কোনও একক হাইপারপ্লেন দ্বারা সহজেই পৃথক করা হয় না, তবে অন্যদিকে, সিদ্ধান্ত নেওয়া গাছগুলি এত নমনীয় হয় যে তারা অত্যধিক মানানসই হতে পারে। এটিকে মোকাবেলায় আপনি ছাঁটাই করার চেষ্টা করতে পারেন। লজিস্টিক রিগ্রেশন অত্যধিক মানানসই ক্ষেত্রে কম সংবেদনশীল (তবে প্রতিরোধ ক্ষমতা নয়!) থাকে।
x yএক্সY
সুতরাং আপনাকে নিজেকে জিজ্ঞাসা করতে হবে:
- কোন ধরণের সিদ্ধান্তের সীমানা আপনার বিশেষ সমস্যাটিকে আরও বোঝায়?
- আপনি কিভাবে পক্ষপাত এবং বৈকল্পিক ভারসাম্য বজায় রাখতে চান?
- আমার বৈশিষ্ট্য মধ্যে পারস্পরিক মিথস্ক্রিয়া আছে?
অবশ্যই, উভয় মডেলকে কেবল চেষ্টা করা এবং ক্রস-বৈধকরণ করা সর্বদা একটি ভাল ধারণা। এটি আপনাকে জানাতে সহায়তা করবে যে কোনটির মধ্যে আরও সাধারণের ত্রুটি হওয়ার সম্ভাবনা বেশি।