সাম্প্রতিক কাগল প্রতিযোগিতার জন্য, আমি (ম্যানুয়ালি) আমার প্রশিক্ষণ সংস্থার জন্য 10 টি অতিরিক্ত বৈশিষ্ট্য সংজ্ঞায়িত করেছি, যা পরে এলোমেলো বন শ্রেণিবদ্ধ প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত হবে। তারা একে অপরের সাথে কীভাবে তুলনা করে তা দেখার জন্য আমি নতুন বৈশিষ্ট্যগুলি সহ ডেটাসেটে পিসিএ চালানোর সিদ্ধান্ত নিয়েছি। আমি দেখেছি যে ~ 98% বৈকল্পিকতা প্রথম উপাদান (প্রথম ইগেনভেেক্টর) দ্বারা বহন করা হয়েছিল। আমি তখন ক্লাসিফায়ারকে একাধিকবার প্রশিক্ষণ দিয়েছিলাম, একবারে একটি বৈশিষ্ট্য যুক্ত করেছি এবং শ্রেণিবদ্ধকরণের মান তুলনা করতে ক্রস-বৈধতা এবং আরএমএস ত্রুটি ব্যবহার করেছি। আমি দেখতে পেয়েছি যে প্রতিটি অতিরিক্ত বৈশিষ্ট্য সহ শ্রেণিবদ্ধকরণগুলি উন্নত হয়েছিল এবং চূড়ান্ত ফলাফল (সমস্ত 10 টি নতুন বৈশিষ্ট্য সহ) 2 টি বৈশিষ্ট্য সহ প্রথম রান করার চেয়ে অনেক ভাল ছিল।
প্রদত্ত যে পিসিএ দাবি করেছে যে dat 98% ভেরিয়েন্সটি আমার ডেটাসেটের প্রথম উপাদানটিতে ছিল, কেন শ্রেণিবদ্ধের মান এত উন্নত হল?
এটি কি অন্য শ্রেণিবদ্ধীদের পক্ষে সত্য? আরএফ একাধিক কোর জুড়ে স্কেল করে, তাই এসভিএম (বলার অপেক্ষা) এর চেয়ে বেশি প্রশিক্ষণ দেওয়া।
আমি যদি ডেটাসেটটিকে "পিসিএ" স্পেসে রুপান্তরিত করে রূপান্তরিত স্থানটিতে শ্রেণিবদ্ধী চালিতাম তবে কী হবে। কীভাবে আমার ফলাফল পরিবর্তন হবে?