আমার কাছে কাঁচা ডেটা রয়েছে যার প্রায় 20 টি কলাম রয়েছে (20 টি বৈশিষ্ট্য)। এর মধ্যে দশটি অবিচ্ছিন্ন ডেটা এবং তাদের 10 টি শ্রেণিবদ্ধ। কিছু শ্রেণিবদ্ধ ডেটাতে 50 টির মতো আলাদা মান (মার্কিন যুক্তরাষ্ট্র) থাকতে পারে। আমি ডেটা প্রাক-প্রক্রিয়া করার পরে 10 ধারাবাহিক কলামগুলি 10 প্রস্তুত কলাম হয়ে যায় এবং 10 শ্রেণিবদ্ধ মানগুলি 200 ওয়ান-হট এনকোডেড ভেরিয়েবলের মতো হয়ে যায়। আমি উদ্বিগ্ন যে আমি যদি এই 200 + 10 = 210 টি বৈশিষ্ট্যগুলি নিউরাল জালে রেখে দিই তবে 200-ওয়ান-হট বৈশিষ্ট্যগুলি (10 শ্রেণীবদ্ধ কলামগুলি) 10-ক্রমাগত বৈশিষ্ট্যগুলিকে পুরোপুরি আধিপত্য করবে।
সম্ভবত একটি পদ্ধতি হ'ল এক সাথে কলামগুলি "গ্রুপ" করা বা কিছু something এটি কি একটি বৈধ উদ্বেগ এবং এই সমস্যাটি মোকাবেলার কোনও মানক উপায় আছে?
(আমি কেরাস ব্যবহার করছি, যদিও আমি মনে করি না যে এটি খুব বেশি গুরুত্ব দেয়))