একটি উত্তপ্ত ভেক্টর যদি সংখ্যাগত গুণাবলী দিয়ে মাপানো হয়


20

শ্রেণিবদ্ধ এবং সংখ্যাসূচক বৈশিষ্ট্যের সংমিশ্রণের ক্ষেত্রে, আমি সাধারণত শ্রেণীবদ্ধ বৈশিষ্ট্যগুলিকে একটি গরম ভেক্টরে রূপান্তর করি। আমার প্রশ্ন হ'ল আমি কি সেই ভেক্টরগুলিকে যেমন রেখেছি এবং মানীয়করণ / নরমালাইজেশনের মাধ্যমে সংখ্যার গুণাবলীকে স্কেল করব, অথবা আমি সংখ্যার গুণাবলী সহ একটি উত্তপ্ত ভেক্টরকে স্কেল করব?

উত্তর:


11

একবার সংখ্যাসূচক আকারে রূপান্তরিত হওয়ার পরে, মডেলগুলি অন্য-সংখ্যাযুক্ত ডেটার চেয়ে ও-হট-এনকোডযুক্ত কলামগুলিতে আলাদাভাবে প্রতিক্রিয়া জানায় না। সুতরাং অন্য কলামগুলি প্রস্তুত করার জন্য যদি আপনি কোনও কারণে এটি করেন তবে {0,1} মানগুলিকে স্বাভাবিক করার একটি স্পষ্ট নজির রয়েছে।

এটি করার প্রভাবটি মডেল শ্রেণীর উপর নির্ভর করবে এবং আপনি যে নরমালাইজেশন প্রয়োগ করবেন তার উপর নির্ভর করবে, তবে নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণ দেওয়ার সময়, এক-হট-এনকোডযুক্ত শ্রেণিবদ্ধ তথ্যগুলির জন্য 0, স্ট্যান্ড 1-এর স্কেলিং করার সময় কিছু (ছোট) উন্নতি লক্ষ্য করেছি।

দূরত্বের মেট্রিকের উপর ভিত্তি করে মডেল ক্লাসগুলির ক্ষেত্রেও এটি একটি পার্থক্য তৈরি করতে পারে।

দুর্ভাগ্যক্রমে, বেশিরভাগ ধরণের পছন্দ মতো, প্রায়শই আপনাকে উভয় পদ্ধতির চেষ্টা করতে হবে এবং সেরা মেট্রিক সহ একটি গ্রহণ করতে হবে।


1
কথাটি কিছুটা অস্পষ্ট ছিল। আপনি কি বলছেন আপনি কেবলমাত্র একটি-হট-এনকোডযুক্ত কলামগুলি স্বাভাবিক করুন যদি আপনি কোনও অ-ওহে কলামগুলি সাধারণ করেন?
ইনফো

@ Info5ek: আমি বলছি যে এটি পারে এক গরম এনকোডেড কলাম স্বাভাবিক ভালো হতে, এবং যদি আপনি ইতিমধ্যে অন্যান্য কলামের জন্য তা করছেন তারপর আপনি হিসাবে ভাল এটা ব্যবহার করে দেখুন দিতে পারে। এটির কোনও স্থির নিয়ম নেই, হাতের সমস্যার উপরে খুব বেশি নির্ভর করে।
নিল স্লেটার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.