অনেক মেশিন লার্নিং অ্যালগরিদম, উদাহরণস্বরূপ নিউরাল নেটওয়ার্কগুলি সংখ্যার সাথে মোকাবিলা করার আশা করে। সুতরাং, যখন আপনার একটি শ্রেণিবদ্ধ ডেটা থাকবে, আপনার এটি রূপান্তর করতে হবে। শ্রেণিবদ্ধ দ্বারা আমার অর্থ, উদাহরণস্বরূপ:
গাড়ির ব্র্যান্ডস: অডি, বিএমডাব্লু, শেভ্রোলেট ... ব্যবহারকারীর আইডি: 1, 25, 26, 28 ...
যদিও ব্যবহারকারী আইডিগুলি সংখ্যা, তারা কেবলমাত্র লেবেল, এবং বয়স বা অর্থের যোগফলের মতো ধারাবাহিকতার দিক দিয়ে কোনও কিছু করার অর্থ নয়।
সুতরাং, প্রাথমিক পদ্ধতিটি বিভাগগুলি এনকোড করতে বাইনারি ভেক্টরগুলি ব্যবহার করে বলে মনে হচ্ছে:
অডি: 1, 0, 0 ... বিএমডাব্লু: 0, 1, 0 ... শেভ্রোলেট: 0, 0, 1 ...
কয়েকটি বিভাগ থাকলে এটি ঠিক আছে তবে এর বাইরে এটি কিছুটা অদক্ষ দেখায়। উদাহরণস্বরূপ, যখন আপনার এনকোড করার জন্য 10 000 ব্যবহারকারী আইডি রয়েছে, তখন এটি 10 000 বৈশিষ্ট্যযুক্ত।
প্রশ্নটি হল, এর চেয়ে ভাল উপায় আর কি আছে? সম্ভবত একটি সম্ভাবনা জড়িত?