বৃহত্তর শ্রেণিবদ্ধ মানগুলির জন্য একটি গরম এনকোডিং বিকল্প?


13

হাইতে 1600 টিরও বেশি বিভাগের বৃহত্তর শ্রেণিবদ্ধ মান সহ ডেটাফ্রেম রয়েছে এমন কোনও উপায় আছে যেখানে আমি বিকল্প খুঁজে পেতে পারি যাতে আমার কাছে 1600 কলামের বেশি না থাকে।

আমি এটি নীচে আকর্ষণীয় লিঙ্কটি পেয়েছি http://amunategui.github.io/feचर-hashing/#sourcecode

তবে তারা শ্রেণি / অবজেক্টে রূপান্তর করছে যা আমি চাই না। আমি ডেটাফ্রেম হিসাবে আমার চূড়ান্ত আউটপুট চাই যাতে আমি বিভিন্ন মেশিন লার্নিং মডেলগুলির সাথে পরীক্ষা করতে পারি? বা লজিস্টিক রিগ্রেশন বা এক্সজিবিস্ট ব্যতীত অন্য মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য জেনেট্রেড ম্যাট্রিক্স ব্যবহার করার কোনও উপায় আছে কি?

আমি কি তা বাস্তবায়ন করতে পারি?


আসলেই কি এই সমস্যা? ধরে নেওয়া যাক আপনি বিচ্ছিন্ন ম্যাট্রিক্স উপস্থাপনা ব্যবহার করছেন, একহোট এনকোডিংটি আসল সমস্যা হয়ে উঠবে না।
লুই টি

@ লুইসটি আমার 500 মিলিয়ন রেকর্ডেরও বেশি মিলিয়ন রেকর্ড রয়েছে
বিনয়কভা

তবুও যদি এটির একটি গরম থাকে তবে স্পার্স ম্যাট্রিক্স ব্যবহার করা কোনও বিষয় নয়
লুই

@ লুইসট জটিলতা বৃদ্ধি পাবে এবং ট্রেনের সময়ও বৃদ্ধি পাবে এবং আমার ডেটাও
অনেকটা অপ্রতিরোধ্য

1
আপনার পোস্টটি প্রায় 1 বছর পূর্বে, এবং সম্ভবত আর আগ্রহী নয়, তবে এখনও আগ্রহী হয়ে থাকলে আপনি নিউরাল নেট ব্যবহার করে সত্তা এম্বেডিংয়ের কথা শুনেছেন? medium.com/@satnalikamayank12/...
TwinPenguins

উত্তর:


10

একটি বিকল্প হ'ল 'অন্যান্য' তে বিরল মানচিত্রের মানচিত্র। এটি সাধারণত যেমন প্রাকৃতিক ভাষা প্রক্রিয়াকরণে করা হয় - স্বজ্ঞাততা হ'ল খুব বিরল লেবেলগুলি খুব বেশি পরিসংখ্যানের শক্তি বহন করে না।

আমি লোকেদেরকে নিম্ন-মাত্রিক ভেক্টরগুলিতে 1-হট শ্রেণিবদ্ধ মানগুলি মানচিত্রটিও দেখেছি, যেখানে প্রতিটি 1-হট ভেক্টরকে মাল্টিভারিয়েট গাউসিয়ান একটি ড্র হিসাবে পুনরায় উপস্থাপন করা হয়। উদাহরণস্বরূপ কাগজ ডিপ নলেজ ট্র্যাকিং দেখুন, যার মতে এই পদ্ধতির সংকোচনের ধারণা দ্বারা অনুপ্রাণিত হয়েছে:

BARANIUK, আর। সংবেদনশীল সংবেদন। আইইইই সিগন্যাল প্রসেসিং ম্যাগাজিন 24, 4 (2007)।

বিশেষত, তারা দৈর্ঘ্যের N এর প্রতিটি ভেক্টরকে দৈর্ঘ্য লগ 2 (এন) এর একটি সংক্ষিপ্ত ভেক্টরে ম্যাপ করে। আমি নিজে এটি করি নি তবে চেষ্টা করার মতো হবে বলে আমি মনে করি।


আমি ভাবছি কীভাবে এ জাতীয় এনকোডিং দিয়ে দূরত্ব গণনা করব?
এরিক 2323223

2

আপনি ডেটা পড়তে পারেন এবং প্রথমে আপনার শ্রেণিবদ্ধ ভেরিয়েবলের সমস্ত অনন্য মানের একটি তালিকা পেতে পারেন। তারপরে আপনি নিজের অনন্য মূল্যবোধের তালিকায় একটি হট এনকোডার বস্তুর (যেমন sklearn.preprocessing.CategoricalEncoder) ফিট করতে পারেন।

এই পদ্ধতিটি কোনও ট্রেন পরীক্ষার কাঠামোতে বা আপনি যখন আপনার তথ্যগুলি পড়ছেন তখনও সহায়তা করতে পারে। আমি একটি অজগর মডিউল তৈরি করেছি যা এগুলি নিজে থেকে করে। আপনি এটি এই গিটহাবের সংগ্রহস্থল - ডামিপাইতে খুঁজে পেতে পারেন

এ সম্পর্কে একটি সংক্ষিপ্ত টিউটোরিয়াল - পাইথনের হট এনকোড শ্রেণিবদ্ধ ভেরিয়েবল কীভাবে?


1

এই লিঙ্কটি দেখুন (এটি বেশ কয়েকটি অনন্য মূল্যবোধ রয়েছে এমন বৈশিষ্ট্যযুক্ত বৈশিষ্ট্যের সাথেও সম্পর্কিত):

https://datascience.stackexchange.com/a/64021/67149

এম্বেড করার জন্য, আপনি নীচের লিঙ্কটি উল্লেখ করতে পারেন (আমার দ্বারা লিখিত নয়, তবে একবার পড়ার উপযুক্ত): https://medium.com/@satnalikamayank12/on-learning-e એમ્બેડdings-for-categorical-data-used-keras-165ff2773fc9


0

আপনি অনুরূপ মানের বকেটিং করতে পারেন, যাতে নিকটতম মান (বা অনেকগুলি অনুরূপ) প্যাটার্ন ধারণ করে এমন মানগুলি (বা কলামগুলি) এক মান (বা কলাম) দ্বারা প্রতিস্থাপন করা যায় এবং এভাবে আপনার 1600 মান 400 (বা এমনকি) বলতে নামতে পারে কম)।

যাত্রা। মানের মতো (মেঘের মতো - নিম্বাস মেঘ, ঝরঝির বৃষ্টি, হালকা বৃষ্টি, বৃষ্টি, ভারী বৃষ্টি) রূপান্তরিত হতে পারে (হালকা বৃষ্টি, বৃষ্টি, ভারী বৃষ্টি)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.