যন্ত্র শেখার জন্য সংখ্যায় শ্রেণীবদ্ধ বৈশিষ্ট্যগুলি এনকোডিং


14

অনেক মেশিন লার্নিং অ্যালগরিদম, উদাহরণস্বরূপ নিউরাল নেটওয়ার্কগুলি সংখ্যার সাথে মোকাবিলা করার আশা করে। সুতরাং, যখন আপনার একটি শ্রেণিবদ্ধ ডেটা থাকবে, আপনার এটি রূপান্তর করতে হবে। শ্রেণিবদ্ধ দ্বারা আমার অর্থ, উদাহরণস্বরূপ:

গাড়ির ব্র্যান্ডস: অডি, বিএমডাব্লু, শেভ্রোলেট ... ব্যবহারকারীর আইডি: 1, 25, 26, 28 ...

যদিও ব্যবহারকারী আইডিগুলি সংখ্যা, তারা কেবলমাত্র লেবেল, এবং বয়স বা অর্থের যোগফলের মতো ধারাবাহিকতার দিক দিয়ে কোনও কিছু করার অর্থ নয়।

সুতরাং, প্রাথমিক পদ্ধতিটি বিভাগগুলি এনকোড করতে বাইনারি ভেক্টরগুলি ব্যবহার করে বলে মনে হচ্ছে:

অডি: 1, 0, 0 ... বিএমডাব্লু: 0, 1, 0 ... শেভ্রোলেট: 0, 0, 1 ...

কয়েকটি বিভাগ থাকলে এটি ঠিক আছে তবে এর বাইরে এটি কিছুটা অদক্ষ দেখায়। উদাহরণস্বরূপ, যখন আপনার এনকোড করার জন্য 10 000 ব্যবহারকারী আইডি রয়েছে, তখন এটি 10 ​​000 বৈশিষ্ট্যযুক্ত।

প্রশ্নটি হল, এর চেয়ে ভাল উপায় আর কি আছে? সম্ভবত একটি সম্ভাবনা জড়িত?


3
আপনি ভবিষ্যদ্বাণীপূর্ণ মডেলটিতে কোনও ব্যবহারকারী আইডি অন্তর্ভুক্ত করতে চান কেন? আপনার বর্ণনামূলকভাবে ডামি ভেরিয়েবল কোডিং ব্যবহার করার সময় কার্ডিনালিটির চেয়ে বড় আরও অন্যান্য শ্রেণিবদ্ধ ভেরিয়েবলগুলির ক্ষেত্রে, স্তরগুলি ভেঙে ফেলার জন্য আমি প্রথমে এগুলিকে একমাত্র ভবিষ্যদ্বাণী হিসাবে সিদ্ধান্ত গাছের মাধ্যমে চালিত করি। "বিরল" স্তরগুলি ইত্যাদির সাথে
গোষ্ঠীকরণ

এটি আকর্ষণীয় শোনায় - একটি পরিসংখ্যানের মডেলের এলোমেলো প্রভাবের মতো যেখানে আপনি নির্দিষ্ট কোনও ব্যক্তির বিশেষত প্রভাবগুলিতে আগ্রহী। আমি এমন পরিস্থিতিগুলি কল্পনা করতে পারি যেখানে এটি কার্যকর হবে, উদাহরণস্বরূপ আপনি যদি একই ব্যক্তিদের বারবার দেখতে পান এবং সেই নির্দিষ্ট ব্যক্তি কী করবেন তার পূর্বাভাস দিতে চান। আপনি যদি পারেন তবে আপনার পরিকল্পনা সম্পর্কে আরও ভাগ করুন। এছাড়াও, আপনি মাল্টিলেভেল মডেলিংয়ের দিকে নজর দিতে পারেন, যদিও এটি মেশিন লার্নিংয়ের পরিবর্তে আনুষ্ঠানিকভাবে সেটিংসে বেশি ব্যবহৃত হয়।
অ্যান জেড।

আমার মনে আছে একটি এমএল প্রতিযোগিতা সম্পর্কে পড়া, যেখানে কিছু স্মার্ট গবেষকরা সনাক্ত করেছিলেন যে ডেটাতে থাকা ইউজার আইডি ব্যবহারকারী অ্যাকাউন্ট তৈরির সময় দেওয়া হয়েছিল। অতএব সময়-স্ট্যাম্পগুলি, যা অবরুদ্ধ ছিল, প্রকাশিত হয়েছিল (ইতিবাচকভাবে প্রতিক্রিয়ার পূর্বাভাসকে প্রভাবিত করছে)। এ জাতীয় কেসগুলি এবং অ্যান (সুপারিশকারী সিস্টেম) দ্বারা উল্লিখিতগুলির পাশাপাশি আমি ইউজারআইডি অন্তর্ভুক্ত করব না।
স্টেফেন

অ্যান - কোনও র্যান্ডম এফেক্টস মডেলটি আসলে ব্যক্তিদের মধ্যে আগ্রহী নয় - সুতরাং এগুলি জনগোষ্ঠীর একটি নমুনা হিসাবে বিবেচনা করা হয়?
বি_মিনার

আমি বুঝতে পারি না, যদি শেখার সমস্যাটি বাইনারি বিভাগের ধনী / ধনী না হয়ে ভবিষ্যদ্বাণী করা হয় তবে কেন কোনও নির্দিষ্ট ব্যবহারকারীর গাড়ির ব্র্যান্ডের জন্য কোনও বৈশিষ্ট্য বুদ্ধিমান হবে না? যদি কোনও ব্যক্তির সামাজিক নেটওয়ার্ক পরিচিত হয় তবে ব্যবহারকারী আইডি ব্যবহার করা যেতে পারে: উদাহরণস্বরূপ যে এক্স এক্স এর বন্ধুরা ধনী হওয়ার প্রবণতা বেশি তা দেখানোর জন্য। এই চিন্তার লাইনে কিছু ভুল আছে?
ভ্লাদ্টন

উত্তর:


6

আপনি সর্বদা আপনার ব্যবহারকারীর আইডিকে শব্দের ব্যাগ হিসাবে বিবেচনা করতে পারেন: বেশিরভাগ পাঠ্য শ্রেণিবদ্ধকারী যখন ডেটা বিচ্ছিন্ন হয় তখন কয়েক সহস্র মাত্রা নিয়ে ডিল করতে পারেন (অনেকগুলি শূন্য যা আপনাকে মেমরিতে স্পষ্টভাবে সংরক্ষণ করার দরকার নেই, উদাহরণস্বরূপ যদি আপনি সংক্ষেপিত স্পারস সারি ব্যবহার করেন তবে আপনার ডেটা ম্যাট্রিক্সের জন্য উপস্থাপনা)।

তবে প্রশ্নটি হ'ল: ব্যবহারকারী আইডিকে বৈশিষ্ট্য হিসাবে বিবেচনা করার জন্য আপনার নির্দিষ্ট সমস্যাটি কি বোঝা যায় না? আপনার সম্পর্কের ডেটাটিকে অস্বীকৃতি জানাতে এবং ব্যবহারকারীর বৈশিষ্ট্যগুলি (বয়স, অবস্থান, অনলাইন ডাকনামের চর-এনগ্রাম, লেনদেনের ইতিহাস ...) ব্যবহারের আইডিগুলির পরিবর্তে এটি কী আরও বোঝায় না?

আপনি আপনার কাঁচা ব্যবহারকারীর ভেক্টরগুলির ক্লাস্টারিংও করতে পারেন এবং ব্যবহারকারীর আইডির পরিবর্তে শীর্ষস্থানীয় এন নিকটতম কেন্দ্রগুলি আইডিকে সক্রিয় বৈশিষ্ট্য হিসাবে ব্যবহার করতে পারেন।


ঠিক আছে, যদিও এটি আরও সাধারণ প্রশ্ন, আমি বেশিরভাগই ব্যবহারকারী আইডির ইস্যুতে মনোনিবেশ করতে দেখি, তাই এখানে কেন আমি সেগুলি ব্যবহার করতে চাই। ক্রেগলির একটি প্রতিযোগিতা দেখুন, গ্রোকিট সম্পর্কিত: kaggle.com/c/WhatDoYouKnow । লক্ষ্যটি হ'ল ভবিষ্যদ্বাণী করা যে কোনও ব্যবহারকারী কোনও প্রশ্নের সঠিক উত্তর দেবে কিনা। সুপারিশকারী সিস্টেমগুলির ক্ষেত্রে এটি আমার মতে একই রকম সমস্যা, আপনি কেবল সিনেমার পরিবর্তে প্রশ্ন এবং রেটিংয়ের পরিবর্তে সঠিক / ভুল, এবং কিছু অন্যান্য ডেটা পাবেন। টাইমস্ট্যাম্পগুলি উপলভ্য রয়েছে :)
নিউকুলার

1
সেক্ষেত্রে আপনি এই ধারণাটি তৈরি করতে পারেন যে ব্যবহারকারী স্বতন্ত্র এবং আপনি কেবল তাদের নিজস্ব ইতিহাসে প্রশিক্ষিত ব্যবহারকারী প্রতি এক শ্রেণিবদ্ধ তৈরি করতে পারেন।
ogrisel

1

নিউরাল নেটওয়ার্কে ক্লাসগুলি এনকোড করার চেষ্টা করার সময় আপনি সম্ভবত যা খুঁজছেন সমতুল্য এনকোডিং। এটি অন্যান্য পোস্টগুলিতে রেফারেন্সযুক্ত "এন 1 এর 1" এর চেয়ে আরও ভাল কাজ করতে ঝোঁক। রেফারেন্সের জন্য আমি প্রস্তাব দিতে পারি: http://www.heatonresearch.com/wiki/E একতরফা


এটি এনকোডিং আউটপুট মানগুলির সাথে সম্পর্কিত বলে মনে হচ্ছে, ইনপুট মানগুলির জন্য শ্রেণিবদ্ধ এনকোডিং নয় যা ওপি যা চাইছে তা।
অ্যালেক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.