এসভিএম বা নিউরাল নেটওয়ার্ক ব্যবহার করার সময় কীভাবে শ্রেণিবদ্ধ ভেরিয়েবলটিকে সংখ্যাসূচক ভেরিয়েবলের মধ্যে পুনরুদ্ধার করবেন


19

এসভিএম বা নিউরাল নেটওয়ার্ক ব্যবহারের জন্য এটি বিভাগীয় ভেরিয়েবলগুলিকে সংখ্যার ভেরিয়েবলগুলিতে রূপান্তর করতে হবে (এনকোড), এই ক্ষেত্রে সাধারণ পদ্ধতিটি 0-বাইনারি মানগুলি কে-থ্রি শ্রেণিবদ্ধ মানের (0,0, ..) রূপান্তরিত করে ব্যবহার করা হয় ।, 1,0, ... 0) (1 কে-থে অবস্থানে রয়েছে)। এটি করার জন্য কি অন্যান্য পদ্ধতি রয়েছে, বিশেষত যখন শ্রেণিবদ্ধ মানগুলির একটি বড় সংখ্যক (যেমন 100100) থাকে যখন 0-1 প্রতিনিধিত্ব নিউরাল নেটওয়ার্কে অতিরিক্ত সংখ্যক অতিরিক্ত মাত্রা (ইনপুট ইউনিট) প্রবর্তন করবে যা যথেষ্ট পছন্দসই বা প্রত্যাশিত বলে মনে হয় না ?

আমি সাধারণ কৌশল সম্পর্কে জিজ্ঞাসা করছি।


আপনি কি সাধারণ কৌশল সম্পর্কে বা কোনও নির্দিষ্ট সমস্যা সম্পর্কে জিজ্ঞাসা করছেন?
ডেনিস তারাসভ

উত্তর:


11

এনএলপিতে, যেখানে শব্দগুলি সাধারণত 1-অফ-কে হিসাবে এনকোড করা হয়, সেখানে শব্দের এমবেডিংয়ের ব্যবহারটি সম্প্রতি প্রকাশ পেয়েছে। উইকিপিডিয়া পৃষ্ঠা তার রেফারেন্স সঙ্গে একটি শুভ সূচনা।

এক্সআমিআরএনআমিএন

হতে পারে আপনি সেই ধারণাটি আপনার সেটিংয়ে স্থানান্তর করতে পারেন।


10

'স্ট্যান্ডার্ড' পদ্ধতিগুলি হ'ল: এক-হট এনকোডিং (যা আপনি প্রশ্নে উল্লেখ করেছেন)। যদি অনেকগুলি সম্ভাব্য বিভাগ থাকে তবে আপনার 0-1 টি এনকোডিং দরকার, আপনি হ্যাশিং ট্রিক ব্যবহার করতে পারেন ।

অন্যান্য ঘন ঘন ব্যবহৃত পদ্ধতি হ'ল বিভাগের চেয়ে উত্তরের গড়: ক্যাগলে মন্তব্য থেকে চিত্র দেখুন ।


1

আপনি প্যাকেজ dummyVarsথেকে আর এ ব্যবহার করতে পারেন caret। স্তরগুলির সংখ্যার ভিত্তিতে এটি স্বয়ংক্রিয়ভাবে বিভিন্ন কলাম তৈরি করবে। এরপরে, আপনি এটি ব্যবহার করতে পারেন cbindএবং এটি আপনার মূল ডেটাতে সংযুক্ত করতে পারেন । অন্যান্য বিকল্প অন্তর্ভুক্ত model.matrixএবং sparse.model.matrix


0

আপনি বাইনারি এনকোডিং চেষ্টা করতে পারেন যা আরও কমপ্যাক্ট এবং কখনও কখনও ও-হটকে ছাড়িয়ে যায়। উদাহরণস্বরূপ আপনি কেরাসে শ্রেণিবদ্ধ এম্বেডিং বাস্তবায়ন করতে পারেন।


0

-1

চেঙ্গ গুও, ফেলিক্স বারখাহন রচিত " অ্যান্টিটি এম্বেডিংস অফ ক্ল্যাটিকাল ভেরিয়েবলস"

আমরা ইউক্লিডিয়ান স্পেসে ফাংশন সান্নিধ্য সমস্যার ক্ষেত্রে শ্রেণিবদ্ধ ভেরিয়েবলগুলি ম্যাপ করি, যা শ্রেণিবদ্ধ ভেরিয়েবলগুলির সত্তা এম্বেডিংস। স্ট্যান্ডার্ড তদারকি প্রশিক্ষণ প্রক্রিয়া চলাকালীন ম্যাপিং একটি নিউরাল নেটওয়ার্ক দ্বারা শিখেছে। সত্তা এম্বেডিং কেবল মেমরির ব্যবহার হ্রাস করে না এবং এক-হট এনকোডিংয়ের সাথে তুলনা করে নিউরাল নেটওয়ার্কগুলির গতি বাড়িয়ে তোলে, তবে আরও গুরুত্বপূর্ণভাবে এম্বেডিং স্পেসে একে অপরের নিকটে অনুরূপ মানগুলি ম্যাপিংয়ের মাধ্যমে এটি শ্রেণিবদ্ধ ভেরিয়েবলের অভ্যন্তরীণ বৈশিষ্ট্যগুলি প্রকাশ করে। আমরা সাম্প্রতিক কাগল প্রতিযোগিতায় এটি সফলভাবে প্রয়োগ করেছি এবং আপেক্ষিক সাধারণ বৈশিষ্ট্য সহ তৃতীয় অবস্থানে পৌঁছাতে সক্ষম হয়েছি। আমরা এই কাগজটিতে আরও প্রমাণ করেছি যে সত্তা এম্বেড করা স্নায়বিক নেটওয়ার্ককে আরও সাধারণ করতে সাহায্য করে যখন ডেটা বিচ্ছিন্ন হয় এবং পরিসংখ্যান অজানা থাকে। সুতরাং এটি প্রচুর উচ্চ কার্ডিনালিটি বৈশিষ্ট্যযুক্ত ডেটাসেটগুলির জন্য বিশেষত কার্যকর, যেখানে অন্যান্য পদ্ধতিগুলি অত্যধিক মানায়। আমরা আরও দেখিয়েছি যে প্রশিক্ষিত নিউরাল নেটওয়ার্ক থেকে প্রাপ্ত এম্বেডিংগুলি সমস্ত পরীক্ষিত মেশিন লার্নিং পদ্ধতির কার্যকারিতা বৃদ্ধি করে যখন পরিবর্তে ইনপুট বৈশিষ্ট্য হিসাবে ব্যবহৃত হয়। যেমন সত্তা এম্বেডিং শ্রেণিবদ্ধ ভেরিয়েবলগুলির জন্য একটি দূরত্ব পরিমাপকে সংজ্ঞায়িত করে এটি শ্রেণিবদ্ধ ডেটা ভিজ্যুয়ালাইজ করার জন্য এবং ডেটা ক্লাস্টারিংয়ের জন্য ব্যবহার করা যেতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.