কেন একটি গরম এনকোডিং মেশিন লার্নিংয়ের কার্যকারিতা উন্নত করে?


127

আমি লক্ষ করেছি যে যখন ওয়ান হট এনকোডিং নির্দিষ্ট ডেটা সেট (একটি ম্যাট্রিক্স) এ ব্যবহৃত হয় এবং অ্যালগরিদম শেখার প্রশিক্ষণ ডেটা হিসাবে ব্যবহৃত হয়, তখন এটি প্রশিক্ষণের ডেটা হিসাবে মূল ম্যাট্রিক্সের তুলনায় নিজেকে পূর্বাভাসের সঠিকতার সাথে উল্লেখযোগ্যভাবে আরও ভাল ফলাফল দেয়। এই পারফরম্যান্স বৃদ্ধি কিভাবে হয়?

উত্তর:


260

অনেক শিখার অ্যালগরিদম হয় প্রতি বৈশিষ্ট্য অনুযায়ী একটি ওজন শিখতে হয়, বা তারা নমুনাগুলির মধ্যে দূরত্ব ব্যবহার করে। পূর্ববর্তী হ'ল লজিস্টিক রিগ্রেশন যেমন লিনিয়ার মডেলগুলির ক্ষেত্রে এটি ব্যাখ্যা করা সহজ।

ধরুন আপনার কাছে একটি ডেটাসেট রয়েছে যেখানে কেবলমাত্র "ইউকে", "ফরাসী" এবং "মার্কিন" মানের সাথে একটি জাতীয় শ্রেণিকল্পিত বৈশিষ্ট্য রয়েছে "জাতীয়তা"। ধরুন, সাধারণের ক্ষতি ছাড়াই, এগুলিকে 0, 1 এবং 2 হিসাবে এনকোড করা হয়েছে যাতে আপনার পরে একটি রৈখিক শ্রেণিবদ্ধে এই বৈশিষ্ট্যটির জন্য একটি ওজন ডাবল থাকে, যা সীমাবদ্ধতার উপর ভিত্তি করে একরকম সিদ্ধান্ত নেবে w × x + b> 0 , বা সমানভাবে w × x <বি।

এখন সমস্যাটি হ'ল ওয়েট ডাব্লু একটি ত্রি-উপা পছন্দ এনকোড করতে পারে না। W × x এর তিনটি সম্ভাব্য মান হ'ল 0, w এবং 2 × হয় এই তিনটিই একই সিদ্ধান্তের দিকে পরিচালিত করে (তারা সবাই <b বা ≥b) বা "যুক্তরাজ্য" এবং "ফরাসী" একই সিদ্ধান্তের দিকে নিয়ে যায়, বা "ফরাসী" এবং "মার্কিন" একই সিদ্ধান্ত দেয়। মডেলটির শেখার কোনও সম্ভাবনা নেই যে "যুক্তরাজ্য" এবং "ইউএস" কে "ফরাসি" অদ্ভুত একটির বাইরে রেখে একই লেবেল দেওয়া উচিত।

এক-গরম এনকোডিংয়ের মাধ্যমে আপনি বৈশিষ্ট্যটির স্থানটি তিনটি বৈশিষ্ট্যে কার্যকরভাবে ফুটিয়ে তুলেছেন, যা প্রত্যেকে নিজের নিজস্ব ওজন পাবেন, সুতরাং সিদ্ধান্তের কার্যটি এখন ডব্লু [ইউকে] এক্স [ইউকে] + ডাব্লু [এফআর] এক্স [এফআর] + ডাব্লু [মার্কিন] এক্স [মার্কিন] <বি, যেখানে সমস্ত এক্স এর বুলিয়ান। এই স্থানটিতে, এই জাতীয় লিনিয়ার ফাংশন সম্ভাবনার যে কোনও যোগ / বিভাজন প্রকাশ করতে পারে (উদাহরণস্বরূপ "যুক্তরাজ্য বা মার্কিন", যে কেউ ইংরেজী বলতে পারে তার পূর্বাভাসক হতে পারে)।

একইভাবে, নমুনাগুলির মধ্যে স্ট্যান্ডার্ড দূরত্বের মেট্রিকগুলির উপর ভিত্তি করে যে কোনও শিখর (যেমন কে-নিকটতম প্রতিবেশী) এক-হট এনকোডিং ছাড়াই বিভ্রান্ত হয়ে পড়বে। সরল এনকোডিং এবং ইউক্লিডিয়ান দূরত্বের সাথে ফরাসী এবং মার্কিন যুক্তরাষ্ট্রের মধ্যবর্তী দূরত্ব 1। মার্কিন যুক্তরাষ্ট্র এবং যুক্তরাজ্যের মধ্যে দূরত্ব 2 তবে এক-গরম এনকোডিংয়ের সাথে, [1, 0, 0], [0, 1 এর মধ্যে জোড়াযুক্ত দূরত্ব রয়েছে , 0] এবং [0, 0, 1] সমস্তই √2 এর সমান।

সমস্ত লার্নিং অ্যালগরিদমের ক্ষেত্রে এটি সত্য নয়; সিদ্ধান্ত গাছ এবং উদ্ভট মডেল যেমন এলোমেলো বন, যদি যথেষ্ট গভীর হয় তবে ওয়ান-হট এনকোডিং ছাড়াই শ্রেণিবদ্ধ ভেরিয়েবলগুলি পরিচালনা করতে পারে।


4
এই লার্সের জন্য ধন্যবাদ, তবে আমরা যখন ওয়ানহোটইনকোডিং করি যা কার্যকরভাবে বৈশিষ্ট্যগুলির সংখ্যা বাড়িয়ে তুলছে, আমাদের কী নমুনা বাড়াতে হবে না, তা নিশ্চিত করার জন্য যে এটি অত্যধিক পরিমাণে নয় make
মনোজ

@ মনোজ শ্রেণিবদ্ধ ভেরিয়েবলের সুস্পষ্ট বিকল্প উপস্থাপনার সাথে তুলনা করে প্রতিটি স্তরকে একটি পৃথক পূর্ণসংখ্যার হিসাবে এনকোড করে আমার মনে হয় না এটি গুরুত্বপূর্ণ: আপনার কোনওভাবেই পর্যাপ্ত পরিসংখ্যানের প্রয়োজন।
ফ্রেড ফু

7
এমন কোনও সাহিত্য কি আপনি উল্লেখ করতে পারেন যাতে আমি আরও পড়তে পারি? ধন্যবাদ।
ডাঃকুনিটল

1
বাস্টিংয়ের মতো মেশিন লার্নিং কৌশলগুলিতে নিয়োগের সময় পূর্ণ র‌্যাঙ্কের ম্যাট্রিক্সের চেয়ে কম (যা আপনি একটি নিয়মিত পরিসংখ্যানের মডেল তৈরি করার সময় করবেন না ) ব্যবহার করার কি সুবিধা রয়েছে?
স্টিভ এস

2
এটি আমার কাছে ঠিক এমনভাবে দেখায় যা কোনও পরিসংখ্যানবিদ "ডামি ভেরিয়েবল" বলে। তবে সম্ভবত সঞ্চয় স্থানের কিছু সঞ্চয় রয়েছে।
সোলডালমা

3

ওয়ান-হট-এনকোডিং করে বৈশিষ্ট্যগুলি বৃদ্ধির বিষয়ে বৈশিষ্ট্যটি হ্যাশিং ব্যবহার করতে পারে। আপনি যখন হ্যাশিং করেন, আপনি নতুন প্রবর্তিত বৈশিষ্ট্যগুলির সংখ্যার তুলনায় বালতিগুলির সংখ্যা অনেক কম উল্লেখ করতে পারেন।


0

আপনি বিভাগগুলি ভবিষ্যদ্বাণী করতে চান, আপনি একটি সেট আইটেম পূর্বাভাস করতে চান। এক-হট এনকোডিং ব্যবহার না করা বিভাগগুলিকে প্রতিবেশী বিভাগগুলি দেওয়া (যেমন: যদি আপনি পরিবর্তে বিভাগগুলির পূর্ণসংখ্যার সাথে যদি কোনও রিগ্রেশন করেন) নির্দিষ্ট পদ্ধতিতে এবং একটি নির্দিষ্ট ক্রমে সংগঠিত করার অনুরূপ।

এখন, আপনি যদি 0 থেকে 0 বিভাগ, 1 থেকে 1 বিভাগ এবং এক-হট এনকোডিং ছাড়াই বিভাগ 2 থেকে 2 নির্ধারণ করেন তবে কী হবে এবং আপনার অ্যালগরিদমের ভবিষ্যদ্বাণীটি 0 বা 2 বাছাই করা উচিত কিনা তা নিশ্চিত নয়: তবুও তাকে কি 1 পূর্বাভাস দেওয়া উচিত? সে মনে করে এটি 0 বা 2 হয়?

তুমি কোথায় দেখতে পাচ্ছ। আপনার ডেটা ইনপুটগুলির ক্ষেত্রেও এটি একই রকম হয়: যদি সেগুলি প্রতিবেশী হওয়ার কথা মনে না করা হয় তবে প্রতিবেশী হিসাবে এগুলি আপনার অ্যালগরিদমে দেখায় না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.