কোন অ্যালগরিদমে এক-গরম এনকোডিং প্রয়োজন?


12

আমি কখনই নিশ্চিত নন-অর্ডারযুক্ত শ্রেণীবদ্ধ ভেরিয়েবলগুলির জন্য কখন এক-হট এনকোডিং ব্যবহার করব এবং কখন করব না। আমি যখনই অ্যালগরিদম দূরত্বের মেট্রিক ব্যবহার করে সাদৃশ্য গণনা করি তখনই আমি এটি ব্যবহার করি। কোনটি কি ধরণের অ্যালগরিদমগুলিকে অ-অর্ডারযুক্ত শ্রেণীবদ্ধ বৈশিষ্ট্যগুলির জন্য এক-হট-এনকোড হওয়া প্রয়োজন এবং কোনটি হবে না সে সম্পর্কে একটি সাধারণ নিয়ম দিতে পারেন?


2
আপনি কি কিছু ধরণের "বিপরীতে ভেরিয়েবল" বা বিশেষত ডামি (এক-গরম) ধরণের মধ্যে বিভাগীয় ডেটা কোড করার প্রয়োজনীয়তা সম্পর্কে জিজ্ঞাসা করছেন ?
ttnphns

1
এই প্রশ্নটি কিছুটা বিস্তৃত, তবে একটি সহজ উত্তর যা ওএইচইর প্রকৃতিকে সম্বোধন করে ওপির বিভ্রান্তি দূর করতে পারে। এই জাতীয় উত্তরগুলির অস্তিত্ব এই প্রশ্নের উত্তর দেবে imp আমি খোলা ছেড়ে ভোট দিচ্ছি।
গুং - মনিকা পুনরায়

@ttnphns সত্যই আমি কনট্রাস্ট ভেরিয়েবল বলতে আপনার অর্থ কী তা আমি জানি না। আমি কেবল ডামির সাথে পরিচিত।
কোসোমোসা

কসমস, ডামি (= সূচক = এক-গরম) বিশ্লেষণগুলিতে শ্রেণীবদ্ধ ক্যারিযোগ্যগুলিকে এনকোড করার বিভিন্ন উপায়ের মধ্যে একটি। থিসিস উপায়ে একত্রে "কনট্রাস্ট ভেরিয়েবল" বলা হয়। দেখুন stats.meta.stackexchange.com/q/4669/3277 এবং stats.stackexchange.com/a/221868/3277
ttnphns

1
আমি মনে করি আপনি যে সম্পূর্ণ তালিকাটি চেয়েছেন তা উত্পাদন করা শক্ত হতে চলেছে।
mdewey

উত্তর:


6

বেশিরভাগ অ্যালগরিদম (লিনিয়ার রিগ্রেশন, লজিস্টিক রিগ্রেশন, নিউরাল নেটওয়ার্ক, সাপোর্ট ভেক্টর মেশিন ইত্যাদি) শ্রেণীবদ্ধ ভেরিয়েবলগুলিতে কিছু ধরণের এনকোডিংয়ের প্রয়োজন। এটি কারণ বেশিরভাগ অ্যালগরিদম কেবল ইনপুট হিসাবে সংখ্যার মান গ্রহণ করে।

যে অ্যালগোরিদমগুলিতে একটি এনকোডিংয়ের প্রয়োজন হয় না সেগুলি হল আলগোরিদম যা মার্কোভ চেইন / নাইভ বেয়েস / বেয়েসিয়ান নেটওয়ার্ক, ট্রি ভিত্তিক ইত্যাদি ইত্যাদির সাথে সরাসরি যৌথ বিচ্ছিন্ন বিতরণকে মোকাবেলা করতে পারে are

অতিরিক্ত মন্তব্যগুলি:


সর্বাধিক অ্যালগোরিদমগুলির জন্য একটি হট এনকোডিং প্রয়োজন কিনা তা এখনও পরিষ্কার নয়। আপনি কেবল বলেছেন যে এনকোডিং প্রয়োজন। তবে এটি কি একটি গরম এনকোডিং?
প্রমিথিউস

4

কেউ কি অ্যালগরিদমগুলিকে এক-হট-এনকোডযুক্ত শ্রেণীবদ্ধ বৈশিষ্ট্যগুলির প্রয়োজন এবং কোনটি না করে তার একটি তালিকা দিতে পারে?

এএফআইইউ, নির্দিষ্ট অ্যালগরিদমের সাথে এটি নির্দিষ্ট ডেটা সহ আরও কিছু করতে হবে । বিশেষত, এটি বিভাগগুলিতে কিছু অর্থপূর্ণ ক্রম রয়েছে কিনা তার উপর নির্ভর করে।

দুটি ক্ষেত্রে বিবেচনা করুন। প্রথমটিতে আপনার কাছে খারাপ, মেহ, ভাল এবং দ্বিতীয়টিতে আপেল, কমলা, নাশপাতি রয়েছে । প্রথম ক্ষেত্রে একটি প্রাকৃতিক অর্ডার রয়েছে, কারণ মেহ সম্ভবত খারাপ এবং ভাল মধ্যে রয়েছে তবে সম্ভবত আপেল, কমলা, নাশপাতিতে তেমন কিছু ঘটে না ।

আপনি যদি প্রথম কেসটির জন্য এক-হট এনকোডিং এড়ান, আপনি অর্ডার সম্পর্কিত তথ্য "হারাচ্ছেন"। আপনি যদি দ্বিতীয় কেসের জন্য এক-হট এনকোডিং ব্যবহার করেন তবে আপনি বিভাগগুলিতে কিছু আদেশ অর্পণ করছেন যা স্বাভাবিকভাবে সত্য নয়।

আমি যখনই করি অ্যালগোরিদম দূরত্বের মেট্রিক ব্যবহার করে সাদৃশ্য গণনা করি।

কেন? ধরা যাক বৈশিষ্ট্যগুলির মধ্যে একটি স্পষ্টিকর খারাপ, মেহ, ভাল এবং আপনার তিনটি উদাহরণ রয়েছে, 1, 2, এবং 3, যেখানে সেগুলি অভিন্ন, বাদে 1 টি খারাপ , 2 মেহ এবং 3 টি ভাল is আপনি সম্ভবত অ্যালগরিদমের কাছে প্রকাশ করতে চান যে 1 এর চেয়ে 3 এর তুলনায় 2 এর সাথে বেশি মিল রয়েছে।


2
এটি একটি ভাল উত্তর। অ-অর্ডারযুক্ত শ্রেণীবদ্ধ ভেরিয়েবলগুলিও অন্তর্ভুক্ত করার পরেও আমার প্রশ্নটি স্পষ্ট করা উচিত ছিল। সেক্ষেত্রে, এটি সর্বদা একটি গরম এনকোড হওয়া উচিত?
কোসোমোসা

@ cosmos1990 আইএমএইচও, অ-অর্ডারযুক্ত শ্রেণিবদ্ধ ডেটার জন্য থাম্বের নিয়ম হিসাবে, এক-হট এনকোডিংটি হল (সংখ্যাসূচক মান নির্ধারণের বিপরীতে) way
অমি টাভরি

2

কোন মেশিন লার্নিং আলগোরিদিম প্রয়োজন এক গরম এনকোডিং। শ্রেণিবদ্ধ ভেরিয়েবলগুলি মোকাবেলার জন্য এটি একটি পদ্ধতি। ডামি ভেরিয়েবল আরেকটি। Ditionতিহ্যগতভাবে, ডামি ভেরিয়েবলগুলি পছন্দসই সমাধান ছিল। উদাহরণস্বরূপ, আর ফাংশন lm () স্বয়ংক্রিয়ভাবে শ্রেণিবদ্ধ ডেটার জন্য ডামি ভেরিয়েবল তৈরি করে। যদি আপনি পাইথন এবং সাইক্ট-লার্ন ব্যবহার করেন তবে আমি বিশ্বাস করি এর অনেকগুলি এলগোসের জন্য শ্রেণীবদ্ধ ভেরিয়েবলগুলির এক-গরম এনকোডিং প্রয়োজন। আমি বিশ্বাস করি যে টেনসরফ্লোতেও এক-হট এনকোডিং দরকার। এগুলি ভেরিয়েবলটি কীভাবে এনকোড করা হয় তার পছন্দগুলি। এর পরিবর্তে কোডটিতে ডামি ভেরিয়েবলগুলি ব্যবহার করা যায়নি তার কোনও কারণ নেই। এই সমস্তটি অ্যালগরিদমের আসল কোড প্রয়োগের সাথে মোকাবেলা করতে হবে।

যেমন hxd1011 শ্রেণিবদ্ধ ভেরিয়েবলের মধ্যে 'দূরত্ব' বর্ণনা করার বিষয়টি উল্লেখ করে একটি সূক্ষ্ম সমস্যা। উল্লেখিত দূরত্বগুলির পাশাপাশি জ্যাকার্ডের দূরত্বও রয়েছে। কিছু এমএল পদ্ধতি, বিশেষত এসভিএম এর শ্রেণীবদ্ধ ডেটা এবং শ্রেণীবদ্ধ ভেরিয়েবলগুলি যুক্ত করার জন্য অনুপযুক্ত / খুব ভাল ভবিষ্যদ্বাণীক শক্তিযুক্ত মডেলগুলিতে নেতৃত্ব দিতে পারে (উভয়ই, আপনি সিদ্ধান্ত নিন)। বেশিরভাগ জড়িত মডেলগুলি শ্রেণীবদ্ধ ডেটা 'যেমন আছে' হ্যান্ডেল করে এবং কোনও প্রাক প্রক্রিয়াজাতকরণের প্রয়োজন হয় না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.