কোন অ্যালগরিদমে এক-গরম এনকোডিং প্রয়োজন?

আমি কখনই নিশ্চিত নন-অর্ডারযুক্ত শ্রেণীবদ্ধ ভেরিয়েবলগুলির জন্য কখন এক-হট এনকোডিং ব্যবহার করব এবং কখন করব না। আমি যখনই অ্যালগরিদম দূরত্বের মেট্রিক ব্যবহার করে সাদৃশ্য গণনা করি তখনই আমি এটি ব্যবহার করি। কোনটি কি ধরণের অ্যালগরিদমগুলিকে অ-অর্ডারযুক্ত শ্রেণীবদ্ধ বৈশিষ্ট্যগুলির জন্য এক-হট-এনকোড হওয়া প্রয়োজন এবং কোনটি হবে না সে সম্পর্কে একটি সাধারণ নিয়ম দিতে পারেন?

— cosmosa
সূত্র

আপনি কি কিছু ধরণের "বিপরীতে ভেরিয়েবল" বা বিশেষত ডামি (এক-গরম) ধরণের মধ্যে বিভাগীয় ডেটা কোড করার প্রয়োজনীয়তা সম্পর্কে জিজ্ঞাসা করছেন ?

— ttnphns

এই প্রশ্নটি কিছুটা বিস্তৃত, তবে একটি সহজ উত্তর যা ওএইচইর প্রকৃতিকে সম্বোধন করে ওপির বিভ্রান্তি দূর করতে পারে। এই জাতীয় উত্তরগুলির অস্তিত্ব এই প্রশ্নের উত্তর দেবে imp আমি খোলা ছেড়ে ভোট দিচ্ছি।

— গুং - মনিকা পুনরায়

@ttnphns সত্যই আমি কনট্রাস্ট ভেরিয়েবল বলতে আপনার অর্থ কী তা আমি জানি না। আমি কেবল ডামির সাথে পরিচিত।

— কোসোমোসা

কসমস, ডামি (= সূচক = এক-গরম) বিশ্লেষণগুলিতে শ্রেণীবদ্ধ ক্যারিযোগ্যগুলিকে এনকোড করার বিভিন্ন উপায়ের মধ্যে একটি। থিসিস উপায়ে একত্রে "কনট্রাস্ট ভেরিয়েবল" বলা হয়। দেখুন stats.meta.stackexchange.com/q/4669/3277 এবং stats.stackexchange.com/a/221868/3277

— ttnphns

আমি মনে করি আপনি যে সম্পূর্ণ তালিকাটি চেয়েছেন তা উত্পাদন করা শক্ত হতে চলেছে।

— mdewey

উত্তর:

বেশিরভাগ অ্যালগরিদম (লিনিয়ার রিগ্রেশন, লজিস্টিক রিগ্রেশন, নিউরাল নেটওয়ার্ক, সাপোর্ট ভেক্টর মেশিন ইত্যাদি) শ্রেণীবদ্ধ ভেরিয়েবলগুলিতে কিছু ধরণের এনকোডিংয়ের প্রয়োজন। এটি কারণ বেশিরভাগ অ্যালগরিদম কেবল ইনপুট হিসাবে সংখ্যার মান গ্রহণ করে।

যে অ্যালগোরিদমগুলিতে একটি এনকোডিংয়ের প্রয়োজন হয় না সেগুলি হল আলগোরিদম যা মার্কোভ চেইন / নাইভ বেয়েস / বেয়েসিয়ান নেটওয়ার্ক, ট্রি ভিত্তিক ইত্যাদি ইত্যাদির সাথে সরাসরি যৌথ বিচ্ছিন্ন বিতরণকে মোকাবেলা করতে পারে are

অতিরিক্ত মন্তব্যগুলি:

একটি গরম এনকোডিং হ'ল এনকোডিং পদ্ধতিগুলির মধ্যে একটি। শ্রেণীবদ্ধ ভেরিয়েবল এনকোডিংয়ের জন্য এখানে একটি ভাল সংস্থান রয়েছে (আর কেবলমাত্র সীমাবদ্ধ নয়)। আর লাইব্রেরি ক্যাটাগরিয়াল বিভিন্ন পরিবর্তনের জন্য কোডিং কোডিং সিস্টেম
এমনকি এনকোডিং ছাড়াই, পৃথক ভেরিয়েবলের সাথে ডেটা পয়েন্টগুলির মধ্যে দূরত্বকে সংজ্ঞায়িত করা যায় , যেমন হামিং দূরত্ব বা লেভেনস্টেইন দূরত্ব

— হাইতাও ডু
সূত্র

সর্বাধিক অ্যালগোরিদমগুলির জন্য একটি হট এনকোডিং প্রয়োজন কিনা তা এখনও পরিষ্কার নয়। আপনি কেবল বলেছেন যে এনকোডিং প্রয়োজন। তবে এটি কি একটি গরম এনকোডিং?

— প্রমিথিউস

কেউ কি অ্যালগরিদমগুলিকে এক-হট-এনকোডযুক্ত শ্রেণীবদ্ধ বৈশিষ্ট্যগুলির প্রয়োজন এবং কোনটি না করে তার একটি তালিকা দিতে পারে?

এএফআইইউ, নির্দিষ্ট অ্যালগরিদমের সাথে এটি নির্দিষ্ট ডেটা সহ আরও কিছু করতে হবে । বিশেষত, এটি বিভাগগুলিতে কিছু অর্থপূর্ণ ক্রম রয়েছে কিনা তার উপর নির্ভর করে।

দুটি ক্ষেত্রে বিবেচনা করুন। প্রথমটিতে আপনার কাছে খারাপ, মেহ, ভাল এবং দ্বিতীয়টিতে আপেল, কমলা, নাশপাতি রয়েছে । প্রথম ক্ষেত্রে একটি প্রাকৃতিক অর্ডার রয়েছে, কারণ মেহ সম্ভবত খারাপ এবং ভাল মধ্যে রয়েছে তবে সম্ভবত আপেল, কমলা, নাশপাতিতে তেমন কিছু ঘটে না ।

আপনি যদি প্রথম কেসটির জন্য এক-হট এনকোডিং এড়ান, আপনি অর্ডার সম্পর্কিত তথ্য "হারাচ্ছেন"। আপনি যদি দ্বিতীয় কেসের জন্য এক-হট এনকোডিং ব্যবহার করেন তবে আপনি বিভাগগুলিতে কিছু আদেশ অর্পণ করছেন যা স্বাভাবিকভাবে সত্য নয়।

আমি যখনই করি অ্যালগোরিদম দূরত্বের মেট্রিক ব্যবহার করে সাদৃশ্য গণনা করি।

কেন? ধরা যাক বৈশিষ্ট্যগুলির মধ্যে একটি স্পষ্টিকর খারাপ, মেহ, ভাল এবং আপনার তিনটি উদাহরণ রয়েছে, 1, 2, এবং 3, যেখানে সেগুলি অভিন্ন, বাদে 1 টি খারাপ , 2 মেহ এবং 3 টি ভাল is আপনি সম্ভবত অ্যালগরিদমের কাছে প্রকাশ করতে চান যে 1 এর চেয়ে 3 এর তুলনায় 2 এর সাথে বেশি মিল রয়েছে।

— অমি টাভরি
সূত্র

এটি একটি ভাল উত্তর। অ-অর্ডারযুক্ত শ্রেণীবদ্ধ ভেরিয়েবলগুলিও অন্তর্ভুক্ত করার পরেও আমার প্রশ্নটি স্পষ্ট করা উচিত ছিল। সেক্ষেত্রে, এটি সর্বদা একটি গরম এনকোড হওয়া উচিত?

— কোসোমোসা

@ cosmos1990 আইএমএইচও, অ-অর্ডারযুক্ত শ্রেণিবদ্ধ ডেটার জন্য থাম্বের নিয়ম হিসাবে, এক-হট এনকোডিংটি হল (সংখ্যাসূচক মান নির্ধারণের বিপরীতে) way

— অমি টাভরি

কোন মেশিন লার্নিং আলগোরিদিম প্রয়োজন এক গরম এনকোডিং। শ্রেণিবদ্ধ ভেরিয়েবলগুলি মোকাবেলার জন্য এটি একটি পদ্ধতি। ডামি ভেরিয়েবল আরেকটি। Ditionতিহ্যগতভাবে, ডামি ভেরিয়েবলগুলি পছন্দসই সমাধান ছিল। উদাহরণস্বরূপ, আর ফাংশন lm () স্বয়ংক্রিয়ভাবে শ্রেণিবদ্ধ ডেটার জন্য ডামি ভেরিয়েবল তৈরি করে। যদি আপনি পাইথন এবং সাইক্ট-লার্ন ব্যবহার করেন তবে আমি বিশ্বাস করি এর অনেকগুলি এলগোসের জন্য শ্রেণীবদ্ধ ভেরিয়েবলগুলির এক-গরম এনকোডিং প্রয়োজন। আমি বিশ্বাস করি যে টেনসরফ্লোতেও এক-হট এনকোডিং দরকার। এগুলি ভেরিয়েবলটি কীভাবে এনকোড করা হয় তার পছন্দগুলি। এর পরিবর্তে কোডটিতে ডামি ভেরিয়েবলগুলি ব্যবহার করা যায়নি তার কোনও কারণ নেই। এই সমস্তটি অ্যালগরিদমের আসল কোড প্রয়োগের সাথে মোকাবেলা করতে হবে।

যেমন hxd1011 শ্রেণিবদ্ধ ভেরিয়েবলের মধ্যে 'দূরত্ব' বর্ণনা করার বিষয়টি উল্লেখ করে একটি সূক্ষ্ম সমস্যা। উল্লেখিত দূরত্বগুলির পাশাপাশি জ্যাকার্ডের দূরত্বও রয়েছে। কিছু এমএল পদ্ধতি, বিশেষত এসভিএম এর শ্রেণীবদ্ধ ডেটা এবং শ্রেণীবদ্ধ ভেরিয়েবলগুলি যুক্ত করার জন্য অনুপযুক্ত / খুব ভাল ভবিষ্যদ্বাণীক শক্তিযুক্ত মডেলগুলিতে নেতৃত্ব দিতে পারে (উভয়ই, আপনি সিদ্ধান্ত নিন)। বেশিরভাগ জড়িত মডেলগুলি শ্রেণীবদ্ধ ডেটা 'যেমন আছে' হ্যান্ডেল করে এবং কোনও প্রাক প্রক্রিয়াজাতকরণের প্রয়োজন হয় না।

— Meh
সূত্র