একটি হট এনকোডিং এবং একটি এনকোডিং ছেড়ে দেওয়ার মধ্যে পার্থক্য কী?


13

আমি একটি উপস্থাপনাটি পড়ছি এবং এটি একটি ছাড়ার এনকোডিং ব্যবহার না করার পরামর্শ দিচ্ছে, তবে এটি একটি গরম এনকোডিং সহ ঠিক আছে। আমি ভেবেছিলাম তারা দুজনই এক রকম ছিল। তাদের মধ্যে পার্থক্য কি কেউ বর্ণনা করতে পারেন?


1
এটি কেবল পরিষ্কার নয় (কেবলমাত্র আপনার প্রশ্ন থেকে) কী কী ছাড়তে হবে। একটি পয়েন্টার দেওয়ার জন্য আপনার এটিকে সম্পাদনা করা উচিত এবং দুজনের সম্পর্কে আপনার বোঝার জন্য সংক্ষিপ্তভাবে ব্যাখ্যা করতে হবে এবং আপনি কেন সেগুলি একই বলে মনে করেন।
শন

উত্তর:


15

ওয়ান জাংয়ের কৌশলটি বোঝার জন্য তারা সম্ভবত "লেভেল ওয়ান এনকোডিং" ব্যবহার করছেন।

থেকে: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

এনকোডেড কলামটি একটি প্রচলিত ডামি ভেরিয়েবল নয়, তবে এর পরিবর্তে সারিটি বাদ দিয়ে এই শ্রেণিবদ্ধ স্তরের জন্য সমস্ত সারিতে গড় প্রতিক্রিয়া। এটি আপনাকে সরাসরি প্রতিক্রিয়া ফাঁস এড়িয়ে গিয়ে শ্রেণিবদ্ধের এক-কলামের প্রতিনিধিত্ব করার সুবিধা দেয়

এই ছবিটি ধারণাটি ভালভাবে প্রকাশ করে। এখানে চিত্র বর্ণনা লিখুন


আপনার ব্যাখ্যাটি রেফার লিঙ্কে ওয়াকাক্সের চেয়ে ভাল, আপনাকে ধন্যবাদ
অ্যালান রুইন

হাই @ ডেক্স গ্রোভস, তাই পরীক্ষার জন্য কী ছুটি_আউট_আউট এনকোডিং সর্বদা? .5?
ব্যবহারকারীর 11117436

3
ওহে! ছবি থেকে দেখা যায়, এই করণীয় উদাহরণটি শ্রেণিবিন্যাস সমস্যার সাথে সম্পর্কিত। রিগ্রেশন সমস্যার মধ্যে কারও কি এলইও এনকোডিংয়ের অভিজ্ঞতা আছে? মূল প্রশ্নটি কীভাবে লক্ষ্য ভেরিয়েবলকে একত্রিত করা যায়। আমি এখন পরীক্ষা-নিরীক্ষা করছি এবং গড় (y) দিয়ে প্রচুর পরিমাণে ফিট করব।
অ্যালেক্সি ট্রফিমভ

1
একটি ক্লাস্টারিং (নিরীক্ষণ) সমস্যার জন্য, এই জাতীয় এনকোডিং ব্যবহার করা সম্ভব?
এনেপ্পি

@ আলেক্সি ট্রফিমভ - একটি কম বৈকল্পিক সহ একত্রিত করার চেষ্টা করুন। আমি বিভিন্ন বাইনিং দিয়ে শুরু করতাম (যেমন 1K, 2K, 2M, .. বৃহত্তর y int মানগুলির জন্য, বা y ভাসমানের মানগুলির জন্য দশমিক স্থানে গোল করে) => গড় (বিন_ফ (y))
মর্কের
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.