এক-হট এনকোডিং ব্যবহার করার সময় একটি কলামকে বাদ দেওয়া হচ্ছে


22

আমার বোধগম্যতা হল মেশিন লার্নিংয়ে এটি সমস্যা হতে পারে যদি আপনার ডেটাসেটের উচ্চতর সম্পর্কযুক্ত বৈশিষ্ট্য থাকে, কারণ তারা কার্যকরভাবে একই তথ্যকে এনকোড করে।

সম্প্রতি কেউ চিহ্নিত করেছেন যে আপনি যখন একটি শ্রেণিবদ্ধ ভেরিয়েবলের উপর এক-হট এনকোডিং করেন তখন আপনি সংযুক্ত বৈশিষ্ট্যগুলি সমাপ্ত করেন, সুতরাং আপনার একটি "রেফারেন্স" হিসাবে ছেড়ে দেওয়া উচিত।

উদাহরণস্বরূপ, লিঙ্গটিকে দুটি ভেরিয়েবল হিসাবে এনকোডিং করে is_maleএবং is_femaleদুটি বৈশিষ্ট্য তৈরি করে যা পুরোপুরি নেতিবাচকভাবে সম্পর্কিত হয়, সুতরাং তারা কেবলমাত্র একটির ব্যবহার করার পরামর্শ দিয়েছিল, কার্যকরভাবে পুরুষ বলতে বেসলাইনটি সেট করে, এবং তারপরে ভবিষ্যদ্বাণীীয় অ্যালগরিদমে is_female কলামটি গুরুত্বপূর্ণ কিনা তা দেখার জন্য ।

এটি আমার কাছে বোধগম্য হয়েছিল তবে আমি এমন কিছু হতে পারে যা এটি হতে পারে তা প্রস্তাব করার জন্য অনলাইনে কিছুই পাইনি, তাই এটি কি ভুল বা আমি কিছু মিস করছি?

সম্ভাব্য (উত্তর না দেওয়া) সদৃশ: এক-হট এনকোডযুক্ত বৈশিষ্ট্যগুলির সমান্তরালতা কি এসভিএম এবং লগরেগের জন্য গুরুত্বপূর্ণ?


8
you end up with correlated features, so you should drop one of them as a "reference"ডামি ভেরিয়েবল বা সূচক ভেরিয়েবল (এই দুটি নামই পরিসংখ্যানগুলিতে ব্যবহৃত হয়, মেশিন লার্নিংয়ের ক্ষেত্রে "এক-গরম এনকোডিং" থেকে সিনোনিমিক) যাইহোক যাইহোক, যুগলভাবে পরস্পর সম্পর্কযুক্ত, সেগুলি সবই কে বা কে -1 ভেরিয়েবল। সুতরাং, আরও ভাল শব্দটি "পরিসংখ্যানযুক্ত" পরিবর্তে "পরিসংখ্যানগতভাবে / তথ্যগতভাবে অপ্রয়োজনীয়"।
ttnphns

সমস্ত কে ডামির সেটটি মাল্টিকোল্লাইনারি সেট কারণ যদি আপনি ডেটাতে কে -1 ডামিগুলির মানগুলি জানেন তবে আপনি স্বয়ংক্রিয়ভাবে সেই শেষের একটি ডামির মানগুলি জানেন। কিছু ডেটা বিশ্লেষণ পদ্ধতি বা অ্যালগরিদমগুলির জন্য আপনাকে কে থেকে একটি ড্রপ করা দরকার। অন্যান্য সমস্ত কে সহ্য করতে সক্ষম হয়।
ttnphns

@ এনটিএনএফএনএস: ধন্যবাদ, এটি উপলব্ধি করে। সমস্ত কে মানগুলিকে তাত্ত্বিকভাবে রাখা কী তাদের দুর্বল বৈশিষ্ট্যগুলিতে পরিণত করে যা মাত্রিকতা হ্রাস দ্বারা মুছে ফেলা উচিত? পিসিএর মতো কিছু ব্যবহার করার জন্য একটি যুক্তি প্রায়শই সম্পর্কিত / অপ্রয়োজনীয় বৈশিষ্ট্যগুলি সরিয়ে ফেলা হয়, আমি ভাবছি যে সমস্ত কে ভেরিয়েবলগুলি সেই বিভাগে রাখা হয়েছে কিনা।
ডাসবথ

Does keeping all k values theoretically make them weaker features। না (যদিও আমি "দুর্বল" বলতে আপনার অর্থ কী তা আমি 100% নিশ্চিত নই)। using something like PCAদ্রষ্টব্য, কেবলমাত্র একই ক্ষেত্রে, একই একই শ্রেণীবদ্ধ ভেরিয়েবলের প্রতিনিধিত্বকারী ডমিগুলির একটি সেটটিতে পিসিএর ব্যবহারিক বিন্দুটি সামান্যই রয়েছে কারণ ডামিগুলির সেটের অভ্যন্তরের পারস্পরিক সম্পর্কগুলি কেবল বিভাগের ফ্রিকোয়েন্সিগুলির মধ্যে সম্পর্কগুলি প্রতিফলিত করে (তাই যদি সমস্ত ফ্রিকোয়েন্সি সমান হয় তবে সমস্ত সংযোগগুলি সমান হয়) থেকে 1 / (কে -1))।
ttnphns

আমার অর্থ হ'ল আপনি যখন বৈশিষ্ট্যটির গুরুত্ব (যেমন একটি এলোমেলো বন সহ) মূল্যায়ন করতে আপনার মডেলটি ব্যবহার করেন তখন আপনি যদি সমস্ত কে মানগুলিকে অন্তর্ভুক্ত করেন তবে কী সেই পরিবর্তনশীলটির গুরুত্বকে অবমূল্যায়ন করবে? যেমন, is_maleআপনি উভয় বিকল্পের বিপরীতে যদি কেবল একটি ভেরিয়েবল ব্যবহার করেন তবে কি জেন্ডারের গুরুত্ব সম্পর্কে একটি "সত্যবাদী" অনুমান পাবেন? সম্ভবত এই প্রসঙ্গে এটির কোনও অর্থ হয় না এবং এটি কেবল তখনই হতে পারে যখন আপনার কাছে দুটি ভিন্ন ভেরিয়েবল আসলে একই তথ্য এনকোডিং করে থাকে (যেমন: উচ্চতা ইঞ্চি এবং উচ্চতা সেমি)।
ডাসবথ

উত্তর:


23

lmglm

অন্যান্য মডেলগুলির সাথে একই নীতি ব্যবহার করুন। প্রাপ্ত পূর্বাভাসগুলি যদি আপনি কলামগুলি ছেড়ে যান তার উপর নির্ভর করে তবে তা করবেন না। নাহলে ঠিক আছে।

এখনও অবধি, এই উত্তরটিতে কেবল রৈখিক (এবং কিছু হালকা অ-রৈখিক) মডেল উল্লেখ করা হয়েছে। তবে খুব অ-রৈখিক মডেল, গাছ এবং এলোমেলো বনগুলির মতো কী? এক-হট এর মতো শ্রেণীবদ্ধ এনকোডিং সম্পর্কে ধারণাগুলি মূলত রৈখিক মডেল এবং এক্সটেনশান থেকে আসে। এই প্রসঙ্গে উদ্ভূত ধারণাগুলি গাছ এবং বনের জন্য কোনও পরিবর্তন ছাড়াই প্রয়োগ করা উচিত বলে ভাবার খুব কম কারণ আছে! কিছু ধারণার জন্য পাইথনের বিরল ডেটার সাথে র্যান্ডম ফরেস্ট রিগ্রেশন দেখুন ।

β,β2,β3β1=0β2-β1,β3-β1


আমি একমত হতে পারি যে রেফারেন্স ভেরিয়েবলের পছন্দটি নিয়মিত রেজিস্ট্রেশনের ফলাফলকে প্রভাবিত করবে, তবে আমি খুব নিশ্চিত নই যে সমস্ত ভেরিয়েবলকে বাদ দেওয়ার চেয়ে বেশি রেখে দেওয়া ভাল কিনা I আপনার কি এর কোনও কারণ আছে?
কোটা মোরি

ঠিক আছে, কেবল দুটি বিকল্প ... সমস্ত স্তর রেখে চালিয়ে যাওয়া চালিয়ে যায় এবং কোনও স্বেচ্ছাচারিতা হয় না। আপনি অন্যান্য reaons যেমন তাদের অনেক হিসাবে মাত্রা, সংখ্যা কমাতে চান RO থাকে, তাহলে আপনি যে সম্পর্কে আমাদের বলুন উচিত
kjetil খ halvorsen
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.