আমার বোধগম্যতা হল মেশিন লার্নিংয়ে এটি সমস্যা হতে পারে যদি আপনার ডেটাসেটের উচ্চতর সম্পর্কযুক্ত বৈশিষ্ট্য থাকে, কারণ তারা কার্যকরভাবে একই তথ্যকে এনকোড করে।
সম্প্রতি কেউ চিহ্নিত করেছেন যে আপনি যখন একটি শ্রেণিবদ্ধ ভেরিয়েবলের উপর এক-হট এনকোডিং করেন তখন আপনি সংযুক্ত বৈশিষ্ট্যগুলি সমাপ্ত করেন, সুতরাং আপনার একটি "রেফারেন্স" হিসাবে ছেড়ে দেওয়া উচিত।
উদাহরণস্বরূপ, লিঙ্গটিকে দুটি ভেরিয়েবল হিসাবে এনকোডিং করে is_male
এবং is_female
দুটি বৈশিষ্ট্য তৈরি করে যা পুরোপুরি নেতিবাচকভাবে সম্পর্কিত হয়, সুতরাং তারা কেবলমাত্র একটির ব্যবহার করার পরামর্শ দিয়েছিল, কার্যকরভাবে পুরুষ বলতে বেসলাইনটি সেট করে, এবং তারপরে ভবিষ্যদ্বাণীীয় অ্যালগরিদমে is_female কলামটি গুরুত্বপূর্ণ কিনা তা দেখার জন্য ।
এটি আমার কাছে বোধগম্য হয়েছিল তবে আমি এমন কিছু হতে পারে যা এটি হতে পারে তা প্রস্তাব করার জন্য অনলাইনে কিছুই পাইনি, তাই এটি কি ভুল বা আমি কিছু মিস করছি?
সম্ভাব্য (উত্তর না দেওয়া) সদৃশ: এক-হট এনকোডযুক্ত বৈশিষ্ট্যগুলির সমান্তরালতা কি এসভিএম এবং লগরেগের জন্য গুরুত্বপূর্ণ?
Does keeping all k values theoretically make them weaker features
। না (যদিও আমি "দুর্বল" বলতে আপনার অর্থ কী তা আমি 100% নিশ্চিত নই)। using something like PCA
দ্রষ্টব্য, কেবলমাত্র একই ক্ষেত্রে, একই একই শ্রেণীবদ্ধ ভেরিয়েবলের প্রতিনিধিত্বকারী ডমিগুলির একটি সেটটিতে পিসিএর ব্যবহারিক বিন্দুটি সামান্যই রয়েছে কারণ ডামিগুলির সেটের অভ্যন্তরের পারস্পরিক সম্পর্কগুলি কেবল বিভাগের ফ্রিকোয়েন্সিগুলির মধ্যে সম্পর্কগুলি প্রতিফলিত করে (তাই যদি সমস্ত ফ্রিকোয়েন্সি সমান হয় তবে সমস্ত সংযোগগুলি সমান হয়) থেকে 1 / (কে -1))।
is_male
আপনি উভয় বিকল্পের বিপরীতে যদি কেবল একটি ভেরিয়েবল ব্যবহার করেন তবে কি জেন্ডারের গুরুত্ব সম্পর্কে একটি "সত্যবাদী" অনুমান পাবেন? সম্ভবত এই প্রসঙ্গে এটির কোনও অর্থ হয় না এবং এটি কেবল তখনই হতে পারে যখন আপনার কাছে দুটি ভিন্ন ভেরিয়েবল আসলে একই তথ্য এনকোডিং করে থাকে (যেমন: উচ্চতা ইঞ্চি এবং উচ্চতা সেমি)।
you end up with correlated features, so you should drop one of them as a "reference"
ডামি ভেরিয়েবল বা সূচক ভেরিয়েবল (এই দুটি নামই পরিসংখ্যানগুলিতে ব্যবহৃত হয়, মেশিন লার্নিংয়ের ক্ষেত্রে "এক-গরম এনকোডিং" থেকে সিনোনিমিক) যাইহোক যাইহোক, যুগলভাবে পরস্পর সম্পর্কযুক্ত, সেগুলি সবই কে বা কে -1 ভেরিয়েবল। সুতরাং, আরও ভাল শব্দটি "পরিসংখ্যানযুক্ত" পরিবর্তে "পরিসংখ্যানগতভাবে / তথ্যগতভাবে অপ্রয়োজনীয়"।