আমার বোধগম্যতা হল মেশিন লার্নিংয়ে এটি সমস্যা হতে পারে যদি আপনার ডেটাসেটের উচ্চতর সম্পর্কযুক্ত বৈশিষ্ট্য থাকে, কারণ তারা কার্যকরভাবে একই তথ্যকে এনকোড করে।
সম্প্রতি কেউ চিহ্নিত করেছেন যে আপনি যখন একটি শ্রেণিবদ্ধ ভেরিয়েবলের উপর এক-হট এনকোডিং করেন তখন আপনি সংযুক্ত বৈশিষ্ট্যগুলি সমাপ্ত করেন, সুতরাং আপনার একটি "রেফারেন্স" হিসাবে ছেড়ে দেওয়া উচিত।
উদাহরণস্বরূপ, লিঙ্গটিকে দুটি ভেরিয়েবল হিসাবে এনকোডিং করে is_maleএবং is_femaleদুটি বৈশিষ্ট্য তৈরি করে যা পুরোপুরি নেতিবাচকভাবে সম্পর্কিত হয়, সুতরাং তারা কেবলমাত্র একটির ব্যবহার করার পরামর্শ দিয়েছিল, কার্যকরভাবে পুরুষ বলতে বেসলাইনটি সেট করে, এবং তারপরে ভবিষ্যদ্বাণীীয় অ্যালগরিদমে is_female কলামটি গুরুত্বপূর্ণ কিনা তা দেখার জন্য ।
এটি আমার কাছে বোধগম্য হয়েছিল তবে আমি এমন কিছু হতে পারে যা এটি হতে পারে তা প্রস্তাব করার জন্য অনলাইনে কিছুই পাইনি, তাই এটি কি ভুল বা আমি কিছু মিস করছি?
সম্ভাব্য (উত্তর না দেওয়া) সদৃশ: এক-হট এনকোডযুক্ত বৈশিষ্ট্যগুলির সমান্তরালতা কি এসভিএম এবং লগরেগের জন্য গুরুত্বপূর্ণ?
Does keeping all k values theoretically make them weaker features। না (যদিও আমি "দুর্বল" বলতে আপনার অর্থ কী তা আমি 100% নিশ্চিত নই)। using something like PCAদ্রষ্টব্য, কেবলমাত্র একই ক্ষেত্রে, একই একই শ্রেণীবদ্ধ ভেরিয়েবলের প্রতিনিধিত্বকারী ডমিগুলির একটি সেটটিতে পিসিএর ব্যবহারিক বিন্দুটি সামান্যই রয়েছে কারণ ডামিগুলির সেটের অভ্যন্তরের পারস্পরিক সম্পর্কগুলি কেবল বিভাগের ফ্রিকোয়েন্সিগুলির মধ্যে সম্পর্কগুলি প্রতিফলিত করে (তাই যদি সমস্ত ফ্রিকোয়েন্সি সমান হয় তবে সমস্ত সংযোগগুলি সমান হয়) থেকে 1 / (কে -1))।
is_maleআপনি উভয় বিকল্পের বিপরীতে যদি কেবল একটি ভেরিয়েবল ব্যবহার করেন তবে কি জেন্ডারের গুরুত্ব সম্পর্কে একটি "সত্যবাদী" অনুমান পাবেন? সম্ভবত এই প্রসঙ্গে এটির কোনও অর্থ হয় না এবং এটি কেবল তখনই হতে পারে যখন আপনার কাছে দুটি ভিন্ন ভেরিয়েবল আসলে একই তথ্য এনকোডিং করে থাকে (যেমন: উচ্চতা ইঞ্চি এবং উচ্চতা সেমি)।
you end up with correlated features, so you should drop one of them as a "reference"ডামি ভেরিয়েবল বা সূচক ভেরিয়েবল (এই দুটি নামই পরিসংখ্যানগুলিতে ব্যবহৃত হয়, মেশিন লার্নিংয়ের ক্ষেত্রে "এক-গরম এনকোডিং" থেকে সিনোনিমিক) যাইহোক যাইহোক, যুগলভাবে পরস্পর সম্পর্কযুক্ত, সেগুলি সবই কে বা কে -1 ভেরিয়েবল। সুতরাং, আরও ভাল শব্দটি "পরিসংখ্যানযুক্ত" পরিবর্তে "পরিসংখ্যানগতভাবে / তথ্যগতভাবে অপ্রয়োজনীয়"।