বৈশিষ্ট্যগুলির অপ্রয়োজনীয় পরিমাণকে কীভাবে মাপব?


10

আমার কাছে তিনটি বৈশিষ্ট্য রয়েছে যা আমি শ্রেণিবদ্ধকরণ সমস্যা সমাধানের জন্য ব্যবহার করি। মূলত, এই বৈশিষ্ট্যগুলি বুলিয়ান মানগুলি উত্পাদন করে, তাই আমি ইতিবাচক এবং নেতিবাচক শ্রেণিবিন্যাসের সেটগুলি কতটা ওভারল্যাপ করে তা দেখে তাদের অপ্রয়োজনীয়তার মূল্যায়ন করতে পারি। পরিবর্তে প্রকৃত মান (স্কোর) উত্পাদন করার জন্য আমি এখন বৈশিষ্ট্যগুলি প্রসারিত করেছি এবং আমি তাদের অপ্রয়োজনীয়তা আবার বিশ্লেষণ করতে চাই তবে কীভাবে এটি করা যায় তার সম্পূর্ণ ক্ষতি করছি। যে কেউ কীভাবে আমাকে যেতে পারে সে সম্পর্কে কোনও পয়েন্টার বা ধারণা সরবরাহ করতে পারে?

আমি জানি এই প্রশ্নটি খুব অস্পষ্ট, কারণ এটি আমার কাছে পরিসংখ্যানের খুব শক্তিশালী উপলব্ধি নেই। সুতরাং, যদি আপনার আমার কাছে উত্তর না থেকে থাকে তবে আপনার কিছু প্রশ্ন থাকতে পারে যা আমাকে আরও ভালভাবে বুঝতে সাহায্য করতে পারে।

সম্পাদনা: আমি বর্তমানে বিষয়টিতে উইকিপিডিয়া ব্রাউজ করছি, আমার অনুভূতি আছে যে আমি যা চাই তা একটি সম্পর্কযুক্ত সহগ, তবে আমি এখনও নিশ্চিত নই যে এটি সঠিক পন্থা, এবং উপলব্ধ বহুগুণ সহকারীর মধ্যে কোনটি উপযুক্ত?

সম্পাদনা 2: বুলিয়ান ক্ষেত্রে, আমি প্রথম প্রতিটি বৈশিষ্ট্যের জন্য নমুনার সেট তৈরি করেছি যার জন্য এটি সত্য ছিল। তারপরে, দুটি বৈশিষ্ট্যের মধ্যে পারস্পরিক সম্পর্ক ছিল এই সেটগুলির ইউনিয়নের আকারের চেয়ে এই সেটগুলির ছেদ আকার। যদি এই মানটি 1 হয় তবে এগুলি সম্পূর্ণ অপ্রয়োজনীয়, কারণ সর্বদা একই। যদি এটি 0 হয় তবে এগুলি কখনই এক হয় না।


আপনি কীভাবে বুলিয়ান ক্ষেত্রে অপ্রয়োজনীয়তা সংজ্ঞায়িত করেন এবং অবিচ্ছিন্ন ক্ষেত্রে আপনি কী ধরণের ফলাফল প্রত্যাশা করেন তার উদাহরণ সরবরাহ করলে এটি সহায়তা করবে
এমপিটিকাস

@ এমপিক্টাস: আপনার মন্তব্যের জবাবে আমার প্রশ্নটি সম্পাদনা করুন।
বিজার্ন পোলেক্স

উত্তর:


4

এটি বৈশিষ্ট্য নির্বাচনের সমস্যার মতো মনে হচ্ছে, যদি এটি হয় তবে আমি মনে করি আপনি সমস্ত বৈশিষ্ট্য এবং শ্রেণিবিন্যাসের আউটপুটগুলির মধ্যে পারস্পরিক তথ্য গণনা করতে চান । সর্বোচ্চ পারস্পরিক তথ্য সহ উপসেটটি এমন বৈশিষ্ট্যগুলির সেট হবে যা রেকর্ডের ফলাফলের শ্রেণিবিন্যাস সম্পর্কে সর্বাধিক 'তথ্য' ধারণ করে।

আপনার যদি কেবল 3 টি বৈশিষ্ট্য থাকে তবে আপনি যুক্তিসঙ্গত পরিমাণে সমস্ত সম্ভাব্য সাবসেটগুলি গণনা করতে পারেন, যদি আপনার বৈশিষ্ট্য সেটটি আরও বড় হয় তবে আপনাকে এটি আনুমানিক করতে হবে (সাধারণত একটি লোভী পদ্ধতির ব্যবহার করে: প্রতিটি পদক্ষেপে সর্বোচ্চ এমআই সহ বৈশিষ্ট্য গ্রহণ করুন )।


2
(+1) পারস্পরিক তথ্যের জন্য। অতিরিক্ত মন্তব্য: ক) আমি পারস্পরিক তথ্যের বিশেষ ক্ষেত্রে হিসাবে তথ্য লাভের পরামর্শ দিই। খ) স্বয়ংক্রিয় বৈশিষ্ট্য নির্বাচনটি কেবলমাত্র অনর্থকই নয় এমন সমস্ত বৈশিষ্ট্যও সরিয়ে ফেলবে যা শ্রেণি বৈষম্যের উপর নেতিবাচক প্রভাব ফেলে।
স্টেফেন

ধন্যবাদ! এটি খুব প্রতিশ্রুতিবদ্ধ শোনায়, আমি এটি খতিয়ে দেখব।
বিজার্ন পোলেক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.