বৈশিষ্ট্য ইঞ্জিনিয়ারিং কেন কাজ করে?


20

সম্প্রতি আমি শিখেছি যে এমএল সমস্যাগুলির জন্য আরও ভাল সমাধান অনুসন্ধানের একটি উপায় বৈশিষ্ট্য তৈরি করা। একটি উদাহরণস্বরূপ দুটি বৈশিষ্ট্য যোগ করে এটি করতে পারেন।

উদাহরণস্বরূপ, আমরা দুটি ধরণের "আক্রমণ" এবং কিছু ধরণের বীরের "প্রতিরক্ষা" রাখি। তারপরে আমরা "মোট" নামে অতিরিক্ত বৈশিষ্ট্য তৈরি করি যা "আক্রমণ" এবং "প্রতিরক্ষা" এর যোগফল। এখন আমার কাছে যা অদ্ভুত বলে মনে হচ্ছে তা হ'ল শক্ত "আক্রমণ" এবং "প্রতিরক্ষা" প্রায় পুরোপুরি "মোট" এর সাথে সম্পর্কযুক্ত আমরা এখনও দরকারী তথ্য অর্জন করি।

এর পিছনে গণিত কী? নাকি আমার পক্ষে যুক্তি ভুল?

অতিরিক্তভাবে, কেএনএন-এর মতো শ্রেণিবদ্ধদের জন্য এটি কি কোনও সমস্যা নয়, "আক্রমণ" বা "প্রতিরক্ষা" এর চেয়ে "মোট" সর্বদা বড় হবে? সুতরাং, স্ট্যান্ডার্ডাইজেশনের পরেও আমাদের কাছে বিভিন্ন রেঞ্জের মান সমেত বৈশিষ্ট্য থাকবে?


দুটি বৈশিষ্ট্য সংযুক্ত করার অনুশীলন অবশ্যই "ফিচার ইঞ্জিনিয়ারিং" সাধারণভাবে উপস্থাপন করে না।
xji

উত্তর:


21

আপনি শিরোনামটি প্রশ্ন করেন এবং সামগ্রীটি আমার সাথে মেলে না। আপনি যদি লিনিয়ার মডেল ব্যবহার করছেন, আক্রমণ এবং প্রতিরক্ষা ছাড়াও মোট বৈশিষ্ট্য যুক্ত করুন বিষয়টিকে আরও খারাপ করে দেবে।

প্রথমে আমি উত্তর দেব কেন সাধারণভাবে বৈশিষ্ট্য প্রকৌশল কাজ করে।

একটি ছবি হাজার শব্দের সমান. এই চিত্রটি আপনাকে বৈশিষ্ট্য ইঞ্জিনিয়ারিং এবং এটি কেন কাজ করে (চিত্র উত্স ) সম্পর্কে কিছু অন্তর্দৃষ্টি বলতে পারে :

এখানে চিত্র বর্ণনা লিখুন

  • কার্টেসিয়ান স্থানাঙ্কের ডেটা আরও জটিল এবং নিয়ম লিখতে / দুই ধরণের শ্রেণিবদ্ধ করার জন্য একটি মডেল তৈরি করা তুলনামূলকভাবে শক্ত।

  • পোলার স্থানাঙ্কের ডেটা অনেক সহজ: আমরা দুই ধরণের শ্রেণিবদ্ধ করার জন্য একটি সাধারণ নিয়ম লিখতে পারি ।R

এটি আমাদের বলুন যে ডেটা উপস্থাপন অনেক গুরুত্বপূর্ণ। নির্দিষ্ট জায়গায়, অন্যান্য স্পেসগুলির চেয়ে কিছু নির্দিষ্ট কাজ করা অনেক সহজ is

এখানে আমি আপনার উদাহরণে উল্লিখিত প্রশ্নের উত্তর দিই (আক্রমণ এবং প্রতিরক্ষার উপরে মোট)

আসলে, আক্রমণ এবং প্রতিরক্ষা উদাহরণের যোগফলটিতে উল্লিখিত বৈশিষ্ট্য ইঞ্জিনিয়ারিং লিনিয়ার মডেলের মতো অনেক মডেলের পক্ষে ভাল কাজ করবে না এবং এটি কিছু সমস্যা তৈরি করবে cause মাল্টিকোলাইনারিটি দেখুন । অন্যদিকে, এই জাতীয় বৈশিষ্ট্য প্রকৌশল অন্যান্য মডেলগুলিতে যেমন সিদ্ধান্তের গাছ / এলোমেলো বন হিসাবে কাজ করতে পারে। বিশদ জানতে ইমরানের উত্তর দেখুন।

সুতরাং, উত্তরটি হ'ল আপনি যে মডেলটি ব্যবহার করেন তার উপর নির্ভর করে কিছু বৈশিষ্ট্য ইঞ্জিনিয়ারিং কিছু মডেলগুলিতে সহায়তা করবে তবে অন্যান্য মডেলের জন্য নয়।


যোগফলগুলির সাথে যোগফলের সমষ্টি হতে হবে না। উদাহরণস্বরূপ আমার উত্তর দেখুন।
কোডিওলজিস্ট

15

আমরা যে ধরণের মডেলটি ব্যবহার করছি তা বিদ্যমান বৈশিষ্ট্যগুলির নির্দিষ্ট সংমিশ্রণগুলি শিখতে খুব দক্ষ নাও হতে পারে।

ad0একটি+ +<01একটি+ +0

যেহেতু সিদ্ধান্ত গাছগুলি কেবল পৃথক বৈশিষ্ট্য অক্ষের সাথে বিভক্ত হতে পারে, তাই আমাদের মডেলটি একটি লাইনের সাথে ফিট করার জন্য একটি সিঁড়ি তৈরির চেষ্টা করবে, যা দেখতে এরকম কিছু দেখবে:

এখানে চিত্র বর্ণনা লিখুন

আপনি দেখতে পাচ্ছেন এটি নতুন ডেটাতে পুরোপুরি সাধারণকরণ করবে না। আমরা আমাদের সিদ্ধান্তের সীমার অধীনে থাকা সত্য সিদ্ধান্তের রেখার উপরে এবং ক্রসগুলির বিপরীতে circles

তবে, আমরা যদি a+dকোনও বৈশিষ্ট্য হিসাবে যুক্ত করি তবে সিদ্ধান্ত গাছের জন্য সমস্যাটি তুচ্ছ হয়ে যায়। এটি পৃথক aএবং dবৈশিষ্ট্যগুলি উপেক্ষা করতে এবং একক a+d<0সিদ্ধান্তের স্টাম্প দিয়ে সমস্যার সমাধান করতে পারে ।

এখানে চিত্র বর্ণনা লিখুন

একটি+ +

সংক্ষেপে, কিছু অতিরিক্ত বৈশিষ্ট্য আপনি যে ধরণের মডেল ব্যবহার করছেন তার উপর নির্ভর করে সহায়তা করতে পারে এবং ইঞ্জিনিয়ারিংয়ের বৈশিষ্ট্যগুলি উপস্থিত হওয়ার সময় আপনার ডেটা এবং মডেল উভয় বিবেচনা করা উচিত।


1
এই ঠিক পয়েন্ট। বৈশিষ্ট্যগুলির পছন্দ এবং মডেলের পছন্দ একসাথে বিবেচনা করা উচিত। মডেলটি কীভাবে ব্যবহৃত হচ্ছে তা বিবেচনা না করে বৈশিষ্ট্য নির্বাচনের বিষয়ে চেষ্টা এবং যুক্তি দেখানো একটি সাধারণ সমস্যা pit
ইমরান

1
উদাহরণস্বরূপ আপনি যদি লিনিয়ার রিগ্রেশন দিয়ে একই জিনিসটি চেষ্টা করে থাকেন aএবং dযথেষ্ট a+dহিসাবে এবং কোনও বৈশিষ্ট্য হিসাবে যুক্ত করা কোনও তাত্পর্য রাখে না।
ইমরান

এটিকে আরও স্পষ্ট করার জন্য আমি আমার উত্তর আপডেট করেছি।
ইমরান

1
তদতিরিক্ত, তির্যক রেখা জুড়ে বিভক্ত করার জন্য একটি বিভাজন প্রয়োজন। আপনি আঁকা সিঁড়িটি সাতটি বিভক্তিকে "আপ" ব্যবহার করে।
সংগৃহীত

3

totaltotalattackdefenseattackdefensetotalattacktotaldefense17

অতিরিক্তভাবে, কেএনএন-এর মতো শ্রেণিবদ্ধদের জন্য এটি কি কোনও সমস্যা নয়, "আক্রমণ" বা "প্রতিরক্ষা" এর চেয়ে "মোট" সর্বদা বড় হবে? সুতরাং, স্ট্যান্ডার্ডাইজেশনের পরেও আমাদের কাছে বিভিন্ন রেঞ্জের মান সমেত বৈশিষ্ট্য থাকবে?

আপনি যদি আপনার ভবিষ্যদ্বাণীকে মানক করতে চান তবে সেগুলি সমস্ত নির্মাণের পরে আপনার করা উচিত।


1
এটা কি সত্য? অবশ্যই, একটি সরল রৈখিক মডেলটিতে এটি নয়: ম্যাট্রিক্স [attack, defense, total]অবশ্যই 2 র‌্যাঙ্কের is আমি কল্পনা করতে পারি এটি একটি পার্থক্যযুক্ত লিনিয়ার মডেলের মতো কিছুতে পারে তবে এটি সম্পূর্ণরূপে কাজ করার পরিবর্তে স্বজ্ঞাততার উপর ভিত্তি করে। আপনি যদি ব্যাখ্যা করতে পারেন যে attackএবং যদি defenseদৃ strongly়ভাবে সম্পর্কযুক্ত না হয় total(যা ঘটে attackএবং defenseদৃ strongly়ভাবে নেতিবাচকভাবে সম্পর্কযুক্ত হয়) তবে কেন totalসহায়ক হতে পারে?
ক্লিফ এবি

1
@ ক্লিফ্যাব অন্ধকারে, আমি এখানে কিছুটা গ্লিব ছিলাম। আমি ঠিকই বলেছিলাম যে একটি নির্মিত বৈশিষ্ট্য কার্যকর হতে পারে যখন এটি অন্যান্য ভবিষ্যদ্বাণীকের সাথে দৃ totalstrongly়ভাবে সম্পর্কযুক্ত না হয় এবং এর সাথে attackবা দৃ strongly়ভাবে সম্পর্কিত হতে হবে না বা defense, তবে আপনি কখনও একই মডেলে দুটি ভবিষ্যদ্বাণী এবং তাদের যোগফল ব্যবহার করবেন না কারণ লিনিয়ার কারণে নির্ভরতা, সঙ্গে মধ্যে এক গভীর সম্পর্ক বোঝা কিছু তিনটি দুই।
কোডিওলজিস্ট

1

একটি সাধারণ উত্তর দেওয়ার জন্য, বেশিরভাগ ক্ষেত্রে ফিচার ইঞ্জিনিয়ারিংটি আপনার ডেটা থেকে অর্থবোধক বৈশিষ্ট্যগুলি আহরণের বিষয়ে হয়, সুতরাং আপনি যদি আপনার মডেলকে আরও বেশি তথ্য দেন তবে অবশ্যই এটি আরও ভাল আচরণ করা উচিত। বলুন যে আপনার ডেটাতে 'name.surname@domain.country-code' আকারে ইমেল ঠিকানা রয়েছে। আপনি যদি তাদের মডেলটিতে যেমন ব্যবহার করেন তবে প্রতিটি ব্যক্তির একটি অনন্য ইমেল দ্বারা চিহ্নিত করা হবে, সুতরাং এটি আমাদের বেশি কিছু জানায় না। এটি কেবলমাত্র আমাদের জানাতে পারে যে একটি ইমেল সম্ভবত অন্য ব্যক্তির সাথে সম্পর্কিত হতে পারে। বৈশিষ্ট্য ইঞ্জিনিয়ারিং সহ, এই জাতীয় ঠিকানা থেকে আপনি সম্ভাব্য লিঙ্গ (নাম), পারিবারিক পটভূমি এবং জাতিগততা (উপাধি), জাতীয়তা (ডোমেন) এবং আরও অনেক কিছু সম্পর্কে তথ্য বের করতে পারেন - এটি আপনাকে বেশ তথ্য দেয়, তাই না?


1

আপনি কি আপনার "বৈশিষ্ট্য" সঙ্গে সাধন করার চেষ্টা করছেন মোট ? আপনি যদি কেবল নায়কদের সাথে তুলনা করেন তবে আক্রমণ এবং প্রতিরক্ষা আরও কার্যকর হতে পারে। আপনি যদি বিল্ডের ধরণটি (কীভাবে আক্রমণাত্মকমুখী বনাম কীভাবে ডিফেন্সিভ-ওরিয়েন্টেড) খুঁজে পান তবে সম্ভবত আক্রমণ / প্রতিরক্ষা আরও কার্যকর হবে। অথবা হতে পারে মাইএট্যাক - আপনারডাইফেন্স আরও কার্যকর।

এটি সত্যই আপনার লক্ষ্যের উপর নির্ভর করে এবং এটি সমস্যার মধ্যে অতিরিক্ত জ্ঞান ইনজেকশন দেওয়ার জন্য আপনাকে ফোটায় যাতে আপনি আরও ভাল উত্তর পেতে পারেন। আপনি লগ এবং স্কোয়ার এবং অনুপাত এবং আপনি যে বৈশিষ্ট্যগুলি তৈরি করতে পারেন তার সমস্ত ধরণের শব্দগুলি লোকদের কাছ থেকে ছুঁড়ে ফেলে শুনেছেন তবে নীচের অংশটি হ'ল "দরকারী" হাতের কাজটির উপর নির্ভর করে এবং আপনার থাকা ডেটাটিকে একটি ডোমেনে রূপান্তর করা যেখানে সিদ্ধান্তগুলি রয়েছে সহজ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.