তত্ত্বাবধানে শেখার ক্ষেত্রে, পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলি কেন খারাপ?


35

আমি কোথাও পড়েছি যে আমাদের যদি এমন বৈশিষ্ট্যগুলি খুব সংযুক্ত থাকে তবে আমাদের একটি অপসারণ করতে হবে, কারণ এটি মডেলটিকে আরও খারাপ করতে পারে। এটি পরিষ্কার যে পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলির অর্থ হ'ল তারা একই তথ্য নিয়ে আসে তাই তাদের মধ্যে একটি অপসারণ করা যৌক্তিক। তবে কেন এটি মডেলটিকে আরও খারাপ করতে পারে তা আমি বুঝতে পারি না।


3
এই বিধিটি অন্যদের তুলনায় কিছু মডেল এবং বিশ্লেষণে আরও দৃ strongly়তার সাথে প্রযোজ্য। "আমি কোথাও পড়েছি" - এর জন্য আপনি কোনও প্রসঙ্গ যুক্ত করতে পারেন এমন কোনও সুযোগ - উদাহরণস্বরূপ এটি কোনও নির্দিষ্ট মডেলের প্রশিক্ষণের সাথে সম্পর্কিত ছিল?
নিল স্লেটার

3
সম্পর্কযুক্ত বৈশিষ্ট্যগুলি অগত্যা কোনও মডেলকে আরও খারাপ করবে না। পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলি অপসারণ করা বৈশিষ্ট্যগুলির অর্থ নির্ধারণ করতে সহায়তা করে।
হবিস 14

উত্তর:


31

সাধারণভাবে সম্পর্কিত সম্পর্কযুক্ত বৈশিষ্ট্যগুলি মডেলগুলিকে উন্নত করে না (যদিও এটি ভেরিয়েবলের সংখ্যা এবং পারস্পরিক সম্পর্কের ডিগ্রির মতো সমস্যার সুনির্দিষ্টতার উপর নির্ভর করে) তবে তারা নির্দিষ্ট মডেলগুলিকে বিভিন্ন উপায়ে এবং বিভিন্ন পরিবর্তনের ক্ষেত্রে প্রভাবিত করে:

  1. রৈখিক মডেলগুলির জন্য (যেমন, লিনিয়ার রিগ্রেশন বা লজিস্টিক রিগ্রেশন), বহুবিশ্ববিজ্ঞান এমন সমাধান সমাধান করতে পারে যা বন্যভাবে পরিবর্তিত হয় এবং সম্ভবত সংখ্যাগতভাবে অস্থির থাকে

  2. এলোমেলো বন বিভিন্ন বৈশিষ্ট্যগুলির মধ্যে মিথস্ক্রিয়া সনাক্তকরণে ভাল হতে পারে তবে অত্যন্ত সহজাত বৈশিষ্ট্যগুলি এই ইন্টারঅ্যাকশনগুলিকে মাস্ক করতে পারে।

আরও সাধারণভাবে, এটিকে ওসামের রেজারের একটি বিশেষ কেস হিসাবে দেখা যেতে পারে । একটি সহজ মডেল পছন্দনীয়, এবং কিছু দিক থেকে, কম বৈশিষ্ট্যযুক্ত একটি মডেল সহজ। ন্যূনতম বর্ণনার দৈর্ঘ্যের ধারণা এটিকে আরও সুনির্দিষ্ট করে তোলে।


4
সংখ্যার স্থিতিশীলতা বাদ দিয়ে ওএলএস মডেল দ্বারা প্রদত্ত ভবিষ্যদ্বাণীটি বহুবিশ্বাস দ্বারা প্রভাবিত হওয়া উচিত নয়, কারণ ভবিষ্যদ্বাণী ভেরিয়েবলগুলির সামগ্রিক প্রভাব বহুবর্ণের উপস্থিতি দ্বারা আঘাত করা হয় না। এটি পৃথক ভবিষ্যদ্বাণীকারী ভেরিয়েবলগুলির প্রভাবের ব্যাখ্যা যা বহুবিশ্বাস উপস্থিত থাকলে বিশ্বাসযোগ্য নয়।
আকাওয়াল

11

(ধরে নিচ্ছেন আপনি তদারকি শিক্ষার বিষয়ে কথা বলছেন)

সম্পর্কযুক্ত বৈশিষ্ট্যগুলি সর্বদা আপনার মডেলকে খারাপ করে না, তবে তারা সর্বদা এটির উন্নতিও করে না।

তিনটি মূল কারণ রয়েছে যা আপনি সম্পর্কিত বৈশিষ্ট্যগুলি মুছে ফেলবেন:

  • শেখার অ্যালগরিদমকে আরও দ্রুত করুন

মাত্রিকতার অভিশাপের কারণে, কম বৈশিষ্ট্যগুলি সাধারণত গতির ক্ষেত্রে উচ্চ উন্নতি বোঝায়।

গতি যদি কোনও সমস্যা না হয় তবে সম্ভবত এই বৈশিষ্ট্যগুলি এখনই সরিয়ে ফেলবেন না (পরবর্তী পয়েন্টটি দেখুন)

  • ক্ষতিকারক পক্ষপাত হ্রাস

কীওয়ার্ডটি ক্ষতিকারক হচ্ছে। আপনার যদি পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্য থাকে তবে সেগুলি লক্ষ্যের সাথেও সম্পর্কিত হয়, আপনি সেগুলি রাখতে চান। একটি ভাল অনুমান করার জন্য আপনি বৈশিষ্ট্যগুলি ইঙ্গিত হিসাবে দেখতে পারেন, যদি আপনার কাছে দুটি ইঙ্গিত থাকে যা মূলত একই হয় তবে সেগুলি ভাল ইঙ্গিতগুলি থাকে তবে সেগুলি রাখা বুদ্ধিমানের কাজ।

নায়েভ বেয়েসের মতো কিছু অ্যালগরিদম আসলে "ইতিবাচক" পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্য থেকে সরাসরি উপকৃত হয়। এবং এলোমেলো বনের মতো অন্যরা তাদের থেকে পরোক্ষভাবে উপকৃত হতে পারে।

এ, বি এবং সি এর তিনটি বৈশিষ্ট্য রয়েছে তা কল্পনা করুন এ এবং বি লক্ষ্য এবং একে অপরের সাথে অত্যন্ত সংযুক্ত, এবং সি একেবারেই নয়। আপনি যদি 3 টি বৈশিষ্ট্যের মধ্যে নমুনা করেন তবে আপনার কাছে একটি "ভাল" বৈশিষ্ট্য পাওয়ার 2/3 সুযোগ রয়েছে, আপনি যদি উদাহরণস্বরূপ বি কে সরিয়ে থাকেন তবে এই সুযোগটি 1/2 এ নেমে আসে

অবশ্যই, যদি বৈশিষ্ট্যগুলি সংযুক্ত থাকে তবে প্রথমে সুপার তথ্য না থাকলে, অ্যালগরিদম খুব বেশি ক্ষতিগ্রস্থ হতে পারে না।

গল্পটির নৈতিকতা, গতির কারণে এই বৈশিষ্ট্যগুলি সরিয়ে ফেলা প্রয়োজনীয় হতে পারে তবে মনে রাখবেন যে আপনি আপনার অ্যালগরিদমটিকে প্রক্রিয়াটিতে আরও খারাপ করে দিতে পারেন। এছাড়াও, সিদ্ধান্ত গাছের মতো কিছু অ্যালগরিদমে এগুলিতে এমবেড করা বৈশিষ্ট্যযুক্ত বৈশিষ্ট্য রয়েছে।

এর সাথে মোকাবিলা করার একটি ভাল উপায় হ'ল বৈশিষ্ট্য নির্বাচনের জন্য একটি মোড়ক পদ্ধতি ব্যবহার করা। এটি অনর্থক বৈশিষ্ট্যগুলি কেবল তখনই সরিয়ে ফেলবে যদি তারা সরাসরি কার্য সম্পাদনে অবদান না দেয়। এগুলি যদি নিষ্পল বেয়েসের মতো কার্যকর হয় তবে সেগুলি রাখা হবে। (যদিও মনে রাখবেন যে মোড়কের পদ্ধতিগুলি ব্যয়বহুল এবং অত্যধিক মানসিক চাপের দিকে নিয়ে যেতে পারে)

  • আপনার মডেলটির ব্যাখ্যাযোগ্যতা

যদি আপনার মডেলটি ব্যাখ্যার প্রয়োজন হয়, আপনি এটিকে আরও সহজ করতে বাধ্য হতে পারেন be ওসামের রেজারটিও মনে আছে তা নিশ্চিত করে নিন। যদি আপনার মডেলটি কম বৈশিষ্ট্য সহ "এত বেশি" খারাপ না হয়, তবে আপনার সম্ভবত কম বৈশিষ্ট্য ব্যবহার করা উচিত।


2

কখনও কখনও পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলি - এবং প্রদত্ত তথ্যের সদৃশ - কোনও ভবিষ্যদ্বাণীমূলক সিস্টেমকে ক্ষতি করে না। সিদ্ধান্ত গাছের একটি উপহার বিবেচনা করুন, যার প্রত্যেকটিতে সারিগুলির একটি নমুনা এবং কলামের নমুনা বিবেচনা করা হয়। যদি দুটি কলাম অত্যন্ত সংযুক্ত থাকে তবে এমন সম্ভাবনা রয়েছে যেগুলির মধ্যে একটি নির্দিষ্ট গাছের কলামের নমুনায় নির্বাচিত হবে না এবং সেই গাছটি অবশিষ্ট কলামের উপর নির্ভর করবে। সম্পর্কযুক্ত বৈশিষ্ট্যগুলির অর্থ হ'ল আপনি খুব বেশি ভবিষ্যদ্বাণীমূলক গুণটি ছাড়াই ওভারফিটিং (কলাম স্যাম্পলিংয়ের মাধ্যমে) হ্রাস করতে পারবেন।


2

এটি করার জন্য ন্যূনতম প্রয়োজনীয় ভেরিয়েবলগুলির বিষয়ে সিদ্ধান্ত নেওয়া উচিত। এটি উপরে বর্ণিত হিসাবে ওসামের রেজারের ন্যূনতম বিবরণ দৈর্ঘ্যের উপরে আনুষ্ঠানিককরণ। আমি এটি পছন্দ করি।

আমি এই ঘটনাটিকে এইচডিডিটি এর মতো এমন কিছুতে চিহ্নিত করতে চাই যার অর্থ সবচেয়ে কার্যকর গাছ যা উপলব্ধ তথ্যের উপর ভিত্তি করে কোনও উত্সাহী সিদ্ধান্ত নেয় না এবং সিদ্ধান্ত গ্রহণের সমস্ত ঘটনা এড়িয়ে চলে যে অন্যথায় সেগুলি পরস্পর সম্পর্কিত হয়েছে তা না বুঝেই একাধিক ডেটা পয়েন্টে করা হতে পারে ।


ডেটাসায়েন্স.স্ট্যাকেক্সেঞ্জঞ্জ / ইউজারস / ৩৮৮8787 / ভ্যালেন্টিন- ক্যালোমে মন্তব্য সম্পর্কে : "সম্পর্কযুক্ত বৈশিষ্ট্যগুলি আপনার মডেলটিকে সর্বদা খারাপ করে না, তবে তারা সর্বদা এটির উন্নতিও করে না।" ভেরিয়েবলের মধ্যে উচ্চ সম্পর্কের কারণে আপনার মডেলটি আরও খারাপ হয় না তা আমি দেখতে পাচ্ছি না বা ভাবতে পারি না। কমপক্ষে এই অর্থে যে পছন্দটি দেওয়া হয়েছে: আমি বরং কম সংযুক্ত বৈশিষ্ট্যযুক্ত একটি নেটওয়ার্ক প্রশিক্ষণ দেব। এটি ব্যতীত অন্য যে কোনও কিছুই কার্যকরীভাবে এবং কার্যকরভাবে খারাপ। এটি সত্য নয় যখন উদাহরণ আছে?
tjborromeo

1

ডাটাবেসগুলিতে ডেটা সংরক্ষণের প্রেক্ষাপটে, সম্পর্কিত বৈশিষ্ট্যগুলি সংরক্ষণ করা বাঞ্ছনীয় তথ্য সংরক্ষণ করার মতোই যা এটি স্টোরেজ নষ্ট করতে পারে এবং টিপলস আপডেট বা সম্পাদনা করার পরে এটি অসামঞ্জস্যপূর্ণ ডেটাও হতে পারে।

যদি আমরা মডেলটিতে এতগুলি সংযুক্ত বৈশিষ্ট্যগুলি যুক্ত করি আমরা মডেলটিকে অপ্রয়োজনীয় বৈশিষ্ট্যগুলি বিবেচনা করতে পারি এবং আমাদের উচ্চ মাত্রার সমস্যার জন্য অভিশাপ থাকতে পারে , আমি অনুমান করি এটিই নির্মিত মডেলটি আরও খারাপ করার কারণ।

মেশিন লার্নিংয়ের প্রসঙ্গে আমরা সাধারণত PCAইনপুট নিদর্শনগুলির মাত্রা কমাতে ব্যবহার করি । এই পদ্ধতির কোনওভাবে (ব্যবহার করে SVD) সম্পর্কিত সম্পর্কযুক্ত বৈশিষ্ট্যগুলি অপসারণ বিবেচনা করা হয় এবং এটি একটি অপ্রচলিত পদ্ধতি। নিম্নলিখিত উদ্দেশ্যগুলি অর্জনের জন্য এটি করা হয়:

যদিও এটি ঠিক মত মনে হচ্ছে না তবে আমি এমন লোকদের দেখেছি যারা অতিরিক্ত সাফল্য এড়াতে পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলি অপসারণ করে তবে আমি এটি একটি ভাল অনুশীলন বলে মনে করি না। আরও তথ্যের জন্য আমি আপনাকে এখানে দেখার জন্য সুপারিশ ।

আর একটি কারণ হ'ল গভীর শেখার মডেলগুলিতে, যেমন MLPsআপনি সংযুক্ত বৈশিষ্ট্যগুলি যুক্ত করেন, আপনি কেবল অপ্রয়োজনীয় তথ্য যুক্ত করেন যা মডেলটিতে আরও গণনা এবং পরামিতি যুক্ত করে।


0

এই প্রশ্নের উত্তর মডেলটির উদ্দেশ্যটির উপর নির্ভর করে। অনুমান হিসাবে, অত্যন্ত সংযুক্ত বৈশিষ্ট্যগুলি একটি সুপরিচিত সমস্যা। উদাহরণস্বরূপ, দুটি বৈশিষ্ট্য একে অপরের সাথে এবং y এর সাথে অত্যন্ত সংযুক্ত, উভয়ই অনুমান মডেলটিতে তুচ্ছ হিসাবে প্রকাশিত হতে পারে, সম্ভবত একটি গুরুত্বপূর্ণ ব্যাখ্যামূলক সংকেত অনুপস্থিত। সুতরাং, অনুমান হিসাবে সাধারণত এটি পাতলা করার পরামর্শ দেওয়া হয়।

যদি আপনার তত্ত্বাবধানে থাকা শিক্ষণ পূর্বাভাসের জন্য থাকে তবে উত্তর - প্রচলিত জ্ঞানের বিরোধী - সাধারণত বিপরীত হয়। অত্যন্ত নির্ভরশীল বৈশিষ্ট্যগুলি সরিয়ে ফেলার একমাত্র কারণ হ'ল স্টোরেজ এবং গতির উদ্বেগ। এগুলি ব্যতীত, বৈশিষ্ট্যগুলির বিষয়ে যা গুরুত্বপূর্ণ তা হ'ল তারা ভবিষ্যদ্বাণীতে অবদান রাখে এবং তাদের ডেটা মানের যথেষ্ট কিনা।

নয়েজ-প্রভাবিত বৈশিষ্ট্যগুলি y এর সাথে সম্পর্কিত বৈশিষ্ট্যগুলির চেয়ে অন্যান্য বৈশিষ্ট্যগুলির সাথে কম সংযুক্ত থাকতে হবে। অতএব, ভ্যালেন্টিনের উদাহরণে উপরে উল্লিখিত হিসাবে, দ্বিতীয়টি পাতলা করে পূর্বের অনুপাত বাড়িয়ে তুলবে।

বিশেষত, এলোমেলো বন এবং কেএনএন এর মতো পদ্ধতিগুলি সমস্ত বৈশিষ্ট্যকে সমানভাবে বিবেচনা করে, তাই সম্পর্কিত বৈশিষ্ট্যগুলি পাতলা করে সরাসরি তাদের সংকেত-থেকে-শব্দ অনুপাতকে হ্রাস করে।

পদ্ধতিগুলি যা একক গাছ, "খাঁটি" লাসো বা নিউরাল নেটওয়ার্কগুলির মতো স্বতঃ-নির্বাচিত বৈশিষ্ট্যগুলি কম আক্রান্ত হতে পারে। তবে তারপরেও, দীর্ঘ গণনার সময় ব্যতীত, মিশ্রণটিতে পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলি বজায় রাখা থেকে ভবিষ্যদ্বাণী অনুসারে হ্রাস করার মতো খুব কমই রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.