নিয়মিতকরণ অ্যালগরিদম ব্যবহার করার সময় আমাদের কী এখনও বৈশিষ্ট্য নির্বাচন করা দরকার?


20

পরিসংখ্যান শেখার অ্যালগরিদম চালানোর আগে বৈশিষ্ট্য নির্বাচন পদ্ধতিগুলি (এলোমেলো বন বৈশিষ্ট্য গুরুত্বের মান বা ইউনিভারিয়েট বৈশিষ্ট্য নির্বাচন পদ্ধতি ইত্যাদি) ব্যবহার করার জন্য আমার একটি প্রশ্ন রয়েছে।

আমরা ওভারফিটিং এড়াতে জানি যে আমরা ওজন ভেক্টরগুলিতে নিয়মিতকরণ জরিমানা প্রবর্তন করতে পারি।

সুতরাং আমি যদি লিনিয়ার রিগ্রেশন করতে চাই, তবে আমি এল 2 বা এল 1 বা এমনকি ইলাস্টিক নেট নিয়মিতকরণ পরামিতিগুলি প্রবর্তন করতে পারি। অল্প দ্রষ্টব্য সমাধান পেতে, এল 1 জরিমানা বৈশিষ্ট্য নির্বাচনে সহায়তা করে।

তাহলে কী এখনও লসোর মতো এল 1 নিয়মিতকরণের রিগ্রেশন চালানোর আগে বৈশিষ্ট্য নির্বাচন করা প্রয়োজন? প্রযুক্তিগতভাবে লাসো আমাকে এল 1 পেনাল্টি দ্বারা বৈশিষ্ট্যগুলি হ্রাস করতে সহায়তা করছে তবে আলগো চালানোর আগে বৈশিষ্ট্য নির্বাচন কেন প্রয়োজন?

আমি একটি গবেষণা নিবন্ধ পড়ে বলেছিলাম যে আনোভা তখন এসভিএম একা এসভিএম ব্যবহারের চেয়ে ভাল পারফরম্যান্স দেয়। এখন প্রশ্ন হ'ল এসভিএম সহজাতভাবে এল 2 আদর্শ ব্যবহার করে নিয়মিতকরণ করে। মার্জিনটি সর্বাধিক করার জন্য, এটি ওজন ভেক্টরের আদর্শকে হ্রাস করছে। সুতরাং এটি এর উদ্দেশ্যমূলক কার্যটিতে নিয়মিতকরণ করছে। তাহলে প্রযুক্তিগতভাবে অ্যালগরিদম যেমন এসভিএম বৈশিষ্ট্য নির্বাচন পদ্ধতি সম্পর্কে বিরক্ত করা উচিত নয় ?. তবে প্রতিবেদনে এখনও বলা হয়েছে যে সাধারণ এসভিএমের আগে ইউনিভারিটেড ফিচার নির্বাচন করা আরও শক্তিশালী।

চিন্তা আছে কেউ?


একটি প্রশ্ন আমি উত্থাপন করতে হবে যে SVM নিয়ন্ত্রণ কার্নেল পদ্ধতিতে কীভাবে কাজ করে? L2 আদর্শ রেগ ইনপুটগুলি স্বাভাবিক হওয়ার উপর নির্ভর করে। তবে আপনি যদি কার্নেল ব্যবহার করেন (যেমন বহুপদী) তবে আপনার কার্যকর ইনপুটগুলি (যেমন বহুপদী শক্তিগুলি) আর সাধারণীকরণ করা হয় না।
seanv507

উত্তর:


17

বৈশিষ্ট্য নির্বাচন কখনও কখনও নিয়মিত মডেলগুলির কর্মক্ষমতা উন্নত করে, তবে আমার অভিজ্ঞতাতে এটি সাধারণত জেনারালাইজেশন কর্মক্ষমতা আরও খারাপ করে তোলে। এর কারণ হ'ল আমাদের মডেল সম্পর্কে আমরা আরও বেশি পছন্দ করি (প্যারামিটারগুলির মানগুলি, বৈশিষ্ট্যগুলির পছন্দ, হাইপার-প্যারামিটারগুলির সেটিং, কার্নেলের পছন্দ ...) সহ আমাদের আরও বেশি ডেটা তৈরি করতে হবে এই পছন্দগুলি নির্ভরযোগ্যভাবে। সাধারণত আমরা একটি নির্দিষ্ট সীমাবদ্ধ তথ্যের উপর মূল্যায়ন করা কিছু মানদণ্ডকে হ্রাস করে এই পছন্দগুলি করি, যার অর্থ এই মানদণ্ডটি অবশ্যম্ভাবীভাবে শূন্য-বিহীন বৈকল্পিকতা ধারণ করে। ফলস্বরূপ, আমরা যদি মানদণ্ডকে খুব আগ্রাসন করে কমাতে পারি তবে আমরা এটি অতিরিক্ত ফিট করতে পারি, অর্থাত্ যে মূল্যবানকে নির্দিষ্ট করা হয় তার উপর নির্ভর করে এমন বৈশিষ্ট্যগুলির কারণে আমরা মানদণ্ডকে হ্রাস করতে পারে এমন পছন্দগুলি বেছে নিতে পারি, তার পরিবর্তে এটি একটি উত্পাদন করবে পারফরম্যান্সে আসল উন্নতি।

এখন এসভিএম হ'ল সাধারণীকরণের পারফরম্যান্সের একটি আবদ্ধের আনুমানিক বাস্তবায়ন যা মাত্রিকতার উপর নির্ভর করে না, তাই নীতিগতভাবে, আমরা বৈশিষ্ট্য নির্বাচন না করে ভাল পারফরম্যান্সের আশা করতে পারি, তবে শর্ত থাকে যে নিয়মিতকরণের পরামিতিগুলি সঠিকভাবে নির্বাচিত হয়। বেশিরভাগ বৈশিষ্ট্য নির্বাচন পদ্ধতিতে এমন কোনও পারফরম্যান্স "গ্যারান্টি" থাকে না।

এল 1 পদ্ধতির জন্য, আমি অবশ্যই বৈশিষ্ট্য নির্বাচন নিয়ে বিরক্ত করব না, কারণ এল 1 মাপদণ্ড বৈশিষ্ট্যগুলি ছাঁটাই করার ক্ষেত্রে সাধারণত কার্যকর। এটি কার্যকর হওয়ার কারণটি হ'ল এটি এমন একটি অর্ডার প্রেরণা করে যাতে বৈশিষ্ট্যগুলি মডেলটি প্রবেশ করে এবং ছেড়ে দেয়, যা বৈশিষ্ট্যগুলি নির্বাচনের ক্ষেত্রে উপলভ্য পছন্দগুলির সংখ্যা হ্রাস করে এবং তাই ওভার-ফিটিংয়ের প্রবণতা কম।

বৈশিষ্ট্য নির্বাচনের সর্বোত্তম কারণ হ'ল কোন বৈশিষ্ট্যগুলি প্রাসঙ্গিক / গুরুত্বপূর্ণ তা খুঁজে বের করা। বৈশিষ্ট্য নির্বাচনের সবচেয়ে খারাপ কারণ হ'ল নিয়মিত মডেলগুলির জন্য কর্মক্ষমতা উন্নত করা, সাধারণত এটি বিষয়গুলিকে আরও খারাপ করে তোলে। তবে কিছু ডেটাসেটের ক্ষেত্রে এটি একটি বড় পার্থক্য আনতে পারে, তাই সবচেয়ে ভাল কাজটি হ'ল এটি চেষ্টা করা এবং একটি দৃase়, পক্ষপাতহীন পারফরম্যান্স মূল্যায়ন স্কিম (যেমন নেস্টেড ক্রস-বৈধকরণ) আপনার সেই ডেটাসেটগুলির মধ্যে একটি কিনা তা খুঁজে বের করার জন্য ব্যবহার করা।


নেস্টেড ক্রস-ভ্যালিডিয়েশন বলতে কী বোঝ? এটি কি কে-ফোল্ড ক্রস বৈধতা N বার প্রয়োগ করে?
yasin.yazici

5

প্রচুর লোকেরা মনে করেন যে এক্সট্রেনাস ভেরিয়েবলের যত্ন নেওয়ার জন্য নিয়মিতকরণই যথেষ্ট এবং লক্ষ্যটি পূর্বাভাসের যথাযথতা যখন আপনি যথাযথভাবে নিয়মিত করেন, আংশিক পুলিং করেন, শ্রেণিবদ্ধ মডেল তৈরি করেন ইত্যাদি ক্ষেত্রে কোনও পরিবর্তনশীল নির্বাচনের প্রয়োজন নেই । উদাহরণস্বরূপ, যদি একটি নির্দিষ্ট পরিবর্তনশীল জন্য একটি প্যারামিটার অনুমান নিচে সব পথ নিয়মিত করা হয় বা সম্পূর্ণরূপে মডেল থেকে সরানো হয় ( ) সত্যিই doesn ' ভবিষ্যদ্বাণীজনিত সমস্যাগুলিতে একটি বড় পার্থক্য তৈরি করুন।β = .0001 β = 0jβ^j=.0001β^j=0

যাইহোক, এখনও সম্পূর্ণরূপে একটি ভেরিয়েবল অপসারণ করার কারণ রয়েছে।

  1. কখনও কখনও লক্ষ্যটি ভবিষ্যদ্বাণীমূলক নির্ভুলতা না হয়ে বিশ্ব ঘটনার ব্যাখ্যা। কখনও কখনও আপনি জানতে চান যে ভেরিয়েবলগুলি কী করে এবং কোনও নির্দিষ্ট নির্ভরশীল ভেরিয়েবলকে প্রভাবিত করে না। এই ধরণের পরিস্থিতিতে, পার্সিমোনিয়াস মডেলটি বোঝার এবং ব্যাখ্যা করার জন্য পছন্দসই উপায়
  2. আপনি ঝুঁকির জন্য নিজেকে সেট আপ করছেন। যদি আপনি কোনও চলক যা সত্যই প্রভাব ফেলে না তবে আপনি নিজেকে এই সম্ভাবনার জন্য সেট আপ করছেন যে আপনি যদি বিভিন্ন ডেটা সংগ্রহ করেন তবে চলক প্রভাবের ফলাফল হবে। মডেলগুলির জন্য এটি বিশেষত প্রাসঙ্গিক যা বিভিন্ন অ্যাপ্লিকেশন সহ বারবার রিফিট পায়।β^j
  3. গুণগত কারণ - কম ভেরিয়েবলের একটি মডেল সাধারণত দ্রুত সঞ্চালিত হয় এবং আপনাকে এই বহিরাগত ভেরিয়েবলগুলির জন্য ডেটা সংরক্ষণ করতে হবে না।

2
হাই ট্রাইনাডোস্ট্যাট, আমি আপনার পয়েন্ট 1 এবং 3 এর সাথে সম্পূর্ণ একমত But আপনি যদি একই সেট ডেটার সাথে বৈশিষ্ট্য নির্বাচন করেন, তবে আপনার ভুল বৈশিষ্ট্য সেটটি বেছে নেওয়ার ঝুঁকি রয়েছে। কারণ একটি এলোমেলো ভেরিয়েবলটি ডেটাতে লক্ষ্য ভেরিয়েবলের সাথে ভালভাবে সম্পর্কযুক্ত বলে মনে হতে পারে।
gstar2002

আমি মনে করি আমি পয়েন্ট 2 দিয়ে যা বলছি তা হ'ল আপনি যদি একবারে একবারে কোনও মডেলকে পুনরায় প্রতিশ্রুতি দেন (আসুন 100 বার বলুন) একবারে একবারে আপনি একটি যা প্রভাবের ফলাফলের জন্য যথেষ্ট বড় মান। যদিও বেশিরভাগ সময় আপনি একটি ছোট মান পান। আমি বুঝতে পারি যে এটি বাস্তব বিশ্বে খুব ঘন ঘন ঘটতে পারে না এমনটা একটু আধটু। β^j
ট্রায়নাডোস্ট্যাট

0

আমি মনে করি না যে ওভারফিট করা আমাদের প্রথম স্থানে বৈশিষ্ট্য নির্বাচন করার প্রয়োজন। প্রকৃতপক্ষে, ওভারফিটিং এমন একটি জিনিস যা আমরা যদি আমাদের মডেলটিকে পর্যাপ্ত ডেটা না দিয়ে থাকি এবং বৈশিষ্ট্য নির্বাচনটি আমাদের অ্যালগরিদমকে যে পরিমাণ ডেটা দিয়ে যায় তা আরও হ্রাস করে।

আমি পরিবর্তে এটিই বলব যে বৈশিষ্ট্য নির্বাচনগুলি এমন মডেলগুলির জন্য যা নিজেরাই বৈশিষ্ট্যগুলির গুরুত্ব নির্ধারণ করার ক্ষমতা রাখে না, বা অ্যালগরিদমগুলির জন্য যা তাদের নিজেরাই এই গুরুত্ব তাত্পর্যকে করতে হয় যদি খুব কম দক্ষ হয় তবে তাদের জন্য প্রয়োজনীয় পদক্ষেপ হিসাবে প্রয়োজনীয় ।

উদাহরণস্বরূপ ইউক্লিডিয়ান দূরত্বের ভিত্তিতে একটি সাধারণ কে-নিকটতম প্রতিবেশী অ্যালগরিদম ধরুন। এটি সর্বদা বৈশিষ্ট্যগুলিকে চূড়ান্ত শ্রেণিবিন্যাসের সমান ওজন বা গুরুত্ব হিসাবে দেখায়। সুতরাং আপনি যদি এটি 100 টি বৈশিষ্ট্য দেন তবে এর মধ্যে কেবল তিনটিই আপনার শ্রেণিবদ্ধকরণ সমস্যার জন্য প্রাসঙ্গিক, তবে এই অতিরিক্ত বৈশিষ্ট্যগুলির সমস্ত শব্দটি তিনটি গুরুত্বপূর্ণ বৈশিষ্ট্য থেকে প্রাপ্ত তথ্যকে পুরোপুরি ডুবিয়ে দেবে, এবং আপনি কোনও কার্যকর ভবিষ্যদ্বাণী পাবেন না। আপনি যদি এর পরিবর্তে সমালোচনামূলক বৈশিষ্ট্যগুলি আগেই নির্ধারণ করেন এবং কেবল সেগুলি শ্রেণিবদ্ধের কাছে দিয়ে দেন তবে এটি আরও ভাল কাজ করবে (খুব বেশি দ্রুত হওয়ার কথা উল্লেখ না করা)।

অন্যদিকে, এলোমেলো বন শ্রেণিবদ্ধের দিকে তাকান। প্রশিক্ষণের সময়, এটি সমস্ত বৈশিষ্ট্যের উপসেট থেকে চয়ন করে একটি অনুকূল বিভাজন সন্ধান করে কোন বৈশিষ্ট্যগুলি সর্বাধিক দরকারী তা স্বয়ংক্রিয়ভাবে নির্ধারণ করবে। অতএব, তিনটি ভালকে খুঁজে পেতে এটি 97 টি অকেজো বৈশিষ্ট্যগুলির মধ্য দিয়ে চলে যাওয়ার ক্ষেত্রে আরও অনেক ভাল কাজ করবে। অবশ্যই, আপনি যদি আগে থেকে নির্বাচনটি করেন তবে এটি আরও দ্রুত চলবে, তবে এর শ্রেণিবদ্ধকরণ শক্তি সাধারণত প্রাসঙ্গিক না হলেও এটিকে প্রচুর অতিরিক্ত বৈশিষ্ট্য দিয়ে খুব বেশি ক্ষতিগ্রস্থ হবে না।

অবশেষে, নিউরাল নেটওয়ার্কগুলি দেখুন look আবার এটি এমন একটি মডেল যা অপ্রাসঙ্গিক বৈশিষ্ট্যগুলি উপেক্ষা করার ক্ষমতা রাখে এবং ব্যাকপ্রোপেশন দ্বারা প্রশিক্ষণ সাধারণত আকর্ষণীয় বৈশিষ্ট্যগুলি ব্যবহার করে রূপান্তরিত করে। যাইহোক, এটি পরিচিত যে ইনপুটগুলি "সাদা" করা হয়, অর্থাত্ ইউনিট ভেরিয়েন্সে এবং সরানো ক্রস পারস্পরিক সম্পর্কের (লেকান এট আল, 1998) দিয়ে স্কেল করা হলে স্ট্যান্ডার্ড ট্রেনিং অ্যালগরিদম আরও দ্রুত রূপান্তরিত হয় । অতএব, যদিও আপনাকে বৈশিষ্ট্য নির্বাচন করার কঠোরভাবে প্রয়োজন হয় না, এটি ইনপুট ডেটার প্রিপ্রোসেসিং করতে খাঁটি পারফরম্যান্সের শর্তে প্রদান করতে পারে।

সুতরাং সংক্ষেপে, আমি বলব বৈশিষ্ট্য নির্বাচনের শ্রেণিবিন্যাস শক্তি এবং একটি শেখার পদ্ধতির গণনীয় দক্ষতা বাড়ানোর সাথে ওভারফিটিংয়ের সাথে কম সম্পর্ক রয়েছে। এটির কতটুকু প্রয়োজন তা প্রশ্নে থাকা পদ্ধতির উপর নির্ভর করে।


3
(1) আমি আপনার প্রথম প্রস্তাবের সাথে একমত নই। বৈশিষ্ট্য নির্বাচন তথ্যের পরিমাণ হ্রাস করে না তবে বৈশিষ্ট্যের সংখ্যা হ্রাস করে। উদাহরণগুলির (নমুনাগুলি) সংখ্যা একই থাকে এবং এটি অত্যধিক মানায় সহায়তা করতে পারে কারণ, শ্রেণিবদ্ধকারীটির ডেটা ফিট করার জন্য কম পরামিতি (এটি যদি প্যারামেট্রিক মডেল হয়) প্রয়োজন। কম প্যারামিটারগুলির অর্থ হ'ল প্রতিনিধিত্ব শক্তি কম, তাই বেশি পরিমাণে ফিট হওয়ার সম্ভাবনাও কম। (২) আপনি কেএনএন এর আগে ব্যবহারের জন্য উল্লিখিত বৈশিষ্ট্য নির্বাচনের অ্যালগরিদম কী ধরণের? এটি কীভাবে জানবে কোন বৈশিষ্ট্যগুলি আরও কার্যকর হবে?
yasin.yazici

@ ইয়াসিন.ইয়াজিচি: বলুন যে আপনি হস্তাক্ষর অঙ্কের শ্রেণিবিন্যাস করছেন এবং আপনি উপরের বামদিকের পিক্সেল ব্যতীত সমস্ত কিছু ফেলে দিন। আপনি কি কেবল নিজের পরিমাণের ডেটা কমিয়ে দেননি?
সিএফএইচ

@ chf না, এটি কেবলমাত্র বৈশিষ্ট্যের সংখ্যা হ্রাস করে। পাছে না ডেটাসেটটি এমএনআইএসটি হ'ল প্রতিটি নমুনার জন্য 4৮৪ টি বৈশিষ্ট্য এবং 00০০০০ নমুনা রয়েছে। আপনি যদি আপনার বৈশিষ্ট্যগুলির কিছু অংশ ফেলে দেন তবে আপনার কাছে এখনও 60000 নমুনা রয়েছে।
yasin.yazici

@ ইয়াসিন.ইয়াজিচি: আমার বক্তব্যটি হল, নমুনাগুলির সংখ্যা ডেটা পরিমাণের মতো নয়। ডেটা হ'ল "নমুনা এক্স বৈশিষ্ট্যগুলি" এর সম্পূর্ণ ম্যাট্রিক্স।
সিএফএইচ

বৈশিষ্ট্য নির্বাচন (এবং প্রায়শই করতে পারে) অত্যধিক ফিট করে। আপনি যদি নিয়মিত প্রশিক্ষণার্থী ব্যবহার করে থাকেন এবং বৈশিষ্ট্যের গুরুত্ব সম্পর্কে চিন্তা না করেন তবে আপনার কাছে প্রচুর ডেটা এবং শক্তিশালী বৈধকরণের স্কিম না থাকলে আমি বৈশিষ্ট্য নির্বাচনের জন্য খুব বেশি ব্যবহার দেখতে পাচ্ছি না।
ফায়ারব্যাগ

0

আমি মনে করি আপনার কাছে প্যারামিটারগুলি দৃ rob়তার সাথে অনুকূলকরণের জন্য পর্যাপ্ত সংখ্যক ডেটা পয়েন্ট না থাকলে আপনি কিছু পরিবর্তনশীল অপসারণ করতে বৈশিষ্ট্য নির্বাচন করতে পারেন। তবে আমি এটির খুব বেশি কাজ করার পরামর্শ দেব না যেহেতু আপনি যে মডেলটি চান তার সিগন্যালটি হারাতে পারেন।

এছাড়াও এমন কিছু বৈশিষ্ট্য থাকতে পারে যা আপনি আপনার মডেলগুলিতে চান না এমন ব্যবসায়ের বোঝার ভিত্তিতে যা আপনি মুছে ফেলতে চাইতে পারেন want


0

লাসোর ক্ষেত্রে, উপদ্রব বৈশিষ্ট্যগুলি সরাতে ডেটা প্রিপ্রোসেসিং করা আসলে বেশ সাধারণ। এটি করার উপায়গুলি নিয়ে আলোচনা করে সাম্প্রতিক একটি কাগজের জন্য, দয়া করে লাসো সমস্যার জন্য জিয়াং এট আল এর স্ক্রিনিং টেস্টগুলি দেখুন । আমি যে কাগজপত্রগুলি দেখেছি সেগুলিতে উল্লিখিত সাধারণ অনুপ্রেরণা হ'ল সমাধানের গণনার ভারসাম্য হ্রাস করা।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.