বৈশিষ্ট্য নির্বাচন পদ্ধতিগুলির কার্যকারিতা কীভাবে তুলনা করবেন?


10

বেশ কয়েকটি বৈশিষ্ট্য নির্বাচন / পরিবর্তনশীল নির্বাচনের পন্থা রয়েছে (উদাহরণস্বরূপ গায়ন এবং এলিসিফ, 2003 ; লিউ এট আল।, ২০১০ ):

  • ফিল্টার পদ্ধতি (যেমন, পারস্পরিক সম্পর্ক ভিত্তিক, এন্ট্রপি ভিত্তিক, এলোমেলো বন গুরুত্ব ভিত্তিক),
  • মোড়কের পদ্ধতি (যেমন, ফরোয়ার্ড সন্ধান, পাহাড়ী আরোহণের সন্ধান) এবং
  • এম্বেড থাকা পদ্ধতিগুলি যেখানে বৈশিষ্ট্য নির্বাচন করা মডেল শেখার অংশ।

অনেকগুলি প্রকাশিত অ্যালগরিদমগুলি আর, পাইথন ইত্যাদির মতো মেশিন লার্নিং সরঞ্জামগুলিতেও প্রয়োগ করা হয়

বিভিন্ন বৈশিষ্ট্য নির্বাচনের অ্যালগরিদমগুলির তুলনা এবং প্রদত্ত সমস্যা / ডেটাসেটের জন্য সেরা পদ্ধতিটি নির্বাচন করার জন্য উপযুক্ত পদ্ধতি কী হবে? আরও একটি প্রশ্ন হ'ল, এমন কোনও ম্যাট্রিক রয়েছে যা বৈশিষ্ট্য নির্বাচন অ্যালগরিদমের কার্যকারিতা পরিমাপ করে?

উত্তর:


4

এটি একটি কঠিন সমস্যা এবং গবেষকরা প্রচুর অগ্রগতি করছেন।

আপনি যদি তত্ত্বাবধানে থাকা বৈশিষ্ট্য নির্বাচনের সন্ধান করছেন তবে আমি লাসো এবং এর রূপগুলি সুপারিশ করব । তত্ত্বাবধানে শেখার সাথে অ্যালগরিদমের মূল্যায়ন খুব সোজা: আপনি পরীক্ষার ডেটাতে যে কোনও মেট্রিক চয়ন করেন তার সম্পাদন।

লাসোর দুটি প্রধান সতর্কতা হ'ল (১) নির্বাচিত বৈশিষ্ট্যগুলি স্বয়ংক্রিয়ভাবে কোনও ইন্টারঅ্যাকশন সনাক্ত করতে পারে না, সুতরাং আপনার নিজের সমস্ত বৈশিষ্ট্য একটি অগ্রাধিকার (যেমন, মডেলটির মাধ্যমে চালানোর আগে) তৈরি করতে হবে এবং (২) লাসো অজানা সনাক্ত করবে না লিনিয়ার সম্পর্ক (যেমন, চতুর্ভুজ সম্পর্ক )।

এই দুটি ক্যাভ্যাটকে কাটিয়ে ওঠার একটি উপায় হ'ল গ্রেডিয়েন্ট বুস্টেড মেশিনগুলি ব্যবহার করা যা বৈশিষ্ট্য নির্বাচন স্বয়ংক্রিয়ভাবে করে। এটি লক্ষ করার মতো যে জিবিএমের পরিসংখ্যানগত বৈশিষ্ট্যগুলি লাসোর তুলনায় কিছুটা অস্পষ্ট।

আপনি যদি অকার্যকর বৈশিষ্ট্য নির্বাচনের সন্ধান করছেন তবে মনে হয় এই গবেষকরা একই রকম নিয়মিতকরণ পদ্ধতির ব্যবহার করেছেন , তবে এই বিশেষ ক্ষেত্রে মূল্যায়ন কম সুস্পষ্ট হয়ে যায়। লোকেরা PCA / SVD বা K-Means এর মতো বিভিন্ন কিছুর প্রচুর চেষ্টা করে যা শেষ পর্যন্ত তথ্যের সাথে একটি লিনিয়ার সান্নিধ্য পেতে চেষ্টা করবে।

সেক্ষেত্রে পারফরম্যান্সের সাধারণ ব্যবস্থাগুলি হ'ল পুনর্নির্মাণ ত্রুটি বা ক্লাস্টারগুলির আরএমএসই।

সফ্টওয়্যারটির ক্ষেত্রে, আর পাইথন উভয়েরই জিবিএম, ল্যাসো, কে-মিনস, এসভিডি এবং পিসিএ রয়েছে। আর পিথনের জন্য জিএলএমনেট এবং এক্সজিবিস্ট এবং স্কাইলনার প্রাসঙ্গিক গ্রন্থাগার are


1

আমি সর্বদা বৈশিষ্ট্য নির্বাচনকে চূড়ান্ত ফলাফলের পদক্ষেপ হিসাবে বিবেচনা করি।

এখানে, আমি কোনওভাবে নির্বাচন এবং মাত্রিকতা হ্রাস বৈশিষ্ট্যগুলি মিশ্রিত করি, যার কিছু লক্ষ্য থাকতে পারে এবং বিভ্রান্ত হতে পারে।

কিছু সাধারণ ব্যবহার:

  • মেশিন লার্নিংয়ে গণনা হ্রাস: নির্বাচনের গুণমান চূড়ান্ত শিক্ষার ফলাফলের একটি কারণ এবং স্পষ্টতই, শিখার কাজটি করার গতি

  • ডেটা ভিজ্যুয়ালাইজেশন / বোঝাপড়া, যেখানে আপনি শেষ পর্যন্ত একাধিক মাত্রা একত্রিত করেন। এটি যখন আকর্ষণীয় স্টাফগুলি লুকায় না এবং যখন এটি বোধগম্য হয় তখন ভাল

  • শেখার ফলাফলগুলির সরলীকরণ, তবুও তাদের বোধগম্য করা (যেমন মূল কারণ বিশ্লেষণ)। সহজ তবে ভাল তবে মানের দিক থেকে যথেষ্ট

  • আগের জবাব অনুসারে ফিটের উপর নিয়ন্ত্রণ রাখা

  • ...

সুতরাং, আমি মনে করি না যে সাধারণ নিয়ম আছে (যেমন সর্বদা এমএল তে থাকে) তবে এটি সমস্যার ক্ষেত্রে কেস।

শুধু একটি ব্যক্তিগত বিশ্বাস ...


0

এটি নির্দিষ্ট পরিস্থিতি এবং আপনি যে সমস্যার সমাধান করতে চান তার উপর খুব নির্ভরশীল। কিছু সাধারণ নিয়ম রয়েছে, উদাহরণস্বরূপ, মোড়কের পদ্ধতিগুলি আরও নমনীয় এবং অতিরিক্ত মানানসই প্রবণতা।

বৈশিষ্ট্য নির্বাচনের পারফরম্যান্সটি শেখার কার্যের সামগ্রিক পারফরম্যান্স দ্বারা মূল্যায়ন করা যায় উদাহরণস্বরূপ, কেউ বিভিন্ন পদ্ধতির সাহায্যে বৈশিষ্ট্যগুলি নির্বাচন করতে পারেন এবং তারপরে শ্রেণিবিন্যাসের জন্য এই বিভিন্ন বৈশিষ্ট্য সেটগুলি ব্যবহার করতে পারেন এবং প্রাপ্ত শ্রেণিবদ্ধদের যথার্থতার সাথে তুলনা করতে পারেন।

কিছু জৈবিক অ্যাপ্লিকেশনগুলির মতো কিছু দৃশ্যের আরেকটি গুরুত্বপূর্ণ বিষয় হ'ল নির্বাচিত বৈশিষ্ট্যগুলির ব্যাখ্যা এবং ফলাফলগুলি উদাহরণস্বরূপ একটি ক্লাস্টারিং সমস্যায়, নির্বাচিত বৈশিষ্ট্যগুলির অর্থ এবং ফলস্বরূপ ক্লাস্টারগুলি কার্য সম্পাদনের একটি অত্যন্ত গুরুত্বপূর্ণ পরিমাপ।


0

আপনাকে ইনপুট ভেরিয়েবলের সাবসেটগুলি আউটপুট ভেরিয়েবলকে কীভাবে প্রভাবিত করে তা আগে থেকেই জেনে বিভিন্ন পদ্ধতি ব্যবহার করে প্রাসঙ্গিক বৈশিষ্ট্য সনাক্ত করার চেষ্টা করে কৃত্রিম পরীক্ষার একটি সেট চালাতে হবে।

ভাল কৌশলটি হ'ল বিভিন্ন ডিস্ট্রিবিউশনের সাথে এলোমেলো ইনপুট ভেরিয়েবলগুলির একটি সেট রাখা এবং আপনার বৈশিষ্ট্য নির্বাচন অ্যালগোসগুলি প্রকৃতপক্ষে প্রাসঙ্গিক না হিসাবে তাদের ট্যাগ করে তা নিশ্চিত করা।

আর একটি কৌশল নিশ্চিত করা হবে যে সারিগুলি সারি করার পরে প্রযোজ্য স্টপকে প্রাসঙ্গিক হিসাবে শ্রেণীবদ্ধ করা হিসাবে ট্যাগ করা হয়।

উপরে বলেছেন ফিল্টার এবং মোড়ক উভয় পদ্ধতির ক্ষেত্রেই প্রযোজ্য।

এছাড়াও কেসগুলি হ্যান্ডেল করার বিষয়ে নিশ্চিত হন যখন পৃথকভাবে নেওয়া হয় (একে একে) ভেরিয়েবলগুলি লক্ষ্যতে কোনও প্রভাব না দেখায়, কিন্তু যখন যৌথভাবে নেওয়া হয় তখন দৃ strong় নির্ভরশীলতা প্রকাশ করে। উদাহরণটি একটি সুপরিচিত XOR সমস্যা হবে (পাইথন কোডটি দেখুন):

import numpy as np
import matplotlib.pyplot as plt
from sklearn.feature_selection import f_regression, mutual_info_regression,mutual_info_classif

x=np.random.randn(5000,3)
y=np.where(np.logical_xor(x[:,0]>0,x[:,1]>0),1,0)

plt.scatter(x[y==1,0],x[y==1,1],c='r',marker='x')
plt.scatter(x[y==0,0],x[y==0,1],c='b',marker='o')
plt.show()
print(mutual_info_classif(x, y)) 

আউটপুট:

পাইথন 3 এক্সওআর চিত্রণ

[0. 0. 0.00429746]

সুতরাং, সম্ভবত শক্তিশালী (তবে অবিচ্ছিন্ন) ফিল্টারিং পদ্ধতি (আউট- এবং ইনপুট ভেরিয়েবলগুলির মধ্যে পারস্পরিক তথ্যের গণনা) ডেটাশেটের কোনও সম্পর্ক সনাক্ত করতে সক্ষম হয় নি। আমরা নিশ্চিতভাবে জানি যে এটি 100% নির্ভরতা এবং আমরা এক্স এর 100% নির্ভুলতার সাথে ওয়াইয়ের পূর্বাভাস দিতে পারি can

বৈশিষ্ট্য নির্বাচন পদ্ধতিগুলির জন্য এক ধরণের মানদণ্ড তৈরি করা ভাল ধারণা, কেউ কি অংশ নিতে চান?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.