F-regression
পৃথকভাবে লেবেলের সাথে বৈশিষ্ট্যগুলি সম্পর্কিত করতে এবং মান পর্যবেক্ষণের মতো একই বৈশিষ্ট্য ব্যবহার করে বৈশিষ্ট্যগুলির তুলনা করা কি ?
আমি প্রায়শই আমার সহকর্মীদের F regression
কাছ থেকে তাদের মেশিন লার্নিং পাইপলাইনে বৈশিষ্ট্য নির্বাচনের জন্য ব্যবহার করতে দেখেছি sklearn
:
sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)`
কিছু দয়া করে আমাকে বলুন - কেন এটি লেবেল / অবনতিশীল ভেরিয়েবলের সাথে কেবল সংযুক্তি হিসাবে একই ফলাফল দেয়?
F_regression
বৈশিষ্ট্য নির্বাচন ব্যবহার করে কী সুবিধা হবে তা আমার কাছে পরিষ্কার নয় ।
আমার কোডটি এখানে: আমি mtcars
থেকে ডেটাসেট ব্যবহার করছি R
:
import pandas as pd
import numpy as np
from sklearn import feature_selection
from sklearn.linear_model import LinearRegression
#....load mtcars dataset into a pandas dataframe called "df", not shown here for conciseness
# only using these numerical columns as features ['mpg', 'disp', 'drat', 'wt']
# using this column as the label: ['qsec']
model = feature_selection.SelectKBest(score_func=feature_selection.f_regression,\
k=4)
results = model.fit(df[columns], df['qsec'])
print results.scores_
print results.pvalues_
# Using just correlation coefficient:
columns = ['mpg', 'disp', 'drat', 'wt']
for col in columns:
lm = LinearRegression(fit_intercept=True)
lm.fit(df[[col]], df['qsec'])
print lm.score(df[[col]], df['qsec'])
সন্দেহজনক হিসাবে, বৈশিষ্ট্যগুলির র্যাঙ্কিং হুবহু এক:
scores using f_regression:
[ 6.376702 6.95008354 0.25164249 0.94460378]
scores using coefficient of determination:
0.175296320261
0.18809385182
0.00831830818303
0.0305256382746
আপনি দেখতে পাচ্ছেন, দ্বিতীয় বৈশিষ্ট্যটি সর্বোচ্চ অবস্থানে রয়েছে, প্রথম বৈশিষ্ট্যটি দ্বিতীয়, চতুর্থ বৈশিষ্ট্যটি তৃতীয় এবং তৃতীয় বৈশিষ্ট্যটি সর্বশেষে, উভয় ক্ষেত্রেই রয়েছে।
এমন কোনও ঘটনা আছে যেখানে F_regression
প্রভু বিভিন্ন ফলাফল দেবেন, বা কোনও উপায়ে বৈশিষ্ট্যগুলিকে আলাদাভাবে স্থান দেবেন?
সম্পাদনা: সংক্ষেপে বলতে চাই, আমি জানতে চাই যে এই দুটি র্যাঙ্কিংয়ের বৈশিষ্ট্যগুলি কখনই আলাদা ফলাফল দেয়:
1) পৃথকভাবে ফলাফলের সাথে তাদের প্রতিরোধ করার সময় তাদের এফ-পরিসংখ্যান অনুসারে র্যাঙ্কিং বৈশিষ্ট্যগুলি (এটি স্ক্লার্নই এটি করে) এবং,
2) তাদের আর-স্কোয়ার্ড মান অনুসারে র্যাঙ্কিং বৈশিষ্ট্যগুলি যখন ফলাফলের সাথে আবার ব্যক্তিগতভাবে পৃথক করে।
sklearn
এটি এফ-রিগ্রেশন হিসাবে উল্লেখ করে, এটি সম্ভবত কিছুটা বিভ্রান্তিকর কারণ এটি আসলে একটি পরীক্ষা। scikit-learn.org/stable/modules/generated/…