সিলেক্টবেস্ট কীভাবে কাজ করে?

15

আমি এই টিউটোরিয়ালটি দেখছি: https://www.dataquest.io/mission/75/improving- আপনার- জমা

অধ্যায় 8 এ, সেরা বৈশিষ্ট্যগুলি সন্ধান করে এটি নীচের কোডটি দেখায়।

import numpy as np
from sklearn.feature_selection import SelectKBest, f_classif

predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"]

# Perform feature selection
selector = SelectKBest(f_classif, k=5)
selector.fit(titanic[predictors], titanic["Survived"])

# Get the raw p-values for each feature, and transform from p-values into scores
scores = -np.log10(selector.pvalues_)

# Plot the scores.  See how "Pclass", "Sex", "Title", and "Fare" are the best?
plt.bar(range(len(predictors)), scores)
plt.xticks(range(len(predictors)), predictors, rotation='vertical')
plt.show()

কে = 5 কী করছে, যেহেতু এটি কখনই ব্যবহৃত হয় না (গ্রাফটি এখনও সমস্ত বৈশিষ্ট্য তালিকাভুক্ত করে, আমি কে = 1 বা কে = "সমস্ত" ব্যবহার করি)? এটি কীভাবে সেরা বৈশিষ্ট্যগুলি নির্ধারণ করে, তারা যে পদ্ধতিটি ব্যবহার করতে চায় তার চেয়ে আলাদা (তারা লজিস্টিক রিগ্রেশন, এলোমেলো বন, বা যাই হোক না কেন)

python scikit-learn

— ব্যবহারকারী
সূত্র

কে সর্বোচ্চ স্কোর অনুযায়ী বৈশিষ্ট্য নির্বাচন করুন ।

— শ্রীনী

11

সিলেক্টবেস্ট ক্লাস কেবল একটি ফাংশন ব্যবহার করে বৈশিষ্ট্যগুলি স্কোর করে (এই ক্ষেত্রে f_classif তবে অন্যরা হতে পারে) এবং তারপরে "কে সর্বাধিক স্কোরিং বৈশিষ্ট্যগুলি বাদ দিয়ে সমস্ত অপসারণ করে"। http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html#sklearn.feature_selection.SelectKBest

সুতরাং এর ধরণের একটি মোড়ক, এখানে গুরুত্বপূর্ণ বিষয়টি বৈশিষ্ট্যগুলি স্কোর করতে আপনি ব্যবহৃত ফাংশন।

স্কেলার্নে অন্যান্য বৈশিষ্ট্য নির্বাচনের কৌশলগুলির জন্য পড়ুন: http://scikit-learn.org/stable/modules/feature_selection.html

এবং হ্যাঁ, f_classif এবং chi2 আপনি যে ভবিষ্যদ্বাণীমূলক পদ্ধতি ব্যবহার করেন তার থেকে পৃথক।

— pgalilea
সূত্র

2

আপনি যদি সিলেক্টর.ফিট_ট্রান্সফর্ম () ব্যবহার করেন তবে কে প্যারামিটারটি গুরুত্বপূর্ণ, যা ফিচার সেটটি সেরা 'কে' এ কমিয়ে দেওয়া হয়েছে এমন একটি নতুন অ্যারে ফিরিয়ে দেবে।

— ক্রিস থম্পসন
সূত্র