আমি এই টিউটোরিয়ালটি দেখছি: https://www.dataquest.io/mission/75/improving- আপনার- জমা
অধ্যায় 8 এ, সেরা বৈশিষ্ট্যগুলি সন্ধান করে এটি নীচের কোডটি দেখায়।
import numpy as np
from sklearn.feature_selection import SelectKBest, f_classif
predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"]
# Perform feature selection
selector = SelectKBest(f_classif, k=5)
selector.fit(titanic[predictors], titanic["Survived"])
# Get the raw p-values for each feature, and transform from p-values into scores
scores = -np.log10(selector.pvalues_)
# Plot the scores. See how "Pclass", "Sex", "Title", and "Fare" are the best?
plt.bar(range(len(predictors)), scores)
plt.xticks(range(len(predictors)), predictors, rotation='vertical')
plt.show()
কে = 5 কী করছে, যেহেতু এটি কখনই ব্যবহৃত হয় না (গ্রাফটি এখনও সমস্ত বৈশিষ্ট্য তালিকাভুক্ত করে, আমি কে = 1 বা কে = "সমস্ত" ব্যবহার করি)? এটি কীভাবে সেরা বৈশিষ্ট্যগুলি নির্ধারণ করে, তারা যে পদ্ধতিটি ব্যবহার করতে চায় তার চেয়ে আলাদা (তারা লজিস্টিক রিগ্রেশন, এলোমেলো বন, বা যাই হোক না কেন)