3.3 特征选择_Python机器学习算法与实战-QQ阅读女生中文现言网

书名：Python机器学习算法与实战
作者名：孙玉林余本国
本章字数：1118字
更新时间：2025-02-18 02:36:38

3.3　特征选择

特征选择是使用某些统计方法，从数据中选择出有用的特征，把数据中无用的特征抛弃，该方法不会产生新的特征，常用的方式有基于统计方法的特征选择、利用递归消除法选择有用的特征、利用机器学习算法选择重要的特征等。本节将以一个关于酒的多分类数据集为例，介绍相关特征选择的使用。数据准备的程序如下：

从输出结果可以知道，该数据集有178个样本，13个特征，包含3类数据，每类分别包含59、71和48个样本。

3.3.1　基于统计方法

基于统计方法的特征选择，常用的方法有剔除低方差的特征；使用卡方值、互信息、方差分析等方式选择K个特征。下面介绍如何使用Python完成这些方式的特征选择。

剔除低方差的特征可以通过sklearn.feature_selection模块的VarianceThreshold来完成，相关程序如下：

运行程序后，从输出结果可以发现只保留了8个方差大于0.5的特征，可以通过下面的方式确定哪些特征被保留。在输出结果中True表示对应的特征被保留。

sklearn.feature_selection模块提供了SelectKBest方式，其可以通过相关统计信息，从数据集中选择指定数目的特征数量，其中利用方差分析的F统计量选择5个特征的程序如下：

使用SelectKBest，利用卡方值选择5个特征的程序如下：

使用SelectKBest，利用互信息选择5个特征的程序如下：

针对回归问题的K个最高得分特征的选择问题，可以使用f_regression（回归分析的F统计量）、mutual_info_regression（回归分析的互信息）等统计量进行特征选择。

3.3.2　基于递归消除特征法

递归消除特征法是使用一个基模型进行多轮训练，每轮训练后，消除若干不重要的特征，再基于新的特征集进行下一轮训练。它使用模型精度来识别哪些属性（或属性组合）对预测目标属性的贡献最大，然后消除无用的特征。sklearn中提供了两种递归消除特征法，分别是递归消除特征法（RFE）和交叉递归消除特征法（RFECV）。

使用随机森林分类器作为基模型，利用递归消除特征法从数据中选择9个最佳特征，程序如下：