MGPHPZJ

Hello, friends! Welcome!

在上一章中,我们详细介绍了如何预处理和准备机器学习数据。在本章中,让我们详细了解数据特征选择及其中涉及的各个方面。

数据特征选择的重要性
机器学习模型的性能与用于训练它的数据特征成正比。如果提供给它的数据特征无关紧要,ML模型的性能将受到负面影响。另一方面,使用相关数据功能可以提高ML模型的准确性,尤其是线性和逻辑回归。

现在出现的问题是什么是自动特征选择?它可以被定义为一个过程,借助它我们在数据中选择与我们感兴趣的输出或预测变量最相关的那些特征。它也称为属性选择。

以下是在对数据建模之前自动选择功能的一些好处 :

  • 在数据建模之前执行特征选择将减少过度拟合。
  • 在数据建模之前执行特征选择将提高ML模型的准确性。
  • 在数据建模之前执行特征选择将减少训练时间。

特征选择技术
以下是我们可以用来在Python中建模ML数据的自动特征选择技术。

单变量选择
在统计测试的帮助下,这种特征选择技术在选择这些特征时非常有用,与预测变量具有最强的关系。我们可以借助scikit-learn Python库的SelectKBest0class实现单变量特征选择技术。

递归特征消除
顾名思义,RFE(递归特征消除)特征选择技术以递归方式移除属性并使用其余属性构建模型。 我们可以借助于scekit-learn Python库的RFE类来实现RFE特征选择技术。

主成分分析(PCA)
PCA,通常称为数据简化技术,是非常有用的特征选择技术,因为它使用线性代数将数据集转换为压缩形式。 我们可以借助PCA类的scikit-learn Python库来实现PCA特征选择技术。 我们可以在输出中选择主要组件的数量。

功能重要性
顾名思义,使用特征重要性技术来选择重要性特征。 它基本上使用训练有素的监督分类器来选择特征。 我们可以借助于scikit-learn Python库的ExtraTreeClassifier类来实现这种特征选择技术。

Leave a Reply

Your email address will not be published. Required fields are marked *