站点图标 多伦多书苑

Python机器学习手册:从数据预处理到深度学习

10.3 处理高度相关性的特征

问题描述

特征矩阵中的某些特征具有较高的相关性。

解决方案

使用相关矩阵检查是否存在较高相关性的特征,如果存在,则删除其中的一个:

讨论

在机器学习中经常会遇到特征高度相关的问题。如果两个特征高度相关,那么它们所包含的信息就非常相似,因此这两个特征就存在冗余。

解决这个问题的方法很简单:从特征集中删除一个与其他特征高度相关的特征即可。

在上述解决方案中,首先创建一个所有特征的相关矩阵:

最后,从每一对高度相关的特征中删除一个。

Author:

退出移动版