站点图标 多伦多书苑

Python机器学习手册:从数据预处理到深度学习

10.2 二值特征的方差阈值化

问题描述

有一组二值特征数据(即只有两个分类),现在要移除其中方差较小的特征。

解决方案

挑出方差大于给定阈值的二值特征:

讨论

和数值型特征一样,挑选高信息量的分类特征的方法之一就是查看它们的方差。在二值特征(即伯努利随机变量)中,方差的计算公式如下:

Var(x)=p(1-p)

其中,p是观察值属于第1个分类的概率。通过设置p的值,我们可以删除大部分观察值都属于同一个类别的特征。

Author:

退出移动版