10.2 二值特征的方差阈值化
问题描述
有一组二值特征数据(即只有两个分类),现在要移除其中方差较小的特征。
解决方案
挑出方差大于给定阈值的二值特征:

讨论
和数值型特征一样,挑选高信息量的分类特征的方法之一就是查看它们的方差。在二值特征(即伯努利随机变量)中,方差的计算公式如下:
Var(x)=p(1-p)
其中,p是观察值属于第1个分类的概率。通过设置p的值,我们可以删除大部分观察值都属于同一个类别的特征。
有一组二值特征数据(即只有两个分类),现在要移除其中方差较小的特征。
挑出方差大于给定阈值的二值特征:

和数值型特征一样,挑选高信息量的分类特征的方法之一就是查看它们的方差。在二值特征(即伯努利随机变量)中,方差的计算公式如下:
Var(x)=p(1-p)
其中,p是观察值属于第1个分类的概率。通过设置p的值,我们可以删除大部分观察值都属于同一个类别的特征。
本书评论