16.5 处理不均衡的分类
问题描述
训练一个简单的分类器模型。
解决方案
在scikit-learn中使用LogisticRegression来训练一个逻辑回归模型:

讨论
和scikit-learn中的很多其他学习算法一样,LogisticRegression自带了一个处理不均衡分类的方法。如果数据集中的分类特别不均衡,而且在数据预处理过程中并没有解决这个问题,就可以使用class_weight参数给分类设置权重,确保数据集中的各个分类是均衡的。具体地说,就是balanced参数值会自动给各分类加上权重,而权重值与分类出现频率的倒数相关:

这里wj是分类j的权重,n是观察值的数量,nj是属于分类j的观察值的数量,k是分类的总数。



本书评论