站点图标 多伦多书苑

Python机器学习手册:从数据预处理到深度学习

16.5 处理不均衡的分类

问题描述

训练一个简单的分类器模型。

解决方案

在scikit-learn中使用LogisticRegression来训练一个逻辑回归模型:

讨论

和scikit-learn中的很多其他学习算法一样,LogisticRegression自带了一个处理不均衡分类的方法。如果数据集中的分类特别不均衡,而且在数据预处理过程中并没有解决这个问题,就可以使用class_weight参数给分类设置权重,确保数据集中的各个分类是均衡的。具体地说,就是balanced参数值会自动给各分类加上权重,而权重值与分类出现频率的倒数相关:

这里wj是分类j的权重,n是观察值的数量,nj是属于分类j的观察值的数量,k是分类的总数。

Author:

退出移动版