16.1 训练二元分类器
问题描述
训练一个简单的二元分类器模型。
解决方案
使用scikit-learn的LogisticRegression训练一个逻辑回归模型:


讨论
逻辑回归是一种被广泛使用的二元分类器(也就是说,目标向量只能取两种值)。在逻辑回归中,线性模型(比如, β₀ + β₁ x) )被包含在一个逻辑函数
, (也叫作sigmoid函数)中。比如:

其中,P(yi=1|X)是第i个观察值的目标值yi属于分类1的概率,X是训练集的数据,β₀和 β₁是要学习的参数,e是欧拉数(Euler's number)。逻辑函数的作用就是把函数的输出值限定在0到1之间,这样才能被解释为概率。如果P(yi=1|X)大于0.5,那么yi的预测分类为分类1,否则就是分类0。
在scikit-learn中,我们可以使用LogisticRegression学习一个逻辑回归模型。一旦被训练出来,这个模型就可以用于预测新观察值的分类:

在这个例子中,观察值被预测为分类1。我们还可以进一步查看这个观察值属于各个分类的概率:

我们的观察值有18.8%的概率属于分类0,81.1%的概率属于分类1。



本书评论