13.1 拟合一条直线
问题描述
训练一个能表示特征和目标向量之间线性关系的模型。
解决方案
使用线性回归(scikit-learn中的LinearRegression):


讨论
线性回归假设特征与目标向量之间为近似线性的关系。也就是说,特征对目标向量的影响(也称为系数、权重或参数)是恒定的。为了便于解释,这里仅使用两个特征来训练模型,模型的形式如下:

其中,ŷ是预测目标,xi是单个特征的数据,
和
是通过拟合模型得到的相关系数, ϵ是误差。完成模型拟合之后,可以查看每个参数的值。例如,可以使用intercept_查看
的值(也称为偏差或截距):

对于
和x
, x 则可以用coef_来查看:

在本数据集中,目标值是波士顿住宅价格(20世纪70年代)的中值,单位为千美元。因此,数据集中第一处住宅的价格是:

使用predict方法,我们可以预测该住宅的价值:


不错,预测值和真实值只相差560.24美元!
线性回归的主要优点是可解释性,因为模型的系数代表特征每单位的变化对目标向量的影响。例如,本解决方案的第一个特征是每个居民的犯罪次数。在我们的模型中,这个特征的系数约为-0.35,如果将这个系数乘以1000(因为目标向量是以千美元计数的房价),就可以计算人均犯罪每增加一次以后房价的变化:

这表示人均犯罪量每增加1次会使房屋价格降低约350美元!



本书评论