13.1 拟合一条直线
问题描述
训练一个能表示特征和目标向量之间线性关系的模型。
解决方案
使用线性回归(scikit-learn中的LinearRegression):
讨论
线性回归假设特征与目标向量之间为近似线性的关系。也就是说,特征对目标向量的影响(也称为系数、权重或参数)是恒定的。为了便于解释,这里仅使用两个特征来训练模型,模型的形式如下:
其中,ŷ是预测目标,xi是单个特征的数据,
对于
在本数据集中,目标值是波士顿住宅价格(20世纪70年代)的中值,单位为千美元。因此,数据集中第一处住宅的价格是:
使用predict方法,我们可以预测该住宅的价值:
不错,预测值和真实值只相差560.24美元!
线性回归的主要优点是可解释性,因为模型的系数代表特征每单位的变化对目标向量的影响。例如,本解决方案的第一个特征是每个居民的犯罪次数。在我们的模型中,这个特征的系数约为-0.35,如果将这个系数乘以1000(因为目标向量是以千美元计数的房价),就可以计算人均犯罪每增加一次以后房价的变化:
这表示人均犯罪量每增加1次会使房屋价格降低约350美元!
