第 5 章 使用惩罚线性方法来构建预测模型
第 2 章我们了解了多个不同的数据集,目标是理解数据,理解不同属性与预测标签之间的关系,理解问题本质。本章将再次使用这些数据,通过一些例子来展示使用惩罚线性回归方法来构建预测模型的过程。一般来讲,模型构建可以分为两个或者多个阶段。
第 4 章我们提到的构建惩罚线性回归模型包含二步。第一步是在整个数据集上训练获得系数曲线。第二步是运行交叉验证来寻找最佳的样本外性能,并提取该性能对应的模型。
确定模型能达到的最高性能是模型设计最难的部分,对于本章的绝大部分例子,我们只呈现第 2 步。在整个数据集上进行训练是为了得到最佳的模型系数,这并不会改变对错误(或者说算法性能)的估计。
本章将在一系列不同的问题上运行算法:回归问题、分类问题、包含类别属性的问题、以及标签与属性存在非线性关系的问题。本章也会进一步验证基扩展是否会提升预测性能。对每个例子,本章都会介绍为了达到一个可部署的线性模型,中间会采取的关键步骤,也会考虑一些备选方案,目的是得到最佳性能。
本章内容



本书评论