第 5 章使用惩罚线性方法来构建预测模型-Python机器学习——预测分析核心算法在线阅读

语速1.0: 2.0

进度0:

第 5 章使用惩罚线性方法来构建预测模型

第 2 章我们了解了多个不同的数据集，目标是理解数据，理解不同属性与预测标签之间的关系，理解问题本质。本章将再次使用这些数据，通过一些例子来展示使用惩罚线性回归方法来构建预测模型的过程。一般来讲，模型构建可以分为两个或者多个阶段。

第 4 章我们提到的构建惩罚线性回归模型包含二步。第一步是在整个数据集上训练获得系数曲线。第二步是运行交叉验证来寻找最佳的样本外性能，并提取该性能对应的模型。

确定模型能达到的最高性能是模型设计最难的部分，对于本章的绝大部分例子，我们只呈现第 2 步。在整个数据集上进行训练是为了得到最佳的模型系数，这并不会改变对错误（或者说算法性能）的估计。

本章将在一系列不同的问题上运行算法：回归问题、分类问题、包含类别属性的问题、以及标签与属性存在非线性关系的问题。本章也会进一步验证基扩展是否会提升预测性能。对每个例子，本章都会介绍为了达到一个可部署的线性模型，中间会采取的关键步骤，也会考虑一些备选方案，目的是得到最佳性能。