小结
本章的目标是打基础,让你可以自信地使用 Python 包来实现算法。本章将输入数据描述为一个用于表示结果的列向量和一个用于表示属性的矩阵。第 3 章提到预测模型的复杂度需要与问题复杂度以及数据集规模相一致,并且给出线性回归模型的调参方法。本章在此基础上介绍了几种最小化算法,其中可调的系数惩罚项被添加到最小二乘法的错误惩罚项中。正如本章所展示的,利用系数个数作为惩罚项可以对系数进行压缩,从而实现对模型复杂度的调整。我们看到如何使用样本外数据上的错误来调整模型的复杂度,从而获得最优性能。
本章描述了两种当代方法用于求解惩罚线性回归最小化问题,介绍如何使用 Python来实现算法,从而帮助你掌握算法的核心代码。本章以普通回归问题(数值特征以及数值目标)作为例子对算法进行深度介绍,也介绍了线性回归的几种扩展方法,扩大了线性回归的使用场景,这些扩展包括解决二分类问题、多分类问题、属性与结果非线性关系的问题以及非数值属性问题。
第 5 章将使用 Python 包来解决一系列精心挑选的问题,从而巩固学习到的内容。通过本章所学内容,相信你已经对 Python 包中的不同参数和方法熟悉了很多。
参考文献
1. Bradley Efron, Trevor Hastie, Iain Johnstone, and Robert Tibshirani (2004). “Least Angle Regression.” A nnals of Statistics , 32 (2), 407-499.
2. Jerome H. Friedman, Trevor Hastie and Rob Tibshirani (2010). “Regularization Paths for Generalized Linear Models via Coordinate Descent.” Journal of Statistical Software, vol. 33,issue 1, Feb 2010.



本书评论