4.1 为什么惩罚线性回归方法如此有效-Python机器学习——预测分析核心算法在线阅读

语速1.0: 2.0

进度0:

4.1 为什么惩罚线性回归方法如此有效

下面几个特点使得惩罚线性回归方法非常有效。

✦ 模型训练足够快速。

✦ 变量的重要性信息。

✦ 部署时的预测足够快速。

✦ 在各种问题上性能可靠，尤其对样本并不明显多于属性的属性矩阵，或者非常稀疏的矩阵。希望模型为稀疏解（即只使用部分属性进行预测的吝啬模型）。

✦ 问题可能适合使用线性模型来解决。

这就是作为机器学习模型设计者应该了解的关于线性模型的特点。

4.1.1 足够快速地估计系数

训练时间的重要性体现在下面几个方面。一方面是因为模型的构建往往是迭代进行的。

你会发现模型训练是特征选择以及特征工程的基础。你会挑选一些看起来合理的特征来训练模型并且在预留数据上评估模型，接下来想继续提升性能，你会做些修改，然后重复尝试上面过程。如果基本的训练可以很快完成，那么就不会浪费太多时间来等结果（如果喝咖啡的话，你就会少摄入太多的咖啡因，提升健康）。这会使得开发过程加快。另一方面是如果条件改变的话，可能需要重新训练模型。如果你在分类微博消息，模型可能需要与词汇的更新同步。如果你在训练面向金融市场的自动交易模型，条件会一直在变。

即使不考虑特征重构，训练时间的多少也会决定你的应变速度。

4.1.2 变量的重要性信息

本书涵盖的算法类型可以导出变量的重要性信息。变量的重要性信息包括对模型属性进行排序。属性顺序表明其对模型的价值。排序高的属性要比排序低的属性对模型准确度的贡献更大。变量重要性是一个关键信息。首先，该信息在特征工程中有助于对属性进行剪枝。好的特征会排到列表前面，应该保留，不太好的特征会排到最后，构建模型时可以去掉除了对特征工程有帮助，了解哪些变量在驱动着预测结果可以帮助你去更好地理解模型以及向其他人（你的老板、你的客户以及公司领域专家等）解释模型。属性重要性与人们的期望越靠近，人们对模型的效果越有信心。如果一些排序比较奇怪，你可能对问题会有新的认识。讨论关于属性的重要性可以为提升你的开发团队的性能带来新的启发。

借由快速训练以及计算变量重要性方面的优势，对于任何新的问题都可以先尝试惩罚线性回归方法，这可以使你快速了解问题，并决定哪些特征是有用的。

4.1.3 部署时的预测足够快速

对一些问题来讲，快速计算预测结果是一个关键的性能参数。在一些电子市场（如互联网广告以及自动交易），先得到答案就会先获利。对于许多其他应用（如垃圾过滤），尽管答案并非严格是否，预测时间的快慢也很重要。不论哪种算法，其预测速度很难超越线性模型。线性模型在预测时，仅需要对包含的每个属性进行一次相乘以及一次相加操作。

4.1.4 性能可靠

性能可靠意味着惩罚线性回归方法对不同数据分布及不同数据规模的问题都会产生一个较好的解。对于一些问题，性能最佳。在部分情况下，使用一点技巧，方法就会超过其他所有模型。本章会对这些技巧做一些讨论。第 6 章也会讨论该话题，并介绍使用惩罚线性回归以及集成方法来提升性能的思路。

4.1.5 稀疏解

稀疏解意味着模型中的许多系数等于 0，这也意味着在线预测时，相乘以及相加的次数会减少。更重要的是，稀疏模型（非 0 的系数较少）更容易解释，即更容易看到模型中的哪些属性在驱动着预测结果。

4.1.6 问题本身可能需要线性模型

最后一个使用惩罚线性回归的原因是线性模型可能是解决方案本身的需要。保险支付可以作为需要线性模型的一个例子，其中合同往往包含支付公式，而公式本身又包含变量以及系数。如果使用集成模型，其中每棵树有一千个参数、整体包含数千棵树，那么这样的模型几乎不可能用文字解释清楚。医药测试是另一个需要使用线性形式进行统计推断的例子。

4.1.7 什么时候使用集成方法

不使用惩罚线性回归的主要原因是使用其他技术可能获得更好的性能，比如集成方法。

正如第 3 章指出的，集成方法对复杂问题（如极度不规则的决策曲面）或者可以利用大量数据进行求解的问题性能表现最佳。此外，集成方法在度量变量重要性时，可以生成更多关于属性与预测结果关系的信息。例如，集成方法会发现 2 阶甚至更高阶的重要性信息，即哪些变量组合的重要性大于单独对这些变量的重要性加和。这些信息可以在惩罚线性回归的基础上进一步提升性能。第 6 章会详细介绍这一点。

Python机器学习——预测分析核心算法

上一页 | 返回目录 | 下一页

4.1 为什么惩罚线性回归方法如此有效

4.1.1 足够快速地估计系数

4.1.2 变量的重要性信息

4.1.3 部署时的预测足够快速

4.1.4 性能可靠

4.1.5 稀疏解

4.1.6 问题本身可能需要线性模型

4.1.7 什么时候使用集成方法

上一页 | 返回目录 | 下一页

Author:

本书评论

Python机器学习——预测分析核心算法

上一页 | 返回目录 | 下一页

4.1 为什么惩罚线性回归方法如此有效

4.1.1 足够快速地估计系数

4.1.2 变量的重要性信息

4.1.3 部署时的预测足够快速

4.1.4 性能可靠

4.1.5 稀疏解

4.1.6 问题本身可能需要线性模型

4.1.7 什么时候使用集成方法

上一页 | 返回目录 | 下一页

类似书籍

Author:

本书评论