小结
本章介绍了集成方法的背景知识。集成方法由两层算法组成。集成方法训练成百上千个叫作基学习器的低层算法,上层的算法控制基学习器的训练,使这些基学习器近乎相互独立,这样将这些基学习器组合起来就可以减少组合后的误差方差。Bagging 方法对训练数据集进行自举抽样(bootstrap sample, 在一个原始样本中进行有放回的重复抽样),然后基于这些抽样训练基学习器。梯度提升方法在每一步对输入数据进行抽样,然后基于这一样本训练基学习器。梯度提升法训练每个基学习器的目标是前期所有基学习器的累积误差。随机森林是将 Bagging 作为高层算法,将修改版的二元决策树作为基学习器。随机森林的基学习器是二元决策树,分割点的选择是基于所有属性的一个随机取样,而不是考虑所有属性。Python 的梯度提升工具包允许将随机森林作为梯度提升法的基学习器。第 7章会详细介绍这一点。
本章展示了集成方法每个上层算法的代码和随机森林基学习器的“摹本”,目的是让读者理解每个算法的工作机制。这种方式有助于更好地理解 Python 对应算法包的选项、输入变量、归一化初始值等。下一章将介绍如何使用 Python 工具包解决惩罚线性回归章节中遇到的问题。
参考文献
1. Panda Biswanath , Joshua S. Herbach , Sugato Basu , and Roberto J. Bayardo .( 2009 ).
PLANET: Massively Parallel Learning of Tree Ensembles with MapReduce. Proceedings of the35th International Conference on Very Large Data Bases. Retrieved from http://research.google.com/pubs/pub36296.html .
2. Leo Breiman . (September, 1994 ). Bagging Predictors. Technical Report No. 421.
Department of Statistics, UC Berkeley. Retrieved from http://statistics.berkeley.edu/sites/default/files/tech-reports/421.pdf.
3. Leo Breiman . (2001). Random forests . Machine Learning g , 45 : 5 – 32 . Retrieved from http://oz.berkeley.edu/~breiman/randomforest2001.pdf .
4. J.H. Friedman . (2001). Greedy Function Approximation: A Gradient Boosting Machine .
Annals of Statistics,29(5): 1189–1232.Retrieved from http://statweb.stanford.edu/~jhf/ftp/trebst.pdf.
5. J.H. Friedman . (2002). Stochastic Gradient Boosting . Computational Statistics and Data Analysis , 38 (4): 367– 378 . Retrieved from http://statweb.stanford.edu/~jhf/ftp/stobst.pdf .
本书评论