站点图标 多伦多书苑

Python机器学习手册:从数据预处理到深度学习

6.2 解析并清洗HTML

问题描述

提取HTML文件中的文本数据,而且仅提取某段文本。

解决方案

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库,提供了很多选项。我们用它对HTML进行解析并提取数据:

讨论

尽管Beautiful Soup这个名字很奇怪,但它在处理HTML方面的能力还是很强大的。通常, Beautiful Soup是用于抓取在线网页的,不过它也可以很轻松地提取嵌在HTML中的文本。

本书不会对Beautiful Soup操作进行全面介绍,这超出了本书的范围。从上述解决方案可以看出,用它解析HTML代码并提取想要的数据非常简单。

延伸阅读

● Beautiful Soup(http://bit.ly/2pwZcYs

Author:

退出移动版