Python机器学习手册：从数据预处理到深度学习

1 秒前

6.2 解析并清洗HTML

提取HTML文件中的文本数据，而且仅提取某段文本。

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库，提供了很多选项。我们用它对HTML进行解析并提取数据：

尽管Beautiful Soup这个名字很奇怪，但它在处理HTML方面的能力还是很强大的。通常， Beautiful Soup是用于抓取在线网页的，不过它也可以很轻松地提取嵌在HTML中的文本。

本书不会对Beautiful Soup操作进行全面介绍，这超出了本书的范围。从上述解决方案可以看出，用它解析HTML代码并提取想要的数据非常简单。