6.2 解析并清洗HTML-Python机器学习手册：从数据预处理到深度学习在线阅读 - 多伦多书苑

为使本公益资源网站能继续提供免费阅读，请勿屏蔽广告。谢谢！报告弹出广告被滥用。

你的浏览器屏蔽了google广告，请去除弹窗阻止器，以支持我们的免费服务，谢谢合作！

x

语速55: 80

进度0:

上一页 | 返回目录 | 下一页

6.2 解析并清洗HTML

问题描述

提取HTML文件中的文本数据，而且仅提取某段文本。

解决方案

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库，提供了很多选项。我们用它对HTML进行解析并提取数据：

6.2 解析并清洗HTML

讨论

尽管Beautiful Soup这个名字很奇怪，但它在处理HTML方面的能力还是很强大的。通常， Beautiful Soup是用于抓取在线网页的，不过它也可以很轻松地提取嵌在HTML中的文本。

本书不会对Beautiful Soup操作进行全面介绍，这超出了本书的范围。从上述解决方案可以看出，用它解析HTML代码并提取想要的数据非常简单。

延伸阅读

● Beautiful Soup（http://bit.ly/2pwZcYs）

上一页 | 返回目录 | 下一页

Author:

相关

本书评论