6.2 解析并清洗HTML
问题描述
提取HTML文件中的文本数据,而且仅提取某段文本。
解决方案
Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库,提供了很多选项。我们用它对HTML进行解析并提取数据:
讨论
尽管Beautiful Soup这个名字很奇怪,但它在处理HTML方面的能力还是很强大的。通常, Beautiful Soup是用于抓取在线网页的,不过它也可以很轻松地提取嵌在HTML中的文本。
本书不会对Beautiful Soup操作进行全面介绍,这超出了本书的范围。从上述解决方案可以看出,用它解析HTML代码并提取想要的数据非常简单。
延伸阅读
● Beautiful Soup(http://bit.ly/2pwZcYs)
本书评论