6.3 移除标点
问题描述
移除文本数据的特征中的标点。
解决方案
定义一个函数,将一个标点字典作为参数传入translate:
讨论
translate因其非凡的性能成为Python中非常流行的函数。上述解决方案先创建一个punctuation字典,将Unicode中的标点字符作为key,None作为value,然后将字符串中所有在punctuation字典中出现过的字符(即标点)转换成None,高效地移除它们。当然还有更易于理解的移除标点的方案,这个方案有点像黑客解决方案,但是它远快于其他的方案。
标点也包含信息(对比一下“是?”和“是!”),认识到这个事实是很重要的。在创建特征时难免要删除标点,但是如果这个标点很重要,还是要考虑将其保留。
本书评论