6.1 清洗文本
问题描述
对一些非结构化的文本数据进行基本的清洗。
解决方案
大部分基本的文本清洗操作用Python的常用字符串操作即可完成,其中strip、replace和split这三个操作用得最多:
也可以创建并应用自定义的转换函数:
最后,还可以使用正则表达式来做一些复杂的字符串操作:
讨论
大多数文本数据在被用于生成特征之前都需要进行清洗。Python的标准字符串操作能完成大部分基本的文本清洗操作。在现实场景中,我们通常需要自定义清洗函数(比如, capitalizer)完成一些组合的清洗任务,再将该函数应用于文本数据。
延伸阅读
●《Python正则表达式的初学者教程》(http://bit.ly/2HTGZuu)
