站点图标 多伦多书苑

Python机器学习手册:从数据预处理到深度学习

6.1 清洗文本

问题描述

对一些非结构化的文本数据进行基本的清洗。

解决方案

大部分基本的文本清洗操作用Python的常用字符串操作即可完成,其中strip、replace和split这三个操作用得最多:

也可以创建并应用自定义的转换函数:

最后,还可以使用正则表达式来做一些复杂的字符串操作:

讨论

大多数文本数据在被用于生成特征之前都需要进行清洗。Python的标准字符串操作能完成大部分基本的文本清洗操作。在现实场景中,我们通常需要自定义清洗函数(比如, capitalizer)完成一些组合的清洗任务,再将该函数应用于文本数据。

延伸阅读

●《Python正则表达式的初学者教程》(http://bit.ly/2HTGZuu

Author:

退出移动版