6.0 简介
非结构化文本数据(比如,一本书或一条推文的内容)是处理起来最有意思也是最难的特征之一。本章会介绍几种将文本转换成富含信息的特征的方法,但并未涵盖所有相关内容——针对这一类数据的处理已经形成一套完整的学科,所有的研究内容加起来写成书的话,能填满一个小型图书馆了。本章将介绍其中一些常用的技术,掌握了它们,对数据预处理工作是很有帮助的。
非结构化文本数据(比如,一本书或一条推文的内容)是处理起来最有意思也是最难的特征之一。本章会介绍几种将文本转换成富含信息的特征的方法,但并未涵盖所有相关内容——针对这一类数据的处理已经形成一套完整的学科,所有的研究内容加起来写成书的话,能填满一个小型图书馆了。本章将介绍其中一些常用的技术,掌握了它们,对数据预处理工作是很有帮助的。
本书评论