6.5 删除停止词(stop word)
问题描述
给定一组分好词的文本数据,删除其中非常常见但包含的信息又很少的单词(例如,a、is、of、on)。
解决方案
使用NLTK的stopwords:

讨论
尽管“停止词”可以指代所有需要在数据预处理阶段删除的单词,但是这个术语常常用来指代那些特别常见而包含的信息又很少的单词。NLTK有一个常见停止词列表,可用来查找并删除单词序列中的停止词:

注意,NLTK的stopwords假设所有的单词都是小写形式的。
给定一组分好词的文本数据,删除其中非常常见但包含的信息又很少的单词(例如,a、is、of、on)。
使用NLTK的stopwords:

尽管“停止词”可以指代所有需要在数据预处理阶段删除的单词,但是这个术语常常用来指代那些特别常见而包含的信息又很少的单词。NLTK有一个常见停止词列表,可用来查找并删除单词序列中的停止词:

注意,NLTK的stopwords假设所有的单词都是小写形式的。
本书评论