6.6 提取词干
问题描述
将一个单词序列中的单词转换成它们的词干。
解决方案
使用NLTK的PorterStemmer:

讨论
词干提取(stemming)能识别出一个单词的词缀并将其删除(例如,动名词中的“ing”后缀),同时保留其词根的意思,以此得到这个词的词干。例如,“tradition”和“traditional”的词干都是“tradit”,表明虽然它们是不同的单词,但基本意思是相同的。提取文本的词干后,单词的可读性会变差,不过也更接近它的基本意思,因此更适合用来做比较。
NLTK的PorterStemmer实现了被广泛使用的波特词干(Porter stemming)算法,移除或替换单词中常用的后缀来生成词干。
延伸阅读
● 波特词干算法(http://bit.ly/2FB5ZZb)



本书评论