5.4 填充缺失的分类值
问题描述
有一个分类特征中包含缺失值,需要用预测值来填充。
解决方案
最理想的解决方案是训练一个机器学习分类器来预测缺失值,通常会使用KNN分类器:
另一个解决方案是用特征中出现次数最多的值来填充缺失值:
讨论
当分类特征中存在缺失值的时候,最好的解决方案是利用机器学习算法预测缺失值。将带缺失值的特征作为目标向量,将其他特征作为特征矩阵,就能完成预测。常用的算法是KNN(在本书的后面会更深入地讨论),它会将k个最近的观察值的中位数作为缺失值的填充值。
另外,可以用特征中出现次数最多的分类来填充缺失值。虽然比使用KNN效果差一些,但是它能更容易地扩展到大数据集上。不管是哪一种情况,最好都添加一个二元特征来标识观察值中是否包含填充值。
延伸阅读
●《解决随机森林分类器中的缺失值问题》(http://bit.ly/2HSsNBF)
●《使用KNN作为填充方法的研究》(http://bit.ly/2HS9sAT)
本书评论