15.3 确定最佳的邻域点集的大小
问题描述
为KNN分类器找到最佳的k值。
解决方案
使用GridSearchCV这样的模型选择技术:

讨论
k值的大小对KNN分类器的性能是有重要影响的。在机器学习中,我们一直尝试在偏差(bias)和方差(variance)之间找到一种平衡,而k值对这种平衡的影响很明显。如果k= n(这里n是观察值的数量),那么偏差就会很大而方差很小。如果k = 1,那么偏差会很小,但是方差很大。只有找到了能在偏差和方差之间取得折中的k值,才能得到最佳的KNN分类器。在解决方案中,我们用GridSearchCV对不同k值的KNN分类器做5折交叉验证。当这个过程结束时,就可以得到能产生最佳KNN分类器的k值:




本书评论