19.2 加速K-Means聚类
问题描述
要把观察值分成k个组,但是用K-Means算法需要太长的时间。
解决方案
使用Mini-Batch K-Means:
讨论
Mini-Batch K-Means和我们在19.1节讨论的K-Means算法的工作原理类似。如果不深究过多细节,那么这两种算法的区别就是,前者计算量最大的步骤只在观察值的一部分随机样本上而非所有的观察值上执行。这个方法可以在只损失一小部分质量的情况下显著缩短算法收敛的时间。
MiniBatchKMeans的用法和KMeans十分相似,最大的区别在于batch_size参数。batch_size控制每个批次中随机选择的观察值的数量。
批次中的观察值越多,在训练过程中需要花费的算力就越大。
本书评论