19.0 简介
本书的大部分篇幅都在讨论有监督学习,这意味着我们可以获取特征和目标数据。可惜的是,在现实世界中不总是这样,我们经常会遇到只知道特征的场景。举个例子,假设我们手头有一家百货商店的销售数据,现在要把这些数据按照购物者是否为折扣俱乐部的会员分成两类。在这个例子中不可能使用有监督学习,因为我们并没有一个用于训练和评估模型的目标。尽管如此,我们还有另一个选择:无监督学习。如果折扣俱乐部的会员和非会员在百货商店中的行为是完全不同的,那么两个会员行为上的平均差异会比会员和非会员之间的平均差异小。也就是说,观察值有两个分类(cluster)[1]。
聚类算法的目标是找出这些观察值潜在的分类,如果做得好的话,我们能在没有目标向量的情况下预测观察值的分类。聚类算法有很多,它们使用了多种不同的方法来识别数据中的聚类。在本章中,我们会教大家使用scikit-learn实现一些聚类算法,并将其应用到实践中。



本书评论