多伦多书苑

机器学习实战

第11章 使用Apriori算法进行关联分析

本章内容

* Apriori算法

* 频繁项集生成

* 关联规则生成

* 投票中的关联规则发现

在去杂货店买东西的过程,实际包含了许多机器学习的当前及未来应用,这包括物品的展示方式、购物之后优惠券的提供以及用户忠诚度计划,等等。它们都离不开对大量数据的分析。商店希望从顾客身上获得尽可能多的利润,所以他们必然会利用各种技术来达到这一目的。

忠诚度计划是指顾客使用会员卡可以获得一定的折扣,利用这种计划,商店可以了解顾客所购买的商品。

即使顾客不使用会员卡,商店也会查看顾客购买商品所使用的信用卡记录。如果顾客不使用信用卡而使用现金付款,商店则可以查看顾客一起购买的商品(如果想知道商店所使用的更多技术,请参考Stephen Baker写的The Numerati一书)。

通过查看哪些商品经常在一起购买,可以帮助商店了解用户的购买行为。这种从数据海洋中抽取的知识可以用于商品定价、市场促销、存货管理等环节。从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索方法并不能解决这个问题,所以需要用更智能的方法在合理的时间范围内找到频繁项集。本章将介绍如何使用Apriori算法来解决上述问题。

下面首先详细讨论关联分析,然后讨论Apriori原理,Apriori算法正是基于该原理得到的。接下来创建函数频繁项集高效发现的函数,然后从频繁项集中抽取出关联规则。本章最后给出两个例子,一个是从国会投票记录中抽取出关联规则,另一个是发现毒蘑菇的共同特征。

本章内容

Author:

退出移动版