4.3 有监督学习与无监督学习
在人工智能3.0时代,机器懂得了学习,但是这种学习行为完全是由人类教授给它们的吗?从这一角度来看,我们可以将机器学习分为两大类(见图4-10):一类是有监督学习;另一类是无监督学习。
所谓有监督学习,就是我们常说的分类,也就是通过已有的信息获得一个最优的处理模式,再利用这个模式将所有输入的信息处理成输出信息,计算机通过对输出信息的简单判断将已有信息分成不同的种类,这样人工智能就有了对未知数据进行分类的能力。比如,家长经常教育孩子香蕉是能吃的,石头是不能吃的。“香蕉”“石头”就是输入信息,而家长所下的判断,即“能吃”与“不能吃”就是相应的输出信息。当孩子的认知能力达到一定的水平时,就会逐步形成一种通用或泛化的模式,这种模式就是通过有监督学习训练出来的。当孩子遇到与石头相同的事物时,就知道这是不能吃的。邻近算法就是理论比较成熟的有监督学习的应用。
邻近算法是最简单的机器学习算法之一。其总体思路如下:如果一个样本在特定的空间内有K个最相似的样本,并且这些样本大多数属于某一类别,那么这个样本就属于这个类别。由于邻近算法主要是靠周围有限的邻近样本判断目标样本所属的类别,因此在判断之前要确认所选择的邻近样本都是正确的分类对象,这就是所谓的“监督”(见图4-11)。
那么,什么是无监督学习呢?在研究者眼中,无监督学习更具有探索价值。它与有监督学习的不同之处在于:在机器学习的时候,我们并没有放置任何可以参考的样本或者已经分类的参考目标,机器需要直接对已有数据建立模型。我们不禁会问,没有样本的话,计算机如何自己建立模型?在人类运用思维的过程中,无监督学习时常发生。比如,我们对音乐完全不懂,但是能听出来哪些音乐比较欢快,哪些音乐比较哀伤。尽管我们不知道什么是轻音乐,什么是摇滚音乐,但我们能自发地将其进行分类,这就是无监督学习。并没有人给予我们模型将听到的音乐进行分类,但是我们依然能够将不同风格的音乐区分开。当我们根据某些事物的特性将其归为一类时,使用的就是无监督学习中的聚类分析法。
聚类分析是无监督学习的典型案例。俗话说:“物以类聚,人以群分。”所谓的类就是具有相似元素的事物的集合。
聚类分析的目的是在相似的基础上收集数据进行分类。很多领域都会使用到聚类分析,包括计算机科学、统计学、生物学和数学等。聚类分析的对象被称为描述数据,通过衡量它和不同数据源之间的相似性,就能把不同的数据源归到不同的类别。比如,我们找到了一种植物,并且发现它具有白菜的特性,只是颜色不一样,那么我们就可以将其归类到蔬菜中(见图4-12)。
从实际应用的角度来看,聚类分析是数据挖掘的主要任务之一。聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步的分析。另外,聚类分析还可作为其他算法(如分类和定性归纳算法)的预处理步骤。
当有足够的数据支撑时,无监督学习中的聚合能力就会被无限放大,特别是当一个聚类分析中的目标具有附加数据时。这些附加数据能不断构建出一个又一个新模型,所产生的结果也会以几何级数增加。
当然,这并不是说有了无监督学习,有监督学习就完全没有存在的意义了。恰当地使用分类系统,机器学习也会变得非常强大。在一定程度上,机器学习的这种分类可以打破语义难以被理解的障碍,通过不断地将有监督学习与无监督学习相融合,语义也会变成可分类的目标之一。如果没有这种方法促进机器去学习,那么语义的理解也将变成一件非常困难的事情。
本书评论