连接主义(神经网络2.0)
神经网络研究领域一直处于休眠状态,直到20世纪80年代才开始复苏。一本分上下两册出版的书籍《并行分布式处理》[65] ,预示着神经网络研究领域的复兴。并行和分布式处理(简称PDP)是计算机科学研究的一个主流领域,它主要研究如何建立能够并行运算的计算机系统。乍一看,这本书跟人工智能或者神经网络毫无关联,而且我想某些看了书名就买书的人,在发现本书的内容和神经网络有关的时候,会感到无比困惑。或许作者选择这个标题就是为了跟之前的神经网络研究撇清关系吧。
从某种意义上来说,新兴研究的最重要部分也没那么新颖:它主要研究多层神经网络,可以轻易克服明斯基和帕普特所断定的简单感知器系统的局限性。不过跟之前的研究仍然有一点关键的区别。以前关于感知器的研究主要集中在单层网络上,因为当时没有人知道如何“训练”多层神经网络,也不知道如何找出神经元之间连接的权重值。PDP以一种被称为反向传播 的算法为这个问题提供了解决方案,这或许是神经网络领域中最重要的一门技术。
就如科学研究中经常发生的情况一样,反向传播似乎在过去的几年里被发明和重新发明过很多次,但是PDP研究人员引入的特定方法最终确定了它的地位[66] 。
如果要完整地解释反向传播算法,我们必须引入本科水准的微积分知识,这远远超出了本书设定的范围。不过反向传播算法的基本思想很简单,它的工作原理是收取神经网络出错的反馈,这里的错误是在网络的输出层的输出(比如网络输入了一张猫的图片,而输出层将其归类为一条狗)。反向传播算法将错误从输出端向输入端逐层逆向修正(算法也是因此而得名的)。
它首先计算误差值(即输出的数据和期望得到数据之间的差值),在给定输入和输出的情况下,误差是一个和权重有关的函数,需要通过修正权重值使得误差值达到极小(即尽量减少误差)。根据误差值能够得到等值线图,在等值线图上体现为最陡的下降路线,即为从当前的误差到我们期望的最小误差的方法。这个通过调整权重值来减少误差值,最终接近极小误差(即输出结果尽量接近期望输出)的过程被称为梯度下降 。然后,调整完最后一层权重以后,逐级往前调整,以此类推。
PDP还提供了比感知器更适用的神经元模型。感知器模型本质上还是二进制的计算单元(状态为开或者关),而PDP的神经元模型更具备通用性。
反向传播算法的发展和PDP研究界引入的其他创新,使得神经网络具备广泛应用的可行性,这远远超出了20年前感知器模型的简单演示,人们对神经网络的发展兴趣倍增。但事实证明,PDP的泡沫也没有持续太久。到了90年代中期,神经网络研究再次失宠。事后看来,神经网络车轮从PDP研究这辆马车上脱落的原因,并非研究基础有固有缺陷这类硬伤,而是源于一个平淡无奇的理由:当时的计算力不够强大,无法承载新技术。
并且,PDP的进步似乎十分缓慢,而机器学习的其他领域又在飞速发展,因此,机器学习的主流热点,又一次从神经模型上转移开了。






本书评论