感知器(神经网络1.0)
神经网络的研究起源于20世纪40年代美国研究人员沃伦·麦卡洛克(Warren McCulloch)和沃尔特·皮茨(Walter Pitts),他们意识到神经元可以用电路建模,更具体地说,是用简单的逻辑电路,他们用这个想法建立了一个简单但非常通用的数学模型。到了50年代,弗兰克·罗森布拉特(Frank Rosenblatt)对这个模型进行了改进,创造出了感知器模型 。感知器模型意义重大,因为它是第一个实际出现的神经网络模型,时至今日,它仍然有存在的意义。
图14展示了罗森布拉特的感知器模型,中间的方块代表神经元本身,左边指向方块的箭头代表神经元的输入(对应神经元的突触连接),右边的箭头代表神经元的输出(对应轴突)。在感知器模型中,每一个输入都跟一个被称为权重 的数字关联,在图14中,与输入1相关的权重为w1 ,与输入2相关的权重为w2 ,与输入3相关的权重为w3 。神经元的每一个输入都呈激活和未激活两种状态,如果一个输入被激活,它就会通过相应的权重“刺激”神经元。最后,每一个神经元都有一个触发阈值 ,由另一个数字表示(在图14中,触发阈值用T表示)。感知器的运作模式是神经元受到的刺激超过了触发阈值T,那么它就会“启动”,这就意味着它的输出被触发。换句话说,我们把激活的输入的权重加在一起,如果总权重超过阈值T,则神经元产生一个输出。
具体来说,假设图14中神经元每个输入的权重都为1,阈值T为2。如果其中任意两个输入被激活,神经元就会启动输出。换言之,在这种情况下,超过半数的输入被激活,则神经元就会被触发。
我们再假设输入1的权重为2,而输入2和3的权重都为1,阈值T为2。在这种情况下,如果输入1激活,或者输入2和3共同激活,或者三个输入都激活,神经元就会被触发。
当然,真实存在的神经网络包括许多神经元,图15展示了由三个人工神经元组成的感知器。注意每个神经元都是完全独立运作的。此外,每个神经元能“看到”每一项输入——然而,对于不同的神经元,输入的权重可能不同。也就是说,输入1对于三个神经元分别有各自的权重值,可能它们并不相同。另外,每个神经元的触发阈值也可能并不相同(图15中分别为T1 , T2 和T3 )。所以,我们可以想象为三个神经元在各自计算不同的东西。
然而,图15所展示的感知器并没有反映出大脑高度互联的结构,一个神经元的输出会反馈给其他许多神经元。为了更清楚地反映人脑结构的复杂性,人工神经网络通常是分层组织的,如图16所示,即多层感知器 结构。图16的感知器由9个神经元组成,分为3层,每层3个神经元。每一层的每个神经元都接收上一层神经元的输入。
需要注意的是,即使在这个非常简单的感知器中,事情也开始变得复杂了:我们的神经元之间已经有27个连接了,每个连接都有对应的权重,9个神经元都有自己的触发阈值。虽然麦卡洛克和皮茨就在模型中设想了多层神经网络 结构,但在罗森布拉特的时代,人们主要关注单层网络,原因很简单:没有人知道如何训练具有多个层面的神经网络。
每个连接所对应的权重值对于神经网络的运行至关重要,事实上,这就是神经网络分解下来的全部内容:一堆数字列表。对于任何一个大小合理的神经网络来说,这个数字列表的长度都相当可观。因此,训练一个神经网络需要用某种方式找到适当的权重值。通常的寻找方式是在每次训练以后调整权重值,试图让网络产生正确的输入到输出的映射。罗森布拉特试验了几种不同的技术,并为一个简单的感知器模型找到了一个被他称为纠错程序的技术。
现在我们知道罗森布拉特的方法肯定是有效的,它可以正确地训练一个网络。但是在当时,存在一个强烈的异议。1969年,马文·明斯基和西摩·帕普特(Seymour Papert)出版了一本名叫《感知器》的书[63] ,书中指出单层感知器网络有着非常大的局限性。事实上,如图15所示的单层感知器确实如此,它们甚至连许多输入和输出之间的简单关系都学不会。但当时吸引大多数读者注意力的,是明斯基和帕普特的研究表明,感知器模型不能学习一个很简单的逻辑概念——异或(XOR)[11]
。举一个例子,假设你的网络只有两个输出,当其中一个输出被激活时,异或函数应该产生一个输出(但当两个输入同时被激活的时候,则不会产生输出)。要证明单层感知器无法表示异或状态很容易,感兴趣的读者可以在附录D中找到更多信息。
明斯基和帕普特的书似乎给出了相当全面的结论,不过时至今日仍然存有争议。该理论结果证明了某些类别的感知器在基础结构层面具有严重局限性,这似乎就意味着基于感知器的通用模型存在局限性。而如图16所示的多层感知器并不受这些限制:从精准的数学定义来说,可以证明多层感知器完全能够普遍适用。然而,在当时,没人知道该如何训练一个具有多层感知器的网络:它只是一个理论上可能出现的网络结构,在现实中无法构造。20年后,随着科学的发展,它才从理论走向实践。
我很怀疑,当年对感知器太过激进的宣传间接导致了对它的负面结论下得如此武断。比如,1958年《纽约时报》上某篇文章兴奋地报道[64] :
美国海军今天公布了一个电子计算机雏形,人们期望它能够行走、说话、视物、书写、自我复制,并且意识到自己的存在。
对于神经网络研究衰落的确切原因,我们可以展开各种辩论,但不管是什么,到了20世纪60年代末,神经网络研究急剧衰落。人们转而支持麦卡锡、明斯基和西蒙倡导的符号人工智能的方式(讽刺的是,神经网络研究的衰落仅仅发生在人工智能寒冬——我们在第二章里提到过——出现的前几年)。1971年,罗森布拉特死于一次航海事故,使得神经网络研究领域失去了一员主力大将。如果他能活下来,人工智能的历史也许会有所不同。总之,在他死后,神经网络的研究被搁置了十多年。
本书评论