通过阴影脑补立体全貌-深度学习: 智能时代的核心驱动力量在线阅读

语速55: 80

进度0:

通过阴影脑补立体全貌

史蒂文·祖克（Steven Zucker）（见图5–7）专注于融合了计算机视觉和生物视觉的交叉领域的研究。从我认识他起，他就在写一本解释视觉工作原理的书，到现在已经有30多年了。问题在于史蒂文在视觉研究上不断有新的发现，就像劳伦斯·斯特恩（Laurence Sterne）在小说《项狄传》中描写的主人公项狄（Tristram Shandy）那样，史蒂文那本书也随着主人公的新发现而越变越长。^[9] 他研究视觉的方法是基于初级视觉皮层的精巧、规则的结构（见图5–6），这是一种不同于皮层中任何其他部位的结构，其中的神经元以近似马赛克式的排列方式组织起来，这种排列的几何解释还有待探究。计算机视觉领域的大多数研究人员希望通过将对象从背景中分割出来，并找到一些可辨识的特征来识别对象。

史蒂文还有更大的野心，想要了解我们如何从表面阴影以及折痕和褶皱中提炼出物体的形状。在2006年神经科学学会的年会上，那个把房子建得像船帆一样的建筑师弗兰克·盖里（Frank Gehry），在接受采访时，被问及他的建筑设计灵感从何而来。^[10] 他回答说，灵感来自对被揉皱的纸张的观察。但是，我们的视觉系统又是如何通过褶皱和阴影表面的复杂图案，把皱巴巴的纸张的复杂形状拼合起来的呢？我们是如何感知西班牙毕尔巴鄂市（Bilbao）古根海姆博物馆（Guggenheim Museum，见图5–8）外墙那多变的形状的呢？

耶鲁大学史蒂文·祖克，光从照片右上角打下来

图5-7 耶鲁大学史蒂文·祖克，光从照片右上角打下来。从他毛衣上的阴影变化中，你可以察觉到衣服褶皱的形状。他身后黑板上的方程式解释了为什么我们能识别这种现象，这一灵感来自猴子的视觉皮层。

图片来源：史蒂文·祖克。

西班牙毕尔巴鄂市的古根海姆博物馆，由弗兰克·盖里设计

图5-8 西班牙毕尔巴鄂市的古根海姆博物馆，由弗兰克·盖里设计。来自曲面的阴影和反射形成了强烈的结构感和动感。可以参照通道上的人影大小来体会这幢宏伟建筑的规模。

史蒂文·祖克最近已经能够搞清楚我们是如何在有阴影的图像中看到褶皱的，其背后的解释是基于类似山体等高线图的表面三维轮廓，以及图像上等照度轮廓之间的密切关系（见图5–9）。^[11] 这种关联源于表面的几何形状。^[12] 这解释了为什么我们对形状的感知几乎不受照明以及物体表面性质差异的影响。这也可以解释为什么我们非常善于阅读轮廓明显的等高线地图，以及为什么只需要几条特殊的内线就可以看出漫画中物体的形状。

同一平面的等高线图（左上）和等照度线（恒定亮度轮廓线，左下）

图5-9 同一平面的等高线图（左上）和等照度线（恒定亮度轮廓线，左下）。两者在轮廓右侧显示的临界点之间产生了相同的分区。

图片来源：Kunsberg and Zucker, “Critical Contours: An Invariant Linking Image Flow with Salient Surface Organization,”图5。

1988年，西德尼·莱基（Sidney Lehky）和我有了一个想法，我们也许可以训练一个只有一层隐藏单元的神经网络来计算阴影曲面的曲率。^[13] 我们成功了，而且出人意料的是，隐藏单元的表现跟简单细胞非常相似。但仔细观察后，我们发现并非所有这些“简单细胞”都是相同的。

通过查看它们对输出层的投影——该输出层被训练通过使用学习算法（见第8章）来计算曲率——我们发现一些隐藏单元被用于分辨正曲率（凸起）和负曲率（凹陷）（见图5–10）。和一些简单细胞一样，这些单元是检测器，它们往往要么是低响应，要么是高响应，其响应活动呈双峰分布。相比之下，隐藏层中的其他单元具有分级响应的功能，可以像滤波器一样向输出单元发送关于曲率方向和大小的信息。

阴影中的曲率

图5-10 阴影中的曲率。我们的视觉系统可以从边界轮廓内亮度的缓慢变化中提取对象的形状。

你可以根据阴影方向以及你对照明方向的假设（通常假设为正上方）来分辨图中的突出或凹陷。上下颠倒这幅图，看看它们是否反过来了。//图片来源：V. S. Ramachandran, “Perception of Shape from Shading,”Nature 331, no. 6152(1988), 图2。

这一结论令人惊讶：神经元的功能不仅仅取决于它如何对输入做出反应，而且还取决于它通过自身的“投射域”激活的下游神经元。一个神经元的输出一直以来都比它的输入更难确定，但新的遗传学和解剖学技术使得精确追踪下游的轴突投射成为可能。新的光遗传学技术也使得选择性刺激特定神经元，以探测其对感知和行为的影响成为可能。^[14]

即便如此，我们的小规模神经网络只能识别突起或凹陷的曲率，而我们仍然不知道在心理学文献中被称为“格式塔”（Gestalts）^[15] 的整体组织认知是如何在皮层中分布的。

1984年，史蒂文·祖克和我曾被困在丹佛斯台普顿（Stapleton）国际机场，我们的航班因暴风雪而延误了。那会儿我们对当时正处于起步阶段的计算神经科学感到兴奋不已，于是盘算着创建一个研讨会，将计算和实验研究人员聚集在一起。我们决定把地点定在伍兹霍尔，我曾经在那里参加过一个神经生物学的夏季课程，并且在之后好几个暑期中又回去，与斯蒂芬·库夫勒一起在海洋生物实验室做过生理实验。伍兹霍尔是鳕鱼角附近的一个美丽的村子，离波士顿不远。多年来，许多视觉研究领域的领军人物都参加了这个年度研讨会，这对我来说是另一个科学制高点。视觉皮层计算理论就诞生于这些研讨会，尽管对该理论的确认还需要30年。（在第9章中，我们将看到最成功的深度学习网络的结构与视觉皮层的结构非常相似。）