《视觉》第一章 哲学与方法

大卫·马尔《视觉》
大卫·马尔《视觉》

背景

几个世纪以来,视觉感知的问题一直吸引着科学家们的好奇心。早期的重要贡献是由牛顿(Newton, 1704)和赫姆霍尔兹(Helmholtz, 1910)做出的,牛顿为现代色觉研究奠定了基础,赫姆霍尔兹关于生理光学的论文至今仍引起人们的兴趣。本世纪初,韦特海默(Wertheimer, 1912, 1923)注意到,在像电影一样顺序呈现的图像中,不是单个点,而是整体或“场”的明显运动。就像我们看待一群鹅在天空中迁徙一样:鹅群在某种程度上构成了一个整体,而不是被视为单独的鸟。这一观察开创了格式塔(Gestalt)心理学学派,该学派关注的是用团结(solidarity)和清晰性(distinctness)等术语来描述整体的品质,并试图阐明支配这些整体创造的“定律”。由于种种原因,这种尝试失败了,格式塔学派陷入了主观主义的迷雾。随着这个学派的消亡,它早期的许多真知灼见不幸地被主流实验心理学所抛弃。

从那时起,知觉心理学的学生就没有认真地去全面理解知觉是什么,而是集中在对其性质和表现的分析上。颜色视觉的三色理论(trichromatism)牢固确立(见Brindley,1970),以及对运动的关注仍在继续。最有趣的发展也许是迈尔斯(Miles, 1931)和瓦拉赫与奥康奈尔(Wallach & O’Connell, 1953)的实验,它们证实了在适宜的条件下,一个陌生的三维形状可以只从变化中的单眼投影(注:单只眼睛看到的二维图像)中被正确地感知。

数字电子计算机的发展使双目视觉的类似发现成为可能。1960年贝拉·朱尔兹(Bela Julesz)设计了计算机生成的随机点立体图(random-dot stereograms),这是点图案组成的图像对,在单眼观察时点图案随机出现,但当每只眼睛观察到的图像融合在一起时,便形成了具有清晰的三维结构的形状和表面的感知。图1-1显示了一个例子。这里左眼的图像是由计算机程序随机生成的黑白方块组成的矩阵。右眼的图像是通过复制左眼图像,并将其中心的正方形区域稍微向左移动,然后提供一个新的随机图案来填补移动所造成的空白来得到的。如果每只眼睛只看到一个矩阵,这就好像两个矩阵都在同一个物理位置,结果就会产生一个正方形漂浮在空间中的感觉。显然,这种感知仅仅是由呈现给每只眼睛的图像中匹配元素之间的立体差异造成的;从这些实验中我们知道,立体信息的分析,就像运动分析一样,可以在没有其他信息的情况下独立进行。这些发现至关重要,因为它们帮助我们将感知研究细分为更专门的部分,这些部分可以单独处理。我将把这些称为知觉的独立模块。

图1 – 1. 一种被贝拉·朱尔兹广泛使用的随机点立体图。对于在一张图像中有轻微位移的中心正方形区域,左边和右边的图像是相同的。当融合双眼视觉时,这些图像给人的印象是中心正方形从背景中漂浮进来。

心理物理学最近的贡献是另一种类型的,但同样重要。它起源于适应性和阈值检测研究的结合,起源于坎贝尔和罗布森(Campbell & Robson, 1968)关于独立的空间频率调谐通道(spatial frequency-tuned channels)——即在我们的感知器官的早期阶段,对特定尺度或空间间隔内图像的亮度变化敏感的通道的存在性论证。这篇论文引发了关于这些通道各个方面的大量文章,并在10年后随着对视觉感知的第一阶段特征进行了相当令人满意的定量描述(Wilson & Bergen, 1979)而达到顶峰。稍后我将详细讨论这个问题。

最近,一种相当不同的方法引起了相当大的关注。1971年,罗杰·N·谢巴德(Roger N. Shepard)和杰奎琳·梅茨勒(Jacqueline Metzler)绘制了一些简单物体的线条图,这些物体要么是经过了三维的旋转来变得不同,要么是经过了旋转加反射(见图1-2)。他们问,需要多长时间来确定被描绘的两个物体之间是经过了旋转和反射还是单纯的旋转变换?他们发现,把两个物体对应起来所需要的时间与旋转的三维角度有关。实际上,时间与这个角度是线性变化的。人们由此得出这样一种观点,即实际上某种心理旋转(mental rotation)正在进行——图形对中第一个形状的心理描述的方向被逐步调整,直到与第二个形状匹配为止,这种调整在涉及更大角度时需要更长的时间。

图1 – 2. 一些图画与谢巴德和梅茨勒在心理旋转研究中使用的图画相似。在(a)中展示的图是相同的,顺时针旋转本页80°将很容易证明这一点。在(b)中的图也是相同的,两者之间的相对角度也是80°。但在这里,深度的旋转将使第一个与第二个重合。最后,在(c)中的图是完全不相同的,因为旋转不能使它们变得一致。用来决定一对图形是否相同的时间被发现与通过旋转使一个图形与另一个图形对应所需的角度大小成线性变化。这向研究者表明,在他们的实验中,受试者实际上是在进行逐步的心理旋转。

这种方法的意义不在于其结果(其解释是有争议的),而在于它提出的问题类型。因为在那之前,视觉心理学家并不重视表示(representation )的概念。这类实验意味着这个概念不好被考虑。虽然视觉心理学家的早期思想与计算机视觉界的思想相比是天真的——计算机视觉界从一开始就不得不面对表征问题,但不久之后,心理学家的思想变得更加成熟(见Shepard, 1979)。

但怎么解释呢?很长一段时间,最好的希望似乎寄托在另一项研究上,即电生理学。放大器的发展使阿德里安(Adrian,1928)和他的同事能够记录伴随着神经信号传输的微小电压变化。他们的研究表明,产生这种感觉的特征取决于传递信息的纤维,而不是纤维是如何被刺激的——正如人们从解剖学研究中所期望的那样。这导致了一种观点,即周围神经纤维可以被认为是一个简单的映射,为感觉器官提供身体表面物理事件的副本(Adrian, 1947)。其余的解释被认为可以安全地留给心理学家。

接下来的发展是放大技术的改进,这使记录单个神经元成为可能(Granit & Svaetichin,  1939; Hartline, 1938; Galambos & Davis, 1943)。这导致了细胞“感受野(receptive field)”的概念(Hartline,  1940),以及哈佛学派著名的一系列关于神经元在视觉通路更深层次行为的研究(Kuffler,  1953;Hubel & Wiesel, 1962, 1968)。但或许最令人兴奋的进展是一种新的观点,即心理学感兴趣的问题可以通过神经生理学实验来启发,甚至可能得到解释。这方面最珍贵的早期例子是巴洛(Barlow, 1953)对青蛙视网膜神经节细胞的研究,我不能说得比他更好:

如果有人使用手持目标在青蛙的视网膜上探索单个神经节细胞的反应,他会发现一个特定类型的神经节细胞将在其感受野中被一个视角1°的黑色圆盘或左右来回移动迅速的物体最有效地驱动。这就导致了一种强有力的放电,只要运动继续下去,这种放电就能保持下去,而不会有太大的衰减。现在,如果将对这类细胞最优的刺激呈现给完好的青蛙,行为反应通常是戏剧性的;它们转向目标,做出重复的进食反应,包括跳跃和猛咬。视网膜神经元的选择性和青蛙受到选择性刺激时的反应表明,它们是“昆虫探测器(bug detectors)”(Barlow, 1953),执行着一种原始但至关重要的识别形式。

这一结果使人们突然意识到,青蛙进食反应中所涉及的大部分感官机制实际上可能存在于视网膜中,而不是存在于神秘的“中枢(centres)”中,而这些“中枢”很难用生理学方法理解。这种基本的类锁(lock-like)特性存在于整一类神经元的每个成员中,并且允许细胞只对适当的感觉刺激的关键模式放电。莱特文等人(Lettvin et al., 1959)推测在青蛙中有五个不同类型的细胞,巴洛、希尔和莱维克(Barlow, Hill & Levick, 1964)在兔子上发现了一个数量更大的类别。巴洛等人把这些关键模式称为这些 “触发特性(trigger features)”,并且马图拉纳等人(Maturana et al., 1960)强调这些神经节细胞行为的另一个重要方面;尽管光强在过去几十年发生了变化,但细胞仍然对相同的触发特性做出反应。视网膜的特性使得神经节细胞,形象地说,可以伸出手来,并确定某些特定的事情正在眼前发生。光是它做到这一点所需的代理,但是光的细节模式才携带了信息,并且当时普遍的亮度水平几乎完全被忽略了。(第373页)

Barlow(1972)接着以下面方式总结了这些发现:

我在上面试图概述的所有变化的累积效应使我们认识到,每个神经元都可以执行比以前认为的更复杂、更微妙的任务(加了强调)。神经元不会松散地、不可靠地将视觉图像的亮度重新映射到我们的感觉中枢,而是检测模式元素,辨别物体的深度,忽略无关的变化原因,并以有趣的层次结构排列。此外,有证据表明,它们突出了信息的重要性,能够做出非常可靠的反应,并且可以通过早期的视觉经验永久地改变它们的模式选择性。这相当于我们观念上的一场革命。现在把细胞活动看作是涉及心理活动的更基本和更可靠的过程的嘈杂信号是非常不恰当的:相反,我们必须把单个神经元看作这些机制的原动力。思考是由神经元产生的,我们不应该使用“细胞活动反映、揭示或监控思维过程”这样的短语,原因很简单:神经元活动就是思维过程

这一革命源于生理工作,它使我们认识到,每个神经元的活动都可能在感知中发挥重要作用。(第380页)

这方面他的思维导致了巴洛建立其五个信条中的第一个和最重要的一个信条:“对单个神经细胞的活动的描述——传递给其他神经细胞并影响其他神经细胞的活动,以及神经细胞对来自其他细胞的这种影响的反应,是一个对于理解神经系统功能的、足够完整的描述。除此之外,没有什么能“观察”或控制这种活动,因此这必定为理解大脑如何控制行为提供一个基础”( Barlow, 1972, 第380页)。

稍后我将更仔细地检查这个观点的有效性,但是现在让我们享受它。这些想法的活力和兴奋不需要强调。当时,还原论的方法似乎很可能最终取得成功。休博尔和威塞尔(Hubel & Wiesel, 1962, 1968)的开创性研究已经指明了方向;立体视觉(Barlow, Blakemore & Pettigrew, 1967)和颜色(DeValois, Abramov & Mead, 1967;Gouras, 1968)似乎证实了知觉和单细胞记录之间的密切联系,并且格罗斯,罗卡-米兰达和本德有趣的结果(Gross, Rocha-Miranda & Bender, 1972)——他们在颞下皮层(inferotemporal cortex)发现“手部探测器(hand-detectors)”,这似乎表明还原论方法的应用将不仅仅局限在视觉通路的早期部分。

当然,生理学家被认为是幸运的:如果在传统的电子计算机上四处探测,并记录其中单个元件的行为,那么不太可能辨别出给定元件在做什么。但是,由于巴洛的第一个信条,大脑似乎是沿着更随和的路线构建的——人们能够确定大脑单个元素的功能。似乎没有理由不采取还原论的方法。

我完全沉浸在这种兴奋之中。我也相信,真理基本上是神经学的,所有研究的中心目标是对中枢神经系统的结构进行彻底的功能分析。我的热情在小脑皮质理论中得到了表达(Marr, l969)。根据这一理论,简单、规则的皮层结构被认为是学习运动技能的简单而强大的记忆装置;由于一个简单的组合技巧,小脑中的1500万个浦金野细胞中的每一个都能够学习200多种不同的模式,并将它们与未学习的模式区分开来。越来越多的证据表明小脑参与了运动技能的学习(Ito, 1978),所以类似的理论可能是正确的。道路似乎很清楚。一方面,我们有了新的实验技术,证明了它的威力,另一方面,我们开始了一种理论方法,可以通过对皮层结构的精细分析来支持它们。心理物理学可以告诉我们需要解释什么,解剖学的最新进展——诺塔(Nauta)实验室的芬克-海默(Fink-Heimer)技术,以及森塔戈泰(Szentagothai)和其他人最近成功部署的电子显微镜——可以提供有关大脑皮层结构的必要信息。

但在深处,有些东西出了问题。20世纪50年代和60年代的最初发现之后,70年代并没有出现同样引人注目的发现。没有神经生理学家记录到新的和清晰的高层次知觉的相关物。1960年代的领导者已经离开他们一直做的东西——休博尔和威塞尔专注于解剖学、巴洛转向心理物理学与主流神经生理学,后者专注于发育和可塑性(关于神经连接是不固定的概念),或者对已被发现的细胞(例如,Bishop, Coombs & Henry, 1971; Schiller, Finlay & Volman, 1976a, 1976b)或像猫头鹰这样的物种的细胞(例如,Pettigrew & Konishi, 1976)的更透彻的分析。但没有一项新的研究成功地阐明了视觉皮质的连接

很难确切地说出为什么会发生这种情况,因为其原因从来没有明确说明过,而且很可能在很大程度上是无意识的。然而,各种因素是可以确定的。就我个人而言,我的小脑研究有两个效果。一方面,这表明人们最终有望从功能的角度理解大脑皮层结构,这是令人兴奋的。但与此同时,这项研究却让我失望,因为即使这个理论是正确的,它也没有给人们多少关于运动系统的启发——例如,它没有告诉人们如何编写机械臂的程序。它表明,如果一个人想给机械臂编一个程序,使它能以一种多用途的方式工作,那么在某种程度上,一种非常大而且相当简单的存储器将被证明是必不可少的。但是它没有说为什么,也没有说记忆应该包含什么

视觉神经生理学家的发现让我们处于类似的境地。举个例子,假设一个人真的发现了伪祖母细胞(注:只有当祖母出现在视野中时才会触发的细胞)。那真的能告诉我们什么吗?它会告诉我们它的存在——格罗斯的手部探测器几乎能告诉我们这一点,但它不会告诉我们为什么会有这种东西,甚至不会告诉我们如何从以前发现的细胞的输出中构造出这种东西。对简单细胞和复杂细胞的单细胞记录能否告诉我们很多关于如何检测边缘,或为什么我们想要检测边缘的事情,除了以一种相当普遍的方式——通过基于经济和冗余的论证外?例如,如果我们真的知道答案;我们应该能够在计算机上对它们进行编程。但是,找到一个手部探测器肯定不能让我们编写程序。

当人们在20世纪70年代初对这类问题进行反思时,人们逐渐意识到,缺失某些重要的东西,它们在神经生理学或心理物理学两门学科中都没有出现。关键的观察是,神经生理学和心理物理学的任务是描述细胞或被试的行为,而不是解释这种行为。大脑皮层的视觉区域实际上在做什么?在做这件事时需要解释的问题是什么?应该在什么样的描述层次上寻求这样的解释?找出做某件事的困难之处的最好的方式就是尝试去做,所以基于这一点,我搬到麻省理工学院人工智能实验室,为了解决这些问题的明确目的,马文·明斯基已经集合了一群人以及一个强大的计算机。

第一个伟大的启示是,这些问题是困难的。当然,如今这一事实已经司空见惯。但在20世纪60年代,几乎没有人意识到机器视觉是困难的。这个领域不得不经历与机器翻译领域在上世纪50年代相同的惨败经历,直到它最终意识到这里有一些问题必须认真对待。造成这种误解的原因是我们人类本身就很擅长视觉。巴洛、休伯尔和威塞尔都很好地建立了特征检测器的概念,而那些没有尝试过的人根本没有想到从图像中提取边缘和线可能非常困难。事实证明,这是一个难以捉摸的问题:从三维角度来看,至关重要的边缘往往无法通过观察图像的亮度变化来找到。任何一种纹理图像都会产生大量的噪声边缘;反射率和光照的变化会带来无穷无尽的麻烦;而且,即使一条边在某一点有清晰的存在,它也很可能不会很快消失,只会在图像中沿着它的长度出现斑块。像B.K.P.霍恩(B.K.P. Horn)和T.O.宾福德(T.O. Binford)这样的早期研究者普遍而几乎绝望的感觉是,几乎任何事情都可以在一个图像中发生,而且几乎所有事情都确实发生了。

我们采取了三种方法来处理这些现象。第一个是毫不羞耻的经验主义,这与阿兹里尔·罗森菲尔德(Azriel Rosenfeld)联系最为密切。他的风格是采用一些新的技巧来进行边缘检测、纹理识别或者类似的东西,在图像上运行它,然后观察结果。虽然在这种方式中出现了几个有趣的想法,包括同时使用大小不同的算子(注:算子是指在图像的每个位置上应用的局部计算,用来表示该位置和邻近区域的亮度。)的方法来增加灵敏度和减少噪音(Rosenfeld & Thurston,1971),但是这些研究并没有做到它们能做到的那么有用,是因为它们从来没有伴随着任何对不同算法表现的严谨评估。几乎没有人尝试去比较不同算子的优点(尽管Pram & Deutsch, 1975,确实尝试过),甚至没有人尝试用数学方法来证明哪种算子是最优的。事实上,这是不可能的,因为还没有人精确地论述这些算子应该在尝试着做些什么。尽管如此,这还是显示出相当的独创性。最聪明的可能是休克尔(Hueckel, 1973)算子,它以一种巧妙的方式解决了在图像的小邻域内找到对给定亮度变化的边缘方向的最佳拟合问题。

第二种方法是尝试通过将范围限制在一个以黑色背景为背景的单个被照亮的白色哑光玩具块的世界来深入分析。方块可以以任何形状出现,只要所有的面都是平的,所有的边都是直的。这一限制允许使用更特定的技术,但仍然没有使问题变得简单。宾福德-霍恩(Binford-Horn)线条寻找器(Horn, 1973)用于寻找边缘,它和它的后续版本(由Shirai描述, 1973)都利用了环境的特殊情况,比如所有的边缘都是直的。

然而,这些技术确实工作得相当好,而且它们允许对后来出现的问题进行初步分析——粗略地说就是,一旦从一个场景中提取出完整的线条图(line drawing),该怎么办呢?这方面的研究早在罗伯茨(Roberts, 1965)和古兹曼(Guzman, 1968)的著作中就已开始,并在华尔兹(Waltz , 1975)和马克沃斯(Mackworth, 1973)的作品中达到了顶峰,它们基本上解决了从棱柱状固体的图像中提取线条图的解释问题。华尔兹的作品具有特别引人注目的影响,因为它首次明确表明,对所有可能的表面、边缘和阴影的局部物理排列进行详尽的分析,可以得出一种解释实际图像的有效算法。图1-3及其图例传达了华尔兹理论背后的主要思想。

图1 – 3. 有些边的配置在物理上是可实现的,有些则不能。三个凸边(a)或三个凹边(b)的三面体连接是可实现的,而构型(c)是不可能实现的。华尔兹记录了所有可能的连接,包括阴影边缘,最多可达四个重合的边缘。然后,他发现,通过使用这个分类来实现一致性关系(例如,要求一条边沿着它的长度具有相同的类型,比如在(d)中的E边),所绘制的包含阴影的线条的标记方案通常可以唯一地确定。

当然,这项工作背后的希望在于,一旦理解了白色积木玩具的世界,在那里找到的解决方案就可以推广;为解决更复杂的视觉环境问题提供了基础。不幸!事实证明并非如此。对于最终成功的方法的根源,我们必须看看当时正在进行的第三种发展。

这里有两项工作很重要。这两种方法对人类的感知最终完成了什么可能都没有太大的意义,很可能这两种方法都不会特别反映人类的视觉过程——但由于它们被表述的方式,它们都很重要。第一个是兰德和麦肯(Land & McCann, 1971)对颜色视觉的视网膜-皮层理论(retinex theory)的研究,由他们以及随后的霍恩(Horn, 1974)发展。传统的出发点是把颜色看作是对反射率的知觉近似。这使得一个清晰的计算问题得以表述,即反射率变化的影响如何从当前照明的变幻莫测中分离出来?兰德和麦肯建议使用这样一个事实:光照的变化通常是渐进的,而表面或物体边界反射率的变化通常是非常剧烈的。因此,通过过滤掉缓慢的变化,那些仅由反射率引起的变化就可以被分离出来,霍恩为此设计了一种巧妙的并行算法,我还提出了视网膜神经元如何对其进行简单的处理(Marr, 1974a)。

我现在不认为这是对色觉或视网膜的正确分析,但它显示了正确分析的可能风格。计算机视觉的专用程序没有了;对一个特殊的视觉迷你世界的限制也消失了;除了作为实现方法的一种方式,任何关于神经元的解释都不复存在。现在我们清楚地知道要计算什么,怎么计算,这个方法所基于的物理假设,以及一些能够实现它的算法的分析

另一个工作是霍恩(Horn, 1975)对来自阴影的形状的分析,这是关于图像形成的一系列杰出文章中的第一篇。霍恩仔细分析了光照、表面几何形状、表面反射率和视角共同在图像中生成测量亮度值的方式,从而建立了一个微分方程,将图像亮度值与表面几何形状联系起来。如果已知表面反射率和光照,就可以求出表面几何形状(参见Horn, 1977)。因此,从阴影可以得到形状。

信息很清楚。必须有一个额外的认识层次,在这个层次上,我们才能分析和理解感知过程中所执行的信息处理任务的特征,而这种分析和理解与我们头脑中执行这些任务的特定机制和结构无关。这就是我们所忽略的——将问题作为信息处理任务的分析。这样的分析并没有取代神经元或计算机程序在其他层次上的地位,但它是对这些层次的必要补充,因为没有它,就不可能真正了解所有这些神经元的功能

这一认识是由在图宾根的托马索·波吉奥(Tomaso Poggio)和我自己(Marr & Poggio, 1977; Marr, 1977 b)独立达成但共同表述的。它甚至不是很新,利昂·D·哈蒙(Leon D. Harmon)大约在同一时间说了类似的话,并且其他人也花功夫做了类似的区分。但重要的是,如果关于理解具有不同类型的观念被严肃对待,那么基于感知的信息处理基础的研究将更加严谨。通过将解释划分为不同的层次,就可以对计算的内容和原因作出明确的说明,并构建理论,说明计算的内容在某种意义上是最优的,或保证正确运行。去掉了特别的因素,用坚实的基础取代了启发式的计算机程序,在此基础上可以建立一个真正的学科。这种认识——对所缺少的东西的阐述以及如何提供它的明确想法——构成了一种新的综合方法的基础,而这正是本书所要描述的目的。


理解复杂的信息处理系统

任何一种复杂的系统几乎都不可能被理解为由其基本组成部分的性质所作的简单推断。例如,考虑瓶子里的一些气体。热力学效应的描述——温度、压力、密度以及这些因素之间的关系——不是用一组大的方程式来表述的。每一个涉及到的粒子都有一个这样的效应在它们自己的层次上被描述,那就是大量粒子的集合;我们的努力是要证明,在原则上,微观描述和宏观描述是一致的。如果一个人希望实现一个像神经系统、发育过程中的胚胎、一系列的代谢途径、一瓶汽油,甚至一个大型计算机程序一样复杂的系统的完整的理解,那么他必须做好准备,在不同层次考虑不同种类的解释的描述,它们至少在原则上联系到一个紧密的整体,即使在完整细节水平上的连接是不切实际的。对于解决信息处理问题的系统的特定情况,还存在“过程”和“表示”的双链,这两个概念都需要讨论。

表示和描述

表示(representation)是一个形式系统(formal system),它使某些实体或信息类型变得明确,并且具有系统如何实现这一点的详细说明。我将使用表示来描述给定实体的结果称为对该表示中的实体的描述(description)(Marr And Nishihara, 1978)。

例如,阿拉伯数字系统、罗马数字系统和二进制数字系统都是表示数字的形式系统。阿拉伯表示由一串从集合(0、1、2、3、4、5、6、7、8、9)中抽取的符号组成,并且构造一个特定整数n的描述的规则是,将n分解成10的倍数的和,并将这些倍数合并成一个字符串,其中最大的在左边,最小的在右边。因此,三十七等于3×10^1 + 7×10^0,即阿拉伯数字系统对此数字的描述为37。这个描述清楚地说明了数字分解为10的幂。二进制数字系统对数字37的描述是100101,这个描述明确了数字分解为2的幂。在罗马数字系统中,37表示为XXXVII。

表示的这种定义相当一般。例如,形状的表示是描述形状某些方面的形式方案(formal scheme),以及详细说明如何将该方案应用于任何特定形状的规则。乐谱提供了一种表现交响乐的方式;字母表允许对单词进行书面表示等等。“形式方案”一词对于定义是至关重要的,但读者不应该被它吓倒。原因很简单,我们正在与信息处理机器打交道,而这些机器的工作方式是使用符号来代表事物——用我们的术语来表示事物。说某物是一个形式方案,只是意味着它是一组符号,并且有规则把它们结合在一起——不多也不少。

因此,表示完全不是一种外来的概念——我们一直都在使用表示。然而,一个人可以通过使用符号来描述现实来捕捉其中的某些方面,在我看来,这样做是有用的,而且是一个迷人而强大的想法。但是,即使是我们讨论过的简单例子,也会引入一些相当普遍和重要的问题,这些问题在人们选择使用一种特定表示时就会出现。例如,如果选择阿拉伯数字表示,很容易发现一个数字是否是10的幂,但是很难发现它是否是2的幂。如果选择二进制表示,情况就相反了。因此。这是有代价的;任何特定的表示都使某些信息明晰,但却以牺牲那些被推到后台、并且可能很难恢复的信息为代价

这个问题很重要,因为信息的表示方式会极大地影响用它做不同事情的难易程度。这一点甚至在我们的数字例子中也很明显:如果使用阿拉伯或二进制表示,那么加法、减法甚至乘法都很容易,但是用罗马数字做这些事情——尤其是乘法——却一点也不容易。这是罗马文化未能像早期阿拉伯文化那样发展数学的一个关键原因。

今天,计算机工程师也面临着类似的问题。电子技术更适合二进制数字系统,而不是传统的以10为基数的系统,但是人类提供以10为基数的数据并要求以10为基数的结果。因此,工程师所面临的设计决策是,是否要付出以2为基数的转换成本,以二进制表示进行运算,然后在输出时再转换回十进制数;还是应该牺牲电路的效率,直接用十进制表示进行运算?总的来说,商用计算机和袖珍计算器采用第二种方法,通用计算机采用第一种方法。但是,即使对于给定的信息类型,人们不局限于使用一种表示系统,选择使用哪种表示系统也很重要,不能掉以轻心。它决定了哪些信息是明确的,因此哪些信息被进一步推到后台,它对随后对这些信息进行操作的难易程度具有深远的影响。

过程★

术语过程(process)指代非常广泛。例如,加法是一个过程,做傅里叶变换也是一个过程。但泡杯茶或购物也是如此。就本书的目的而言,希望把我们的注意力限制在与执行信息处理任务的机器有关的意义上。因此,让我们深入研究一下一种简单设备——超市收银台的收银机背后的概念。

要理解这样一种设备,有几个层次,从三个层次来考虑可能是最有用的。最抽象的是该设备的功能及其原因层次。它做的是算术,所以我们的第一个任务是掌握加法理论。加法是一种从成对的数到单个数的映射,通常用“+”表示;例如,“+”将对(3,4)映射到7,我应该将其写成形式(3 + 4)→7。然而,加法有许多抽象属性:

  • 它是可交换的:(3 + 4)和(4 + 3)都等于7;
  • 还有结合律:3 +(4 + 5)的和等于(3 + 4)+ 5的和。
  • 然后是惟一的特别的元素0,它的添加没有影响:(4 + 0)→ 4。
  • 同样,对于每个数都有唯一的“逆”,在4的情况下写成(-4)。当把它加到数字上得到0:[4 +(-4)]→ 0。

注意,这些性质是加法基本理论的一部分。不管数字是怎么写的——不管是二进制的、阿拉伯的还是罗马的——不管加法是怎么执行的,它们都是正确的。因此,第一层次的一部分可以描述为正在被计算的内容

这一层次的另一半解释要处理的问题是:当把待购买的物品的价格合并到最后的账单中时,为什么收银机执行的是加法而不是其它(例如乘法)?原因是,我们直觉上认为合并单个价格的规则实际上定义了加法的数学运算是合适的。这些可以用以下方式构成约束条件:

  1. 如果你什么都不买,那就应该什么也不花,什么也不买。并且某样东西的成本应该与买这样东西花的钱一样。(零元律)
  2. 向收银员提交货物的顺序不应影响总数。(交换律)
  3. 将货物分成两堆,每堆单独付款不应影响你的总付款金额。(结合律;价格合并的基本操作)
  4. 如果你买了一件东西,然后退货,你的总消费应该是零。(逆元律)

这是一个数学定理——这些条件定义了加法运算,因此使用的加法是合适的计算。这就是我所说的收银机计算理论。它的重要特征是:

  • (1)它包含关于计算什么为什么计算的单独内容;
  • (2)作为结果的操作由它必须满足的约束条件唯一地定义

在视觉处理理论中,根本的任务是从世界的图像中可靠地推导出世界的属性;我们研究的一个中心主题是,分离出那些足以定义一个过程、且普遍适用于整个世界的约束条件

然而,为了了解一种实际运行的过程,人们必须以某种方式实现它,并因此选择一个过程操作的实体的表示。因此,过程分析的第二个层次包括选择两件事:

  • (1)过程的输入和输出的表示,以及
  • (2)实际完成转换的算法

当然,对于加法,输入和输出表示可以是相同的,因为它们都由数字组成。然而,这在一般情况下是不正确的。例如,在傅里叶变换的情况下,输入表示可以是时域,输出表示是频域。如果我们的第一个层次指定了“什么”和“为什么”,那么第二个层次指定了“如何”对于表示,我们可以选择阿拉伯数字对于算法,我们可以遵循通常的规则:首先添加最小有效数字,如果总和超过9,则“进位”。收银机,无论是机械的还是电子的,通常使用这种表示与算法。

这里有三个要点。

  • 首先,表示通常有广泛的选择
  • 其次,算法的选择通常相当严重地依赖于所使用的特定表示
  • 第三,即使对于给定的表示,通常也有几种可能的算法来执行相同的过程。选择哪一个通常取决于算法可能具有的任何特别需要或不需要的特性;例如,一种算法可能比另一种算法效率高得多,或者另一种算法可能效率略低,但更稳健(也就是说,对必须在其上运行的数据中的微小错误不那么敏感)。或者,一种算法可能是并行的,另一种是串行的。因此,选择可能取决于算法要实际具体的硬件或机器类型。

这就把我们带到了第三个层次,在这个层次上,这个过程将在物理上被实现。这里重要的一点是,同样的算法可能在不同的技术中实现。一个有条不紊地从右到左将两个数字相加,并在必要时进一位数字的孩子,可以使用附近超市里的由电线和晶体管构成的收银机实现相同的算法,但是算法的物理实现在这两种情况下是不同的。另一个例子:许多人编写了电脑程序来玩井字游戏,并且有一个或多或少不会输的标准算法。实际上,这个算法已经由W·D·希利斯和B·西尔弗曼以完全不同的技术——在一台由儿童木制建筑集Tinkertoys制作的计算机中实现。整个笨拙得可怕的引擎,但它实际上能够运行,目前安放在密苏里州圣路易斯大学的博物馆中。

某些类型的算法更适合某些物理基质。例如,在传统的数字计算机中,连接的数量与门的数量相当,而在大脑中,连接的数量(x 10^4)远远大于神经细胞的数量。其根本原因是,在生物结构布线中相当便宜,因为它们可以在三维空间中单独生长。在传统的布线技术中,布线多多少少受到二维空间的限制,严重限制了并行技术与算法的使用范围;同样的操作通常只好是串行的。

三个层次★

我们可以用图1-4所示的方式总结我们的讨论,它阐述了一个人在他说自己完全理解某个信息处理设备前,他所必须理解的信息处理设备的不同层次。

  1. 处于层次的一个极端——顶级层次的是设备的抽象计算理论。在计算理论中,设备的表现由从一种信息到另一种信息的映射来刻画,这种映射的抽象属性要被准确定义,并且它对手头任务的适当性(appropriateness)充分性(adequacy)也要被证明。
  2. 处于中间层次的是输入和输出表示形式的选择,以及用于将前者转换为后者的算法
  3. 处于另一个极端的是如何在物理上实现算法和表示的细节——可以说是详细的计算机体系结构。

这三个层次耦合在一起,但只是松散地耦合。例如,算法的选择受到它必须做的事情和它必须在其中运行的硬件的影响。但是每个层次都有广泛的选择,每个层次的解释都涉及到与其他两个层次相当独立的问题。

图1 – 4. 任何执行信息处理任务的机器都必须理解这三个层次。

这三个层次的描述都将在最终理解感知信息处理中占有一席之地,当然它们在逻辑上和因果性上是相关的。但需要注意的重要一点是,由于这三个层次只是松散地联系在一起,所以有些现象可能只能用其中一两个层次来解释。例如,这意味着必须在适当的水平上对某些心理物理观察结果作出正确的解释。在试图将心理物理问题与生理学联系起来的过程中,往往会混淆问题应该解决的程度。例如,一些主要与视觉的物理机制相关的现象,如后像(例如,你在盯着一个灯泡后看到的东西)或比如任何颜色可以由三原色合适的混合来匹配的事实(这主要是基于我们人类具有三种视锥细胞这一事实的结果)。另一方面,内克尔(Necker)立方体的歧义性(图1-5)似乎需要一种不同的解释。可以肯定的是,知觉转变的解释必须与一个在大脑某个地方的双稳态神经网络(bistable neural network,即有两个截然不同的稳定状态)有关,但如果一个解释中没有提到这幅二维图像存在两种不同但又完全可信的三维解读,那么很少有人会对此感到满意。

图1 – 5. 所谓的内克尔错觉,是以1832年发现它的瑞士博物学家L. A.内克尔的名字命名的。问题的实质是,二维表示(a)使立方体的深度缺失,人类视觉的某个方面就是要恢复这个缺失的三维空间。立方体的深度确实可以被感知,但是有(b)和(c)两种可能的解读。一个人对(a)深度的感知具有从其中一种知觉跳到另一种知觉的特性。

对于某些现象,需要的解释类型相当明显。例如,神经解剖学显然主要与第三个层次有关,即计算的物理实现。同样的道理也适用于突触机制、动作电位、抑制相互作用等等。神经生理学也主要与这一水平相关,但它也能帮助我们理解所使用的表示类型,尤其是如果有人接受了我之前引用的巴洛的观点。但是,在从神经生理学的发现中推断所使用的算法和表示方法时,人们必须格外谨慎,尤其是在人们对需要表示哪些信息和需要实现哪些过程有了清晰的概念之前。

另一方面,心理物理学与算法和表示的层次有更直接的关系。不同的算法往往会以不同的方式失败,因为它们(在心理物理学实验中)要么被推到性能极限,要么被剥夺了关键信息。正如我们将要看到的,主要是心理物理学的证据向波吉奥和我证明,我们的第一个立体匹配(stereo-matching)算法(Marr & Poggio, 1976)不是大脑所使用的算法,而表明我们的第二个算法(Marr & Poggio, 1979)大致是大脑所使用的算法的最好证据也是来自心理物理学。当然,在这两种情况下,基本的计算理论是相同的,只是算法不同。

心理物理学也可以帮助确定表示的本质。罗杰·谢巴德(Roger Shepard, 1975)、埃莉诺·罗奇(Eleanor Rosch, 1978)或伊丽莎白·沃林顿(Eleanor Rosch, 1975)的著作为这一方向提供了一些有趣的线索。更具体地说,史蒂文斯(Stevens, 1979)从心理物理实验中提出表面方向由偏斜(slant)和倾斜(tilt)的坐标表示,而不是梯度空间(gradient space)中更传统的(p, q)坐标(参见第3章)。他还从被试在大范围的朝向中判断表面朝向时所产生的误差大小的一致性推断出:单纯的角度,而不是(譬如)它们的余弦、正弦或切线,被用作偏斜和倾斜的表示量

更一般地说,如果把不同现象需要在不同层次上解释的想法清楚地记在心里,它往往有助于评估那些时不时被提出来的、不同类型的反对意见的正确性。举个例子,其中一个最受欢迎的观点是,大脑与计算机截然不同,因为一个是并行的,另一个是串行的。当然,这个问题的答案是:串行和并行之间的区别是在算法层面上的区别;它一点也不基本——任何并行编程的东西都可以串行地重写(尽管反过来不一定对)。因此,这一区别并没有提供任何理由来证明,大脑的运作方式与计算机如此不同,以至于计算机无法被编程来执行相同的任务。

计算理论的重要性

虽然算法和机制在经验上更容易理解,但从信息处理的角度来看,计算理论处于最高层次,是至关重要的。其原因是作为感知基础的计算的本质更多地依赖于必须解决的计算问题,而不是实现它们的解决方案的特定硬件。换句话说,通过理解正在解决的问题的本质,而不是通过研究它被实现的具体机制(和硬件),可能更容易理解算法。

同样的道理,只研究神经元来理解感知,就像只研究羽毛来理解鸟类的飞行一样——这是不可能做到的。为了了解鸟类飞行,我们必须了解空气动力学;只有这样,羽毛的结构和鸟类翅膀的不同形状才有意义。更重要的是,正如我们将看到的,我们只研究解剖学和生理学,并不能理解为什么视网膜神经节细胞和外侧膝状体神经元具有感受野。我们可以通过研究它们的连接和相互作用,理解这些细胞和神经元的行为,但是为了理解为什么感受野是那个样子,为什么它们是圆对称的、为什么它们的兴奋性和抑制性区域具有特征性的形状和分布——我们需要知道一点微分算子(differential operators)理论、带通通道(band-pass channels)和不确定性原理(uncertainty principle)的数学(见第二章)。

神经科学中非常专业的实证学科未能充分认识到计算理论的缺失,这也许并不奇怪;但令人惊讶的是,这个层次的方法并没有在人工智能的早期发展中发挥更大的作用。在很长一段时间里,执行某项任务的启发式程序被认为是该任务的理论,而程序做了什么和它如何做之间的区别并没有被认真对待。结果导致:

  • (1)使用特殊的机制来解决特定的问题的解释风格在逐步形成;
  • (2)特定的数据结构,如在LISP编程语言中被称为属性列表的属性值对列表,被用于解释知识表示理论;以及
  • (3)经常没有办法在不运行一个程序的情况下,确定该程序是否会处理一个特定的情形。

未能认识到“是什么”和“怎么办”之间的理论区别,也极大地阻碍了人工智能和语言学领域之间的交流。乔姆斯基(Chomsky, 1965)的转换语法(transformational grammar)理论是一种真正的计算理论——在早期定义的意义下。它只讨论英语句子的句法分解应该是什么,而根本不讨论应该怎样分解。乔姆斯基本人对此非常清楚——这大致是他对能力(competence)表现(performance)的区分,尽管他对表现的概念确实包括其他因素,比如言辞中停顿——但事实上,他的理论是由转换定义的。这看起来像计算,似乎迷惑了很多人。例如,威诺格拉德(Winograd, 1972)批评乔姆斯基的理论,理由是它不能被倒转(inverted),因此不能在计算机上运行;当乔姆斯基的语言学同事们把注意力转向如何从一个真实的英语句子中计算出语法结构时,我对他们提出的同样的论点有了一些反思。

对此的解释很简单,即找到可用于实现乔姆斯基理论的算法与研究该理论本身是完全不同的工作。用我们的话说,这是一个不同层次的研究,两个任务都必须完成。这一点得到了马库斯(Marcus, 1980)的赞赏,他非常关注乔姆斯基的理论是如何被实现的,以及人类语法处理能力所受到的各种约束条件,它们可能会导致乔姆斯基所发现的语法的结构性约束。新兴的“跟踪(trace)”语法理论(Chomsky & Lasnik, 1977)甚至可能提供了一种综合这两种方法的道路——例如它们显示出构成计算理论一部分的某些相当特定的限制,可能是用来实现语法解码的计算能力的缺点的结果。

J· J· 吉布森的方法

在知觉方面,也许最接近计算理论层次的人是吉布森(Gibson, 1966)。然而,尽管他的一些想法是正确的,但他没有正确地理解什么是信息处理,这使他严重低估了视觉所涉及的信息处理问题的复杂性,以及处理这些问题所必需的微妙之处。

吉布森的重要贡献是破除了感觉数据的哲学考虑与感觉的情感品质的争论,并注意到关于感觉,重要的是它们是感知外部真实世界,对视觉的而言即是那些可见的表面。因此,他提出了一个至关重要的问题:一个人如何在日常生活中,在不断变化的感觉的基础上,获得持续的知觉?这的确是正确的问题,它表明吉布森正确地把感知问题看作是从感官信息中恢复外部世界的“有效”属性的问题。但成问题的是,他对如何做到这一点的看法过于简单化。他的方法使他把高阶变量,如刺激能量(stimulus energy)、比率(ratios)、比例(proportions)等,视为观察者运动和刺激强度变化的“不变量(invariants)”。

“这些不变量,”他写道,“对应于环境的永恒属性。因此,它们构成了有关当前环境的信息。”这使他产生了这样一种观点,即大脑的功能是“检测不变量”,尽管光、压力或声音响度等“感觉”在发生变化。因此,他说,“大脑的功能,当它的知觉器官构成一个环时,它不是在解码信号、不是在解释消息,不是在接收图像,也不是将感觉输入进行组织以处理数据,用现代术语来说,它是在从环境能量的流动阵列中寻求和提取环境的信息”,他认为神经系统以某种方式与这些不变量“共振(resonating)”。然后,他开始对生活在环境中的动物进行广泛的研究,寻找可能使它们产生共振的不变量。这就是生态光学(ecological optics)概念背后的基本思想(Gibson, 1966, 1979)。

虽然人们可以批评吉布森分析的某些不足之处,但在我看来,它主要的、并且是致命的不足在于更深的层次——在于未能实现两件事。首先,物理不变量的检测,如图像表面,用现代术语的话来说,正是一个精确的信息处理问题。其次,他大大低估了这种检测的难度。在讨论从观察者的运动中恢复三维信息时,他说“在运动中,只有透视信息可以被使用”(Gibson, 1966,  第202页)。也许对于吉布森来说,关键在于:

当一个物体在世界上移动时,检测它是否不变并不像看上去那么困难。只有当我们假定对物体的恒定尺寸的知觉必须依赖于对不恒定的形状和大小的知觉的校正时,这才显得困难。一个物体的常数维的信息通常是通过光学阵列中的不变关系获得的。刚度是指定的(Rigidity is specified.)。(加了强调)

是的,当然,但是怎么做呢?检测物理不变量就像吉布森所担心的那样困难,但是我们可以做到。而理解它的唯一方法就是把它当作一个信息处理问题来对待。

基本的观点是:视觉信息处理实际上是非常复杂的,吉布森并不是唯一一个被视觉行为表面的简单性所误导的思想家。哲学研究知觉本质的整个传统似乎没有足够重视所涉及的信息处理的复杂性。例如,奥斯丁(Austin, 1962)的《感觉与可感物》(Sense and Sensibilia)有趣地驳斥了早期哲学家们显然支持的观点——由于我们有时会被幻觉所迷惑(例如,一根笔直的木棍如果部分浸入水中就会弯曲),我们看到的是感官数据,而不是物质。答案很简单,通常我们的知觉加工确实正确运行(它提供了一个关于“那是什么”的真正描述),不过尽管进化已经让我们的处理允许很多变化(如变化无常的照明),但水造成的光线折射造成的扰动还不是其中之一。顺便说一下,尽管弯曲的棍子的例子自亚里士多德以来就被讨论,但我还没有见过对感知本质的哲学探究,例如,一种名为苍鹭的鸟,它通过啄食水面上的鱼来进食。对于这样的鸟类,视觉校正可能是存在的。

不管怎样,我的重点是另一个。奥斯丁(1962)花了很多时间在一个观点上——知觉告诉一个人关于外部世界的真实属性,并且他考虑的一件事是“真实的形状”(第66页),这个概念是在他早些时候讨论一枚在某些角度下“看起来像椭圆”的硬币时出现的。尽管如此,

它有一个真实的形状,没有改变。但硬币实际上是相当特殊的情况。一方面,它们的轮廓清晰,非常稳定,另一方面,它们有一个已知的、可命名的形状。但有很多事情并非如此。云的真实形状是什么?…或者一只猫?当它移动时,它的真实形状会改变吗?如果没有,它的真实形状是以什么姿势展示的?此外,它的真实形状是否需要相当光滑的轮廓,或者必须有足够细的锯齿以适应每一根毛发?很明显,这些问题没有答案——没有规则,没有程序来决定答案。(加了强调)。(第67页)

但这些问题都有答案。有一些方法可以精确地描述猫的形状(参见第5章),并且有一些规则和程序可以达到这种描述。这正是视觉相关的内容,也正是让它变得复杂的原因。


视觉的表示框架

视觉是一个从外部世界的图像中产生对观察者有用的描述,而不是被不相干的信息所干扰的过程(Marr, 1976;Marr & Nishihara, 1978)。我们已经看到,一个过程可能会被认为是从一个表示到另一个表示的映射,在人类视觉的情况下,最初的表示是毫无疑问的——它是由被视网膜感光细胞检测到的图像的亮度值阵列所构成。

把一幅图像看作一种表示是很恰当的;使事情变得明确的概念是阵列中每个点的图像亮度值,在坐标(x,y)上,我们可以方便地用I(x,y)表示。为了简化我们的讨论,我们暂时忽略有几种不同类型的受体这一事实,假设只有一种受体,因此图像是黑白的。因此,I(x,y)的每个值都指定一个特定的灰度级别;我们将每个检测器称为一个图像元素或像素,并将整个阵列I称为一个图像。

但是视觉过程的输出呢?我们已经同意,它必须包括有用的、对世界的描述,但这一要求相当模糊。我们不能做得更好吗?的确,与输入不同,视觉的结果更难辨别,更不用说精确地指定了,而这种新方法的一个重要方面是,它对最终目标提出了相当具体的建议。但在我们开始讨论之前,让我们先退一步,花一点时间来阐述这些问题所引发的更普遍的问题。

视觉的目的

表示的有用性取决于它是否适合于使用它的目的。鸽子利用视觉来导航、飞行和寻找食物。许多种类的跳蛛利用视觉来区分潜在的食物和潜在的伴侣。例如,有一种蜘蛛的视网膜由两条对角线组成,呈V字型排列。如果它从一个物体的背面探测到一个红色的V字型,它就找到了配偶。否则,可能是一顿饭。正如我们所见,青蛙用它的视网膜来探测虫子;兔子的视网膜上布满了各种特殊的装置,其中包括一个明显是鹰探测器的装置,因为它对盘旋在头顶上的捕食鹰所形成的图案反应良好。人类的视觉,但另一方面,似乎很一般,虽然它明显包含了各种特殊用途的机制,例如用于引导眼睛朝向视野中的一个意想不到的物体的运动、或通过进行眨眼或其他方式以避免一些过快接近头部的东西。

简而言之,视觉被用在如此令人眼花缭乱的各种各样的方式上,以至于不同动物的视觉系统必须彼此有显著的不同。我所提倡的这种阐述方式,即在表示和过程方面,是否可能证明对它们都是合适的呢?我想是的。这里的一般观点是,由于视觉被不同的动物用于如此广泛的用途,你无法想象你看到的动物使用相同的表征;每个都可以自信地使用一个或多个表示,这些表示可以很好地满足所有者的目的。

作为一个例子,让我们简要地考虑一个原始但高效的视觉系统,它具有被很好地理解的额外优点。位于图宾根的维尔纳·赖卡特(Werner Reichardt)的团队在过去14年里耐心地研究了家蝇的视觉飞行控制系统,并且在一篇著名的论文中,赖卡特和托马索·波吉奥在解决这一问题上取得了长足进展(Reichardt & Poggio, 1976, 1979;Poggio & Reichardt, 1976)。粗略地说,苍蝇的视觉装置通过五个独立的、刻板的、非常快速的反应系统来控制它的飞行(从视觉刺激到扭矩变化的时间只要21毫秒)。例如,其中一个系统是着陆系统——如果视野“爆炸”的足够快(因为附近有一个表面正在逼近),苍蝇就会自动“降落”到它的中心。如果这个中心在苍蝇的上方,苍蝇会自动倒立着陆。当脚碰到翅膀时,翅膀的力量就被中断了。反之,如果撤掉,苍蝇就会跳起来;当脚不再接触地面时,翅膀就恢复了力量,昆虫就会再次飞翔。

飞行中的控制是通过独立的系统控制苍蝇的垂直速度(通过控制翅膀产生的升力)和水平方向(由左右机翼水平推力的不对称性所产生的扭矩决定)来实现的。例如,水平控制系统的视觉输入完全由这两项描述

r(\psi)\dot{\psi}+D(\psi)

其中rD的形式如图1-6所示。这个输入描述了苍蝇如何跟踪一个出现在视野中角度为\psi的地方且角速度为{\dot{\psi}}的物体。这个系统被触发以跟踪视野中某个角度维度的物体,并且运动策略是这样的,如果可见的物体是几英寸外的另一只苍蝇,那么系统就会被成功截断。如果目标是100码外的一头大象,则不会有截断,因为该苍蝇的内置参数是针对附近的另一只苍蝇而不是远处的大象。

图1 – 6. 苍蝇的飞行系统的视觉输入的水平分量R由公式R=D(\psi)-r(\psi)\dot{\psi}描述,其中\psi是在苍蝇的视野中的刺激的方向,而{\dot{\psi}}是该刺激的角速度。D(\psi)是奇函数,如(a)所示,它具有将目标集中在苍蝇的视野中心的效果;如(b)所示,r(\psi)基本上是常数。

因此,苍蝇的视觉传达出一种表示,其中至少有三件事是明确的:(1)视野是否快速逼近,以至于苍蝇应该考虑着陆;(2)是否有一个斑块——它可能是一个黑色斑点,或者是一个在有纹理的背景前的有纹理的物体,并相对于其背景有一些运动;如果有一个斑块,则(3)这一斑块的\psi{\dot{\psi}}则被传输到运动系统。这大概占了苍蝇视力的60%的情况。特别地,苍蝇极其不可能对它周围的视觉世界有任何明确的表示——例如没有关于表面的真正概念,但是有一些触发器和某些专门的以苍蝇为中心的参数,如\psi{\dot{\psi}}

很明显,人类的视觉要比这复杂得多,尽管它可能很好地结合了子系统,就像苍蝇的子系统一样,以帮助完成特定的、相当低层次的任务,比如控制眼球的运动。然而,正如波吉奥和赖卡特所表明的,即使是这些简单的系统也可以被理解为信息处理任务。并且他们的工作其中一个吸引人的方面是他们如何做到不仅写出微分方程以准确地描述苍蝇的视觉控制系统,并且使用沃尔泰拉级数展开的方式,以一种提供底层神经网络连接的可能的、最小复杂性的方式表达这些方程。

高级视觉

像苍蝇这样的视觉系统能充分、快速、精确地满足其主人的需要,但它们并不复杂——关于世界的客观信息很少被获取。苍蝇获得的信息都是非常主观的——苍蝇看到的刺激物占据视野的大小而不是客观物体的大小、苍蝇视野中的物体所在的视野角度而不是它相对于苍蝇或者一些外部参考系的的位置,以及物体的角速度——这还是在苍蝇的视野中,而不是任何相对于苍蝇或某个静止参考点的真实速度的评估。

这种简单性的一个原因肯定是,这些事实为苍蝇的生存提供了足够的信息。当然,这些信息并不是最优的,苍蝇会时不时地把精力浪费在追逐一片中等距离之外的落叶,或者是一头距离很远的大象上,这都是其感知系统不足的直接后果。但这显然无关紧要——苍蝇有足够的能量来吸收这些额外的成本。另一个原因当然是,将这些相当主观的测量结果转化为更客观的质量,需要进行更多的计算。那么,人们应该如何考虑更先进的视觉系统——例如人类的视觉。有哪些问题?视觉真正传达的是什么样的信息,涉及哪些表示的问题?

我对这些问题的处理方法受到临床神经科学中迷人的解释的很大影响,如克里奇利(Critchley, 1953)和沃灵顿与泰勒(Warrington & Taylor, 1973)。特别重要的是,伊丽莎白·沃灵顿于1973年10月在麻省理工学院的一次报告,她在报告中描述了患有左顶叶或右顶叶损伤的病人的能力和局限性。对我来说,她所做的最重要的事情是区分这两类病人(见Warrington & Taylor, 1978)。对于右侧损伤的患者,只要他们的视角在某种意义上是简单明了的,他们就有可能识别出一个普通的物体。她使用了“传统”和“非传统”两个词——从侧面看水桶或单簧管,是“传统”的视角,但从另一端看,则是“非传统”的视角。如果这些患者能够完全识别物体,则他们知道其名字和语义,即其用途和目的、它是多大的、它多重的、它是由什么制作成的等等。如果他们的观点是非传统的,譬如从上往下看水桶,病人不仅认不出水桶,而且他们会极力否认这是水桶的一个视角。左顶叶损伤的患者的行为完全不同。通常这些病人没有语言,所以他们不能给被看到的物体命名,也不能说明它的用途和语义。但是他们却表现出他们能正确地感知它的几何——也就是它的形状,甚至从非传统的视角看也能做到这一点。

沃灵顿的报告表明了两件事。首先,物体形状的表示被存储在不同的地方,因此与它的用途和目的的表示是完全不同的。其次,视觉本身就可以给出被观察的物体的形状的内在描述,即使物体没有在理解物体的用途和目的的传统意义上被识别出来。

对我来说,这是一个重要的时刻,原因有二。计算机视觉界的普遍认为识别是如此困难,以至于需要所有可能的信息。几年之后,这一观点的结果适时地出现在弗雷德(Freuder, 1974)、特南鲍姆和巴洛(Tenenbaum & Barrow, 1976)等人的著作中。在后者的程序中,有关办公室的知识——例如,办公桌上有电话,电话是黑色的——被用来帮助“分割”图像上方的一个黑色斑点,并“识别”它是一部电话。弗雷德的程序使用了类似的方法来“分割”和“识别”场景中的锤子。显然,我们在现实生活中确实使用了这些知识;有一次,我在花园里的莴苣丛中看到一个棕色的团状物在颤抖,我正确地认出它是一只兔子,尽管仅凭视觉信息是不够的。然而在这里这个年轻女人平静地告诉我们,她的病人不仅可以传达给她,他们已经掌握了她显示给他们看的东西的形状(即使他们不能叫出物体的名字或者说出它们是如何使用的),而且即使她通过展示奇怪的视角或者以奇怪的方式照亮物体使任务变得极其困难,他们也能开心地继续做到这一点。显然,人们对计算机视觉的直觉是完全错误的,即使在困难的情况下,形状也可以由视觉单独决定。

我想,第二件重要的事情是,伊丽莎白沃林顿指出了人类视觉的精髓所在——它告诉我们形状、空间和空间布局。这里提供了一种方法来阐明它的目的——从图像中构建对事物形状和位置的描述。当然,这绝不是视觉所能做的一切;它还告诉我们构成形状的表面的光照和反射率——它们的亮度、颜色和视觉纹理,以及它们的运动。但这些似乎是次要的;它们可以与一种理论相联系,在这种理论中,视觉的主要工作是获得形状的表示。

通过可能的途径达到想要的

最后,人们必须接受冷酷的现实。尽管让视觉从图像中提供一个完全不变的形状描述(无论在细节上意味着什么)是令人满意的,但几乎可以肯定,这只需要一步是不可能的。我们只能做可能的事,然后从那里走向我们想要的。因此,我们想到了表示序列(sequence of representations)的概念,从图像中直接获得的描述开始,但这些描述经过精心设计以有助于随后逐渐恢复关于物体形状的客观物理属性。实现这一目标的主要步骤是描述可见表面的几何形状,因为图像中通过立体视觉、阴影、纹理、轮廓或视觉运动等方式编码的信息,是由形状的局部表面属性决定的。许多早期可视化计算的目标是提取这些信息。

然而,这种对可见表面的描述并不适合于识别任务。有几个原因,也许最重要的是,就像所有早期的视觉过程一样,它在很大程度上取决于有利的观察位置。因此,最后一步包括将以以观察者为中心的表面描述转换为物体的三维形状和空间排列的表示,而不依赖于物体被观察的方向。最终的描述是以物体为中心的,而不是以观察者为中心的

因此这里描述的整体框架将从图像到形状信息的推导过程划分为三个表示阶段

  1. 二维图像属性的表示,如亮度变化和局部的二维几何:
  2. 可见表面的属性在以观察者为中心坐标系统中的表示,如表面朝向、与观察者的距离以及在这些量中的不连续性;表面反射率;以及对一般照明的一些粗略描述;
  3. 以物体为中心的三维结构和所观察的形状的组织表示,以及对其表面性质的一些描述。

这个框架如表1-1所示。第二章至第五章给出了更详细的说明。

表1 – 1. 用于从图像中获取形状信息的表示框架。

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据