米兰·(milan)中国官方网站-时隔40年,斯坦福大学吴佳俊再译马尔代表作《视觉》:一场超越时空的对话

作者 | 陈彩娴
编纂 | 岑峰于数十年的计较机视觉史上,没有人能轻忽David Marr与其在1982年出书的《视觉》一书。David Courtnay Marr(1945-1980)是计较神经科学范畴的前驱之一。1973年,他应Marvin Minsky与Seymour Papert的约请插手MIT人工智能试验室,从事视觉相干研究,并创始性地提出了三维表达思惟,使计较机视觉进入了一个新的时代。
惋惜,马尔在1980年英年早逝。于他的学生帮忙下,MIT出书社于1982年出书了他的遗作《Vision: A Computational Investigation into the Human Representation and Processing of Visual Information》。该书一经出书,即成经典。

马尔《视觉》的第一个中文译本由汪云9、姚国正、刘磊等人鞭策。1983年到1986年,中国神经收集研究前驱汪云九与其同事姚国正、学生刘磊破费了巨年夜功夫,将马尔的原著翻译成中文,并在1988年出书,也就是闻名的《视觉计较理论》(以下)。

《视觉计较理论》一出书,当即成为高校及研究单元必备的参考资料。这本书同样成为至今海内被援用至多的一本中文译著,于我国极年夜地鞭策了计较机视觉于平凡师生间的推广,对于我国计较机视觉、图象处置惩罚、人工智能、模式辨认等范畴的研究及人材造就具备极为主要的价值。
其时马尔于撰写《视觉》一书时,人工智能、特别是深度进修还有未获得成长。而于深度进修时代,计较机视觉的研究成长获得了庞大冲破。此时重温马尔的经典著作,思索马尔的计较理论于今世视觉研究中的作用,对于计较机视觉将来的研究有很年夜意义。而此刻距汪、姚、刘等人的第一个中文译本的出书已经颠末去了三十多年,该译本已经经不容易获取,书中很多术语的通用译法也都已经有了转变。
受此开导,现任斯坦福年夜学计较机科学系助理传授、旧日清华年夜学姚班卒业生的青年学者吴佳俊决议再次基在2010年麻省理工学院出书社出书的英文第2版再次举行翻译。中文译本《视觉:对于人类怎样暗示及处置惩罚视觉信息的计较研究》已经由博文视点出书。新的中文译本包罗了马尔的同事Tomaso Poggio及Shimon Ullman为中文版新写的序及跋文,会商了马尔的视觉理论于深度进修时代的价值,给新一代年青学生提供了一本优异的进修资料,堪称意义特殊!

该译本也获得了朱松纯、沈向洋、张正友、汤晓鸥、李飞飞等名人的鼎力大举保举,不成错过。
1深度进修时代的马尔理论时隔多年,《视觉》一书所反应的马尔使用神经科学常识、从人类视觉体系出发研究计较机辨认的要领仍具备前瞻性与引领性。
于这本书中,马尔至少做了两年夜孝敬,一是将对于信息处置惩罚体系的理解分为三个条理(计较理论条理、算法条理与硬件实现条理),二是提出了三维的视觉计较理论,对于计较机视觉、人工智能与神经科学于内的多个范畴孕育发生了深远影响。
比喻说,20世纪80年月也是模式辨认与计较机视觉、人工智能分解交融的一个要害时间点。模式辨认这一学科最初是为相识决用呆板辨认物体的问题而呈现。厥后,跟着计较机研究的成长深切,怎样让计较机辨认物体同样成为了模式辨认最主要的研究标的目的之一。马尔的计较视觉理论出来后,模式辨认与计较机视觉的联合也愈发慎密。
已往模式辨认于模仿人的辨认能力(特别是辨认3D物体方面)存于天赋不足,需要把「辨认方针」改成「辨认外貌」,把三维问题降为「2.5维问题」,从而集中解决从图象到可见外貌的辨认问题。而马尔的计较视觉理论反过来提供了从二维到包罗纹理信息的2.5维图象再到三维图象的改变要领,堪称是一枚硬币的两面,使患上计较机视觉的研究取患了冲破性的进展,也直接鞭策模式辨认的对于象从二维进入了三维范畴。

图注:马尔的3D暗示思惟
值患上留意的是,于马尔躬身研究视觉时,深度进修的理论还没有成长成熟,而最近几年来,深度进修理论已经经为计较机视觉范畴的冲破带来了不成耗费的孝敬。四十年前与四十年后,马尔的视觉计较理论还有有安身之地吗?于吴佳俊新完成的译作中,美国艺术与科学院院士、以色列魏茨曼科学研究所 Samy 及Ruth Cohn 讲席传授 Shimon Ullman 介入作序,也谈到深度进修的呈现对于马尔于40年前对于视觉与人工智能的见解提出了多重挑战。
Ullman认为,深度进修最焦点的一点是挑战了马尔的基本要领,即为人类视觉与人工智能问题追求所谓的「计较理论」。
于《视觉》一书中,马尔的重点是于计较理论条理,而当前的深度收集建模则偏重在算法及实现条理,摒弃了计较理论的观点。
比喻说,于处置惩罚从双眼视觉计较三维外形的问题时, 马尔阐发,计较使命依靠在于摆布眼得到的两张图象中成立视觉特性之间的对于应瓜葛,为了得到靠得住的对于应瓜葛,最适合的特性是多个条理上清楚的图象强度变化(边),经由过程将问题简化为沿所谓的极线举行一维搜刮,对于响应特性的搜刮也变患上轻易。按照如许的阐发,马尔与团队描写了基在这一使命的基来源根基理的计较理论。
而于深度进修的要领中,视觉问题是经由过程对于使命举行端到端练习来解决。这些练习基在图象示例,并将其与所需的输出配对于。作为计较理论支柱的基来源根基则于这里其实不起直接作用。这些原则可能会被收集模子隐式地发明并利用,但它们不会被从外部提供或者显式地利用。
这类要领上的差异会对于马尔的要领及要领论的其他焦点问题孕育发生影响。例如,马尔夸大基在计较理论的模块化设计的用场,而深度进修要领则夸大端到端练习的价值。
不外,Ullman指出,于算法条理上,马尔的计较理论与深度进修的端到端进修要领其实不能彻底区别开来。于马尔发表在1977年的 Artificial Intelligence — A Personal View 中,马尔区别了两种类型的理论,别离称为「类型1」与「类型2」。此中,「类型1」理论夸大于设计适合的算法前必需相识算法应该做甚么、且这些信息可以或许被计较理论捕捉,很多生物信息处置惩罚问题都遵照「类型1」理论,且具备可注释性;而「类型2」理论则是经由过程年夜量同时举行的流程/步调来解决问题,好比猜测卵白质怎样折叠的问题,倾向黑盒性子。

论文链接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.5076 rep=rep1 type=pdf
于该文中,马尔提到,他认为视觉与人工智能中的很多问题多是「类型1」与「类型2」的混淆,而不是纯真的「类型1」。从理论上看,「类型1」的原则具有「类型2」所缺少的注释性。可是,于解决视觉、人工智能与人类认知的问题时,这些原则又是否真的有须要?这是一个争议性很年夜的问题。
2计较机视觉毕竟要「计较」甚么?从译者吴佳俊的序来看,他对于马尔理论最感兴致的天然是马尔所提出的三年夜理解条理。计较机视觉于已往十年的进展都与理解条理有着素质联系关系,但主流的研究逐渐轻忽了计较理论的进展:计较机视觉毕竟要「计较」甚么?
吴佳俊谈到,于已往十年,计较机视觉范畴的最猛进展是语义上的判别使命,特别以语义上的图象辨认与分类为代表,判定图上的对于象是猫还有是狗。但计较机视觉中的「计较」,显然不该该限在这种单一的使命。
马尔所提出的低层视觉与三维布局重修于很长一段时间内主导了计较机视觉的研究。厥后,深度进修的鼓起,以和算力及数据的加强对于图象的语义辨认带来了革命性的变化,这也纵然致使了有些学者认为马尔理论于已往的数十年间误导了计较机视觉的成长走向。
对于此,吴佳俊提供了一个不雅点:当今计较机视觉的成长其实不象征着语义判别是最主要、最准确的计较使命,也就无可区别马尔计较理论与深度进修计较理论的好坏。此外,除了了深度进修理论,计较机视觉于已往十年的发作还有归功在以卷积神经收集及反向流传算法为代表的算法、以 GPU 为代表的硬件实现及以 ImageNet 为代表的数据,这与马尔的三个理解条理也是相切合的(除了了数据)。
马尔于《视觉》一书中提出的计较理论基在包括初草图及2.5维草图于内的中间暗示,以和过零点、视差等基本元素或者「特性」,这好像与现今部门深度进修首脑所夸大的 「彻底从数据中进修」的观点格格不人。
吴佳俊也于译者序中提出了两点见解:
其一,现有的深度进修架构有其内涵的归纳偏置,如卷积神经收集的空间局部性、轮回神经收集的时间局部性、Transformer 的自相似性,等等。而本书中会商的很多基本元素,恰与这些归纳偏置有内涵的联系关系。
其二,假如咱们还有试图于人工智能及人类智能之间成立接洽(这自己也还有渐成为一个有争议的话题),那末任何的偏置是应该被预先设计,还有是应该经由过程进修获得,就与人类认知科学中的天赋与后天的观点,以和神经科学的内涵机理,孕育发生了千丝万缕的接洽。诸如2.5 维草图和与其慎密相干的包括深度图于内的本征图象如许的观点,于认知科学及神经科学中都有广泛的研究,这也能够至少于必然水平上注释将它们引入计较模子的归纳偏置的合理性。而这类接洽也恰是本书作为计较神经科学的教科书,可以持久对于人工智能有深刻开导及深远影响的缘故原由地点。
马尔的视觉计较理论对于吴佳俊影响深远。于麻省理工学院修业时期,吴佳俊时常与导师或者同事们会商将进修自己的归纳偏置与世界的内涵先验成立联系关系的意义。如许的先验可以来历在人(即认知科学或者神经科学,但于此刻的成长下更可能是认知科学),也能够来历在天然(即物理世界,也能够看做「把视觉还有给视觉」)。
2017年,吴佳俊与多位互助者还有发表了一篇论文( MarrNet: 3D Shape Reconstruction via 2.5D Sketches),将2.5维草图的观点和其于恢复物体的三维布局中的作用与神经收集相联合,将其定名为「MarrNet」,以表对于马尔的尊重。

论文链接:https://jiajunwu.com/papers/marrnet_nips.pdf
吴佳俊的新译本得到了计较机视觉范畴多位主要学者的推许与必定:


吴佳俊,斯坦福年夜学计较机科学系助理传授,研究标的目的是计较机视觉、呆板进修及计较认知科学。插手斯坦福年夜学以前,曾经是google研究院的拜候研究员,并别离于清华年夜学及麻省理工学院得到了学士及博士学位。他的研究曾经获ACM博士学位论文声誉提名奖、AAAIIACM SIGAl博士学位论文奖、麻省理工学院George M. Sprowis人工智能与决议计划博士学位论文奖,以和2020年三星人工智能年度研究职员奖。
如下是AI科技评论与吴佳俊的简短对于话:
一、AI科技评论:您从何时最先翻译《视觉》这本书?用了多永劫间?
吴佳俊:2019年最先,基本是已往两年的课余糊口。
二、AI科技评论:促使您决议将《视觉》翻译成中文的最重要念头是甚么?
吴佳俊:我想把这本书好好读一遍,以是要翻译的话,就会让本身极力把每一一句都读懂。
三、AI科技评论:于翻译这本书的历程中,您对于计较机视觉的研究有了哪些新的理解与认知?
吴佳俊:这本书素质上是存眷在人类视觉的一本教科书。虽然计较神经科学于已往四十年间的进展让咱们增进了对于人类视觉的理解(毫无疑难,马尔及他所著的《视觉》起到了主要的作用),但对于绝年夜大都视觉问题,咱们的常识仍然长短常有限的。
对于在计较机视觉而言,咱们虽然于一些高层视觉的辨认问题上取患了很猛进展,但于许多书中提到的视觉的底层及素质问题上的进展实在还有颇有限。同时,其实不不测地,咱们对于计较机视觉及人类视觉(包括举动条理及神经条理)的联系关系的理解也很是开端。
近来几年,学术界有愈来愈多的意愿来构建二者之间的双向联络。我但愿咱们可以或许有时机真正理解计较机及人类视觉的瓜葛,以和于何种条理、何种水平上它们可以互相促成。
四、AI科技评论:马尔于撰写《视觉》一书时,深度进修仍未获得成长;而如今,计较机视觉已经于深度进修的鞭策下获得了庞大冲破。时隔40年,您认为重温《视觉》一书的意义是甚么?对于当下的学者研究有哪些开导?
吴佳俊:我想最重要的还有是激励咱们找到准确的计较理论(方针),为告竣这个方针所需要的暗示,以和获取这些暗示所需要的要领,及进修于获取暗示中所起的作用。
详细来讲,以语义分类为代表的辨认问题鞭策了视觉的成长;于某种意义上,咱们可以把对于ImageNet数据集的语义标注看做一场年夜型的生理物理学试验:人类于这一特定的高条理的标注作为计较方针,虽与马尔提出的计较方针差别,但恰与算法及硬件实现协同作用,鞭策了已往十年计较机视觉的超过式成长。那于接下来的十年或者二十年里,视觉计较的下一个方针又是甚么呢?马尔对于在计较理论的寻求历久弥新,始终对于咱们的研究有所开导。
五、AI科技评论:您为何保举青年学生就读此书?于进修计较机视觉的历程中,这本译作可以或许给他们带来甚么?
吴佳俊:深度进修对于计较机视觉的成长起到了极年夜的鞭策作用,但计较机视觉不单单只有深度进修。对于计较机视觉的深切研究需要理解视觉自己,而马尔的这本教科书是一个很好的起点。
留言赠书
AI科技评论本次结合【博文视点】为各人带来10本《视觉:对于人类怎样暗示及处置惩罚视觉信息的计较研究》正版新书。
于本文(仅限AI科技评论微信公家号端)留言区留言,接待各人各抒己见,说一下你及计较机视觉的那些事~于综合留言质量(留言是对付还有是走心)及留言点赞最高(注:点赞最高的前10不料味着必然会中奖)的读者中选出10位读者得到赠书。得到赠书的读者请接洽 AI 科技评论客服(aitechreview)。
留言内容会有筛选,例如 选我上去 、 这书写的很棒(仅仅几个字) 等内容将不会被筛选,亦不会中奖。
留言送书勾当时间为2022年1月21日 - 2022年1月27日(23:00),勾当推送时间内仅答应赠书福利中奖一次。
点击【浏览原文】粉丝福利价69元包邮抵家!参考链接:
1.https://mp.weixin.qq.com/s/bKSmCpoYeuxmcqk9BK1EFg
保举浏览斯坦福年夜学吴佳俊:AI怎样进修到实际世界的物理性?从我的研究哲学谈起......
2021-06-08

温故而知新,6位顶级CV科学家聚会:计较机视觉中的深度进修要领vs传统要领
2021-12-05

【深度】视觉的条理化处置惩罚过时了吗?
2020-06-14

雷峰网(公家号:雷峰网)雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





