米兰·(milan)中国官方网站-康奈尔计算学院院长Kavita Bala:「元宇宙」算什么?上帝之眼或将通过 AI 诞生

编译|王玥
编纂|陈彩娴这几年我的研究重要存眷视觉外不雅及理解,从微米分辩率到世界级。于我最先演讲以前,我先给各人展示一个颇有趣的例子,这部影戏里主角及世界互动的视觉界面颇有意思。
各人可以或许看到,当这小我私家于实际世界中行走时,他的视觉界面上呈现了一系列文字。主角是一个汽车迷,以是视觉界面向他展示了这辆车的富厚信息:

仅仅需要一张照片,视觉界面就能告诉你这辆车的全数信息。咱们需要计较机视觉及视觉理解范畴的研究来鞭策这类技能的实现。
主角继承走,当走近这些模特时,你会发明她们其实不是真人,只管她们看起来十分传神。想要到达如许的技能,咱们就需要研究传神外不雅(Realistic Appearance)。

然后主角走到一个购物橱窗眼前,他看到了橱窗里的所有商品。此次他的视觉界面向他展示了内里商品的所有信息,甚至会模仿一个佩带该商品的效果,不需要真正触碰,主角就能够体验到商品。

想要到达我给各人展示的这段视频的效果,咱们需要一种叫做“逆图形(inverse graphics)”的技能,才能把商品的所有属性数字化,从而与之互动。
我展示这些例子是为了向各人展示咱们正于开发的各类技能,各人想必已经经听过许多关在加强实际/混淆实际的内容,我适才提到的都是此刻鞭策加强实际成长的技能。今天我将重点解说此中的视觉技能。
一个模子看起来很是真实,以至在你没法区别其究竟是真的还有是假的,这就是计较机图形学范畴中的传神外不雅;这个范畴还有有另外一个标的目的,就是拍下一个物体的照片,咱们怎样去理解这张照片上物体的所有属性;接着咱们可以于此基础上继承成长,从而理解这个世界的属性。
这就是我今天要讲的三年夜内容:
基在物理的视觉外不雅模子(Physics-Based Visual Appearance Models)
逆图形(Inverse Graphics)
世界标准的视觉发明(World-Scale Visual Discovery)
1基在物理的视觉外不雅模子让咱们先从基在物理的图形讲起。
起首我想先容一个闻名的测试:康奈尔盒子(Cornell box)测试,其旨于经由过程将衬着场景与统一场景的现实照片举行比力来确定衬着软件的正确性。我给各人展示的两张图,一张是报酬衬着的,另外一张是真的——实在左侧是真正的场景,右侧是虚拟的图片。

多年来人们致力在创造出这个测试检测不出来真假的图片。不外真正的世界其实不像康奈尔盒子内里的图片那末简朴,真正的世界里有很多种质料,好比这张图里展示的织物、皮肤、树叶、食品,等等。人们不停地与这个世界互动,判定本身所看到的是否真实。当咱们想要模仿出下方左图这个模特的传神视觉效果时,怎样体现这些繁杂的质料即是一个很年夜的挑战,这也是我研究了多年的问题。

以是我要讲讲怎样准确地捕获织物及布料的外不雅。起首让咱们先提出一个问题,看看这两幅图,作为人类,你立刻就能认出来左侧是天鹅绒,而右侧是一种闪闪发光的丝绸同样的质料,为何你能马上识别出呢?是甚么让天鹅绒看起来像天鹅绒,是甚么让丝绸看起来差别在天鹅绒,而是看起来像丝绸?

谜底是:布局。
两种布料不单单是外貌差别,其素质是由于它们布局差别,视觉效果才差别。假如咱们把握了这个布局,咱们就捉住了它们视觉的素质。
以是咱们于最初的项目中所做的是:不雅察这些质料的微型CT扫描。
于天鹅绒的微型CT扫描中,咱们能看到天鹅绒是一种毛茸茸的质料。

而丝绸的布局则大相径庭,丝绸长短常慎密地交叉于一路的,经纱及纬纱形成为了特定的图案,恰是由于丝绸的布局云云慎密,才为丝绸带来了那种闪亮的效果。

讲到这里,咱们会发明,只要掌握住了质料的微型布局,基本就掌握住了质料的外不雅模子,即便质料很繁杂,仍旧万变不离其宗。
一旦咱们把握告终构,就能把握显示出光学特征的信息,好比颜色等。这些信息充足让咱们把握一个完备的模子,让咱们可以或许还有原出这类质料的传神视觉效果。
如图,经由过程把握两种面料的布局特征,咱们乐成还有原出了天鹅绒及丝绸两种质料的视觉效果。

咱们就现实推广这些模子举行了年夜量研究,思索这类模子可以获得甚么实际运用。此刻咱们认为这类东西让工业设计师、纺织品设计师等举行数字原型建造时越发驾轻就熟,付与设计师们模仿真实机织织物外不雅的能力。
于工业织机中,线轴上利用真正的纱线,插手编织图案后,工业织机将出产出以下方右图所示的织物,而咱们想要创立的现代视觉图灵测试素质上是一个彻底数字化的管线,利用 CT 扫描及照片等组合可以到达与工业织机不异的效果。

这类虚拟却传神的视觉效果可让设计师于不需要现实制造织物的环境下就做出主要的决议。
咱们现实上创立了低维模子及更直不雅的暗示质料布局的22个参数,设计师假如能利用上这类东西,将会得到更年夜的气力。

而这22个参数则会引向我将要说的第二个话题,逆图形。
2逆图形咱们碰到的第二个问题则是,有了这些模子之后,怎样去顺应这些模子呢?这也是计较机图形研究的一个主要话题。
咱们起首从光与物体外貌的瓜葛提及。
当光碰到金属的外貌,光会被反射出去。而其它质料,好比皮肤、食品、织物等,当光碰到它们的外貌,光会进入外貌并与物体孕育发生必然互动,咱们称之为次外貌散射(Subsurface scattering)。

如上图所示,判定寿司是否适口的方式是判定其外表的光泽与新鲜度。是以想要模仿某种物体的视觉效果,就需要相识光射到这类物体外貌发生了甚么。

图注:端到真个管线
于抱负环境下,咱们有某种已经经进修到的表征,于拍下照片后,咱们可以或许识别出照片上的物体都具备甚么质料属性,具备甚么质料参数,也能得悉三项有关差别散射的参数:光于介质中流传了多远,散开了几多,散射时物资的倒映率是几多等等。
而咱们此刻拥有很不错的基在物理的衬着器,可以模仿光射到物体外貌的整个物理历程,我认为咱们已经经有创立这类管道的能力了。
假如把基在物理的衬着器及习患上表征联合起来,获得这个端到真个管道,再将输出图象及输入图象举行匹配并使患上丧失最小化,云云一来咱们就能获得质料属性(即上图最中间的material π)。
要有用地做到这一点,咱们需要将进修及物理有用联合起来,把世界上的物理衬着历程倒置过来,努力获得逆参数。

可是,对于在外形及质料的恢复是很坚苦的,以上流程要求衬着引擎R是可微分的,近来的许多研究都于研究这个问题。
想要就能像影戏里的场景同样回复复兴一个商品的视觉效果,咱们需要有一个可微分的衬着管线,便是说咱们需要可以或许微分关在想要恢复的属性的丧失。如下是一个恢复质料及几何外形的例子,咱们可以用链式法于外貌边沿长进行简朴取样,从而获取咱们需要的信息。

然后咱们就能患上出以下图的一个回复复兴物体视觉效果的流程。起首咱们可以用手机对于想要回复复兴的物体拍摄一系列图片,然后对于图片举行初始化,并对于质料及外形举行优化,再经由过程可微分衬着举行再次优化,终极该物体就能够出现传神的模仿效果,可以应用于加强实际/虚拟实际等运用中。

于视觉模仿傍边,次外貌散射是一个很是主要的征象,下图是一张多位艺术家的作品,叫做Cubes(方块)。这些实在是用98种食品做成的边长为2.5cm的方块。98种食品的每一一种外貌都不尽不异,十分繁杂,这激起了咱们的摸索兴致。

因为食品的外貌很是繁杂,以是于回复复兴质料的属性时必需要思量到次外貌散射,这方面的详细内容将会于咱们稍后发布的论文中出现,咱们已经经开发了一种全微分衬着管道。咱们使用这类管道恢复的因此次外貌散射为焦点的质料属性。末了咱们回复复兴了这两种生果差别的质料及外形,乐成出现了奇特果及火龙果方块的视觉效果。

图注:回复复兴奇特果及火龙果方块的流程
于以上研究中,咱们应用了进修及物理相联合的方式,并总结出了如下3点主要性。
理解视觉征象;
于回复复兴物体的视觉效果前,先对于其出现的视觉效果举行预判;
用户节制。

还有记患上影戏里主角走于街上,他看着橱窗里的商品,然后视觉界面就告诉他他所看到物体的一切信息的场景吗?
这就是细粒度对于象辨认(Fine-grained object recognition),是计较机视觉中的一个很年夜的研究范畴,细粒度对于象辨认于于产物辨认方面、房地财产等很多行业都获得了运用。

图注:细粒度对于象辨认提供的精准信息
譬如这张图上,细粒度对于象辨认可以说出这小我私家提着一个x,这个x不是指一个手提包(这个年夜部门人均可以说患上出),这里x指的是一个特定品牌的手提包,这类精度的常识是年夜部门平凡人都说不出的。
素质上说,咱们可以经由过程视觉辨认提供专家级另外信息,甚至不止一个范畴的专家级别信息,我认为这方面的研究很是冲动人心。

这张图上是一个篝火炉,或许有些人还有不克不及仅仅经由过程视觉就判断这个物体的用途,而细粒度对于象辨认不仅可以告诉咱们这是一个篝火炉,并且还有能提供这个艺术品的名称、那边可以采办以和设计艺术家的信息。

图注:宜家APP
咱们于宜家的加强实际APP中推出了这个利用要领。咱们将视觉辨认及虚拟衬着于加强实际的APP中综合到了一路,从此咱们已往关在视觉界面的假想最先慢慢酿成了实际。

图注:Meta的购物AI GrokNet的界面
上图的研究现实上是Meta的购物AI「GrokNet」的一部门。GrokNet的标语是让每一一张图象均可以引领人们购物(shoppable),而我及我的研究小组的方针则是,让每一一张图象都能被理解(understandable)。

我以上所说的都是一些较为基础的研究,而咱们此刻所做的因此史无前例的范围去网络视觉信息,包括照片、视频甚至在卫星图象。这些年咱们的卫星数目年夜幅度增加,此刻约莫有1500个卫星,这些卫星天天上传100 tb的数据,假如咱们能做到理解卫星图象,那末咱们就能够理解整个世界的成长标的目的,而且得悉世界里于发生甚么工作,这是一个很是冲动人心的研究标的目的。

图注:咱们可以或许做到从世界标准去理解图片吗?
假如咱们可以或许做到从世界层面去理解图片,届时咱们就能回覆图片上的这些问题:咱们应该怎样糊口?咱们穿甚么?吃甚么?咱们的举动是怎样随时间变化的?跟着时间的推移,地球又是怎样变化的?
在是咱们最先与人类学家及社会学家配合研究这个问题,他们对于在这些问题很是沉迷,只是缺乏一个有力的东西去举行研究。与咱们互助的此中一名人类学家对于在“世界各地的服装是怎样变化的”这个问题很是感兴致,而咱们发明这个问题实在与很多方面都有着接洽。

为何地球上差别地区的人穿戴纷歧样?咱们认为有如下几个缘故原由:
气候是一个很主要的缘故原由,咱们于炎天及加州的人穿戴纷歧样,由于此处的气候比加州要凉快;
到场派对于或者者到场体育赛事,各种勾当或者场所也需要人们穿戴特定的服装;
文化差异会使患上世界各地衣着差别;
潮水趋向也是一个影响的因素。
以是咱们最先研究这个问题,并最先阐发一组约莫800万张来自世界各地的人们的图片。咱们发现了一个简朴的辨认算法,用来辨认人们穿了甚么衣服,此中包括12个属性。
而咱们从这个研究里发明了甚么呢?

从咱们的阐发中可以看出必然的纪律,好比右上角的人们穿戴有一种偏绿的趋向,而左下角的人们偏向在穿红色衣服。
经由过程对于年夜数据的阐发,咱们发明有一些数据切合咱们的预设,如气候确凿影响人们的穿戴,人们于冬天选择穿厚衣服,于炎天穿戴风凉,这切合逻辑;但是于某些方面却呈现了一些希奇的数据征象,以下图所示,于芝加哥的数年内,有几个时间点是人们选择穿戴绿色的岑岭。

这几个时间点都是每一年的三月份,颠末查询拜访,本来这几个时间点是芝加哥的圣帕特里克节:

这是本地一个很主要的节日,于此日芝加哥的人们会选择穿戴绿色。假如不是本地人,极可能不知道有这个文化勾当。

图注:世界各地器重的文化勾当,人们会为这些勾当穿戴差别颜色的衣物
经由过程辨认年夜数据中人们的衣着变化,咱们就可以相识本地的文化/政治勾当,从而去相识世界各地差别的地区文化。以上,就是咱们从世界的角度去理解图片信息的意义。
原视频链接:https://www.youtube.com/watch?v=kaQSc4iFaxc

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





