米兰·(milan)中国官方网站-万字长文实录：RL 界与 CV 界的“世界模型”有什么不同？丨GAIR Live

作者：米兰·(milan)文化更新时间：2026-03-09 12:30:37 点击数：

世界模子于人工智能范畴中饰演着主要脚色，可以或许有用为智能体提供对于繁杂实际世界的内涵表征，使其像人类同样理解世界运行的逻辑与因果瓜葛，对于主动驾驶、具身智能的冲破性成长至关主要，它已经成为学术界及工业界的研究热门。

2015年8月5日，雷峰网(公家号：雷峰网)、AI 科技评论 GAIR Live 品牌举办了一场主题为“世界模子——通向通用智能的要害拼图”的线上圆桌沙龙。

圆桌主持报酬清华年夜学智能财产研究院（AIR）助理传授、智源学者赵昊，并约请了宁波东方理工年夜学助理传授金鑫、浙江年夜学特聘研究员廖依伊、布里斯托年夜学助理传授杨梦月、伯克利人工智能试验室博士后研究员郑文钊一路举行了一场深度的会商。

会上主持人赵昊带头会商世界模子，先是切磋其界说、规模，接着阐发强化进修界与计较机视觉界的世界模子的差别，随后缭绕视频天生、三维重修等内容，剖析通用视频天生模子向真实的世界模子的成长路径，末了存眷在落地场景，聚焦在主动驾驶以和具身智能，并切磋构建其世界模子的难点及标的目的。

此中，四位佳宾缭绕具身智能世界模子的构建别离提出了本身的独到看法：

郑文钊认为具身智能的问题与主动驾驶相似，将来应该实现重修与天生的联合、晋升三维建模精度，以和更精准地判定因果性，使因果性与物理纪律更好契合，但因为具身智能的数据稀缺，纯数据驱动很难练习出切合物理纪律的世界模子，是以需要更好地建模物理纪律，甚至将其“注入”模子。除了了“真实到仿真再到真实”的路径，更优的标的目的多是数据驱动与物理纪律联合——摸索怎样经由过程某种方式将物理纪律注入数据驱动模子，这多是将来的趋向。

金鑫也暗示物理纪律、物理真实性（physical world intelligence）对于具身智能的世界模子很主要，摸索标的目的不仅依靠数据驱动，还有借鉴了传统仿真范畴的经验，联合图形学中的物理建模要领（如杨氏模量、弹簧 - 质量模子等基在法则的物理仿真）与数据驱动的天生模子（如AIGC天生模子），但愿让具身智能的世界模子既能包管物理真实性，又能实现外不雅真实。

杨梦月则提出了她本身的思绪，于具身场景中，经由过程某种机制或者智能体捕获物理纪律，将其整合成因果模子，再使用该模子举行反事实猜测或者揣度。末了廖依伊对于金鑫及郑文钊的不雅点暗示附和，还有发出了线路选择的疑难，她认为焦点问题于在：是否必需显式建模3D？于2D层面可否学好交互？如有充足练习数据，2D进修交互可能更简朴——好比叠衣服、泥巴落地等非刚性物体场景，于3D中建模难度极年夜。怎样做好2D与3D的联合，仍是难题。

如下是这次圆桌会商的出色分享，AI 科技评论举行了不改原意的编纂收拾：

1、怎样界说世界模子？

赵昊：各人好，接待来到本次线上钻研会。咱们将缭绕“世界模子——通向通用智能的要害拼图”这一主题睁开会商。我是赵昊，此前曾经于北京年夜学及英特尔研究院事情，今朝任职在清华年夜学智能财产研究院（AIR），重要从事计较机视觉、图形学与呆板人的交织研究。世界模子作为串联这些范畴的焦点技能，我对于其始终秉持坚定的信念。

于正式最先前，我想先界定一来世界模子的领域。从最狭义的角度来看，是主动驾驶范畴的世界模子，这也是今朝研究较多的标的目的；进一步拓展，则是具身智能的世界模子；再往上，第三层可涵盖通用视频天生或者传感器天生模子；而最广义的层面，我认为是练习智能体的世界模子。

今天介入会商的几位教员虽多来自计较机视觉范畴，但思量到AI科技评论的广泛视线，咱们的会商规模该当进一步扩展。只管部门范畴，如天然语言处置惩罚（NLP）、智能体（Agent）等，我小我私家并不是深耕此中，但既然举办这次线上钻研会，就该当拓展会商界限，终极聚焦到第四层级的焦点议题——通用智能怎样于世界模子中降生。

固然，思量到今天受邀的几位教员多具有计较机视觉（CV）配景，咱们的会商可以从主动驾驶范畴切入，再慢慢向外延长。究竟差别范畴的科学道理于素质上存于共通的地方。

金鑫：谢谢赵教员的开场。各人好，我是金鑫，今朝任职在宁波东方理工年夜学信息学部。宁波东方理工年夜学是一所新型研究型年夜学，今朝正于全世界规模内广纳贤才。

我是中国科学技能年夜学博士，研究标的目的包括空间智能和世界模子相干事情，一直与赵教员团队互助推进主动驾驶相干研究，触及基在 Occupancy-based 的天生等标的目的等等。

廖依伊：各人好，我是浙江年夜学特聘研究员廖依伊。我的修业及事情履历以下：我于浙江年夜学得到博士学位，于德国马普所从事博士后研究，地点组是搭建KITTI数据集的Autonomous Vision Group，于组里时期我主导了KITTI-360数据集的构建事情，以是最先涉足主动驾驶相干研究。缭绕世界模子的方案，咱们做了街景重修与天生。

咱们近期研发的HUGSIM是一款基在3D高斯的仿真器，可以或许与主动驾驶算法实现互动。正如赵教员所说，这属在狭义的世界模子研究。今天很是期待能与列位教员切磋，从狭义到广义的世界模子成长。

杨梦月：我是杨梦月，去年10月插手布里斯托年夜学担当助理传授，以前于UCL攻读博士学位，导师是汪军传授。我的研究标的目的最初是因果表征进修，厥后联合强化进修（RL）相干内容，近期转向世界模子研究，特别聚焦在世界模子对于世界法则的理解。我的研究标的目的可能不太倾向CV，更多偏重在因果理解及表征进修。

郑文钊：我是郑文钊，今朝于伯克利人工智能试验室从事博士后研究。我本科及博士均卒业在清华年夜学，本科就读在物理系。博士时期，我重要从事相似性器量等基础研究，后期也涉足主动驾驶范畴。咱们始终对峙基在世界模子的主动驾驶，以后也会将世界模子拓展至更通用的智能领。

赵昊：接下来咱们正式进入会商环节。开首的这两个话题，我想把咱们会商的世界模子的Scope变患上更年夜一点。

方才竣事的智源年夜会也让我学到了许多新常识。我小我私家重要是做 CV 的，CV 范畴持久以来的不雅点是经由过程重修物理世界、再做仿真及衬着来构建世界模子，但于此次年夜会上，很多 senior 学者从更抽象的角度对待世界模子，将其视为通向通用智能的要害拼图。只管咱们可能从主动驾驶汽车、呆板人的角度出发，但第一部门，我想从更通用的人工智能角度来思索这个问题。

GPT为代表的LLM无疑是当前人工智能范畴的范例，但它也面对一些问题。起首是数据欠缺，数据耗尽后GPT的成长可能会阻滞；其次，GPT间隔通用智能还有有差距，它存于一些没法完成的使命。于智源年夜会上，我发明很多通用人工智能研究者也于存眷世界模子，只管他们心中的世界模子可能与咱们 CV 范畴狭义的虚拟世界模子差别，但他们都畅想，将来像GPT如许的Agent可以或许于真什物理世界中不停摸索进修，从而实现通用人工智能。这是一个bigger scope。

咱们可以将规模稍作限定，聚焦在LeCun团队的世界模子研究，如JEPA、V-JEPA等，这些研究更grounded，利便咱们睁开会商。

常常有人问我，CV 所做的视频天生、三维重修等世界模子，与LeCun所说的通用世界模子有何区分与接洽。两者确凿存于较年夜差异。相识LeCun学术门户的人知道，他开办ICLR集会的焦点存眷点是表征进修。他所研究的世界模子更可能是一种可以或许表达及猜测世界的通用表征思绪，这类思绪也更容易被不具有太多三维视觉常识的通用人工智能研究者所理解。以是，我想从最宽泛的表征进修视角出发，听听各人的见解。我随机点一名，有请杨教员。

杨梦月：我一直从事表征进修相干研究。于我看来，CV 与表征进修之间存于gap。表征进修的素质是理解图象或者视频暗地里的组成的factor。图象及视频是高维空间的体现，而节制这类体现的实在是低维feature space（特性空间）中的特性。

咱们可以有多种方式来暗示特性空间，例如年夜模子的embedding（嵌入）是一种体现；咱们也能够将特性空间彻底可注释化，明确某个详细嵌入所对于应的物理观点及语义寄义。

当前年夜模子的练习方式素质上是对于数据的模拟，其实不存眷表征进修层面，是以可能仅学到数据外貌的样子，轻易呈现“幻觉”问题，没法真正理解世界正于发生的工作，也不清晰自身举动和其可能致使的成果。

表征进修更倾向在可注释的领域。也就是说，咱们但愿Agent是真正理解世界暗地里的法则，——这个世界由哪些factor组成，这些factor之间又存于如何的瓜葛。一旦理解了这些，智能体于做决议计划时，就不会仅仅基在像素级的图象举行猜测并以此决议计划，而是经由过程理解事务暗地里的逻辑来步履。例如，通晓两个因素之间的联系关系：当机械臂要将小球运到尽头时，有两种选择——推球或者者抓球。若它把握了物理法则，就会知道本地面磨擦力较高时，推球并不是最好选择，转而选择抓起小球直接送至尽头，从而告竣方针状况。

世界模子的界说一直较为恍惚，视频天生、VLA以致空间智能等相干技能都被笼统地归为世界模子领域。但此刻愈来愈多的研究者认为，若要让智能体真正具有决议计划能力，必需让它理解世界的运行逻辑，不然决议计划可能因“幻觉”掉效，特别于高安全性场景中，看似无害的动作可能致使一些比力伤害的状况。

是以，要实现通用智能、让智能体理解世界，还有是要走表征进修的途径。表征进修包罗多种技能，咱们所研究的因果阐发即是此中之一。这类技能不仅存眷factor间的相干瓜葛，更着重探究因果瓜葛，而把握因果瓜葛能帮忙智能体做出更优决议计划。以上就是我的不雅点。

赵昊：杨教员的不雅点颇有意思，即当前的表征可能只有correlation，而缺少因果瓜葛，这确凿是值患上深切研究的标的目的。那末，杨教员认为完备的三维或者四维世界暗示作为一种factor暗示方式，是不是必须的呢？

杨梦月：我认为构建3D或者4D暗示是一种新视角，对于帮忙到智能体理解世界，但它们之间的接洽还有需进一步摸索，今朝这方面的研究还有比力匮乏。

于世界模子层面，咱们凡是对于其有明确的界定尺度。平凡的猜测模子（好比视频天生历程）往往是基在当前状况猜测下一个状况，而世界模子要有智能体交互的属性。详细来讲，能被统称为世界模子的模子，其逻辑应该是“当前状况 + 智能体动作”经由过程模子函数映照到“下一状况”。这里的动作既可所以显性的，也能够是隐性的，要害是模子要能明确回覆“当前采纳某动作后，下一步会出现甚么状况”。

根据这个界说，当前的 3D、4D 天生技能虽然实现了对于世界的重修，但还没有充实融入动作因素，也没有思量到动尴尬刁难空间内部各因素彼此作用的影响，是以与严酷意义上的世界模子仍有差距。

固然，今朝世界模子的界说还有比力宽泛，但若要进一步明确其焦点内在，就必需于模子中构建交互层面的建模，这是不成或者缺的要害环节。

赵昊：我彻底赞成。咱们CV范畴的研究者经常存眷传感器数据的衬着质量，却不过重视交互输入，这是咱们范畴存于的一个较年夜问题。不外，今朝于主动驾驶及呆板人范畴，已经有不少视觉模子研究引入了动作因素。

听到杨教员的不雅点，她认为咱们当前研究的最年夜问题是缺少动作因素，我本身也意想到了这一点。我也分享一个不雅点：咱们真的必需依靠3D表征吗？看起来3D表征并不是于所有场景下都是必须的，好比咱们按照牛顿定律建模了之后，模子就能够按照物理纪律来运行输出，这就不需要表征进修。可是物理纪律也可能掉效，好比此刻有了极限环境，你必需引入相对于论来批改。

咱们计较机视觉及图形学范畴的研究者可能存于一种幻觉，认为只要重修并仿真世界，就能彻底把握其纪律，但物理模子永远不成能到达完善。以是从宏不雅意义上看，也许彻底数据驱动的表征进修反而是更准确的路径。这一点我想听听郑文钊的见解，由于我知道他有些论文仅于占用率（occupancy）层面开展研究，不会对于传感器数据举行真实衬着。

郑文钊：谢谢赵教员。我接着适才的话题谈谈我的不雅点。如前所述，狭义的世界模子是对于情况的建模，焦点是吸收智能体的交互动作作为输入，并输出对于应的反馈。

咱们初期基在占用率的世界模子研究中就引入了action，其时咱们认为世界模子不仅要对于举动做出反馈，还有应输出动作，是以于论文中将其界说为“泛化的世界模子”，但这一不雅点于审稿人中存于争议。直到此刻，各人对于世界模子的界说仍有不合：它仅仅是对于世界情况的建模并提供反馈，还有是需要包罗对于世界运行纪律的自立建模？

但我认为，若要迈向通用智能，世界模子的界说必需更泛化一些。这也是我认同LeCun不雅点的缘故原由，他所夸大的世界模子倾向通用领域。从LeCun对于智能体系的描写来看，此中包罗世界模子、影象模块、举动模块等，别离对于应空间智能、举动智能等能力，可见世界模子于通用智能中饰演着主要脚色。

只管存于争议，但从宏不雅角度而言，咱们的焦点方针是联合动尴尬刁难情况举行建模。接下来我想谈谈世界模子与表征的瓜葛：世界模子于某种水平上是更具泛化性的语言模子。年夜语言模子的焦点范式是next token prediction，固然此刻有一些差别的语言模子并不是采用这类范式。语言其实不是数据驱动进修到的表征方式，它是人类经由过程数千年文化汗青凝炼而成的对于世界的描写，是人类界说好的认知框架。从这个角度来看，语言模子实在也是于猜测将来会发生甚么。

除了了语言以外，是否存于其他更完整、更细节的世界表征方式？这也是我认为世界模子能成为比年夜语言模子更通用的基础模子的缘故原由——假如CV范畴将来会呈现近似年夜语言模子的焦点模子，其形态极可能是世界模子，而此中最焦点的就是表征的选择。于NLP中，表征选择很直接，就是语言自己。但于视觉范畴或者更通用的场景中，表征选择需要更深切的考量：可以选择像素，但像素仅能反应二维空间信息；咱们以前的研究选择占用率作为表征，由于世界素质是三维的，可以称为三维空间中的“像素”，近似在体素（Voxel），能更底层地描写三维空间。

不外，是否存于更高条理的表征？这也是LeCun团队的研究标的目的。我推测他们可能认为仅于像素空间建模不敷完美，更偏向在近似年夜语言模子选择语言模态的思绪——于视觉范畴选择更适合的表征。例如JEPA、V-JEPA经由过程自监视进修提取特性，而他们近来发布的DINO-World，则选择DINO作为世界表征，由于DINO自己已经包罗对于世界的语义提取。这些思绪的共性是：世界模子的表征未必局限在像素，彻底可所以更高条理的feature。

是以，若要将年夜语言模子的范式泛化至通用智能，世界模子是焦点路径，而表征选择是要害。像JEPA、DINO等模子于语义描写上体现精彩，但一个抱负的世界模子表征还有需具有其他特征：一方面要能对于世界举行抽象的语义描写，另外一方面要具有三维建模能力。由于咱们所处的世界是三维的，将来迈向通用智能的话，要把三维空间最素质的工具建模出来。

廖依伊：我很是同意郑教员适才的不雅点。差别的世界模子，包括LeCun提出的世界模子，咱们基在纯视频天生的世界模子，焦点区分实在于在对于“x”的界说。正如杨教员以前夸大的，假如咱们将世界模子界说为“当前状况x(t) + 动作a(t) → 下一状况x(t+1)”的映照瓜葛，那末它们的焦点差异就于在怎样界说“x(t+1)”这个输出方针。

以视频天生为例，咱们并不是直接于像素空间操作，而是于潜空间（latent space）中举行，好比VAE的潜于空间。但VAE的潜于空间设计方针是办事在像素解码，是以未必能充实进修到语义信息。这也是郑教员提到的JEPA、V-JEPA和V-JEPA 2等事情的价值——它们经由过程自监视进修，方针是获取更具语义的特性。

LeCun于V-JEPA 2中的思绪也是云云：先经由过程无监视进修获得潜空间，再引入动作监视举行post training，终极将其转化为世界模子。可见于这一框架下，表征进修与世界模子是相辅相成的：优良的表征进修是构建高机能世界模子的基础。

一个值患上切磋的问题是，语义更富厚的世界表征是否更合理？从直不雅上看，若潜空间的特性能实现更好的解耦并蕴含更富厚的语义，后续的世界模子进修确凿会更高效，这一点我很是认同杨教员的不雅点。

关在是否需要引入3D建模，我的见解是：假如仅思量最简朴的动作场景——即自身的刚性运动（rigid motion）（好比相机位姿变化），那末 3D 重修自己就能阐扬主要作用。于 3D 重修使命中，一旦完成建模，就相称在将动作因素（这里的相机位姿变化）从状况中彻底解耦出来。这象征着咱们无需再经由过程进修的方式分外建模相机位姿，而是可以直接基在新的视角举行衬着，这与杨教员提到的“潜空间中可解耦因素”的思绪是一致的。是以，3D 建模的一年夜上风于在可以或许显式地将这种可解耦的因素（如相机位姿）彻底解耦。固然，对于在一些难以解耦的繁杂特性，仍旧可以保留。

赵昊：廖教员说患上很是好。我一直于思索，只管潜于向量没有显式的3D信息，但作为一种抽象表征，也许能找到其与物理属性的联系关系。好比512维的token中，某些维度可能对于应质料属性，某些对于应几何布局，甚至可能包罗表达繁杂运动的向量。这是一个颇有潜力的研究标的目的。

不外关在是否引入3D信息，焦点争议于在“是否让模子更勤学”。廖教员的思绪是引入3D表征，让残剩维度专注进修物理建模难以笼罩的繁杂特性，这很合理。但也有学者持差别不雅点，好比彭教员推许large view synthesis network，认为将来无需依靠3D归纳偏置。这个话题比力专业，咱们先从更宏不雅的层面继承会商。有请金教员分享对于世界模子表征进修思绪的见解。

金鑫：Richard Feynman所说的“I could never create something I didn’t understand.”，我没法创造我不睬解的工具。以是适才杨教员等几位教员提到的内容，焦点实在都指向表征进修——咱们起首要理解世界，找到适合的表征，这个表征多是3D的，也可能不是，好比V-JEPA、I-JEPA这种模子最初针对于图象构建表征，就是于做如许的摸索。

找到适合的表征后，再基在它成立蕴含物理纪律及机制的世界模子。这条路径的焦点是“先理解再构建”，把表征进修放于第一步，也就是先实现对于世界的理解。

咱们团队近期一直于研究的“解耦表征进修”观点，源自2013年Bengio的研究，适才廖教员也提到了这个要害词——但愿把3D相机位姿、3D归纳偏置解耦出来。本年咱们于ICCV 2025举办了一个workshop，主题是“解耦表征进修与可控天生”，虽然聚焦可控天生，但仍被归入表征进修专题。

我对于杨梦月教员那篇援用率很高的Causal VAE论文很是认识，常常让学生以它为baseline对于比表征解耦的机能。咱们做了许多表征解耦的事情，由于咱们认为理解世界的方式有许多，自监视进修、MIM等都是，而表征解耦也是此中一种，能将特性层面、特性域、特性空间中的因素分散，找到要害因素并让它们连结正交。好比于图象中，将物体的巨细、颜色、属性等于特性域中明确解耦，这不仅能晋升AI的可注释性，还有能为后续的天生、世界模子构建、高层计划等使命提供便当。

赵教员从JEPA思绪出发切磋世界模子，我感觉颇有原理。JEPA也是先经由过程感知理解世界，再成立世界模子，这与“先理解再创造/天生”的逻辑一致。此刻年夜模子也夸大交融理解与天生能力，包括咱们后面要会商的“天生与理解、重修是否需要同一”，这些观点及思绪实在是相通的。

我再增补一个不雅点，我以前做过许多图象视频编码压缩的研究，有句话印象很深——“压缩即智能”。深度进修的素质是一个熵减的历程，去除了图象、视频中的冗余及相干性，保留最焦点、最原始的要害信息。

于编码压缩范畴，那些没法再举行熵预计及冗余去除了的信息，就是咱们抱负中的表征。做世界模子时也是云云，需要找到这些要害因素及表征，它们可能没法彻底抱负化解耦，正如杨教员所说，可能存于联系关系及因果瓜葛。这就是我的不雅点。

2、RL与CV的世界模子有何差别？

赵昊：接下来咱们进入下一个问题。杨教员适才提到，当前很多视频天生事情因缺少动作因素而存于不足。那末RL界与CV界的世界模子有哪些差别？我认为动作因素多是重要差异。接下来咱们详细切磋技能路径，怎样让世界模子真正对于动作、决议计划制订阐扬作用。有请金教员先讲话。

金鑫：虽然我本身亲手写RL代码的经验未几，但经由过程及学生的会商（我的学生中有做RL的），我相识到强RL分为基在模子（model-based）及无模子（model-free）两种类型。此中，基在模子的RL所构建的“模子”，我的理解是对于情况的一种代办署理或者模仿。简朴来讲，就是成立一个情况模子，然后用这个模子输出情况的转移函数等信息，智能体基在这些信息举行进修。

2018 年 David Ha 及 Jürgen Schmidhuber 关在世界模子的那篇论文，就及强化进修做了一些对于比。以是我小我私家理解，强化进修中基在模子的“模子”，与 CV 范畴用在主动驾驶等场景的世界模子模仿器，焦点都是经由过程模仿情况让智能体举行交互练习。

咱们CV内里常常会用到 “simulator”（模仿器）这个词，它素质上就是对于情况的模仿 —— 构建出情况后，让智能体于内里经由过程动作交互举行练习，这及赵教员一直夸大的“action”是相呼应的。这只是我的小我私家理解，可能纷歧定正确，接待各人交流指正。

杨梦月：我于强化进修方面的研究相对于多一些。我认为RL与CV的世界模子的焦点区分于在办事对于象差别。CV界的焦点是建模世界自己，存眷怎样描画世界的形态；而RL界的焦点是智能体，建模世界的终极目的是办事在智能体，让它把握世界常识，进而晋升自身的决议计划计谋policy。

正如赵教员所说，NLP范畴面对数占有限的问题，CV范畴虽然数据量更年夜，但也可能存于近似瓶颈。咱们近期于世界模子研究中利用了一个较新的不雅点，名为“开放性”（open endedness），实在质是“自我晋升智能体”（self-improve agent）。详细来讲，若想晋升智能体机能，咱们可以经由过程数据练习，但当数据量有限，没法支撑智能体理解世界上所有事务间的瓜葛时，就需要让智能体自动摸索，好比经由过程自问自答的方式进修。

例如于代码天生范畴，让智能体本身提出新的代码问题；于开放世界游戏中，让它自立构建task。天生task的历程自己就是世界模子的建模历程，但其终极方针是晋升智能体的决议计划能力及泛化能力，而非让智能体简朴过拟合在某个特定情况，而是使其具有理解世界、自立构建世界模子的能力。

赵昊：好比做RL的研究者，就算没有图象，他们将编码情况中“智能体本身给本身出题”的历程也称为世界模子吗？

杨梦月：最广义的世界模子，可以建模任何法则，这些法则纷歧定局限在物理法则，数学法则、代码运行机制等也属在法则领域。世界模子的焦点方针是让智能体于特定情况或者使命中，具有理解该情况或者使命法则的能力。

世界模子的建模方式具备多样性，生物、化学等范畴都有其怪异法则。但这些法则未必都像物理法则那样较着，也未必有成熟的模仿器撑持练习。很多情况中的法则是隐性的，好比ChatGPT，它的天生法则也属在一种世界法则，但这类法则的几率属性就很是年夜。

以是对于在差别的情况，可能都有其对于应的世界模子建模要领，这些要领均可以统称为世界模子。

我本年于 ICLR上构造了一个关在世界模子的钻研会，其时咱们但愿征集的稿件能笼罩各个范畴，好比天然科学、社会科学、数学等。现实上，咱们也收到了一些比力尤其的投稿，它们都将本身的研究称为世界模子。我认为世界模子最焦点的特质是可以或许建模世界暗地里的纪律，而且智能体可以或许借此与世界举行交互。

廖依伊：我感觉杨教员方才的不雅点很是成心思，这让我想到一个问题：CV 所说的世界模子是否没法办事在Agent的练习呢？可能有的也未必。

RL界的世界模子及CV界的世界模子有甚么差别？我的理解是如许的，一方面，正如咱们以前会商的“x(t) + a(t) → x(t+1)”框架，CV界确凿更存眷与图象平面相干的状况变量x；而于RL界，状况变量纷歧定局限在图象平面，可所以肆意情势的抽象状况。另外一方面，据我不雅察，RL于触及世界模子时，凡是不仅要猜测下一状况x(t+1)，还有要进修奖励（reward）。假如能直接学到奖励，就能够基在此举行强化进修练习及后续决议计划。

但今朝CV界于视频天生（不管是3D还有是纯视频线路）中，更存眷猜测下一时刻的视觉出现，好比画面“长甚么样子”，却很少思量奖励机制。举个例子，于视频天生中，纵然模仿车辆行将撞车，模子也可能由于缺少撞车数据而继承天生车辆前行的画面，不会提醒“撞车”这个负面成果。以是，奖励确凿是CV界世界模子今朝较少思量的点。

好比LeCun团队本年于ICML上发表的“Navigation World Model”研究，就将自身运动作为action，输出图象平面成果，并基在“方针图象”（goal image）界说奖励。于这类环境下，纵然模子没有直接进修奖励，也能经由过程天生图象与方针图象的对于比组织奖励，进而基在模子的节制思绪遍历路径空间，实现导航、抓取等使命。这么做的话还有是可以办事在Agent的。

赵昊：廖教员提到的这一点很要害：咱们此刻做的这些世界模子，年夜部门确凿没有思量reward。这是一个很好的研究标的目的，咱们均可以测验考试摸索。假如能于本年的ICLR及CVPR投稿中切磋“怎样于CV的视频天生世界模子中引入奖励”，会长短常好的选题。感激廖教员的分享。末了有请郑教员也来分享一下见解。

郑文钊：我对于RL实在不是尤其懂，以是简朴说一下我的不雅点，纷歧定准确。但我很认同适才几位教员的见解，总结来讲，我认为RL界的世界模子及CV界世界模子重要区分于在，RL界的世界模子更近似判别式模子，当Agent于情况中履行某个动作后，它会输出一个奖励值。而CV界的世界模子更像天生式模子，它不会评判举动的优劣，而是告诉你这个举动会致使世界出现出甚么样的状况。

好比于主动驾驶场景中，若利用RL界的模子，当车辆前行行将撞车时，它只会反馈“撞上了，奖励值为-1000”，而不会展示撞车后的画面；但CV界的世界模子会天生撞车后的详细图象，而非直接奉告后果。这是第一个区分。

第二个区分，我联合适才杨教员的不雅点增补一下，判别式模子于许多环境下聚焦在从输入x到输出y的映照，而天生式模子则会同时对于p(x,y)举行建模。由此我认为，RL界的世界模子更可能是一种局部模子，它必需依靠Agent获取反馈，正如杨教员所说，其焦点是为Agent办事。但CV界的世界模子更靠近自力运行的模子，它可以不依靠智能体，自力建模世界的运行纪律。并且它是全局模子，假如有Agent于此中交互，理论上也能基在模子计较奖励。不外今朝这种奖励计较的要领还有比力缺少，但基在模子对于将来的猜测，实在是有可能推导出奖励的。

这就引出了第三个区分，RL界的世界模子更可能是反馈机制，不触及动作建模，动作由Agent零丁处置惩罚；而CV界的世界模子可以给出Action。总结来讲，CV界的世界模子更通用，涵盖世界与动作建模；RL界的世界模子则更狭义，重要是对于智能体动作的反馈。

赵昊：我总结一下，当前CV界的世界模子已经经取患上不错进展，动作因素也已经被引入，但还没有年夜范围运用并孕育发生厘革性影响，要害就于在缺少奖励机制。只要界说好奖励，咱们此刻做的视频天生模子、数据天生模子就能很快于主动驾驶、具身智能、通用智能体等范畴阐扬作用。这是一个很好的趋向性不雅点。

3、通用视频天生

赵昊：咱们已经经会商完两个比力抽象的问题，接下来进入专场环节，聚焦视频天生、三维重修等内容。第一个问题通用视频天生模子何时能酿成真实的世界模子？

通用视频天生模子的成长速率远超我的预期。去年三月，许多图形学教员还有认为视频天生模子缺少物理纪律，成长尚早，此刻这些声音已经经很少了，数据驱动的气力确凿不容小觑。我很好奇各人对于其成长速率及蜕变趋向的见解，请廖教员先讲。

廖依伊：谢谢赵教员。关在通用视频天生模子的成长，我确凿不敢下结论，由于它的前进正如您所说，超乎想象。至在“通用视频天生模子怎样酿成真实的世界模子”这个问题，我认为谜底相对于清楚，还有是要回到咱们以前告竣的共鸣，世界模子需要具有动作（action）及因果性（causality）。

当前开始进的视频天生要领年夜多采用“三维留意力机制”（3D attention），将空间（spatial）及时间（temporal）维度的 token 结合处置惩罚天生视频。但真实的世界模子需要满意“x(t) + a(t) → x(t+1)”的逻辑，即基在当前状况及动作，猜测下一帧的不雅测成果。

近期已经有相干研究测验考试引入因果信息，例如于留意力机制中限定时序依靠——第二帧仅存眷第一帧及自身，第三帧仅存眷前两帧及自身，经由过程这类方式强化因果瓜葛，我认为这是合理的摸索标的目的。而动作因素的引入仍存于开放性问题：好比建模自身相机位姿这种动作相对于轻易，但世界中其他动态物体的动作是否需要建模？若要建模，该怎样设计？固然，也能够如郑教员所说，将无关动态归为噪声，建模将来的所有可能性，但世界模子的焦点方针是甚么、动作部门怎样设计，这里还有有许多问题。

赵昊：我彻底赞成这个不雅点。之前我认为开发基在diffusion 的Game Engine没甚么用，由于它短时间内不成能替换游戏行业，且这种模子缺少三维表征。但此刻我认为它是主要的代办署理使命（Proxy Task），比纯真的多媒体视频天生模子更靠近世界模子的最终方针，是很好的研究载体。是以，动作前提下的通用视频天生模子若能进一步优化，咱们就离真实的世界模子更近一步。接下来有请郑教员分享见解。

郑文钊：我比力赞成适才廖教员的不雅点。关在通用视频天生模子与世界模子的区分，以前许多人认为，前者可能存于虚伪内容，后者需于视觉及物理层面都真实，但这类见解其实不素质。跟着技能成长，视频天生模子中可能隐含物理纪律，至在详细怎么做，是否经由过程三维表征实现更优建模，属在技能路径问题，并不是焦点差异。

现实上，当前很多天生模子已经能建模部门物理纪律。伯克利的Trevor教员曾经有一篇有趣的研究讲过，只管物理纪律难以直接界说，但数据驱动的视频天生模子可经由过程进修挖掘物理纪律，即数据驱动于必然水平上能捕捉物理纪律。是以回到焦点问题，我认为廖教员的不雅点很是准确：通用视频天生模子与世界模子今朝最年夜的gap，于在对于动作的反馈机制。详细包括：一是动作的界说方式（如路径类动作易界说，但繁杂交互动作怎样界说）；二是视频天生模子可否对于动作做出正确反馈；三是反馈与动作之间是否存于合理的因果瓜葛。

赵昊：听完郑教员的分享，我不由得想分享本身的不雅点。我认为当前通用视频模子要成长为真实的世界模子，缺乏的是编纂能力、文本对于齐能力及指令遵照能力。本年年头， GPT-4o等模子的编纂能力给人带来巨年夜震撼——用户输入指令后，模子能精准履行。假如这不是专门调优的成果，那末这种模子的图片编纂能力已经靠近世界模子，由于它能将肆意指令转化为对于应的视觉内容（只管于邃密的数目、位置描写上仍有不足）。

我认为编纂能力是比 action condition 更好的task。当通用视频天生模子能像GPT-4o同样，经由过程文本指令实现高精度编纂时，不管其内部道理怎样，它一定已经经学到了关在世界的某些常识。以是我的不雅点是，通用视频天生模子除了了经由过程动作前提（如游戏引擎类模子）这条路径外，视频编纂能力的冲破也至关主要 —— 编纂能力做好了，它就会无穷靠近真实的世界模子。这算是我的一个“暴论”，接下来有请杨教员分享不雅点。

杨梦月：我对于视频天生范畴相识不深，但听了适才的阐发后有一些设法。我怕于利用视频天生年夜模子时，有时会感觉天生内容希奇，多是由于未遵照因果瓜葛。但因果瓜葛是否为必须，需按照详细场景判定。若要使用模子练习Agent，使其于真实世界具有决议计划及摸索能力，就需要模子切近真实，遵照因果瓜葛；但从视频天生角度，可能无需严酷遵照因果或者物理法则。由于人类要创作，有时会冲破通例认知，反而能孕育发生新奇的创意。

当前视频天生模子多基在被动数据进修，若数据自己带有偏向性，模子可能学到人类网络数据时的团体意识，进而迸发新的创造力。是以需详细场景详细阐发，部门场景需要因果瓜葛支撑。

关在廖教员提到的动态建模问题，世界模子的界说本就很是广义。Multi-Agent体系就是彻底动态的，具备“智能体计谋彼此影响的轮回瓜葛”，例如主动驾驶场景中，两辆车决议计划会彼此作用，但这类动态历程仍存于某种平衡。这又回到最初的问题：怎样权衡动态中的稳定？可能需要引入奖励模子，才能阐发场景需求，从动态中提取静态常识。

赵昊：杨教员的不雅点颇有意思。CV研究者常认为，能真实重修物理世界的才是好的世界模子，但各人利用Sora时，常让它天生不切合真什物理的内容。也许天生真实内容并不是评判世界模子优劣的独一尺度。

我不雅察 Sora 的dashboard发明，流量最高、被用户推许的视频，年夜可能是那些 “不太可能于真实世界中呈现” 的内容，它们可能切合基础物理纪律，但于实际中难以见到。这确凿颇有意思。接下来有请金教员分享对于通用视频天生模子的见解。

金鑫：几位教员适才从物理真实性、可编纂性等方面都做了很好的分享。杨教员的不雅点让我想到一个点：天生与物理事实相违反的内容，即“反事实天生”（counterfactual generation）。我记患上以前某本书中提到智能的几个阶段，第一阶段是“不雅察”，第二阶段是“步履”，第三阶段是“想象”，是“what if”，想象“假如做了这件事会如何”，这类反事实天生能力也许是要害。

我认为真实的世界模子若能天生全新场景或者反事实成果，可能更靠近通用智能，甚至涌现出新能力。若世界模子能学到甚至逾越人类总结的既定的物理法则，会很是使人高兴。这是我的不雅点。

赵昊：金教员的不雅点颇有开导性。我适才提到天生视频中存于不切合真什物理纪律的内容，这是否真的代表模子具有反事实天生能力？我感觉纷歧定。反而多是由于Sora等模子于练习数据中进修了年夜量互联网视频中的殊效内容，这些内容并不是真什物理世界的记载，模子过拟合到了练习集中的视觉殊效素材上。

廖依伊：我想联合杨教员及金教员的不雅点提个问题。若咱们的终极方针是通用智能体，使其能于真实世界交互并完成使命，那末这些视觉殊效数据对于智能体而言是滋扰还有是有效呢？

杨梦月：我可以回覆这个问题。本年有一个令我印象深刻的新门户，叫做open endedness。他们认为，于数占有限的环境下，要晋升Agent决议计划能力，需不停为其天生新使命及新情况，这些情况可包罗史无前例的元素。

我曾经与苏昊团队交流，他们此刻也要涉足视频天生范畴，由于他们是做robotics的，我就问为何。他们暗示，实在是但愿将视频天生的成果用在练习robotics agent，晋升其某些能力。由于对于在呆板人而言，于真实情况中的摸索价钱长短常年夜的，好比让智能体于真实情况中进修时，纵然是于样本繁杂度可能不高的场景，于线摸索也有很年夜的危害及价钱，是以，经由过程视频天生辅助天生练习数据，让智能体可以或许先得到一些先验及反事实常识能于很年夜水平上晋升样本效率。

赵昊：open endedness（开放性），这个词很好。关在通用视频天生中的视觉殊效数据是否“有毒”，这个不雅点很值患上切磋。这很像NLP范畴的问题：有些数据存于过错或者冗余，被称为“有毒数据”或者“垃圾数据”，网上天生的这种内容可能也存于近似问题。怎样让通用视频天生模子于垂直范畴做好对于齐，视频天生范畴早晚会走到这一步。

4、主动驾驶的世界模子成长到哪儿了？

赵昊：好，咱们进入下一个问题，回到咱们的老本行，来聊聊主动驾驶。咱们都做了这么多年，何时才能到L4啊？起首有请金教员分享。

金鑫：许多学术界原本研究主动驾驶的教员，此刻转向了具身智能范畴，这确凿是很实际的环境。于我看来，学术界的特色是把技能做到 60% 或者 70%，搭建好要领及原型后，剩下的 “末了一千米” 或者 “末了 10%”会交由工业界完成。学术界看重要领与预研，工业界则更快地将其集成产物，由于他们有更多优异工程师及具有产物思维的产物司理。这是互联网与 IT 技能成长至今的纪律。

主动驾驶问题已经相对于清楚，以是并不是是这些学术界的教员抛却了主动驾驶，反而它已经靠近落地阶段。于硅谷，Waymo的主动驾驶出租车办事天天都于跑。我以前及华为的王新宇教员于论坛交流时，他提到主动驾驶的后续焦点是工程化集成，华为也投入了许多人力做这些dirty work。

从主动驾驶转向具身智能，要解决的问题更多、更繁杂，这恰是学术界需要重点冲破的标的目的。于我看来，这不是跟风转向，而是合理的研究递进。自驾已经经有了许多的方案，已经经可以带来价值了，可以先投入到市场，以后有了新问题以后各人可以继承研究。

赵昊：金教员认为主动驾驶已经成长到必然阶段，残剩事情由工业界年夜范围落地。我基本附和，但感觉还有存于一些技能问题。一是分辩率有待提高，二是视频长度不足。这些技能难题年夜几率会于本年获得完全解决。对于在主动驾驶的场景片断（CLIP），真实数据凡是是十几秒的片断，我认为假如模子能于一分钟内连结不变的天生质量就充足了；分辩率则是另外一个技能难题，今朝车厂利用的数据分辩率较高，但模子天生的分辩率仍偏低，这是很详细的技能层面问题。

关在怎样办事决议计划，我认为本年还有剩末了一个要害问题，“于主动驾驶世界模子中怎样界说奖励（reward）”。今朝动作及高质量传感器数据天生能力已经经具有，就差奖励机制。一旦奖励建模完成，要领论就能形成闭环，经由过程连续验证优化，真正迈向 L4 级。接下来有请廖教员谈谈主动驾驶世界模子的下一步标的目的。

廖依伊：我的不雅点及金教员略有差别。金教员提到主动驾驶已经有许多落地算法，这一点我认同：假如将世界模子界说为天生情况不雅测、将AD模子界说为天生动作，那末于AD模子方面确凿已经有相对于成熟的算法投入现实运行。但我认为，今朝还有没有尤其有说服力的事情，能证实主动驾驶世界模子于练习闭环中真正阐扬了要害作用。

此刻CV界的人，于世界模子研究中，存眷的都是丧失函数，都是图象天生或者衬着质量，不管是重修还有是天生线路，都以峰值信噪比（PSNR）等指标权衡，而没有回到Agent上去。由于天生使命更易推进，各人更多先寻求 “天生患上好”。但现实中，路上跑的体系年夜多还有是基在年夜量数据的模拟进修练习而成。

今朝，世界模子即便被运用在主动驾驶，可能也只是作为验证东西，好比验证车辆于场景中可否正常行驶。但真正将世界模子纳入练习闭环，用它撑持Agent练习并证实其有用性的事情，今朝还有较为缺少。固然也有一些开端的相干测验考试，例如地平线的RAD于3D高斯场景中开展了主动驾驶强化进修微调。我认为从世界模子的角度来看，仍有很多问题值患上摸索。好比，当前的3D高斯技能以和咱们自研的模仿器，是否真的能有用缩小范畴差距（domain gap），这一点就很是需要验证。

金鑫：我赞成廖教员的不雅点。适才说的是主动驾驶总体算法层面，而针对于主动驾驶世界模子，我认为它才刚起步，或者者说于寻求更完整解决方案的门路上，各人的思绪才刚改变。两年前，各人可能还有于想着网络数据、自监视练习，但逐步发明，数据没法穷尽所有边沿案例（corner case），每一次碰到新案例就补数据，这类方式永远没法笼罩所有环境。在是各人才转向借助闭环模仿器（即世界模子）来辅助练习，不需要依靠连续网络数据就能学好，这个思绪改变实在才方才最先，还有处在初期阶段。

赵昊：总结廖教员的不雅点，下一步咱们要走向年夜范围基在世界模子的练习，我彻底赞成。这此中最焦点的问题就是reward怎样界说。接下来有请郑教员分享主动驾驶世界模子的成长趋向及下一个冲破点。

郑文钊：我总体还有是比力认同廖教员的不雅点。于sora等模子呈现后，各人最先摸索怎样将其迁徙到主动驾驶场景，有些事情直接利用主动驾驶数据练习，但素质上仍于像素（Pixel）空间建模；固然还有有另外一类要领，好比咱们以前做的事情，直接于三维空间（如盘踞空间、界限框空间，或者是厥后的高斯空间）中建模，摸索怎样让世界模子真正于三维空间用起来。

主动驾驶的特色是，对于世界模子的精度要求极高，好比泊车时可能需要厘米级的精度，“看起来对于”是一回事，“现实能用”是别的一回事。像sora这种模子，看起来没装上，可是差几厘米，后果不同是很年夜的。是以，主动驾驶世界模子今朝的要害问题是：怎样实现对于将来的精准猜测，以和对于动作的精准相应能力。

从当前趋向来看，有一些事情最先走三维与二维联合的线路。三维重修的上风是于三维空间中精度较高，但缺少想象能力，天生效果可能不敷天然，二者联合多是主动驾驶世界模子将来的成长趋向之一。第二点是泛化能力的晋升，这瓜葛到世界模子怎样更好地落地。我认为泛化性可分为两个层面：第一是泛化到数据未笼罩但切合物理纪律的场景；第二近似以前提到的反事实（counter factual）泛化，即泛化到不真正的场景。咱们需要第一种，好比数据中没有撞车案例，模子可否想象出真正的拐弯碰撞场景。

第三点是怎样用好世界模子，这也是金教员及廖教员提到的将来成长标的目的。联合咱们初期的摸索，我认为可以从两方面入手：一是让世界模子具有猜测action的能力。这种似人类开车，人具备有猜测将来的能力，但许多时辰人的动作是下意识的本能判定（无需决心思索左拐加快的后果）；二是于有时间的环境下，模子可以像人同样“寻思熟虑”，好比模仿左拐、右拐的成果后选择最优动作。是以，世界模子于主动驾驶中的运用不该仅作为练习的奖励机制，更应转化为一种猜测范式，既包罗“体系一”的本能反映，也包罗“体系二”的深度决议计划。

赵昊：感激郑教员。咱们聊了许多专业细节，不知道平凡听众会不会感觉难以理解？总体而言，郑教员提到的一个不雅点颇有意思：当前主动驾驶世界模子的基准（Benchmark）机能还有比力低，好比盘踞猜测（occupancy）指标于部门数据集上仅二十几，有些数据集能到四十几，可能要等指标晋升到70摆布，才能说模子相对于成熟。

这就引出一个问题：跟着VGGT等视觉基础模子的成长，主动驾驶数据集上的指标却难以上涨，各人感觉有甚么新时机能鞭策指标晋升吗？

郑文钊：有时可视化成果看起来不错，但指标只有20，这正反应了主动驾驶对于精准度的严酷尺度。赵教员提到的标的目的很要害：今朝于基础层面，主动驾驶还有缺少像VGGT那样成熟的感知基础模子。此刻各人练习的模子多基在初期的ResNet等架构，或者未颠末年夜范围数据练习的主干收集（backbone）。将来若能呈现专为主动驾驶设计的感知基础模子（perception foundation model for autonomous driving），机能应该会有较年夜奔腾。

赵昊：咱们近来用VGGT更可能是做重修及仿真。持久来看，我及偕行聊过一个不雅点：早晚会呈现主动驾驶垂类的动态基础模子。此刻已经不是纯真的VGGT，而是有了动态版本的SpatialTracker V2，它的机能很是强，咱们近来的事情都基在它。主动驾驶场景是动态的，一定需要适配动态场景的模子。假如能有这种垂类的SpatialTracker V2模，当前的规模检测、occupancy mapping等使命的指标均可能年夜幅晋升，咱们可以期待，如许的事情谁能做出来，必然会颇有影响力。

也许不如把所有主动驾驶数据整合起来，练习一个专属的SpatialTracker，说不定本年主动驾驶感知使命能迎来冲破。以前各人感觉Waymo上模子的检测机能已经触顶，但本年也许能再涨一涨。末了有请杨教员分享见解。

杨梦月：我对于主动驾驶范畴的详细要领其实不十分认识，但从金教员提到的联系关系、干涉干与与反事实推理角度来看，咱们但愿智能体具有反事实想象能力，那它就必需理解场景的因果布局——这源在图灵奖得到者朱迪亚·珀尔(Judea Pearl)提出的“因果阶梯”观点，他是因果推理范畴的焦点研究者。

因果推理的焦点是“三层阶梯”，而实现三层阶梯的底子要求是理解体系内部的运行法则。是以，若要确保智能体具有想象能力，或者是满意安全层面的高要求，它必需把握详细的物理法则及情况法则。此外好的世界模子，也没法捕获实际世界的所有环境。这一方面受限在数据，另外一方面由于世界模子于练习之初就应处在动态更新的闭环中，从RL的角度来看，这个历程是：起首经由过程经验数据练习出转移模子，再基在转移模子做出决议计划。而决议计划成果与转移模子预期成果的差异，就能够用来更新世界模子。是以，我认为晋升模子机能的一个主要标的目的是：不克不及仅依靠练习数据举行练习，还有需要经由过程两方面发力 —— 一方面要思索怎样于真实体系中举行干涉干与并获取真实反馈，这类干涉干与是基在当前对于世界的理解（好比已经有的世界模子）做出的决议计划；另外一方面，当决议计划履行后，将收到的真实反馈用在更新当前的世界模子。

是以，模子练习应从两方面睁开：一是从数据及仿真器中进修；二是于包管安全的条件下，让智能体于真实情况中举行必然水平的摸索，经由过程真实反馈连续自我更新。

5、具身智能的世界模子应该怎样构建？

赵昊：咱们接着会商下一个话题：具身智能的世界模子应该怎样构建。具身智能世界模子今朝还没有形成明确的范式、规范及界说，需要一个好的切入点来证实其价值，鞭策范畴成长。

我感觉，具身智能的世界模子需要一个“触发器”，一个能证实其价值的场景，如许这个范畴才能真正成长壮年夜，今朝还有缺乏如许的闭环机制。我还有没找到尤其好的思绪，也没看到成熟的案例，但本年有两个事情让我印象深刻：一是贺教员团队的吕江燃于ICCV集会上做的事情，能器具身智能世界模子实现非预编程操作（non-prehensible manipulation）；二是董教员团队的宁川若同窗于RSS集会上发表的《Prompting with Future》，用高斯世界模子揭示了计划能力。这两个事情多是今朝具身智能世界模子范畴相对于闭环的baseline案例，不外都还有处在早期阶段。想先问问郑教员，若要研究具身智能世界模子，您认为哪些技能路径比力值患上摸索？

郑文钊：我感觉具身智能的问题特色与主动驾驶有相似的地方，好比都对于三维精度有极高要求，甚至比主动驾驶更严酷。主动驾驶场景相对于弘大，而具身智能的抓取等场景可能需要毫米级精度——一旦偏差跨越规模，就可能抓取掉败，这是第一个挑战。第二，物理纪律于具身智能中饰演更主要的脚色：主动驾驶的物理纪律相对于简朴（如车辆行驶），触及的重力等繁杂物理作用较少；但具身智能的抓取场景中，物理纪律至关主要，这也是为何各人常做real2sim2real的研究——需要先将真实场景映照到仿真空间，而仿真空间必需明确建模物理纪律。

从成长阶段看，具身智能的世界模子总体比主动驾驶稍掉队，但有其怪异性，好比已经有事情测验考试于仿真空间中建模物理纪律，而主动驾驶范畴缺少对于物理引擎（Physics engine）的深度建模，这是具身智能的一年夜特色。

将来具身智能世界模子的成长，我认为有两个标的目的：一是像主动驾驶中提到的，实现重修与天生的联合，晋升三维建模精度；二是更精准地判定因果性，并让因果性与物理纪律更好契合。因为具身智能的数据稀缺，纯数据驱动很难练习出切合物理纪律的世界模子，是以需要更好地建模物理纪律，甚至将其“注入”模子。除了了real2sim2real的路径，更优的标的目的多是数据驱动与物理纪律联合——摸索怎样经由过程某种方式将物理纪律注入数据驱动模子，这多是将来的趋向。

金鑫：我跟郑教员不雅点相似。咱们近来半年也于做近似摸索。记患上去年年末集会上遇到廖教员，会商她的HUGSIM事情时，我曾经建议是否思量插手物理法则，让仿真层（SIM layer）更具物理属性。其时廖教员反问：“物理性对于主动驾驶使命真的那末主要吗？” 这个问题让我寻思，厥后发明确凿云云，主动驾驶中，除了了气候光照、路面积水反光（好比陈宝权教员团队做的相干研究）等边沿场景，对于物理纪律的依靠其实不强。但具身智能差别，呆板人的夹爪磨擦力、力反馈，以和软体、流体、铰接体等的物理属性，对于使命影响极年夜。是以，物理真实性（physical world intelligence）对于具身智能的世界模子反而更主要。

咱们的摸索标的目的及郑教员提到的很靠近：不仅依靠数据驱动，还有借鉴了传统仿真范畴的经验，联合图形学中的物理建模要领（如杨氏模量、弹簧 - 质量模子等基在法则的物理仿真）与数据驱动的天生模子（如AIGC天生模子），但愿让具身智能的世界模子既能包管物理真实性，又能实现体现真实（appearance real）。

杨梦月：我对于具身智能范畴的相识确凿比力有限，更可能是从列位的不雅点中进修。我的设法是，于具身场景中，可否经由过程某种机制或者智能体捕获物理纪律，将其整合成因果模子，再使用该模子举行反事实猜测或者揣度，年夜概是如许的思绪。

赵昊：我感觉这个不雅点颇有意思，这也是本年的一个主要趋向。好比近期的4KAgent体现精彩。我隐隐觉得到，本年存于“算法Agent化”的趋向。这个理论于2023年就已经呈现（好比Visual Progra妹妹ing团队关在tool using的best paper），但本年可谓“Agent元年”，连写代码都能被Agent替换，是以，本年也许可以从头审阅Auto ML、视觉编程等标的目的。

这个思绪颇有价值：世界模子未必是客不雅被动的、被物理法则固化的存于，它可否成为自动蜕变的“情况Agent”，于与数据的互动中连续优化？这是本年值患上摸索的有趣标的目的。

廖依伊：我整体同意金教员及郑教员的不雅点，思绪确凿比力相近。从主动驾驶世界模子到通器具身智能世界模子，二者差异显著：主动驾驶中，智能体与情况的交互颇有限，重要是与路面的交互，路面可建模为平面，自车可用基础模子简化，其他物体（如车辆、行人）也有特定模子，场景相对于局限。是以，主动驾驶中不管是视频天生还有是其他使命，都轻易回归到3D建模，且3D衬着高效，操作便捷。

但具身智能中，3D当然主要（因触及交互），但维度繁杂度年夜幅晋升——既包括智能体自身的维度，也包括与情况交互的维度。我一直于纠结线路选择：是走2D线路，还有是3D线路？好比本年Cosmos的事情采用“3D+2D”模式，先经由过程仿真器天生Mesh，再驱动天生传神视频，这确凿是将来趋向之一，但未必是独一趋向。焦点问题于在：是否必需显式建模3D？于2D层面可否学好交互？如有充足练习数据，2D进修交互可能更简朴——好比叠衣服、泥巴落地等非刚性物体场景，于3D中建模难度极年夜。怎样做好2D与3D的联合，仍是难题。

赵昊：彻底赞成。若3D、4D仿真过在繁杂，不显式建模也许更好。

金鑫：还有要思量练习繁杂度及推理效率——机械臂等硬件的算力有限，繁杂建模会更贫苦。

赵昊：感激四位教员的分享。但愿今天的摆设各人满足。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

万字长文实录：RL 界与 CV 界的“世界模型”有什么不同？丨GAIR Live

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-万字长文实录：RL 界与 CV 界的“世界模型”有什么不同？丨GAIR Live

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天