米兰·(milan)中国官方网站-Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

作者：米兰·(milan)文化更新时间：2026-03-18 21:01:28 点击数：

AI 作画很牛，但它其实不理解图象暗地里的世界。作者 | 李梅、黄楠编纂 | 陈彩娴

自从 DALL-E 2 问世以来，许多人都认为，可以或许绘制传神图象的 AI 是迈向通用人工智能（AGI）的一年夜步。OpenAI 的 CEO Sam Altman 曾经于 DALL-E 2 发布的时辰传播鼓吹“AGI is going to be wild”，媒体也都于衬着这些体系对于在通用智能进展的庞大意义。

但真的是云云吗？知名 AI 学者（给 AI 泼冷水喜好者） Gary Marcus 暗示“持保注意见”。

近来，他提出，于评估 AGI 的进展时，要害要看像 Dall-E、Imagen、Midjourney 及 Stable Diffusion 如许的体系是否真正理解世界，从而可以或许按照这些常识举行推理并举行决议计划。

于判定这些体系之在 AI （包括狭义及广义的 AI）的意义时，咱们可以提出如下三个问题：

图象合成体系可否天生高质量的图象？

它们可否将语言输入与它们孕育发生的图象联系关系起来？

它们相识它们所出现出的图象暗地里的世界吗？

1AI 不懂语言与图象的联系关系

于第一个问题上，谜底是必定的。区分只于在，于用 AI 天生图象这件事儿上，颠末练习的人类艺术家能做患上更好。

于第二个问题上，谜底就纷歧定了。于某些语言输入上，这些体系能体现优良，好比下图是 DALL-E 2 天生的“骑着马的宇航员”：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

但于其他一些语言输入上，这些 AI 就体现欠佳、很轻易被愚搞了。好比前段时间 Marcus 于推特上指出，这些体系于面临“骑着宇航员的马”时，难以天生对于应的正确图象：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

只管深度进修的拥护者对于此举行了激烈的还击，好比 AI 研究员 Joscha Bach 认为“Imagen 可能只是利用了过错的练习集”，呆板进修传授 Luca Ambrogioni 辩驳说，这正注解了“Imagen 已经经具备必然水平的知识”，以是拒绝天生一些荒谬的工具。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

还有有一名google的科学家 Behnam Neyshabur 提出，假如“以准确的方式发问”，Imagen 就能够画出“骑着宇航员的马”：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

可是，Marcus 认为，问题的要害不于在体系可否天生图象，智慧的人总能找到措施让体系画出特定的图象，但这些体系并无深刻理解语言与图象之间的联系关系，这才是要害。

不知道自行车轮子是啥

怎么能称是AGI？

体系对于语言的理解还有只是一方面，Marcus 指出，最主要的是，判定 DALL-E 等体系对于 AGI 的孝敬终极要取决在第三个问题：假如体系所能做的只因此一种偶尔但使人赞叹的方式将很多句子转换为图象，它们可能会完全转变人类艺术，但仍旧不克不及真正与 AGI 相提并论，也底子代表不了 AGI。

让 Marcus 对于这些体系理解世界的能力感应绝望的是近来的一些例子，好比平面设计师 Irina Blok 用 Imagen 天生的“带有许多孔的咖啡杯”图象：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

正凡人看了这张图城市感觉它违背知识，咖啡不成能不从孔里漏出来。近似的还有有：

“带有方形轮子的自行车”

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

“充满神仙掌刺的草纸”

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

说“有”轻易说“无”难，谁能知道一个不存于的事物该当是甚么样？这也是让 AI 绘制不成能事物的难题地点。

但又也许，体系只是“想”绘制一个超实际主义的图象呢，正如 DeepMind 研究传授 Michael Bronstein 所说的，他其实不认为那是个糟糕糕的成果，换做是他，也会如许画。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

那末怎样终极解决这个问题呢？Gary Marcus 于近来同哲学家 Dave Chalmers 的一次扳谈中得到了新的灵感。

为明晰解体系对于在部门及总体、以和功效的熟悉， Gary Marcus 提出了一项对于体系机能是否准确有更清楚观点的使命，给出文本提醒“Sketch a bicycle and label the parts that roll on the ground”（画出一辆自行车并标志出于地面上滚动的部门），以和“Sketch a ladder and label one of the parts you stand on”（画出一个梯子并标志出你站立的部门）。

这个测试的尤其的地方于在，其实不直接给出“画出一辆自行车并标志出轮子”、“画出一个梯子并标志出踏板”如许的提醒，而是让 AI 从“地面上滚动的部门”、“站立的部门”如许的描写中推理出对于应的事物，这恰是对于 AI 理解世界能力的磨练。

但 Marcus 的测试成果注解，Craiyon（之前称为 DALL-E mini）于这类工作上做患上乌烟瘴气，它其实不能理解自行车的轮子及梯子的踏板是甚么：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远