米兰·(milan)中国官方网站-Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远
AI 作画很牛,但它其实不理解图象暗地里的世界。作者 | 李梅、黄楠编纂 | 陈彩娴
自从 DALL-E 2 问世以来,许多人都认为,可以或许绘制传神图象的 AI 是迈向通用人工智能(AGI)的一年夜步。OpenAI 的 CEO Sam Altman 曾经于 DALL-E 2 发布的时辰传播鼓吹“AGI is going to be wild”,媒体也都于衬着这些体系对于在通用智能进展的庞大意义。
但真的是云云吗?知名 AI 学者(给 AI 泼冷水喜好者) Gary Marcus 暗示“持保注意见”。
近来,他提出,于评估 AGI 的进展时,要害要看像 Dall-E、Imagen、Midjourney 及 Stable Diffusion 如许的体系是否真正理解世界,从而可以或许按照这些常识举行推理并举行决议计划。
于判定这些体系之在 AI (包括狭义及广义的 AI)的意义时,咱们可以提出如下三个问题:
图象合成体系可否天生高质量的图象?
它们可否将语言输入与它们孕育发生的图象联系关系起来?
它们相识它们所出现出的图象暗地里的世界吗?
1AI 不懂语言与图象的联系关系于第一个问题上,谜底是必定的。区分只于在,于用 AI 天生图象这件事儿上,颠末练习的人类艺术家能做患上更好。
于第二个问题上,谜底就纷歧定了。于某些语言输入上,这些体系能体现优良,好比下图是 DALL-E 2 天生的“骑着马的宇航员”:

但于其他一些语言输入上,这些 AI 就体现欠佳、很轻易被愚搞了。好比前段时间 Marcus 于推特上指出,这些体系于面临“骑着宇航员的马”时,难以天生对于应的正确图象:

只管深度进修的拥护者对于此举行了激烈的还击,好比 AI 研究员 Joscha Bach 认为“Imagen 可能只是利用了过错的练习集”,呆板进修传授 Luca Ambrogioni 辩驳说,这正注解了“Imagen 已经经具备必然水平的知识”,以是拒绝天生一些荒谬的工具。

还有有一名google的科学家 Behnam Neyshabur 提出,假如“以准确的方式发问”,Imagen 就能够画出“骑着宇航员的马”:

可是,Marcus 认为,问题的要害不于在体系可否天生图象,智慧的人总能找到措施让体系画出特定的图象,但这些体系并无深刻理解语言与图象之间的联系关系,这才是要害。
2不知道自行车轮子是啥
怎么能称是AGI?体系对于语言的理解还有只是一方面,Marcus 指出,最主要的是,判定 DALL-E 等体系对于 AGI 的孝敬终极要取决在第三个问题:假如体系所能做的只因此一种偶尔但使人赞叹的方式将很多句子转换为图象,它们可能会完全转变人类艺术,但仍旧不克不及真正与 AGI 相提并论,也底子代表不了 AGI。
让 Marcus 对于这些体系理解世界的能力感应绝望的是近来的一些例子,好比平面设计师 Irina Blok 用 Imagen 天生的“带有许多孔的咖啡杯”图象:

正凡人看了这张图城市感觉它违背知识,咖啡不成能不从孔里漏出来。近似的还有有:
“带有方形轮子的自行车”

“充满神仙掌刺的草纸”

说“有”轻易说“无”难,谁能知道一个不存于的事物该当是甚么样?这也是让 AI 绘制不成能事物的难题地点。
但又也许,体系只是“想”绘制一个超实际主义的图象呢,正如 DeepMind 研究传授 Michael Bronstein 所说的,他其实不认为那是个糟糕糕的成果,换做是他,也会如许画。

那末怎样终极解决这个问题呢?Gary Marcus 于近来同哲学家 Dave Chalmers 的一次扳谈中得到了新的灵感。
为明晰解体系对于在部门及总体、以和功效的熟悉, Gary Marcus 提出了一项对于体系机能是否准确有更清楚观点的使命,给出文本提醒“Sketch a bicycle and label the parts that roll on the ground”(画出一辆自行车并标志出于地面上滚动的部门),以和“Sketch a ladder and label one of the parts you stand on”(画出一个梯子并标志出你站立的部门)。
这个测试的尤其的地方于在,其实不直接给出“画出一辆自行车并标志出轮子”、“画出一个梯子并标志出踏板”如许的提醒,而是让 AI 从“地面上滚动的部门”、“站立的部门”如许的描写中推理出对于应的事物,这恰是对于 AI 理解世界能力的磨练。
但 Marcus 的测试成果注解,Craiyon(之前称为 DALL-E mini)于这类工作上做患上乌烟瘴气,它其实不能理解自行车的轮子及梯子的踏板是甚么:


那末这是否是 DALL-E Mini 独有的问题呢?
Gary Marcus 发明其实不是,于今朝最火的文本天生图象体系 Stable Diffusion 中也呈现了一样的成果。
好比,让 Stable Diffusion “画一小我私家,并把拿工具的部门酿成紫色”(Sketch a person and make the parts that hold things purple),成果是:

显然,Stable Diffusion 其实不理解人的双手是甚么。
而于接下来的九次测验考试中,只有一次乐成完成(于右上角),并且正确性还有不高:

下一个测试是,“画出一辆白色自行车,并将用脚鞭策的部门酿成橙色”,获得图象成果是:

以是它也不克不及理解甚么是自行车的脚踏板。
而于画出“自行车的草图,并标志于地面上滚动部门”的测试中,其体现患上也并无很好:

假如文本提醒带有否认语,好比“画一辆没有轮子的白色自行车 ,其成果以下:

这注解体系其实不理解否认的逻辑瓜葛。
即即是“画一辆绿色轮子的白色自行车”如许简朴的只存眷部门与总体瓜葛提醒,并且也没有呈现繁杂的语法或者功效等,其获得的成果仍存于问题:

是以,Marcus 诘责道,一个其实不相识轮子是甚么、或者是它们的用途的体系,能称患上上是人工智能的庞大前进么?
今天,Gary Marcus 还有针对于这个问题发出了一个投票查询拜访,他提出的问题是,“Dall-E 及 Stable Diffusion 等体系,对于它们所描绘的世界到底相识有几多?”
此中,86.1% 的人认为体系对于世界的理解其实不多,只有 13.9% 的人认为这些体系理解世界的水平很高。

对于此,Stability.AI 的首席履行官 Emad Mostique 也回应称,我投的是“其实不多”,并认可“它们只是拼图上的一小块。”

来自科学机构 New Science 的 Alexey Guzey 也有与 Marcus 近似的发明,他让 DALL-E 画出一辆自行车,但成果只是将一堆自行车的元素堆于一路。

以是他认为,并无任何能真正理解自行车是甚么以和自行车怎样事情的模子,天生当前的 ML 模子险些可以与人类媲美或者代替人类是很荒谬的。
各人怎么看?
参考链接:https://garymarcus.substack.com/p/form-function-and-the-giant-gulf
更多内容,点击下方存眷:扫码添加 AI 科技评论 微旌旗灯号,投稿 进群:
雷峰网(公家号:雷峰网)雷峰网版权文章,未经授权禁止转载。详情见转载须知。





