米兰·(milan)中国官方网站-太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
作者:米兰·(milan)文化
更新时间:2026-03-29 12:50:11
点击数:

编纂|陈彩娴
DALL·E 及 DALL·E-2从文本天生图象的魔力,想必各人都已经经见地过了。作为深度天生模子,它们可以或许将文本作为输入,天生匹配给定文本的超传神图象。不外,DALL·E-2 的一个尽人皆知的局限性是它于天生带文本的图象时很费力。例如,给出文本提醒:Two farmers talking about vegetables,with subtitles.(两个农夫于评论辩论蔬菜,有字幕)DALL·E-2 天生的图象以下:
谁能告诉我这张图上的文字是甚么语言?甚么意思???于DALL·E-2所天生的带有文本的图象中,DALL·E-2显然于说一种咱们人类看不懂的语言。实在这一点于最初的DALL·E-2论文以和Marcus等人对于该模子的开端评估中就已经经发明了。而近来有人发明,这些让人没法理解的文本其实不是随机的!来自德克萨斯年夜学奥斯汀分校的博士生Giannis Daras 及 Alexandros G. Dimakis传授,发明DALLE-2暗地里居然有一套奥秘语言,模子内部好像有一套隐蔽的辞汇表,从这些隐蔽的辞汇中,模子会进修一些单词,并创造一些荒谬的文本提醒来天生图象。
好比,于DALL·E-2的语言体系里,Apoploe vesrreaitais意思是鸟类,Contarra ccetnxniams luryca tanniounons则暗示虫豸或者害虫。当你输入这个句子作为文本提醒时:Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounonsDALL·E-2天生了下面这些图象,图象内容翻译成英语,显然是“A bird is eating a bug”(一只鸟于吃虫子)
DALL·E-2这是「成精」了?
1DALL·E-2 的奥秘语言Daras 及 Dimakis 采用了一种简朴的要领来破解DALL·E-2的辞汇库。好比,假定咱们想找到于DALL·E-2的语言体系中,“ vegetables(蔬菜)”这个英语单词对于应的词是甚么,就能够用下面这些句子来提醒DALL·E-2:A book that has the word vegetables written on it.(上面写着“蔬菜”一词的书。)Two people talking about vegetables, with subtitles.(两小我私家于评论辩论蔬菜,有字幕。)The word vegetables written in 10 languages.(以10种语言书写的“蔬菜”一词。)然后,DALL·E-2就会天生带有暗示“蔬菜”义的文本的图象,好比于上面那张“两个农夫于评论辩论蔬菜”的图片中,DALL·E-2给出了本身的翻译文本:Avcopinitegoos Vicootes, Apoploe vesrreaitais。下一步,咱们就能够输入DALL·E-2本身的辞汇,来看它会天生甚么图象。好比下图(左)是从单词“vicootes” 天生的图象,下图(右)是从短语 “apoploe vesrreaitais” 天生的图象:
懂了懂了,以是“vicotes”的意思是“蔬菜”,“apoploe vesrreaitais”的意思是”鸟类”~ 只是这些鸟看起来强硬而自由,恍如正盯着对于农夫的蔬菜预备弄粉碎。DALL·E-2:以是这张图甚么意思,不消我说了吧。
好玩真好玩,我已经经火烧眉毛想要学会DALL·E-2的这门语言了!再看一个例子。输入文本“Two whales talking about food, with subtitles”(两只鲸鱼于评论辩论食品,有字幕),DALL·E-2 给出了以下的图片回执(左)~ 上面写着 “Wa ch zod ahaakes rea.”谁看的懂??可强人类不懂就对于了——我猜这两端鲸鱼正于用DALLE-2 的语言评论辩论它们的食品。紧接着,把这句话作为输入,DALL·E-2天生的图象(右)是......一堆海鲜美食!
这些有趣的发明引起了吃瓜群众的强烈热闹会商:
这真是不成思议。咱们能要求它用咱们的语言措辞吗?例如 “两只鲸鱼于评论辩论食品,有英文字幕”。
伟年夜的事情!这些输出让我想起了我一直于练习的GANs,它们孕育发生了之前没有据说过的新词。有些是英语单词,有些多是但不是。它们会付与这些新词成心义的表述。
我要吹毛求疵一下。假如农夫评论辩论的是 “Apoploe vesrreaitais”,而 “Apoploe vesrreaitais的3D效果图 ”,或者 “线条艺术,Apoploe vesrreaitais ”可以指虫豸(或者如他们所说的更遍及的 “会飞的工具”),那我认为农夫更多是于说虫豸而不是鸟。
我不太信赖咱们于“farmers with subtitles”的图片中看到的文字及揣度的单词寄义之间有很强的相干性。咱们不知道这个农夫的例子是怎样“移花接木”的,并且它甚至不起作用:假如这个假定是真的,“Apoploe vesrreaitais ”就对于应“蔬菜”,但它对于应的倒是“鸟”。并且因为某种缘故原由,咱们看到的是 “vicootes ”的输出,而不是 “vicootess”。这看起来很貌同实异。
使人难以置信的成果!我料想,因为CLIP从未于纯语言使命上接管过练习,它从未被激励“不”去将胡说八道与观点接洽起来(不像Imagen中利用的通例语言模子)。
-以是它必需从带有文字的图象中得到语言常识,但因为其练习数据中只有这么多如许的图象,它于找到的文字之间做了某种不完备的插值。虽然给咱们的是胡说八道,但胡说八道仍旧因此特定命据为索引的。-它的语言模子是来自CLIP,以是问题必然是来自阿谁模子。
-我的理解是,它只于图象长进行练习,对于吧?它用文本描写对于图象举行编码,但它现实上从未 “看到 ”文本描写,除了非图象中刚好有文本。
-任何被索引到文本描写的图象文本(或者图象文本的插值)都不会只是随机的胡说八道,这颇有原理。有趣的是它怎样对于语言观点自己举行索引,以和它将它们混淆于一路的能力。就像人类对于语言的利用同样。
2剥其机理两位作者对于DALL·E-2的辞汇库做了进一步的研究。辞汇组合性先来瞅瞅它的 Compositionality(组合性)。畴前面的例子中,咱们知道 Apoploe vesrreaitais 指“鸟类”。经由过程反复有关农夫的提醒的试验,咱们还有可推测 “Contarra ccetnxniams luryca tanniounons”暗示“害虫或者虫子”。那末一个有趣的问题就来了,DALL·E-2可否把这两个观点构成一个句子呢?以下图所示 ,DALL·E-2可以将词及短语组合成句子,按照 Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons 天生了鸟类于吃虫子的图象。不外这类环境不是发生于所有的天生图象中,以是一致性其实不是十分稳健。
气势派头迁徙DALL·E-2 可以或许按照提醒中指定的气势派头,天生一些相干观点的图象。例如,预设咱们想获得一个苹果的传神图象,或者苹果的线条艺术。要先测试单词(如Apoploe vesrreaitais)是否对于应在视觉观点,这些观点可否按照提醒的上下文转化为差别的气势派头。于下图中提醒有时会致使飞虫,而不是鸟类。
DALL·E-2 天生的差别气势派头的 “Apoploe vesrreaitais”,形态虽异,但“会飞的工具 ”这一视觉观点获得了连结。文本及天生图象的一致性回首一下农夫及鸟的例子。其时的提醒是:两个农夫于评论辩论蔬菜,有字幕。成果,既发明有蔬菜、也发明有鸟的存于。两个农夫评论辩论鸟类长短常合理的,这就提出了一个很是有趣的问题:DALL·E-2 的文本输出是否与文本前提及天生的图象一致?试验注解,有时咱们获得的胡说八道的文本翻译成视觉观点,与起首孕育发生胡说八道文本的标题一致。有点绕口,简朴一点,就是种瓜患上瓜种豆患上豆,管它是印象派还有是写实派,结出的瓜及豆及最初的瓜豆种子(空话文学快住嘴),能看的出还有是有接洽的。
例如, Two whales talking about food, with subtitles (两只鲸鱼于评论辩论食品,有字幕)孕育发生了一个带有文字 Wa ch zod ahaakes rea 的图象。把这段文字作为提醒输入模子,于天生的图象中看到了海鲜。联合上图“差别气势派头的鸟”看来,胡说八道的文本确凿有其寄义,有时与孕育发生它的文本前提相一致。
于鲸鱼图中,天生图象中不明以是的文字 Wa ch zod ahaakes rea ,与孕育发生的图象、标题及第一幅图象的视觉输出是相干的。3安全性及可注释性的挑战有一种多是,这些非人类现有语言的单词是差别语言中正常单词的拼写过错,但两位作者于搜刮中没有发明任何如许的例子,以是这些词的来历仍旧使人困惑。并且于他们的开端试验中,有些词其实不像其他词那样具备一致性,也就是说,今朝DALL·E-2 的这套语言于从文本天生图象时的稳健性可能不足。开端研究注解,像“Contarra ccetnxni ams lurycat anni ounons”如许的提醒有时会孕育发生包罗虫子及害虫的图象(约占天生图象的一半),每一次还有会孕育发生差别的图象,年夜部门是动物。而“Apoploe vesrreaitais”这个短语的一致性较着更强,可以以各类方式组合来天生具备一致性的图象。假如要测试更多提醒语的稳健性,则需要年夜量的试验。论文作者暗示,假如一个体系体现出疯狂的不成猜测性,纵然这类环境很少发生,也仍旧是一个主要的问题,尤其是对于在一些运用步伐而言。另外一个有趣的问题是,Imagen是用语言模子练习的,而不是CLIP,它是否也会有一个近似的隐蔽辞汇库呢?不管怎样,天生图象的荒谬提醒挑战了咱们对于这些年夜型天生模子的决定信念。显然,于理解这些征象及创立稳健的、与人类预期相一致的语言及图象天生模子方面还有需要更多的基础研究。更多细节,可参考论文原文:
论文地址:https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf参考链接:
https://twitter.com/giannis_daras/status/1531693111755149312https://www.reddit.com/r/MachineLearning/co妹妹ents/v1zzh8/d_dalle_2_has_its_own_secret_language/
雷峰网雷峰网(公家号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





