米兰·(milan)中国官方网站-DALL

作者 |Ryan O Connor
编译丨王玥
编纂 | 陈彩娴OpenAI的模子DALL-E 2在本月初发布,刚一表态,便于图象天生及图象处置惩罚范畴卷起了新的风暴。
只需要给到寥寥几句文本提醒,DALL-E 2就能够按文本唆使天生全新图象,甚至能将绝不相干的物体以看似合理的语义方式组合于一路。
好比用户输入提醒“一碗汤是另外一个次元的进口”后,DALL-E 2便天生了如下的魔幻图片。

“一碗汤是另外一个次元的进口”图源:https://openai.com/dall-e-2/
DALL-E 2不仅能按用户指令天生明明魔幻,却又看着十分合理不明觉厉的图片。作为一款强盛的模子,今朝咱们已经知DALL-E 2还有可以:
天生特定艺术气势派头的图象,恍如出自该种艺术气势派头的画家之手,十分原汁原味!
连结一张图片显著特性的环境下,天生该图片的多种变体,每一一种看起来都十分天然;
修改现有图象而不露一点陈迹,完美无缺。
觉得有了DALL-E 2,艺术家均可如下岗了。
DALL-E 2今朝暴光的功效使人张口结舌,不由激起了浩繁AI喜好者的会商,如许一个强盛模子,它的事情道理究竟是甚么?!
1事情道理:简朴粗鲁
一只于吹喷火喇叭的柯基”——DALL-E 2图片天生流程解析图源:https://arxiv.org/abs/2204.06125
针对于图片天生这一功效来讲,DALL-E 2的事情道理剖析出来看似其实不繁杂:
起首,将文本提醒输入文本编码器,该练习过的编码器便将文本提醒映照到暗示空间。
接下来,称为先验的模子将文本编码映照到响应的图象编码,图象编码捕捉文本编码中包罗的提醒的语义信息。
末了,图象解码模子随机天生一幅从视觉上体现该语义信息的图象。
2事情细节:到处皆玄妙但是以上步调提及来简朴,分隔看来倒是每一一步都有很浩劫度,让咱们来模仿DALL-E 2的事情流程,看看毕竟每一一步都是怎么走通的。
咱们的第一步是先看看DALL-E 2是怎么进修把文本及视觉图象接洽起来的。
第一步 - 把文本及视觉图象接洽起来
输入“泰迪熊于时代广场滑滑板”的文字提醒后,DALL-E 2天生了下图:

图源:https://www.assemblyai.com/blog/how-dall-e-2-actually-works/
DALL-E 2是怎么知道“泰迪熊”这个文本观点于视觉空间里是甚么样子的?
实在DALL-E 2中的文本语义及与其相对于的视觉图片之间的接洽,是由另外一个OpenAI模子CLIP(Contrastive Language-Image Pre-training)进修的。
CLIP接管过数亿张图片和其相干文字的练习,进修到了给定文本片断与图象的联系关系。
也就是说,CLIP其实不是试图猜测给定图象的对于应文字申明,而是只进修任何给定文本与图象之间的联系关系。CLIP做的是对于比性而非猜测性的事情。
整个DALL-E 2模子依靠在CLIP从天然语言进修语义的能力,以是让咱们看看怎样练习CLIP来理解其内部事情。
CLIP练习练习CLIP的基来源根基则很是简朴:
起首,所有图象和其相干文字申明都经由过程各自的编码器,将所有对于象映照到m维空间。
然后,计较每一个(图象,文本)对于的cos值相似度。
练习方针是使N对于准确编码的图象/标题对于之间的cos值相似度最年夜化,同时使N2 - N对于过错编码的图象/标题对于之间的cos值相似度最小化。
练习历程以下图所示:

CLIP练习流程
CLIP对于DALL-E 2的意义CLIP险些就是DALL-E 2的心脏,由于CLIP才是阿谁把天然语言片断与视觉观点于语义长进行联系关系的存于,这对于在天生与文本对于应的图象来讲至关主要。
第二步 - 从视觉语义天生图象练习竣事后,CLIP模子被冻结,DALL-E 2进入下一个使命——进修怎么把CLIP方才进修到的图象编码映照反转。CLIP进修了一个暗示空间,于这个暗示空间傍边很轻易确定文本编码及视觉编码的相干性, 咱们需要学会使用暗示空间来完成反转图象编码映照这个使命。
而OpenAI利用了它以前的另外一个模子GLIDE的修改版原来履行图象天生。GLIDE模子进修反转图象编码历程,以便随机解码CLIP图象嵌入。

“一只吹喷火喇叭的柯基”一图颠末CLIP的图片编码器,GLIDE使用这类编码天生连结原图象显著特性的新图象。图源:https://arxiv.org/abs/2204.06125
如上图所示,需要留意的是,咱们的方针不是构建一个自编码器并于给定的嵌入前提下切确地重修图象,而是于给定的嵌入前提下天生一个连结原始图象显著特性的图象。为了举行图象天生,GLIDE利用了扩散模子(Diffusion Model)。
作甚扩散模子?扩散模子是一项受热力学开导的发现,最近几年来愈来愈遭到学界接待。扩散模子进修经由过程逆转一个逐渐噪声历程来天生数据。以下图所示,噪声处置惩罚历程被视为一个参数化的马尔可夫链,它逐渐向图象添加噪声使其被粉碎,终极(渐近地)致使纯高斯噪声。扩散模子进修沿着这条链向后走去,于一系列步调中逐渐去除了噪声,以逆转这一历程。

扩散模子示用意 图源:https://arxiv.org/pdf/2006.11239.pdf
假如练习后将扩散模子“切成两半”,则可以经由过程随机采样高斯噪声来天生图象,然后对于其去噪,天生传神的图象。各人可能会心识到这类技能很轻易使人遐想到用自编码器天生数据,现实上扩散模子及自编码器确凿是相干的。
GLIDE的练习
虽然GLIDE不是第一个扩散模子,但其主要孝敬于在对于模子举行了修改,使其可以或许天生有文本前提的图象。
GLIDE扩大了扩散模子的焦点观点,经由过程增长分外的文本信息来加强练习历程,终极天生文本前提图象。让咱们来看看GLIDE的练习流程:

下面是一些利用GLIDE天生的图象示例。作者指出,就照片真实感及文真相似度两方面而言,GLIDE的体现优在DALL-E(1)。

由GLIDE天生的图象示例 图源https://arxiv.org/pdf/2112.10741.pdf
DALL-E 2利用了一种改良的GLIDE模子,这类模子以两种方式利用投影的CLIP文本嵌入。第一种要领是将它们添加到GLIDE现有的时间步嵌入中,第二种要领是创立四个分外的上下文标志,这些标志毗连到GLIDE文本编码器的输出序列。
GLIDE对于在DALL-E 2的意义GLIDE对于在DALL-E 2亦很主要,由于GLIDE可以或许将本身根据文本天生传神图象的功效移植到DALL-E 2上去,而无需于暗示空间中设置图象编码。是以,DALL-E 2利用的修改版本GLIDE进修的是按照CLIP图象编码天生语义一致的图象。
第三步 - 从文本语义到响应的视觉语义的映照到了这步,咱们怎样将文字提醒中的文本前提信息注入到图象天生历程中?
追念一下,除了了图象编码器,CLIP还有进修了文本编码器。DALL-E 2利用了另外一种模子,作者称之为先验模子,以便从图象标题的文本编码映照到对于应图象的图象编码。DALL-E 2的作者用自回归模子及扩散模子举行了试验,但终极发明它们的机能相差无几。思量到扩散模子的计较效率更高,是以选择扩散模子作为 DALL-E 2的先验。

从文本编码到响应图象编码的先验映照修改自图源:https://arxiv.org/abs/2204.06125
先验练习DALL-E 2中扩散先验的运行挨次是:
标志化的文本;
这些标志的CLIP文本编码;
扩散时间步的编码;
噪声图象经由过程CLIP图象编码器;
Transformer输出的终极编码用在猜测无噪声CLIP图象编码。
第四步 - 万事俱备此刻,咱们已经经拥有了DALL-E 2的所有“零件”,万事俱备,只需要将它们组合于一路就能够得到咱们想要的成果——天生与文本唆使相对于应的图象:
起首,CLIP文本编码器将图象描写映照到暗示空间;
然后扩散先验从CLIP文本编码映照到响应的CLIP图象编码;
末了,修改版的GLIDE天生模子经由过程反向扩散从暗示空间映照到图象空间,天生浩繁可能图象中的一个。

DALL-E 2图象天生流程的高级概述修改自图源:https://arxiv.org/abs/2204.06125
以上就是DALL-E 2的事情道理啦~
但愿各人能留意到DALL-E 2开发的3个要害要点:
DALL-E 2表现了扩散模子于深度进修中的能力,DALL-E 2中的先验子模子及图象天生子模子都是基在扩散模子的。虽然扩散模子只是于已往几年才风行起来,但其已经经证实了本身的价值,咱们可以期待于将来的各类研究中看到更多的扩散模子~
第二点是咱们应看到利用天然语言作为一种手腕来练习开始进的深度进修模子的须要性与强盛气力。DALL-E 2的强劲功效究其底子还有是来自在互联网上提供的绝对于海量的天然语言 图象数据对于。利用这些数据不仅消弭了人工标志数据集这一吃力的历程所带来的成长瓶颈;这些数据的嘈杂、未经收拾的性子也越发反应出深度进修模子必需对于真实世界的数据具备鲁棒性。
末了,DALL-E 2重申了Transformer作为基在收集范围数据集练习的模子中的最高职位地方,由于Transformer的并行性使人印象十分深刻。

雷峰网雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





