米兰·(milan)中国官方网站-扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声
肆意图象变换方式均可天生。扩散模子或者代替GAN?作者 | 王玥、李梅编纂 | 陈彩娴
近来,Stability.Ai 公然发布了其文本天生图象模子 Stable Diffusion 的最新版本,网友们的新一波图象创作热潮又最先了~
图注:Stable Diffusion 天生图象前特斯拉 AI 总监 Andrej Karpathy 评论说:这是人类创造力具备汗青意义的一天,云云富厚的人类视觉创造力集中表现到了一小我私家人可涉及的产物中。

从天生图象的效果来看,Stable Diffusion 已经经是当前最佳的模子之一,而它暗地里的扩散模子(Diffusion Model)近来也备受存眷,显示出要代替 GAN 模子的势头。
实在,自从 2015 年扩散模子初次被提出以来,该范畴自己已经经有很是多的研究,研究职员也提出不少变体。而日前,来自马里兰年夜学及纽约年夜学的团队提出了最近最新的一种扩散模子:Cold Diffusion。
1Diffusion model 再升华今朝业界呈现的扩散模子变体层见叠出,但它们都有一个稳定的焦点:都是缭绕随机噪声去除了这个观点成立的。
扩散模子的素质,以和今朝咱们对于扩散模子的理解,都与高斯噪声于练习及天生历程中所起的作用高度相干。咱们可以将「扩散」理解为利用 Langevin 动力学缭绕图象密度函数的随机挪动,扩散的每一一步都需要高斯噪声。扩散始在「高温」状况(即噪音很年夜的状况),然后逐渐降温到险些没有噪音的「冷」状况。
而于这篇叫做“Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise”的最新论文中,作者提出了一个疑难:建造扩散模子的变体,是否是非患上利用高斯噪声不成?

论文地址:https://arxiv.org/pdf/2208.09392.pdf
经由过程屡次测验考试,该研究团队患上出了谜底:其实不必然需要。
于这篇论文中,作者再也不将扩散模子局限在「依靠高斯噪声而成立」,而是提出了缭绕恍惚(blurring)、下采样(downsampling)等肆意图象变换方式成立的广义扩散模子。因为再也不有原先的「高温」状况,这类全新广义扩散模子也就被称作为 Cold Diffusion。
已往尺度的扩散模子有两步事情流程:起首,用图象退化算子(image degradation operator)使患上图象遭到高斯噪声的污染,其次用一个练习好的恢复算子(restoration operator)对于图象举行去噪,逆转退化,从而获得一张新图象。

图注:传统扩散模子的两步事情流程
Cold Diffusion 继续了这两步事情流程,但又对于之举行了升华式的修改。以下图所示,于图象退化再到逆转退化的历程中,Cold Diffusion 研究团队测验考试了利用噪声、恍惚、变形(Animorph)、遮罩(mask)、像素化(pixelate)、雪花等变换方式,且都获得了不错的效果。

图注:Cold Diffusion 利用差别图象变换方式获得新图象的事情流程
事情道理对于在已经知图象 x0,设图象退化算子为D,履行算子的次数为t。
对于以往尺度的扩散模子来讲,其履行图象变换的前向历程,是由图象退化算子 D 来对于图象添加高斯噪声。添加0次时,D 应满意:

添加t次时,则应有:

而于 Cold Diffusion 的模子设计中,D 可以用来履行其他各类图象变换方式,如恍惚、变形、像素化、雪花等,其退化水平取决在t ——Cold Diffusion 的「进级」正表现于可以举行包括噪音于内的多种图象变换。
同时咱们还有需要一个能把xt“变回”图象的恢复算子 R ,应有:

于有了图象退化算子 D 及 恢复算子 R 后,就能够借用扩散模子的尺度要领对于算子举行串联利用,从而实现退化运算-逆转退化的事情流程。假如退化运算的次数 t 比力小(t ≈ 0),对于 R 举行一次运用就能够获得一幅恢复后的新图象。
因为R凡是只颠末了一个简朴的凸丧失练习,当履行退化运算的次数 t 很年夜时,天生的成果会很恍惚。对于此,作者团队提出一个改良的 Cold Diffusion 采样算法来天生高质量图象。

变化多端
这篇研究的重点就于在,作者不雅察到,扩散模子的图象天生其实不彻底依靠在高斯噪声,咱们也能够选择其他图象变换方式来天生新图象。经由过程转变图象变换方式,甚至可以构建出整个天生模子家族。
以恍惚为退化运算方式
基在噪声的扩散模子中的前向扩散历程(即退化运算这一步)的长处是,于末了一步 T 处的退化图象漫衍只是一个各向同性的高斯漫衍。是以,咱们可以起首从各向同性高斯漫衍中抽取样本,然后经由过程反向扩散挨次对于其举行去噪来履行(无前提)天生。而选择恍惚这类退化运算时,彻底退化的图象不克不及形成咱们可以抽样的优良关闭式漫衍,可是可以形成一个充足简朴的漫衍,可以用简朴的要领举行建模。
对于在次数充足年夜的 T,每一个图象 x0 城市降级为一个常数 xT(即每一个像素都是不异的颜色)。该常数值刚好是 RGB 图象 x0 的通道平均值,可以暗示为三维向量,并利用高斯混淆模子 (Gaussian mixture model, GMM) 暗示。经由过程对于该 GMM 举行采样,可以孕育发生高度恍惚图象的随机像素值,然后利用 cold diffusion 就能够举行去恍惚化,从而创立新图象。
别的,像素之间的对于称性会致使天生的图象缺少多样性,为了打破统一管道像素的对于称性,作者向每一个采样的 xT 添加极少量高斯噪声,这个简朴的技巧极年夜地提高了天生图象的富厚性。

图注:对于128 × 128 CelebA and AFHQ 数据集利用 cold diffusion 的恍惚方式变换天生样本示例
以其他图象变换为退化运算方式
末了团队进一步证实,除了了恍惚方式之外,cold diffusion 还有可以扩大到其他变换,如修复、超分辩率及变形(animorphosis)方式上,且天生的图象效果也都很好:

图注:cold diffusion 的天生图象。第一行利用变形方式变换,第二行利用修复方式变换,第三行利用超分辩率变换方式。
研究团队给出了 CelebA 数据集上的成果,cold diffusion 于修复、超分辩率及变形方面的 FID 患上分别离为90.1四、92.91及48.51。( FID,即 Rechet Inception Distance score,是用来计较真实图象及天生图象计较的特性向量之间间隔的指标。)
于练习及测试时期不需要高斯噪声的 cold diffusion,冲破了人们对于扩散模子的原有理解,为新型天生模子打开了将来的年夜门。
2Diffusion Model 时代到临这项研究由于提出了一种差别在传统情势的扩散模子,而于近日登上了很多论文排行榜的热点,一样引起了热议的,还有有论文此中一名作者于推特上倡议的会商:为何扩散模子云云迅速地代替了 GAN?

马里兰年夜学副传授 Tom Goldstein 注释,扩散模子的长处是它可以最小化凸回归丧失,以是 OpenAI 于开发 DALLE 时直接丢弃了 GAN,而利用扩散模子来解决不不变的鞍点问题(saddle point problem)。
并且,他认为,扩散模子的乐成是新数学范式阐扬其作用的一个例子,世界上所有的超参数调解都比不外几行寻思熟虑的数学公式。
要说今天的文本天生图象范畴已经经由扩散模子统治也许还有不敷严谨,但 GAN 的一家独年夜简直已经经成为汗青。归根结柢,谁的图象天生质量及不变性更好,谁才于愈来愈卷的天生模子界成为骄子。这项事情提出的 Cold Diffusion,也许就会于不久以后为咱们带来一个新的、强盛的文本天生图象模子。
参考链接:
https://arxiv.org/pdf/2208.09392.pdf
更多内容,点击下方存眷:扫码添加 AI 科技评论 微旌旗灯号,投稿 进群:雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





