米兰·(milan)中国官方网站-Alexei Efros 团队发布 BlobGAN：灵活组合物体的布局与外形特征

作者：米兰·(milan)文化更新时间：2026-03-30 21:14:34 点击数：

‍

作者丨OGAI

编纂丨陈彩娴

计较机视觉是人工智能技能的主要运用标的目的。于深度进修时代，年夜量以 ImageNet 为代表的数据集被用在练习各类视觉理解模子，从而完成图象分类、方针检测、图象支解、场景理解等使命。于 ImageNet 数据集中，物体往往零丁呈现于图象的中心区域。然而，真正的视觉世界则要富厚患上多。

图 1：ImageNet 数据集

对于在人类视觉及计较机视觉而言，于场景的上下文中理解、建模对于象是最主要的使命之一。于人类文明成长的长河中，艺术家们逐渐把握了场景形成的法则，并成长出了超实际主义等艺术门户，可以或许纯熟打破这些法则。他们可以或许对于场景中的各类视觉元素举行解构、重组、艺术化加工，从而创作出新奇而又可以或许被人类所理解的艺术作品。

图 2：超实际主义画作——《影象的永恒》

遗憾的是，于深度进修时代，面向阐发及合成使命的场景建模并无获得充足的器重。有时，咱们采用及对于象建模近似的自顶向下方式建模场景，例如：对于在 GAN 或者图象分类器而言，「卧室」及「厨房」等场景种别的表征方式与「床」或者「椅子」的表征方式近似。有时，咱们又采用及语义支解使命近似的自底向上的方式为图象中的每个像素付与语义标签。

然而，对于在场景理解而言，上述两种要领都不尽如人意，它们没法将场景中的各个部门作为实体，从而举行简朴的推理。场景中的部门要末被交融为一个耦合的潜向量（自顶向下），要末需要按照自力的像素标签聚合于一路（自底向上）。

为此，于资深计较机视觉学者 Alexei A.Efros 传授的引导下，来自 UC Berkeley 及 Adobe 的研究职员近期发布了论文「BlobGAN: Spatially Disentangled Scene Representations」，为场景天生模子提供了一种介在像素及图象之间的无监视中间表征。于该事情中，研究者们将场景建模为于空间、深度上有序的高斯 Blob 连通区域的调集。

图 3：BlobGAN 模子架构

如图 3 所示，这些 Blob 的调集处在天生器架构的「瓶颈」处，迫使每一个 Blob 对于应在场景中的一个特定对于象，从而孕育发生于空间上解耦的表征。如图 4 所示，于该模子的帮忙下，咱们可以于没有语义监视的环境下完成很多场景编纂使命。

图 4：使用 BlobGAN 完成的场景编纂使命。

该项目的地址为：https://dave.ml/blobgan/

今朝，该事情于 Reddit 上引起了热议，很多网友们纷纷为 BlobGAN 的惊人体现而折服。

Alexei Efros 团队发布 BlobGAN：灵活组合物体的布局与外形特征

1神奇的 BlobGAN 是怎样炼成的？

BlobGAN 的实现要领充实表现了深度进修及基在手工设计的传统计较机视觉要领的联合。如图 1 所示，于 BlobGAN 中，满意尺度正太漫衍的随机噪声 z 会被输入给一个结构收集 F，结构收集会将噪声映照为一组描写 Blob 的参数 β（见图 5）。Blob 可以作为一种强盛的中间天生表征。接着，咱们将 Blob 可微地描绘于空间网格 Alexei Efros 团队发布 BlobGAN：灵活组合物体的布局与外形特征上，该网格也描写了 Blob 的透明度。接着，咱们使用一个近似在 StyleGAN2 的解码器 G 将其转化为传神、及谐的图象。咱们利用一个不会被修改的判别器于匹敌框架下练习模子。于没有显式标签的环境下，咱们的模子可以学会将场景中的实体和其结构解耦开来。

图 5：Blob 的构建要领示用意。

算法细节

详细而言，椭圆 Blob 的参数包罗 Blob 的中央坐标 x ∈ [0, 1]^二、标准 s ∈ R、纵横比 a ∈ R、扭转角度 θ ∈ [−π, π]。每一个 Blob 都带有一个布局特性 Alexei Efros 团队发布 BlobGAN：灵活组合物体的布局与外形特征及气势派头特性，咱们于将 Blob 转换为 2D 特性网格时会用播送的矩阵乘法操作将两个特性向量。Blob 表征可写作：

Alexei Efros 团队发布 BlobGAN：灵活组合物体的布局与外形特征

于获得了 Blob 后，咱们以 StyleGAN2 为基础构建了天生器 G 将 Blob 转换为真实、及谐的图象。于这里，咱们基在 Blob 的布局特性采用了岁空间变化的输入张量，而不是单1、全局的向量，并举行了随空间变化的调制。尺度的 StyleGAN 要求每一个气势派头向量 w 必需席卷场景所有方面的信息，而 BlobGAN 则可以将结构及外不雅解耦开。

直不雅地说，Blob 内的所有激活值都由不异的特性向量节制，促使 Blob 孕育发生自相似属性的图象区域（场景中的实体）。此外，因为卷积是局部的，输入中的 Blob 的结构必需很强地包罗图象区域的终极构造的信息。末了，咱们的潜空间经由过程组织历程将 Blob 的结构与外不雅解耦。这有助在咱们的模子学会将单个 Blob 与差别的对于象绑定，并将这些 Blob 构造到合理的结构中，从空间大将场景分化为一系列构成部门。

2BlobGAN 的威力

BlobGAN 进修到的表征可以从空间上解耦场景。下面，咱们别离从定量及定性的角度展示 BlobGAN 怎样将 Blob 与场景中的某个方针对于应起来，并展示学到的表征怎样捕捉场景结构的漫衍。

如图 4 所示，咱们对于模子天生的图象的 Blob 图举行一系列的修改，例如：清空场景中的实体、增长床及窗户、缩小窗户、挪动窗户、主动补全场景、挪动吊扇、转变床的气势派头。BlobGAN 可以矫捷地编纂场景。

场景编纂可视化成果

详细而言，BlobGAN 可以将繁杂的场景图象分化为构成它们的物体。无监视表征使咱们可以很轻易地于场景中从头摆列、移除了、克隆及重塑物体。如图 6 所示，经由过程修改某些 Blob 的坐标，从头构造卧室中的家具。因为表征是分层的，咱们可以建模家居之间的遮挡瓜葛。

图 6：挪动 Blob 从而从头构造物体

图 7 展示了从表征中彻底删除了某些 Blob 的影响。只管于练习数据中，没有床的卧室很是稀有，但经由过程移除了响应的 Blob，可以将床从场景中移除了。咱们也能够以一样的方式移除了窗户、灯具及电扇、画作、梳妆台及床头柜。

图 7：移除了 Blob

BlobGAN 天生的表征使咱们可以举行跨图象的编纂。于图 8 中，咱们经由过程互换 Blob 的气势派头向量高度模块化地从头装置了场景。例如，于不转变结构的环境下，咱们将某一场景下的床单气势派头与另外一场景下的床单气势派头互换。

图 8：互换 Blob 气势派头

如图 9 所示，假如咱们想要引入新的 Blob，可以于新的位置上复制粘贴不异的 Blob，形成新的结构。

图 9：复制粘贴 Blob

定量的 Blob 阐发

Blob 及场景中的实体具备很强的联系关系。咱们经由过程将 Blob 的尺寸参数 s 随机设置为负数来删除了它。然后，咱们利用支解模子不雅察消散的语义类。图 10（左）展示了类及 Blob 之间的相干性。该矩阵十分稀少，这注解 Blob 跟着进修专门对于应到差别的场景实体。图 10（右）展示了 Blob 的中央的漫衍。合成的热力求展示了练习数据中物体的漫衍。模子会学着于特定的图象区域定位 Blob，经由过程转变气势派头向量节制表征的物体。

图 10：Blob 的空间偏好属性

将 Blob 组合到结构中

除了了将图象分化为若干部门，抱负的场景表征还有需要捕捉各部门之间富厚的上下文瓜葛，这些瓜葛决议了场景的天生历程。BlobGAN 的表征可以显式地发明场景中物体的结构。

于测试时，咱们经由过程求解一个简朴的约束优化问题，可以对于满意底层场景约束的展示图象举行采样，举行「场景主动补全」。如图 11 所示，差别的空屋间具备各自的配景向量 Alexei Efros 团队发布 BlobGAN：灵活组合物体的布局与外形特征，以和由潜变量 z 天生的装饰，咱们经由过程优化合理地装饰场景，使之与配景向量相匹配。

图 11：天生并填充空屋间。

经由过程利用结构收集 F 对于满意 Blob 参数子集约束的差别场景举行采样，咱们可以举行带前提的场景主动天生/补全。图 12 展示了特定结构前提下的气势派头天生、按照床及梳妆台的位置及巨细猜测可托的场景。比起利用 F 主动补全场景，咱们还有可以天生一个随机的场景并简朴地替代感兴致的参数以匹配所需的值。咱们可以对于场景举行物体的插入、移除了、标的目的调解。

图 12：场景主动补全

咱们经由过程替代方针图象中的属性来编纂图象，这些属性要末是随机天生的，要末是利用模子举行前提采样患上来的。经由过程转变收集深度，咱们切换 StyleGAN 中的气势派头。为了进一步连结全局结构并提高一致性，咱们的模子还有可使用源图片中的布局网格 Φ。咱们经由过程 FID 来评估模子天生样本的多样性及质量。于所有环境下，BlobGAN 的场景主动补全机能都优在基线。