米兰·(milan)中国官方网站-苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

作者：米兰·(milan)文化更新时间：2026-03-22 14:10:18 点击数：

作者 | 李梅

编纂 | 陈彩娴

如今，每一隔一段时间就有新的文本天生图象模子释出，个个效果都很强盛，每一每一冷艳世人，这个范畴已经经是卷上天了。不外，像 OpenAI 的 DALL-E 2 或者google 的 Imagen 等 AI 体系，都只能天生二维图象，假如文字也能酿成三维场景，那带来视觉体验必将加倍晋升。此刻，来自苹果的 AI 团队推出了 3D 场景天生的最新神经架构—— GAUDI 。苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

它可以捕获繁杂及传神的 3D 场景漫衍，从挪动摄像机中举行沉浸式衬着，还有能按照文本提醒来创立 3D 场景！该模子以 Antoni Gaudi 定名，他是西班牙闻名的修建巨匠。

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

论文地址：https://arxiv.org/pdf/2207.13751.pdf

1基在 NeRFs 的 3D 衬着神经衬着（nerual rendering）将计较机图形学与人工智能联合起来，已经经孕育发生了许多从 2D 图象天生 3D 模子的体系。好比近来 Nvidia 开发的 3D MoMa 可以于一个小时内从不到 100 张的照片中创立出 3D 模子。google也依赖神经辐射场（NeRFs ）于google舆图中将 2D 卫星及街景图象组合成 3D 场景，实现了沉浸式视图。google的 HumanNeRF 还有可以从视频中衬着出 3D 人体。今朝，NeRFs 重要还有是用作 3D 模子及 3D 场景的一种神经存储介质，可以从差别的相机视角举行衬着。NeRFs 也已经经最先被用在虚拟实际体验。那末，NeRFs 这类从差别摄像机角度传神地衬着图象的强盛能力，能不克不及用在天生式 AI 呢？固然可以，已经经有研究团队测验考试了 3D 场景的天生，如google于去年初次推出了 AI 体系 Dream Fields，它将 NeRF 天生 3D 视图的能力与 OpenAI 的 CLIP 评估图象内容的能力相联合，终极实现了可以或许天生匹配文本描写的 NeRF。

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

图注：google Dream Fields可是，google的 Dream Fields 只能天生针对于单个对于象的 3D 视图，要将它扩大到彻底不受约束的 3D 场景还有存于许多坚苦。最年夜的难点就于在摄像机的位置有很年夜的限定，对于在单个对于象，每一个可能的、合理的摄像机位置均可以映照到一个圆顶，但于 3D 场景中，摄像机的位置会遭到对于象及墙壁等障碍物的限定。假如于场景天生时不思量这些因素，那就很难天生 3D 场景。

23D 衬着专家 GAUDI对于在上述摄像机位置受限的问题，苹果的 GAUDI 模子拿出了三个专门的收集来轻松弄定：GAUDI 有一个相机姿态解码器，它将摄像机姿态与场景的 3D 几何及外不雅分散开来，可以猜测摄像机的可能位置，并确保输出是 3D 场景架构的有用位置。

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

图注：解码器模子架构针对于场景的场景解码器则可以猜测三维平面的暗示，这类暗示是一种 3D 画布。然后，辐射场解码器会于这块画布上利用体积衬着方程来绘制后续的图象。GAUDI 的 3D 天生包罗两个阶段：一是潜于及收集参数的优化：进修对于数千条轨迹的 3D 辐射场及响应相机姿态举行编码的潜于暗示。与针对于单个对于象差别，有用相机姿态跟着场景的变化而差别，以是需要对于每一个场景有用的相机姿态举行编码。二是利用扩散模子于潜于暗示上进修天生模子，从而可以或许于有前提及无前提的推理使命中都能很好地建模。前者是按照文本或者图象提醒来天生 3D 场景，后者则是按照摄像机轨迹来天生 3D场景。苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

经由过程 3D 室内场景，GAUDI 可以天生新的摄像机运动。如于下面一些示例中，文本描写包罗有关场景及导航线径的信息。这里研究团队采用了预先练习的基在 RoBERTa 的文本编码器，并利用此中间暗示来调治扩散模子，天生效果以下：文本提醒：走进厨房苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

文本提醒：上楼

文本提醒：穿过走廊

别的，利用预练习的ResNet-18 作为图象编码器，GAUDI 可以或许对于从随机视点不雅察给定图象的辐射场举行采样，从而从图象提醒中创立 3D 场景。图象提醒：苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

天生 3D 场景：

图象提醒：

天生 3D 场景：

研究职员于四个差别的数据集（包括室内扫描数据集 ARKitScences）长进行了试验，成果注解， GAUDI 可以重修进修视图，并且可以与现有要领的质量相匹配。纵然是于为数千个室内场景建造具备数十万张图象的 3D 场景的重大使命中，GAUDI 也不会呈现模式瓦解或者标的目的问题。GAUDI 的呈现不仅会对于很多计较机视觉使命上孕育发生影响，并且其 3D 场景的天生能力也将有益在基在模子的强化进修及计划、SLAM 以和 3D 内容的建造等研究范畴。就今朝来看，GAUDI 天生的视频质量还有不算高，可以看出有许多伪影。不外，这个体系也许可以为苹果正于举行的衬着 3D 对于象及场景的 AI 体系，这是一个好的最先及基础，听说 GAUDI 还有将被运用到苹果的 XR 耳机中，用在天生数字化位置。可以期待一下~参考链接：https://medium.com/mlearning-ai/how-to-generate-3d-scenes-from-text-descriptions-2345bfb321https://mixed-news.com/en/apples-new-gaudi-ai-turns-text-prompts-into-3d-scenes/更多内容，点击下方存眷：扫码添加 AI 科技评论微旌旗灯号，投稿进群：苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

雷峰网(公家号：雷峰网) 苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天