米兰·(milan)中国官方网站-苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!
作者:米兰·(milan)文化
更新时间:2026-03-22 14:10:18
点击数:

作者 | 李梅
编纂 | 陈彩娴
如今,每一隔一段时间就有新的文本天生图象模子释出,个个效果都很强盛,每一每一冷艳世人,这个范畴已经经是卷上天了。不外,像 OpenAI 的 DALL-E 2 或者google 的 Imagen 等 AI 体系,都只能天生二维图象,假如文字也能酿成三维场景,那带来视觉体验必将加倍晋升。此刻,来自苹果的 AI 团队推出了 3D 场景天生的最新神经架构—— GAUDI 。
它可以捕获繁杂及传神的 3D 场景漫衍,从挪动摄像机中举行沉浸式衬着,还有能按照文本提醒来创立 3D 场景!该模子以 Antoni Gaudi 定名,他是西班牙闻名的修建巨匠 。
论文地址:https://arxiv.org/pdf/2207.13751.pdf
1基在 NeRFs 的 3D 衬着神经衬着(nerual rendering)将计较机图形学与人工智能联合起来,已经经孕育发生了许多从 2D 图象天生 3D 模子的体系。好比近来 Nvidia 开发的 3D MoMa 可以于一个小时内从不到 100 张的照片中创立出 3D 模子。google也依赖神经辐射场(NeRFs )于google舆图中将 2D 卫星及街景图象组合成 3D 场景,实现了沉浸式视图。google的 HumanNeRF 还有可以从视频中衬着出 3D 人体。今朝,NeRFs 重要还有是用作 3D 模子及 3D 场景的一种神经存储介质,可以从差别的相机视角举行衬着。NeRFs 也已经经最先被用在虚拟实际体验。那末,NeRFs 这类从差别摄像机角度传神地衬着图象的强盛能力,能不克不及用在天生式 AI 呢?固然可以,已经经有研究团队测验考试了 3D 场景的天生,如google于去年初次推出了 AI 体系 Dream Fields,它将 NeRF 天生 3D 视图的能力与 OpenAI 的 CLIP 评估图象内容的能力相联合,终极实现了可以或许天生匹配文本描写的 NeRF。

经由过程 3D 室内场景,GAUDI 可以天生新的摄像机运动。如于下面一些示例中,文本描写包罗有关场景及导航线径的信息。这里研究团队采用了预先练习的基在 RoBERTa 的文本编码器,并利用此中间暗示来调治扩散模子,天生效果以下:文本提醒:走进厨房
文本提醒:上楼
文本提醒:穿过走廊
别的,利用预练习的ResNet-18 作为图象编码器,GAUDI 可以或许对于从随机视点不雅察给定图象的辐射场举行采样,从而从图象提醒中创立 3D 场景。图象提醒:
天生 3D 场景:
图象提醒:
天生 3D 场景:
研究职员于四个差别的数据集(包括室内扫描数据集 ARKitScences)长进行了试验,成果注解, GAUDI 可以重修进修视图,并且可以与现有要领的质量相匹配。纵然是于为数千个室内场景建造具备数十万张图象的 3D 场景的重大使命中,GAUDI 也不会呈现模式瓦解或者标的目的问题。GAUDI 的呈现不仅会对于很多计较机视觉使命上孕育发生影响,并且其 3D 场景的天生能力也将有益在基在模子的强化进修及计划、SLAM 以和 3D 内容的建造等研究范畴。就今朝来看,GAUDI 天生的视频质量还有不算高,可以看出有许多伪影。不外,这个体系也许可以为苹果正于举行的衬着 3D 对于象及场景的 AI 体系,这是一个好的最先及基础,听说 GAUDI 还有将被运用到苹果的 XR 耳机中,用在天生数字化位置。可以期待一下~参考链接:https://medium.com/mlearning-ai/how-to-generate-3d-scenes-from-text-descriptions-2345bfb321https://mixed-news.com/en/apples-new-gaudi-ai-turns-text-prompts-into-3d-scenes/更多内容,点击下方存眷:扫码添加 AI 科技评论 微旌旗灯号,投稿 进群:
雷峰网(公家号:雷峰网)雷峰网版权文章,未经授权禁止转载。详情见转载须知。





