米兰·(milan)中国官方网站-AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

作者：米兰·(milan)文化更新时间：2026-03-17 20:41:18 点击数：

作者 | 李梅

编纂 | 陈彩娴

近来的天生式 AI 堪称十分火爆，新出的预练习图象天生模子多到让人应接不暇。不管是肖像、风光，还有是卡通漫画、特定艺术家气势派头元素等等，每一个模子都有它擅永生成的内容。

这么多模子内里，怎样快速找到一个能满意本身创作欲的最好模子呢？

近日，卡内基梅隆年夜学的助理传授朱翘楚等人初次提出了基在内容的模子搜刮算法，让你可以或许一键搜刮出最匹配的深度图象天生模子。

论文地址：https://arxiv.org/pdf/2210.03116.pdf

于团队基在这套模子搜刮算开发的于线模子同享及搜刮平台 Modelverse 上，你可以输入文本、图象、草图及给定模子，来搜刮出最匹配或者相似的相干模子。

Modelverse 平台地址：https://modelverse.cs.cmu.edu/

图注：输入文本（如“非洲动物”）、图象（如一张风光图）、草图（如一只站立的猫的草图）或者者一个给定模子，输出排名靠前的相干模子（第二行、第三行）

好比，输入文本“face”，获得成果以下：

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

输入一只猫咪图象：

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

输入一匹马的草图：

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

1基在内容的模子搜刮

及传统的多媒体搜刮同样，模子搜刮可以或许帮忙用户找到最合适其特定需求的模子。但基在内容的模子搜刮使命有其非凡难点：

判定模子是否可以天生特定图象，这是一个比力难计较的问题，并且许多深度天生模子并无提供有用要领来预计密度，其自己也不撑持评估跨模态相似性。而蒙特卡洛这类基在抽样的要领又会使模子搜刮历程变患上很是迟缓。

为此，朱翘楚团队提出了一种新的模子搜刮体系。

每一个天生模子城市孕育发生一个图象漫衍，以是作者将搜刮问题处置惩罚为优化，以最年夜化于给定模子的环境下天生与查询匹配的几率。以下图所示，该体系由预缓存阶段（a，b）及推理阶段（c）构成。

图注：模子搜刮要领概览

给定一组模子，（a）起首为每一个模子天生 50K 样本；(b) 然后将图象编码为图象特性并计较每一个模子的一阶及二阶特性统计。统计数据缓存于体系中以提高效率；(c) 于推理阶段，撑持差别模态的查询，包括图象、草图、文本描写、另外一个天生模子或者这些查询类型的组合。作者于这里引入类似值，查询被编码为特性向量，经由过程评估查询特性与每一个模子统计数据之间的相似性，来检索具备最好相似性器量的模子。

2模子搜刮效果

作者对于算法举行评估，对于 133 个深度天生模子（包括 GAN、扩散模子及自回归模子）举行了溶解试验阐发。与蒙特卡洛基线比拟，该要领可以实现更高效的搜刮，速率于 0.08 毫秒内，晋升 5 倍，同时还有能连结高精度。

经由过程对于比模子检索成果，咱们也能够年夜致相识针对于差别查询输入，哪些模子能天生质量更高的图象。好比下图展示了模子检索的成果对于比。

图注：模子检索成果示例

最上面一行是图象查询，输入静物画，检索相干艺术气势派头的模子，获得排名第一的 StyleGAN2 模子及排名末了的 Vision-aided GAN 模子。中间行是草图查询，输入马及教堂的草图，获得 ADM、ProGAN 等模子。最下面一行是文本查询，输入“戴眼镜的人”及“措辞的鸟”，别离检索患上出排名第一的 GANSketch 模子及 Self-Distilled GAN 模子。

作者还有发明，差别收集特性空间的模子机能存于差异。以下图所示，于输入图象查询时，成果显示三个收集 CLIP、DINO 及 Inception 都具备相似的机能；而于输入草图查询时，CLIP 效果较着更好，而 DINO 及 Inception 则不太合适给定查询，它们于艺术气势派头的模子上体现更好。