米兰·(milan)中国官方网站-AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出首个自动匹配排名系统
作者 | 李梅
编纂 | 陈彩娴
近来的天生式 AI 堪称十分火爆,新出的预练习图象天生模子多到让人应接不暇。不管是肖像、风光,还有是卡通漫画、特定艺术家气势派头元素等等,每一个模子都有它擅永生成的内容。
这么多模子内里,怎样快速找到一个能满意本身创作欲的最好模子呢?
近日,卡内基梅隆年夜学的助理传授朱翘楚等人初次提出了基在内容的模子搜刮算法,让你可以或许一键搜刮出最匹配的深度图象天生模子。
论文地址:https://arxiv.org/pdf/2210.03116.pdf于团队基在这套模子搜刮算开发的于线模子同享及搜刮平台 Modelverse 上,你可以输入文本、图象、草图及给定模子,来搜刮出最匹配或者相似的相干模子。
Modelverse 平台地址:https://modelverse.cs.cmu.edu/

图注:输入文本(如“非洲动物”)、图象(如一张风光图)、草图(如一只站立的猫的草图)或者者一个给定模子,输出排名靠前的相干模子(第二行、第三行)
好比,输入文本“face”,获得成果以下:

输入一只猫咪图象:

输入一匹马的草图:

及传统的多媒体搜刮同样,模子搜刮可以或许帮忙用户找到最合适其特定需求的模子。但基在内容的模子搜刮使命有其非凡难点:
判定模子是否可以天生特定图象,这是一个比力难计较的问题,并且许多深度天生模子并无提供有用要领来预计密度,其自己也不撑持评估跨模态相似性。而蒙特卡洛这类基在抽样的要领又会使模子搜刮历程变患上很是迟缓。
为此,朱翘楚团队提出了一种新的模子搜刮体系。
每一个天生模子城市孕育发生一个图象漫衍,以是作者将搜刮问题处置惩罚为优化,以最年夜化于给定模子的环境下天生与查询匹配的几率。以下图所示,该体系由预缓存阶段(a,b)及推理阶段(c)构成。

图注:模子搜刮要领概览
给定一组模子,(a)起首为每一个模子天生 50K 样本;(b) 然后将图象编码为图象特性并计较每一个模子的一阶及二阶特性统计。统计数据缓存于体系中以提高效率;(c) 于推理阶段,撑持差别模态的查询,包括图象、草图、文本描写、另外一个天生模子或者这些查询类型的组合。作者于这里引入类似值,查询被编码为特性向量,经由过程评估查询特性与每一个模子统计数据之间的相似性,来检索具备最好相似性器量的模子。
2模子搜刮效果作者对于算法举行评估,对于 133 个深度天生模子(包括 GAN、扩散模子及自回归模子)举行了溶解试验阐发。与蒙特卡洛基线比拟,该要领可以实现更高效的搜刮,速率于 0.08 毫秒内,晋升 5 倍,同时还有能连结高精度。
经由过程对于比模子检索成果,咱们也能够年夜致相识针对于差别查询输入,哪些模子能天生质量更高的图象。好比下图展示了模子检索的成果对于比。

图注:模子检索成果示例
最上面一行是图象查询,输入静物画,检索相干艺术气势派头的模子,获得排名第一的 StyleGAN2 模子及排名末了的 Vision-aided GAN 模子。中间行是草图查询,输入马及教堂的草图,获得 ADM、ProGAN 等模子。最下面一行是文本查询,输入“戴眼镜的人”及“措辞的鸟”,别离检索患上出排名第一的 GANSketch 模子及 Self-Distilled GAN 模子。
作者还有发明,差别收集特性空间的模子机能存于差异。以下图所示,于输入图象查询时,成果显示三个收集 CLIP、DINO 及 Inception 都具备相似的机能;而于输入草图查询时,CLIP 效果较着更好,而 DINO 及 Inception 则不太合适给定查询,它们于艺术气势派头的模子上体现更好。

图注:差别收集特性空间中基在图象及草图的模子检索比力
别的,这项事情所提出的模子搜刮算法还有能撑持多种运用,包括多模态用户查询、相似模子查询、真实图象重谈判编纂等。
例如多模态查询可以帮忙细化模子搜刮,于只有“Nicolas Cage”的图象时,只能检索到人脸模子;但当同时利用“Nicolas Cage”及“dog”作为输入时,就能够检索到能天生“Nicolas Cage dog”图象的 StyleGAN-NADA 模子。(以下图)

图注:多模态用户查询
当输入是一小我私家脸模子时,可以检索到更多的人脸天生模子,而且种别连结相似。(以下图)

图注:相似模子查询
给定真实人脸的查询图象,利用排名较高的模子能得到更正确的图象重修。下图是利用差别排名模子的 CelebA-HQ 及 LSUN Church 图象的图象逆映照示例。

图注:将真实图象投射到检索到的 StyleGAN2 模子。
于对于真实图象举行编纂的使命中,差别模子的体现也有凹凸之分。下图中,利用基在图象的模子检索算法排名第一的模子来对于真实图象举行逆映照,然后利用 GANspace 举行编纂,从而将浮世画图像中的皱眉人脸酿成笑容。

图注:编纂真实图象
这项研究已经经证实了模子搜刮的可行性,而文本、音频或者其他内容天生的模子搜刮还有有很年夜的研究空间。
但今朝来看,这项事情所提出的要领还有有必然的局限性。例如,于查询特定的草图时,有时会匹配出抽象外形的模子;而有时举行多模态查询时,只能检索到单一的模子,体系可能会很难处置惩罚像一只狗的图象 + “年夜象”如许的多模态查询。(以下图)

图注:掉败案例
别的,于其模子搜刮平台上,对于检索出的模子列表并未按照其效果举行主动排序,如于天生图象的分辩率、传神度、匹配度等方面临差别模子举行评估并给出排名,如许可更便在用户检索,也能帮忙用户更好地相识今朝天生模子的好坏环境,期待这方面的后续事情。
参考链接:
https://twitter.com/junyanz89/status/1578429385719177223
https://www.youtube.com/watch?v=s妹妹0t81st_w
更多内容,点击下方存眷:扫码添加 AI 科技评论 微旌旗灯号,投稿 进群:
雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





