米兰·(milan)中国官方网站-万字深度好文！视觉

作者：米兰·(milan)文化更新时间：2026-04-05 10:05:58 点击数：

万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型

编译丨Jocelyn

编纂丨陈彩娴

本文对于视觉-语言（VL）智能定时间挨次举行了周全调研，并将这一范畴的成长总结为三个阶段：

第一个阶段是2014-2018年，此间，专门的模子被设计用在差别的使命。第二个时代是2019-2021年，于此时期，经由过程利用有着高质量标签的VL数据集举行预练习，神经收集模子可以或许进修视觉及语言的结合表征。末了，跟着2021年CLIP的呈现，第三个时代最先了，此时研究职员追求于更年夜的弱标签数据集上预练习VL模子，并经由过程VL预练习得到机能强盛的基在零样本或者少样本的视觉模子。

咱们信赖这篇综述将有助在人工智能（AI）及呆板进修（ML）的研究职员及实践者，尤其是那些对于计较机视觉及天然语言处置惩罚感兴致的人。

论文地址：https://arxiv.org/pdf/2203.01922.pdf

1研究配景

计较机视觉(CV)及天然语言处置惩罚(NLP)是人工智能的两年夜分支，它们专注在于视觉及语言上模仿人类智能。于已往的十年中，深度进修极年夜地推进了单模态进修于这两个范畴的成长，并于一系列使命上取患了进步前辈的结果。深度进修显著前进的焦点于在GPU的快速成长及年夜范围数据集的可用呈现，这些加快了深度进修模子的年夜范围练习。

跟着深度进修的成长，咱们也看到了一系列功效强盛的神经收集的成长。传统的神经收集凡是是由多层线性层及非线性激活构成的多层感知器(MLP)。LeCun等人在1998提出了卷积神经收集(CNN)，将平移稳定性作为对于2D视觉输入的更好的归纳误差，这开导了年夜量的深度神经收集，包括AlexNet，VGGNet， GoogleNet及ResNet。

另外一个重要的冲破是天然语言处置惩罚(NLP)范畴的轮回神经收集(RNN)，它提出了轮回神经元用在序列数据建模。为了减缓长序列练习中的梯度消散及梯度爆炸问题，LSTM（RNN的一种变体）及GRU（LSTM的一种更高效的版本）被提出。NLP的另外一个庞大冲破是Transformer，它使用留意力机制寻求更好的语言表征。利用多个重叠的留意力层，Transformer可以以高并行性于全局规模内交融语言符号的信息，这有益在有用的表征及年夜范围的练习。

虽然咱们于单模态范畴技能取患了鼓动人心的进展，但实际世界的问题往往是触及多模态的。例如，主动驾驶汽车应该做到可以或许处置惩罚人类的号令(语言)、交通讯号(视觉)、门路状态(视觉及声音)。即便单模态进修也能从多模态进修中受益。例如，语言进修需要感知，而感知是很多语义正义的基础。

感知是人类理解物资世界的方式，决议了人类语言暗地里的意义。因为咱们听到及看到的是一样的工作，一些常识便被留下来作为知识，这些知识于咱们的语言中是没有记载的。即便仅仅于语言范畴，演讲也比纯文本包罗更多有效的信息，例如，韵律可以表示感情。

多模态感知于多模态及单模态使命中都有帮忙，是以降生了年夜量的相干研究事情。于多模态范畴中，因为视觉是人类用在理解情况最主要的感官之一，而且语言-视觉特性联合可以或许极年夜地改善视觉及视觉-语言使命的体现，于视觉-语言集成的相干研究得到到很多的存眷。此外，视觉语言智能的普和还有患上益在该范畴富厚的数据集及评估尺度。

解决特定使命VL问题的大志鞭策了VL进修的开端成长。这些VL问题包括图象字幕、视觉问答(VQA)、图象-文本匹配等。Xu一些人在2015年的事情集成为了一个CNN图象编码器及一个RNN文本解码器用在图象申明。Antol等人在2016年经由过程将图象及文本映照到不异的潜于空间并从潜于表征中猜测谜底来解决VQA使命。Lee等人在2018年经由过程计较图象及文本于句子级别或者标志级别上的相似度来举行图象-文本匹配。这些模子是为各类数据集的特定问题量身定制的，此中每一个模子只能解决一个使命。

受语言及视觉的预练习及微调的风行开导，视觉及语言的跨学科范畴迎来了一个新时代: 经由过程图象-文本对于的预练习来进修视觉及语言的结合表征。VLP模子的鼓起重要是遭到了架构设计及练习要领中语言模子的开导。例如，近来的很多研究采用了与BERT相似的架谈判练习要领。因为缺少充足年夜范围的人工标注数据，VL进修的成长面对着严重的挑战。近来，一些研究经由过程采用对于比进修及使用年夜范围收集爬虫爬取数据进修视觉语言特性而打破了这一限定，它们所得到的特性可用在零样本进修。

跟着VL范畴的快速成长，今朝亟需一个对于该范畴现有研究的周全调研。本文旨于提供一个布局化的、关在VL范畴的最新进展的综述，以帮忙研究职员得到一个总体的VL范畴的环境，并更好地舆解最新的研究结果。

咱们将VL进修的成长分为三个阶段。第一个是从2014-2018年，此间，专门的模子被设计用在差别的使命。第二个时代是2019-2021年，于此时期，经由过程利用有着高质量标签的VL数据集举行预练习，神经收集模子可以或许进修视觉及语言的结合表征。末了，跟着2021年CLIP的呈现，第三个时代最先了，此时研究职员追求于更年夜的弱标签数据集上预练习VL模子，并经由过程VL预练习得到机能强盛的基在零样本或者少样本的视觉模子。

回首VL智能的整个成长历程，咱们发明其整体方针是进修优良的视觉特性。一个好的视觉特性应该具备三个属性，即对于象级别、语言对于齐及语义富厚。对于象级别象征着视觉及语言特性的细粒度应该别离与对于象级别及单词级别中的连结一致。语言对于齐夸大的是与语言对于齐的视觉特性可以帮忙完成视觉使命。语义富厚是指不受范畴限定地从年夜范围数据中进修特性。

于VL的第一个时代，相干科学研究事情的目的是解决详细的问题，而不是进修上述优良的特性。于第二个时代，研究职员基在图象-文本对于来练习模子，以得到语言对于齐的视觉特性。这个时代的一些研究结果采用检测到的区域作为图象特性，从而进修对于象级另外特性。只有于第三个时代，研究职员才能处置惩罚年夜范围的数据集并利用蕴含富厚语义信息的特性来预练习。

2特定使命问题

初期的 VL 要领是针对于特定使命设计的。VL范畴包罗广泛使命，包括图象申明，视觉问答，图文匹配，视觉对于话等。

本节中，咱们具体先容三个最多见的使命：图象申明、视觉问答及图文匹配。咱们总结了特定使命要领的成长是从全局表征到细粒度的以对于象为中央的表征。

年夜大都VL使命有三个阶段，包括全局向量表征及简朴交融；网格特性表征及跨模态留意力机制及以对于象为中央的特性表征及自底向上自顶向下的attention。这三个阶段的代表事情如图1所示。

图1所示，这三个阶段的使命详细要领。重要区分于在视觉representation的粒度及视觉与语言特性交融的方式。

A 图象申明

使命界说: 图象申明的方针是为给定的图象天生“标题”，即用一句话总结图象内容。标题凡是包罗感兴致的对于象、对于象的举动以和对于象之间的位置瓜葛。

要领: 深度进修呈现以前，初期图象申明要领重要基在法则。它们起首辨认对于象和其瓜葛，然后按照预界说的法则天生标题。这类初期的要领因为视觉辨认器辞汇量有限以和基在法则的要领于处置惩罚人类语言中繁杂场景的局限性的缘故原由而效果有限。

深度进修技能的冲破极年夜地加强了图象申明功效。Seq2Seq于呆板翻译方面取患了巨年夜的乐成，它使用文本编码器对于源语言的文本举行编码，使用文本解码器从方针语言天生文本。

于Seq2Seq的编码器-解码器布局的基础上，Xu等人提出用GoogleNet的图象编码器替换文本编码器，并取患了其时最前沿的机能。在是这类编码-解码的布局最先风行起来，并被后续的事情广泛采用。这个布局称为img2seq，如图2所示。

初期研究采用CNN模子作为图象编码器举行提取一种全局的CNN特征，将其作为初始隐蔽状况输入文本解码器。m-RNN及LRCN提出将全局CNN特性添加到LSTM解码器的每一一步。

图2所示，img2seq布局包罗图象编码器(如CNN)及语言解码器(如LSTM)。

全局CNN特性有一个较着的弱点，由于解码器不克不及像人类那样聚焦在图象的主要区域。为解决这个问题，引入了留意机制。

Xu等人在2015年提出了一种将留意力机制引入特性的要领。假定CNN特性提取器的输出特性图外形为(H, W, C)，此中H, W为特性图的高度及宽度，C为特性维数。feature map可以沿空间维度扁平化为H × W的C个纬度的网格特性。对于在LSTM解码器的每一个cell，隐蔽状况都要存眷网格特性，以决议存眷哪一个网格。

与卷积比拟，留意机制具备如下长处。它经由过程对于主要的网格特性赐与更高的attention权重，使模子可以或许聚焦在图象的某些部门。此外，该模子可以或许进修与人类直觉高度相似的对于齐方式。模子的可注释性也能够经由过程可视化的attention分数获得改善，如许可能有助在解除收集过错。

然而，将一幅图象支解成巨细不异的网格只是一种履行attention的朴素要领，由于网格与对于象的对于应瓜葛很差。为相识决这个问题，一些研究职员试图将留意力与更成心义的区域接洽起来。

Anderson等人(2018)提出了一种自底向上及自顶向下的留意力要领(BUTD)，将留意力与检测模子得到的显著区域举行对于应。BUTD利用于视觉基因组上预练习的Faster-RCNN模子提取区域特性。因为检测到的对于象区域凡是包罗成心义的视觉观点，且可以或许与人类语言更好地匹配，是以BUTD显著提高了图象申明及VQA的机能。是以，预练习的检测器于后续的VL研究中被广泛采用。

留意力机制应用的方式也有一些差别。例如，Lu等认为由于有些单词与视觉特性无关，解码器不需要一直连结存眷视觉特性。是以，他们提议用一个门来决议留意力机制是否介入此中。AoA设计了一个非凡的“留意力叠加机制”的图象申明使命。于尺度留意力机制以后，它们将被存眷的向量及query毗连起来。然后由串联向量天生信息向量及留意门，将信息向量与信息向量相乘获得输出。

除了上述事情，也有不应用留意力机制的事情。例如，Neural Baby Talk起首天生一个句子模板，然后用图象中检测到的观点填充它。Cornia等人经由过程猜测名词块的序列来天生一个句子。它们起首检测区域，然后利用排序收集对于区域举行排序。末了，每一个区域将被转换成一个名词块来构成句子。

综上所述，初期图象申明要领的成长重要有两个方面，即视觉表征及语言解码。视觉表征从图象级的全局特性成长到细粒度及对于象级的区域特性，语言解码从LSTM成长到基在留意力机制的模子。

B. 视觉问答

使命界说: 给定一个图象-问题对于，视觉问答要求按照图象回覆一个问题。年夜大都研究都将视觉问答视为一个基在预界说谜底集的分类问题。例如，VQA v2 有约莫2K个预界说谜底。

要领: 遍及的视觉问答是LSTM问题编码器及VGG图象编码器的组合。输出图象潜入及问题嵌入，它们经由过程逐点相乘来简朴地举行交融。然后，交融向量颠末一个线性层及一个Softmax层，输出选择每一个候选谜底的几率。模子的系统布局如图3所示。视觉问答中的后续研究凡是采用不异的要领原型。

图3所示。vanilla VQA的系统布局包罗一个CNN模子来编码输入图象及一个LSTM模子来编码输入问题。将编码后的图象及问题特性举行点积归并，然后经由过程全连通层来猜测候选谜底的几率。

初期研究凡是采用全局图象表征及简朴交融的方式。Malinowski等在2015提出将CNN图象特性输入到问题编码器的每一个LSTM 单位中。同年，Gao等利用了一个同享的LSTM来编码问题及解码谜底。他们将CNN图象特性与每一个解码器单位的输出交融，逐字天生谜底。

问题回覆凡是只与图象的某些区域有关。是以，因为不相干区域带来的噪声，全局表征只会致使次优解。Yang 等人在2016年提出了重叠留意收集(stacking Attention Network, SAN)将多个问题指导的留意层重叠起来。于每一一层中，问题的语义暗示被用尴尬刁难图象网格的查询。SAN是是一个验证视觉问答中留意力有用性的事情。Fukui等人一样采用了网格特性，他们经由过程双线性池化交融图象及语言特性。

正如咱们于图象申明使命中所说，网格特性具备它的局限性。针对于这个问题，Shih等人提出利用边沿框定位出的区域特性作为视觉表征。BUTD预练习了一个强盛的检测器，并利用问题特性作为queries来存眷区域特性。Lu等人认为对于文字的存眷与对于图象的存眷划一主要。是以，他们开发了一种结合履行文本指导的图象留意力及图象指导的文本留意力的共留意力方式。

除了留意力之外，还有有其他的模态交融计谋。Ren等人将图象特性视为语言标志。它们将图象嵌入与语言标志毗连起来作为LSTM的输入。Kim等人提出了一种用在模态交融的元素乘法迭代要领，名为多模态残差收集。MUTAN提出了模式间参数化的双线性彼此作用。虽然交融图象及语言特性的要领有许多，但留意力机制依旧是最经常使用的一种。

图象问答的焦点是获取图象及语言(问题)的结合表征。该范畴的研究职员经由过程多种方式来更好地编码及交融图象与语言，为后续的视觉进修表征VLP要领奠基了基础。该范畴年夜大都事情都是将图象及语言自力编码，然落伍行交融，这种似在视觉进修表征VLP中的双流要领。Ren等人将图象嵌入视为一种语言标志，近似在单流要领。

C.图文匹配

使命界说: 图象-文本匹配 (ITM)，或者说图文检索，是视觉范畴的基本课题之一。给定一个特定模态 (视觉或者语言) 的query ，它的方针是从另外一个模态中找到语义上最靠近的方针。按照query及方针模式，它包罗两个子使命: 图象-文本检索及文本-图象检索。

要领: 图象-文本匹配的焦点是计较图象与文本之间的相似度或者间隔。一个被广泛采用的模子是将图象及文本映照到同享的嵌入空间，然后计较它们的相似性。所匹配出的图象成果预期与句子的相似度最高。

初期要领重要采用全局特性对于图文信息举行编码。Kiros等提出了一种基在搭钮的三联体排序丧失的交织视图暗示要领。Faghri等人思量硬负样本因夙来提高机能。Karpathy等人提出“深度片断” (Deep Fragment)，这是初次测验考试于图象端及文本端都利用细粒度暗示的要领。

“Deep Fragment”的系统布局如图4所示。与直接暗示整个图象及句子差别，该要领将每一个图象片断及句子片断映照到跨模态嵌入空间中。然后在差别模式之间摆列片断。因为一个图象区域可能与多个单词相干，他们会为每一个单词的嵌入找到最相似的区域。图象与句子的相似度是对于齐后的词对于与区域对于的相似度之及。

图4所示。Deep fragment布局概述。左:将检测到的对于象映照到片断嵌入空间。右:依靠树瓜葛被编码为片断嵌入空间。

因为留意力机制于其他视觉进修使命中取患了巨年夜乐成，Huang等2016年提出将留意力机制引入到图文匹配(ITM)中。他们开发了一种上下文调治的留意力方案，以存眷呈现于图象及文本中的实例对于。Nam等2017年提出了一种双留意力框架，该框架经由过程多个步调来存眷图象及文本中的特定区域，并从这两种模态中网络主要信息。

这些要领证实了留意力机制于ITM使命中的有用性。可是它们也存于局限性，好比它们是基在多步调的要领，而且一次只能存眷一个语义部门。Lee等人在2018提出了一种名为SCAN的交织留意力算法，用在计较图象及句子之间的相似性。为实现交织留意力机制，它们将图象暗示为一组区域，将句子暗示为一组单词。交织留意的焦点思惟是，既要用句子作为query来存眷图象区域，也要用图象作为query来存眷单词。

简朴来讲，图文匹配素质上是计较图象及文本之间的相似度的问题。初期研究将图象及文本编码玉成局特性，并经由过程点积计较它们的余弦相似度。于随后的事情中，采用了细粒度特性-方针级特性来代表图象，单词级特性来代表语言。他们还有开发了更繁杂的算法来计较相似性，好比交织留意力的要领。

D.其他使命

于视觉-语言跨学科范畴中，有很多咱们没法具体论述的使命。是以，咱们下面简朴中列出了一些主要的使命，包括:

文本-图象天生: 给定一段文本，天生包罗该文本内容的图象。关在这部门更多细节请查看文章的IV-B部门。

视觉对于话: 给定一个图象，一段对于话汗青，及一个关在图象的问题，回覆这个问题。

视觉推理: 与要求回覆有关输入图象问题的VQA使命近似，视觉推理要求进一步理解图象的能力。视觉推理使命凡是包罗充足的关在图象中的对于象、问题布局等的解释。

视觉蕴涵: 给定一幅图象及一篇文本，判定该图象于语义上是否包罗输入文本。

短语基础及参考表达式理解: 这两个使命需要一个模子来输出与文本对于应的界限框。对于短语基础而言，文本是一组短语; 对于在援用表达理解而言，文本是一种表达。

于特定使命要领的时代，研究职员为差别的使命设计了特定的模子。只管差别使命的模子差异很年夜，但它们遵照着相似的轨迹。它们都有三个阶段，如图1所示。这个时代的技能成长为VLP时代奠基了基础。

3视觉语言结合表征

预练习及微调范式已经被广泛运用在多个范畴及各类下流使命。使用风行的年夜范围预练习最主要的缘故原由于在年夜量可用的数据集以和GPU的快速成长。于单模态的语言/视觉预练习乐成的鞭策下，研究职员最先摸索语言及视觉的结合表征，是以提出了跨模态VLP模子。

最近几年来VLP模子的鼓起重要是遭到了语言模子中架构设计及练习要领的开导。此中最主要的冲破之一是由Vaswani等人在2017开发的用在改善语言表征的Transformer。利用多个重叠的留意层，Transformer可以以高并行性于全局规模内交融语言标志上的信息，这有益在高效的表征及年夜范围的练习。

Transformer的一个乐成运用是BERT，它使用Transformer编码器并引入了双向屏蔽技能，答应每一个语言标志双向存眷其他标志。如图5所示，练习是经由过程用一个非凡的[MASK]标志（即掩模）替代一些文本标志来举行的，并利用其上下文信息来猜测每一个[MASK]。

该技能可以将语言表征练习看做是一个去噪历程，于去噪历程中，输入的句子可以或许进修去用一些有噪声的标志举行自我重构。这类去噪练习迫使存于[MASK]的标志使用所有不存于[MASK]的信息，从而孕育发生语境化的表达。

基在Transformer语言模子开发的系统布局设计及掩模练习技能是各类跨模态开发暗地里的重要原则，这些开发促成了近来VLP模子的激增。图5(b)显示了一个简朴的跨模态BERT。与语言练习近似，它对于图象举行标志化，并利用必然的技能将图象与语言标志一路嵌入，这些于后面将具体先容。凡是，会将标志化的视觉特性及文本特性一路输入带有掩模语言练习的Transformer编码器，以进修结合表征。

图5 (a)原始的单模态BERT，此中隐蔽了一些语言符号举行猜测，以练习语言暗示。(b)具备多模态的改良BERT，此中图象及语言标志都被输入到一个近似BERT的Transformer模子中。

于本节中，咱们将先容VLP模子的重要构成部门。如图6所示，VLP模子中重要有三年夜部门，即视觉嵌入(VE)、文本嵌入(TE)及模态交融(MF)模块。VE及TE凡是别离用图象及文本举行预练习，而MF则将VE及TE提取的特性，与图象-文本的预练习举行交融。

VLP的方针是进修对于象级别语言对于齐，语义富厚的视觉表征。对于象级别象征着进修后的表征是具体的，并与对于象对于齐，而不是针对于整个图象。利用被检测到物体的特性来表征图象的研究结果是对于象级的。语义富厚力图一种可以或许泛化到广泛语义观点的表征，而且需要从年夜范围数据集中进修。

于海量数据集长进行预练习对于在利用较小数据集的下流使命的机能晋升至关主要，由于进修后的表征可以于下流使命中通报。VLP模子已经被证实长短常有用的撑持下流使命的要领。

图6 VLP模子的系统布局凡是包括视觉嵌入(VE)、文本嵌入(TE)及模态交融(MF)。(a)为双流模子，(b)为单流模子。于双流模子中，模态交融是可选的，由语言及图象编码器之间的交互(凡是是交织留意)完成。于单流模子中，模态交融是于一个同一的编码器(凡是是多层变压器)中完成的。

A 为什么需要预练习

深度进修素质上是一种统计数据驱动的要领，旨于从已经见数据中进修映照函数，以便利用进修到的映照函数对于新的数据举行猜测。请留意，终极方针是于新的数据上实现优良的机能。于统计学方面，如许的方针被暗示为最小化整个数据空间的预期丧失，该丧失遵照固定但未知的漫衍。可是，因为漫衍是未知的，这类预期的丧失最小化其实不轻易处置惩罚。

于实践中，必需从该漫衍中采样数据，并将经验丧失界说为预期丧失的取代。这听起来可能很希奇，但现实上是呆板进修中经常使用的做法。例如，对于在判定输入图象是否有猫的图象分类问题，最实用的要领是网络有猫及无猫的练习图象，然后经由过程最小化于该练习集上界说的经验丧失来练习分类器。然而，有猫及无猫图象的漫衍确凿是未知的。

统计进修理论注解，对于在从充足多未知漫衍中采样的自力同漫衍（iid）数据，经验丧失最小化成果收敛在预期丧失最小化成果。也就是说，渐近地，可使用iid样原来迫近由未知漫衍界说的丧失函数。然而，于实践中，数据永远不足以代表未知的漫衍，是以会致使很多缺陷，例如利用新练习集时机能低下、轻易遭到匹敌性进犯等。

预练习答应人们使用无穷量无标签（或者带有弱标签）的数据来进修切合下流使命的特性。云云年夜范围的数据集有助在更好的界说预期丧失类似值，以便从数据中进修更稳健及真正的纪律。因为预练习及微调阶段之间的同享模子，于很是有限（例如，few‑shot）的监视下，微调后进修到的特性被用在下流使命时可以或许有很高的精度。这使患上预练习及微调范式成为解决（或者减轻）数据欠缺问题的有用方案。

B.模态嵌入

文本及图象素质上是关在维度及布局的差别级另外信息。为解决这类模态差异，凡是利用模态嵌入，即从每一个模态中自力提取特性，然后将特性映照到同享特性空间中。如图6所示，模态嵌入触及视觉嵌入及文本嵌入，二者都包罗标志化历程及嵌入历程。视觉嵌入旨于遵照文本嵌入的道理，将图象转换为多个标志，其特性级别为文本标志。Bugliarello 等举行的溶解研究证实数据集及超参数的练习是很多差别VLP模子机能改良的重要缘故原由，而且还有夸大了模态嵌入的主要性。

1）文本标志化及嵌入

于文本嵌入以前，文本应该被标志化。思量到语言的离散化性子，初期的事情只是将每一个单词视为一个标志。一项创始性的研究是Word2Vec，它提出了一个持续的CBOW及一个skip‑gram模子来练习词向量表征。Word2Vec具备优良的计较效率，可以扩大到年夜型语料库并孕育发生高质量的嵌入。

然而，只管它的辞汇量高达一百万摆布，但这类要领因为罕见或者未见过的单词而存于辞汇量不足的问题，是以难以进修诸如“est”之类的单词子单位。为解决这个问题，Sennrich等人提出了一种子单词标志化的要领，该要领利用字节编码(BPE)，将单词支解成更小的单位。子单词标志化被广泛用在包括BERT于内的很多语言模子中。

年夜大都VLP模子采用来自预练习BERT的文本嵌入。因为BERT是利用Transformer编码器举行掩码进修练习的，是以它具备很强的双向表征能力。

2）视觉标志化及嵌入

与离散并摆列于单个维度中的语言标志差别，图象来自高维空间并具备彼此联系关系的像素值。是以，图象标志化凡是比文本标志化更为繁杂。基本上，图象标志化可以分为基在区域的、基在网格的及基在块的，下面临它们别离先容。

网格特性被卷积特性提取器直接从巨细相等的图象网格中提掏出来。例如，Huang等人在2021采用网格特性作为其VLP模子的图象嵌入。网格特性的上风重要有两点：第一，利便，由于它不需要预练习的方针检测器。第二个是除了了显著方针以外，网格特性还有包罗可能对于下流使命有效的配景。

区域特性由预练习的方针检测器提取。近来的VLP模子采用区域特性来进修对于象级联表征。尤其是，基在BUTD的事情结果，年夜大都VLP模子采用于Visual Genome(VG)数据集上练习的Faster R‑CNN作为区域特性嵌入。区域特性有三个基本构成部门，别离是界限框、对于象标签及RoI特性（RoI池化后的特性向量）。界限框凡是于VLP顶用作位置唆使符，经由过程变换编码到与RoI特性不异的维度空间并添加到RoI特性中。对于象标签于练习要领中被广泛利用，例如Masked Region Classification，这些稍后将于III‑D3中具体论述。区域特性的上风于在它们帮忙VLP模子专注在图象中成心义的区域。这些区域凡是与下流使命紧密亲密相干。

块特性凡是经由过程于匀称支解的图象块上的线性投影来提取。块特性及网格特性之间的重要区分于在，网格特性是从卷积模子的特性图中提取的，而块特性直接使用线性投影。块特性的观点起首由Vision Transformer (ViT) 引入，然后被VLP模子采用。利用块特性的长处是高效。例如，ViLT将预练习速率提高了10倍，是颇有竞争力的成果。

图象嵌入要领凡是因差别的标志化方案而异。网格特性及区域特性凡是来自预练习的卷积模子，而块特性可以简朴地经由过程线性层嵌入。

C.模态交融

VLP模子的焦点是模态交融，它对于模态内及模态间交融举行建模，以孕育发生图象及文本的上下文结合表征。MF模式可以分为双流建模及单流建模。VLP的一般布局如图6所示。

1）双流建模：双流建模旨于将视觉及语言映照到不异的语义空间中。它是模态交融的创始性要领。如图6(a)所示，它采用两个自力的编码器别离进修视觉及语言的高级表征。双流设计答应收集深度及架构顺应每一种模式。除了了每一种模态内的模态交融外，一些研究还有明确设计了两个编码器之间的模态间交互，以实现差别编码阶段的模态交融。

2）单流建模：单流建模旨于进修一种结合表征。图象及文本标志被毗连起来并输入到Transformer中，如图6(b)所示。年夜大都VLP模子都采用这类模态交融方案。单流建模履行隐式的模内及模间交融，不受双流建模中交融阶段的架构设计的限定。

D .练习

为进修视觉及语言的结合表征，视觉语言凡是会于年夜数据集上利用多个自监视进修丧失函数对于模子举行预练习。今朝重要有三种预练习要领，别离是图象文本匹配(Image Text Matching, ITM)、掩膜语言建模(mask Language Modeling, MLM)及掩膜视觉建模(mask Visual Modeling, MVM)。

1)图文匹配:

ITM的方针是猜测一对于图象及文本是否匹配。ITM可以表述为一个二元分类使命。以前的事情于非凡令牌[CLS]的输出上运用sigmoid函数来猜测输入的图象及文本是否匹配。丧失函数为：

万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型

此中暗示一个语言符号序列，暗示视觉内容。或者以暗示图象是被匹配或者未被匹配。

2) 掩膜语言建模:

Chen 等人在2020年使用MLM 激励模子进修语言符号与视觉内容之间的隐含瓜葛。方针是按照已经知的语言标志及可视内容重构掩膜语言标志。这个方针可以表述为：

万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型

此中暗示没有第个单词的句子。请留意，只管凡是采用BPE举行语言分词，但最小的掩码单位是一个完备的单词，而不是一个子单词。这是由于因为信息泄露，可以很轻易地从周围的子词中猜测出子词。

也有改良版本的MLM。例如，Sun等人在2019年提出了常识掩膜语言模子，该模子履行短语级掩膜及实体级掩膜，将短语及实体级常识集成到语言表征中。对于在实体级掩膜，它们将定名的实体视为一个总体。例如，J.K.罗琳(J. K. Rowling) 包罗三个符号，是一小我私家名，应该于实体级掩膜中一路被掩膜。短语级别掩膜将一组词作为一个观点单元。它们掩膜了属在一个短语的所有标志，并同时猜测它们。

3) 掩膜视觉建模:

受MLM的开导，MVM被设计用来经由过程重构被掩膜的视觉内容来进修更切合现实的视觉暗示。因为图象的信息密度低在语言的信息密度，MVM比MLM具备更年夜的挑战性。于重构缺掉的单词时，需要对于语言举行繁杂的理解。

相反，缺掉的图象块（patch）可以于不需要跨模态理解的环境下从临近的patch中恢复。为降服这一差距，年夜大都事情都是袒护信息密度相对于较高的方针区域。其他事情如SOHO利用视觉字典(VD)来表征视觉范畴更周全、更紧凑的语义，是以它们可以像MLM同样运用MVM。综上所述，重要有四种MVM方案。

1) 掩膜区猜测(MRP): MRP最小化掩膜区猜测出的特性与由颠末练习的物体检测器输出之间的间隔。

2) 掩膜区域分类(MRC): MRC需要一个模子来猜测每一个遮蔽区域的对于象语义种别。

3) 带KL-divergence的掩膜区域分类(MRC-KL): 因为MRC的方针标签禁绝确，MRC-KL采用软标签作为监视旌旗灯号，这是物体探测器于SoftMax后的原始输出。

4) 用可视化字典举行掩膜可视化建模(MVMVD): 与具备辞汇字典的语言模子近似，MVMVD需要一个可视化辞汇字典(VD)。MVMVD的方针是重构被屏蔽的VD令牌。

有两点值患上留意。起首，为了鼓动勉励跨模态交融，一些事情，如UNITERVL，于练习时期每一次只屏蔽一个模态的令牌，以鼓动勉励被屏蔽的令牌对于另外一个模态举行缺掉信息的处置惩罚。其次，因为相邻的图象网格高度相干，MVMVD偏向在映照到不异的VD令牌; 当履行重构时，模子可以直接复制周围的令牌。

是以，所有映照到不异VD令牌的视觉嵌入向量于SOHO中一路被屏蔽。只管有上述要领，但有用的视觉建模仍旧是一个具备挑战性的问题。一些VLP模子(如SOHO)的溶解研究的成果注解，增长MVM使命只会对于机能孕育发生微小的分外改善。Cao等人在2020发明，于下流使命中，VLP模子体现出存眷文本信息而不是视觉信息的偏向。

图7 VLP要领的总览。研究结果按宣布时间分类。咱们还有展示了每一个作品来自的重要机构的标识。

E.预练习研究概况

本节于先容了VLP模子的一般流程以后，总结了跨范畴VLP的一些创始性事情。受NLP及CV预练习乐成的开导，最近几年来VLP范畴的研究年夜量涌现，以追求同一的跨模态表征。VLP研究结果的形势如图7所示。咱们于这一节中具体论述了一些有代表性的研究。

单流模子: VideoBERT是进修视频及语言结合表征的一项创始性事情。其重要思惟是将可视的及文本的标志输入到构建于BERT上的单流模子中。文本标志经由过程主动语音辨认要领将视频语音转换为文原来提取，视觉标志经由过程利用卷积骨干从视频片断中提取特性来获取。VideoBERT可以或许履行广泛的下流分类及天生使命，包括视频申明及零样本掩膜动/名词猜测。请留意，VideoBERT是利用烹调视频举行的预练习，此中的内容是有讲授意义且高质量的。它假定白话与视觉内容是一致的，这就限定了它只能运用在某些视频（例如讲授型视频）。另外一个限定其泛化性的问题是其精心设计的字幕文本模板，例如模板：now let’s [MASK] the [MASK] to the [MASK], and then [MASK] the [MASK]，这只合用在烹调视频。

Li等人提出了一个名为VisualBERT的简略单纯单流VLP模子。提取的视觉及文本标志被直接组归并输入到Transformer中，从而于Transformer里可以隐式地履行跨模态交融。与VisualBERT近似，一些并行研究，如Unicoder VL、VL- bert 及UNITER也采用了单流架构。这些VLP研究于如下几个方面是相似的：1)它们都使用方针检测骨干来计较图象嵌入。2)它们都采用掩码语言建模使命。3)均采用单流BERT架构。但它们于预练习的要领及数据集上存于差异。

双流模子: ViLBERT及LXMBERT是将BERT扩大到双流VLP模子的创始性事情。它们于Conceptual Captions数据集长进行预练习，并使用预练习的Faster R-CNN模子来检测区域作为视觉标志。ViLBERT用两个并行流别离处置惩罚视觉及文本标志，它们可以于需要时经由过程跨留意层交融跨模态信息。换句话说，ViLBERT假定了视觉及语言的差别处置惩罚架构。它的跨模态交融设计为两个处置惩罚流程之间的稀少及显式交融。LXMBERT与ViLBERT的区分于在解耦模态内及模态间的处置惩罚。更详细地说，视觉标志及文本标志于第一阶段被别离编码，然后输入到跨模态编码器以孕育发生结合表征。

其他交融要领: 从底子上说，单流建模及双流建模于交融时间上有所差别，此中单流于初期交融差别的模态，而双流更喜欢于交融条件取每一种模态的高级特性。SemVLP提出经由过程迭代练习来组合这两种风行的建模架构。这类要领使用了这两种架构，并于初级及高级上履行跨模态语义对于齐。尤其是，Transformer编码器于两种建模要领之间同享，于双流编码器中添加了一个分外的跨模态留意力模块，这有助在语义对于齐及削减参数。年夜大都VLP模子试图将视觉及语言编码为零丁的标志，这些标志经由过程模态交融显式或者隐式地彼此作用。另外一类VLP模子基在方针检测模子将视觉标志附加到文本标志。B2T2提出于文本标志中交融检测到的方针的特性，于此基础上于预练习中履行MLM 及ITM。于B2T2中，标志T可以暗示为：

万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型

此中t是原始文本嵌入，是标志为的检测到的对于象的数目，是第个对于象的界限框的嵌入，暗示从界限框中提取的视觉特性。B2T2还有阐发了交融对于象及文本标志的阶段。成果注解了初期交融的有用性。

填补模态差距的初期测验考试：为实现天生及理解使命，Zhou等人提出了一种同一的视觉语言预练习要领。它引入了两种掩码方案，即双向留意力掩码及序列到序列掩码，以别离加强理解及天生使命。值患上留意的是，这类统一的VLP要领仅于预练习时期采用MLM，并于图象字幕及VQA方面取患了有竞争力的体现。12‑in‑1将多使命练习扩大到四个广泛使命，并于12个数据集长进行预练习。试验成果注解，多使命练习可以连续提高下流使命的机能，并孕育发生参数更少的更轻量级的模子。

VILLA基在UNITER的设计，于嵌入级别将匹敌练习引入了视觉及文本标志。它经由过程于嵌入空间中添加扰动作为正则化来履行匹敌性练习，并孕育发生了不错的机能改良。

受ERNIE的常识掩膜方案的开导，布局化常识起首被纳入ERNIE‑ViL的VLP模子中。为了经由过程构建场景图来开发更好的跨模态语义对于齐，ERNIE‑ViL提出了场景图猜测使命来对于图中的对于象、属性及瓜葛举行建模，以进修对于象级及属性感知暗示。将常识纳入跨模态练习具备挑战性，而且至今仍旧是一个悬而未决的问题。

Grid Patch features：虽然区域特性嵌入的风行促成了VLP模子的练习，但它也限定了VLP模子的可扩大性及泛化能力。经阐发，Faster R‑CNN的区域特性的弱点以下所示：

种别数目有限：视觉特性遭到于具备预界说对于象种别的、相对于较小的数据集长进行练习的方针检测模子的限定。例如，BUTD中广泛采用的Faster R‑CNN 模子是于VG上练习的，此中有固定的1594 个对于象类及524个属性。

质量低：因为Faster R‑CNN 模子是于标签优良的小型数据集上练习的，是以区域特性常常遭到低质量的影响。

缺少上下文：区域特性于没有任何配景信息的环境下提取属在特定种别的RoI特性，致使纰漏了这些区域特性之间的语义瓜葛。现实上，这些语义瓜葛很主要。

PixelBERT试图打破这一限定，经由过程直接从像素特性中进修来充实使用视觉信息。为了降低计较成本及提高模子的鲁棒性，他未将所有像素都用作视觉特性，而是于预练习时期随机采样100个像素。然而，试验成果注解，随机采样仅略微提高了机能，于下流使命中的VQA分数低在0.5。

SOHO是另外一项使用网格特性举行跨模态理解的创始性事情。为了进修视觉上下文的语义周全暗示，SOHO提出了一个进修用在视觉标志化的VD。SOHO是经由过程起首从卷积收集中获取高级特性来进修VD的，然后按照特性相似性对于这些特性举行分组，并馈入挪动平均编码器以动态更新VD。

因为视觉嵌入是可练习的，SOHO是一个端到真个预练习框架，可以直接从像素中进修，无需界限框。经由过程练习历程中的动态VD更新，VD中每一个标志的序列号可以像语言标志同样被视为一个标签，从而可以很天然地履行掩码视觉建模。对于在预练习使命，SOHO提出了一种新奇的MVMVD要领（于III‑D3中描写）来同时袒护图象中统一标签的所有视觉标志，以免任何信息走漏。

上述基在区域或者网格的图象嵌入计较量很年夜，提取的高级特性制止了跨模态信息的初期交融。受ViT的开导，ViLT采用图象块的简朴线性投影作为视觉嵌入，将预练习速率加速了10倍，而且试验成果具备竞争力。这象征着，比拟在视觉嵌入，模态交融更多是改良VLP模子表征的要害。

改良对于齐暗示：视觉语言对于齐暗示是VLP的基本方针。为了实现这一方针，一些研究提出可以于VLP中采用分外的对于象级数据。例如，很多VLP要领采用了RoI区域特性及检测模子。然而，作为主要构成部门的检测到的对于象标签并未于VLP模子中被明确建模。为了使用这些附加信息，Oscar引入了对于象标签作为锚点，以帮忙进修跨模态对于齐的表征。这类进修历程于经验上是天然的，由于检测到的对于象标签常常呈现于及图象配对于的文本中，这有助在对于齐视觉及语言。

此外，利用对于象标签举行练习有助在进修对于象的共现（例如，及对于象单词会配合呈现的单词）。是以，Oscar于下流理解及天生使命上孕育发生了显著的改良。然而，Oscar 的错误谬误也很较着，它依靠在标志优良的图象字幕数据集，是以难以扩展练习范围。

因为VLP模子遭到不充实对于齐的（图象、字幕）对于的限定，VIVO建议利用年夜量的（图象、标签）对于来增长预练习的水平。VIVO采用Hungarian匹配丧失举行掩码标签猜测，这使患上它可以举行视觉辞汇进修，提高模子描写下流使命中的新对于象的泛化能力。它于NoCaps基准测试中初次跨越了人类的体现。更详细地说，它采用ResNeXt152‑C4并归并了包括VG、COCO、Objects365及 OpenImagesV5的四个大众数据集用在年夜范围练习。比拟在VIVO及Oscar等VLP模子，VinVL有了显著改良，并于NoCaps、图象字幕及VQA排行榜上取患了最好成就。

4扩展模子及数据范围

只管研究者已经经于视觉语言结合暗示方面取患了使人鼓动的进展，但上述年夜大都研究重要集中于寻求优良的跨模态对于齐的对于象级暗示上。并且他们采纳了一个门坎较高的假定：假定图象及文本对于被很好地标志。这项假定将练习数据集限定为相对于较小的拥有“黄金标签”的数据集。例如，Conceptual Captions是广泛用在VL预练习的最至公共数据集，它具备300万个图象‑文本对于。

为了使模子得到更富厚的语义及更强的泛化能力，研究者很是需要更年夜的弱标志数据集，例如收集爬虫数据集。CLIP及DALL‑E将年夜范围收集爬取数据用在预练习的第一个乐成实践案例。受CLIP及DALL‑E乐成的开导，近来有几项研究事情进一步构建了基在更年夜数据集的更强盛的模子。

本节旨于先容利用年夜范围弱标签数据集练习的模子。本节分为两部门。第一部门包括使用年夜范围数据集举行视觉理解的事情，例如CLIP、ALIGN、SimVLM及Florence。第二部门包罗基在诸如DALL‑E、GODIVA、NUWA等年夜型数据集的视觉天生模子。

A.视觉理解

CLIP中的焦点思惟是练习要领。CLIP不像其他VLP要领那样经由过程练习去猜测掩模的视觉或者文本标志，而是进修辨认成对于的图象及文本。CLIP的方针是：于给定一批数目为N的（图象‑文本）对于时，CLIP应可以或许猜测N × N个可能呈现的对于中哪些是匹配对于（正样本），哪些长短匹配对于（负样本）。颠末预练习后，CLIP可以经由过程利用近似在“a photo of”等短语加之种别名称作为提醒来告诉模子输入图象与哪些种别最相似，从而履行零样本图象分类。与全监视的基线比拟，零样本CLIP于27个数据集中的16个数据集上优在基线。

与CLIP近似，ALIGN也采用了具备对于比丧失的双编码器模子履行零样本使命。它使用了一个更年夜的原始数据集，包罗1.8B图象‑文本对于。ALIGN于很多零样本视觉使命上的体现优在CLIP，这证实用更年夜的数据集练习会带来更好的机能。

除了了视觉使命，ALIGN于图象文本检索使命上的体现也优在以前的事情结果。SimVLM开发了一种新的VL预练习要领。它遵照一个简朴的前缀语言建模方针，以自回归的方式猜测下一个标志。它于多个VL使命上取患了有竞争力的成果，并具备文本指导的零样本进修能力。与以前采用大略（图象级）表征及静态（图象）数据的事情差别，Florence采用细粒度（对于象级）表征并扩大到了动态（视频）数据。对于在对于象级暗示，研究者将适配器Dynamic Head添加到了Florence中的图象编码器并利用分外的对于象检测数据集举行练习。经由过程对于9亿对于的图象‑文本对于的预练习，Florence于44个具备代表性的基准中的年夜大都中取患了新的开始进的成果。

除了了零样天职类，CLIP还有可以帮忙检测。例如，ViLD提出了一种经由过程CLIP蒸馏的零样本检测器。其他研究注解，CLIP 可以进修那些更像来自人脑中的神经元的多模态特性，而且它还有可以帮忙完成VL使命。

B.视觉天生

除了了视觉理解，年夜范围弱标志的图文配对于数据也能够辅助文本到图象的天生。Ramesh等人(2021)开发了一种名为DALL‑E的图象天生体系。DALL‑E利用离散变分主动编码器(dVAE)将图象转换为离散的视觉标志，以便将一个（文本、图象）对于视为单个数据流。

于练习时期，文本图象流被送到仅为解码器的Transformer中。于此中运用留意力掩码时，每一个图象标志均可以看到所有的文本标志。文本标志之间的留意力掩码是尺度因果掩码。图象到图象的留意力利用行、列或者卷积留意力掩码。于推理时，给定文本标志，天生历程是像于GPT中同样以自回归方式猜测图象标志。DALL‑E于四个方面展示了使人印象深刻的成果：创立动物及物体的拟人化版本、组合不相干的观点、衬着文本以和对于现有图象运用转换。

受DALL‑E练习要领的开导，Wu 等人（2021a）提出了一种名为GODIVA的要领来从文本中天生视频。与DALL‑E近似，GODIVA对于视频的每一一帧举行标志，并将文本及视觉标志挨次毗连为流来练习模子。DALL‑E及GODIVA别离设计用在文本到图象的天生及文本到视频的天生，而Wu等人(2021b)提出了一个同一的视觉天生模子，该模子于文本到图象、文本到视频、视频猜测等8个下流使命上取患了开始进的成果。

他们提出了一个可以或许编码的3D Transformer，它可以或许对于所有三种数据格局举行编码，包括文本(1D)、图象(2D)及视频(3D)。为了优化视频的效果，他们还有设计了一个3D Nearby Attention来沿空间及时间轴运用留意力。

5将来趋向

于已往几年中，咱们见证了VLP模子怎样逐渐利用年夜量弱标志及更多样化的数据。将来，模子及数据的范围都将不停扩展，从而实现更强的模态互助，甚至是同一表征。此外，联合常识可以进一步加强VLP模子，从而使其得到更好的泛化能力。于本节中，咱们将会商这些将来趋向。

A.走向模态互助

除了了利用VL数据集改良跨模态使命外，模态互助技能正逐渐于预练习中被利用，从而提高单模态使命及多模态使命的机能。模态互助就是差别的模态互相帮忙，以进修更好的表征。例如，用视觉数据改良语言使命，用单模态数据改良跨模态使命。

使用视觉数据改良语言使命

研究者已经经测验考试过使用视觉信息改良语言进修，并于广泛的语言使命长进行了摸索，此中包括呆板翻译、语义解析及语言基础等使命。这些研究摸索是为特定的语言使命量身定制的，而且这些研究结果之间可能存于模态差异。

Tan及Bansal（2020年）提出了一种带有视觉辅助的语言暗示的通用预练习模子，此中引入了“vokenization”模子，以将视觉语言对于齐从图象申明数据集外推到纯语言语料库。更详细地说，利用图象文本匹配对于“vokenization”模子进行练习，以构建视觉图象辞汇表，然后使用该辞汇表将仅语言数据集中的文本标志映照到检索到的患上分最高的图象。试验成果注解，它的机能比拟自监视语言模子有了分外的前进。

2. 利用单模态数据改良跨模态使命

为相识决数据欠缺问题，一些VLP模子使用分外的单模态数据来提高暗示能力。例如，于图象‑文本数据集中，文本凡是很短，只带有几个标志，这限定了文本的表征能力。是以，研究者于VL‑BERT中添加了分外的语言语料库来改良跨模态使命中的语言部门。

B.走向通用同一模态

因为Transformer架构，研究职员于单模态及多模态表征进修方面都取患了显著进展。于前面的部门中，咱们会商了多模态表征及模态互助，它们以差别的方式毗连视觉及语言。今朝，该范畴内的一个更年夜的方针是成立一个可以同一多种模态的通用暗示模子。

于一项创始性的事情UNIMO中，一个同一的预练习模子被提出，它可以同时处置惩罚单模态及多模态的下流使命，包括理解及天生。它利用了年夜量单模态及跨模态数据举行预练习，包括BookWiki(Zhu et al., 2015)及OpenWebText(语言数据)、OpenImages(Krasin et al., 2017)及COCO (Lin et al., 2014)（图象数据）、COCO(Lin et al., 2014)、Visual Genome(Krishna et al., 2016)、Conceptual Captions(Sharma et al., 2018)及SBU(Ordonez et al., 2011)(图文数据）。

是以，UNIMO于履行很多单模态及多模态下流使命时的机能获得了年夜幅改良。另外一个有趣的研究结果是Gupta等人开发的通用视觉体系，它可以用在一系列视觉及跨模态使命。

C.VL+常识

模子于履行VL使命时，会有很多使命需要依赖凌驾练习数据集的知识及事实信息才可以或许完成。可是，年夜大都VLP模子没有耗损分外常识的机制。

ERNIE提出了一种基在常识的多阶段掩模计谋。该要领没有直接添加常识嵌入，而是将语言遮蔽于三个级别，即基础级别、短语级别及实体级别。对于在实体级屏蔽，模子会屏蔽整个实体而非子单词。此类实体包括职员、位置、构造、产物等。还有有一种将常识集成到VLP模子中的要领。

Shevchenko等人（2021）提出将常识嵌入直接注入视觉语言Transformer中。他们起首利用常识嵌入构建常识库(KB)，然后将练习数据中的句子与常识嵌入举行匹配。于练习时期，他们利用辅助丧失来促使已经进修到的表征与常识嵌入连结一致。只管已经经有一些研究事情试图将常识整合到VLP模子中，但为了完成该方针，仍有很多挑战需要解决，例如怎样有用使用具备高噪音的年夜型维基数据以和怎样以可注释的方式从常识中进修。

雷峰网(公家号：雷峰网)

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-万字深度好文！视觉

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天