米兰·(milan)中国官方网站-北大邹月娴:视觉

作者丨邹月娴
收拾 | 维克多编纂 | 青暮
预练习模子于天然语言处置惩罚及计较机视觉范畴引起了学术界及工业界的广泛存眷。使用年夜范围无监视数据举行练习的预练习模子有着很是好的泛化性,只需于小范围标注数据长进行微调,就能够于响应使命上有所提高。但相干研究的进展怎样?还有有哪些问题需要进一步摸索?
2021年12月16日,北京年夜学深圳研究生院党委副书记、传授、博士生导师、北京年夜学现代旌旗灯号与数据处置惩罚试验室主任邹月娴于中国计较机年夜会(CNCC 2021)“财产共话:年夜型预练习模子的贸易运用和技能成长标的目的”论坛上,做了《视觉-语言预练习模子演进和运用》的陈诉,会商了缭绕年夜范围预练习模子的争议、最新进展以和研究思绪,并给出了将来瞻望。
例如她提到:
“‘视觉-语言’的子使命很是多,有各自的数据集,这使患上解决NLP使命的进展很是快,但预练习模子要领于视觉范畴却碰到了很是年夜的问题:数据标志成本很高。MSCOCO数据集只标志了12万张图片,每一张图片给出5个标志,统共破费了10.8W$。”
“当前的几个主流VL-PTMs的技能线路很相似,都采用单一 Transformer架构建模视觉及文本输入;视觉输入为 Region-of- Interests (Rols) 或者者 Patches,缺掉全局或者者其他高级视觉语义信息……”
尔后者注解,主流视觉-语言预练习模子存于许多局限,致使于迁徙至下流使命时,只合用在分类使命,而不合用天生使命。
如下是演讲全文,AI科技评论做了不转变原意的收拾。
今天演讲的标题问题是《视觉-语言预练习模子演进和运用》,重要联合团队事情以和本人感悟切磋人工智能成长今朝揭示的趋向。本次演讲分为4个部门:配景先容、视觉-语言预练习模子、视觉-语言预练习模子和运用研究以和将来瞻望。

人工智能已经经有六十多年的成长过程,自2017年以来,Transformer及BERT(2018年)接踵提出,开启了年夜数据、预练习与迁徙进修新篇章,将其界说为新时代也绝不夸张。今朝,差别在前几十年的事情已经成定论,该范畴尚待进一步深切摸索。

以天然语言处置惩罚(NLP)为例,其演化历程如上图所示,OpenAI于2018年发布第一代GPT模子,短短几年时间“年夜模子”已经经初具范围。这里的“年夜”有两层寄义:模子练习利用的数据量年夜,模子蕴含的参数范围年夜。中国于这方面也有精彩的事情,2021年的悟道2.0更是到达了万亿参数范围。
今朝关在年夜范围预练习模子还有有一些争议,重要的争辩点于在:
1.超年夜模子学到了甚么?怎样验证?
2.怎样从超年夜模子迁徙“常识”,晋升下流使命的机能?
3.更好的预练习使命设计、模子架构设计及练习要领?
4.选择单模态预练习模子还有是多模态练习模子?
虽然有争议,但不能不认可 “暴力美学”确凿有独到的地方,例如baiduERNIE3.0曾经经刷新了50多个NLP使命基准。要知道,于业界,无数学生、学者为一个SOTA就挖空心思了,但年夜范围预练习模子却能批量“出产”SOTA。另外一方面,50多个SOTA也申明,这不是偶尔。

今朝学界已经经公认AI的成长离不开借鉴人类年夜脑的研究结果,是以多模态预练习模子这条集成类脑机制及呆板进修的路径,天然同样成为存眷的核心。
但仍旧有很多脑科学发明的机理未能搞清晰,例如多层抽象、留意力机制、多模态聚合机制、多模态代偿机制、多线索机制、协同机制等等。
人类约有70%的信息依赖视觉得到,残剩约20%~30%的信息依赖听觉及触觉。关在人类智能,语言具有真正高阶的语义。例如,当说到“苹果”一词的时辰,脑子 “浮现”的是一张“可以吃”的苹果图片;当说到 “苹果手机”的时辰,年夜脑则会呈现苹果牌手机的观点。
是以,年夜脑这类“视觉介入听觉感知”的机制、“视觉观点与语言观点一致性”的认知机制是咱们呆板进修采纳多模态预练习模子的靠得住性依据之一。
“视觉-语言模子”开发是否可行?中国人平易近年夜学的一项研究注解,互联网提供了90%的图文年夜数据,而文本数据只占了10%。于年夜量数据源的加持下,视觉-语言预练习模子同样成了2021年的研究热门。

视觉-语言,英文名称是“Vision and Language,VL”。VL预练习模子旨于让呆板处置惩罚触及到“理解视觉内容及文本内容”的使命。VL使命可以分成VL天生使命及VL分类使命。
这两类使命解决的问题纷歧样,难度也纷歧样。对于在VL天生使命,不仅需要对于视觉信息举行理解,还有需要天生响应的语言描写,既触及编码,又触及解码;而VL分类使命只需要理解信息。显然,天生使命的难度较年夜。

VL天生使命的技能难点于在需要理解视觉的高阶语义,成立视觉-文本的语义联系关系。例如,视频描写(Video Captioning)使命需要“归纳综合”视频内容,图象描写(Image Captioning)使命需要对于每一一帧图象天生描写。
今朝,视觉问答(VQA)是热点的VL分类使命之一,可以理解为:给定一张图象,让模子回覆任何情势的基在天然语言的问题。

如上(左)图所示,假如你扣问呆板“What is she eating?”,VL分类器就会理解图片信息,然后给出准确的回覆“hamburger”。
当前“视觉-语言”的子使命很是多,各有数据集,例如VQA、VCR、NLVR2等等。咱们留意到,因为NLP使命有年夜数据集撑持,其预练习模子技能成长迅猛。但对于在视觉-语言使命,因为标注年夜范围数据集需要极高的成本,致使VL模子的机能晋升迟缓。
以图象描写使命为例,MSCOCO数据集只标志了12万张图片,每一张图片给出5个标志,统共破费了10.8W$。是以,差别的VL使命依靠在差别的模子框架+差别的标注数据集,标注价钱昂贵,机能还没有满意运用需求。
是以,摸索新的VL预练习代办署理使命,削减对于数标注的依靠,是一个颇有意义的研究标的目的。2019年学术界开启了VL-PTMs的研究事情。


关在VL预练习模子,从2019年最先就呈现了很是多的精彩事情,例如“开山”的ViLBERT,2020年的UNITER以和2021年的CLIP。跟着时间的推移,模子包罗的数据量也愈来愈年夜,能力愈来愈“出众”。总体的技能线路可以分为两年夜类:单塔模子及双塔模子。

UNITER是2020年由微软提出的,它用了4个代办署理使命练习模子,于4个下流使命举行了测试,得到了机能晋升。上述研究都是采用预练习模子加 “微调”的研究范式。

2021年OpenAI用双流框架开发了CLIP,CLIP的呈现就技惊四座。其道理很是简朴,分为编码及解码两个部门,编码器选用典型的Transformer。CLIP模子的冷艳的地方于在,CLIP预练习模子直接可以或许拥有零样本进修(Zero-Shot Learning)能力, OpenAI于20多个差别粒度的分类使命中测试发明,CLIP预练习模子具备优良的零样本迁徙机能,能学到更通用的视觉表征。
2视觉-语言预练习模子和运用研究咱们对于上述主流VL预练习模子,从基础收集布局、视觉输入、文本输入、主流数据集、练习计谋以和下流使命六个方面举行了阐发。

阐发发明,主流VL-PTMs的技能线路很相似:
1. 采用单一Transformer架构建模视觉及文本输入;
2. 视觉输入为 Region-of- Interests(Rols)或者者 Patches,缺掉全局或者者其他高级视觉语义信息;
3.年夜多采用的代办署理使命是BLM(双向语言模子)、S2SLM(单向语言模子)、ISPR(图文匹配)、MOP(遮蔽物体猜测)等等。
是以,已经提出的视觉-语言预练习模子更合适迁徙到下流分类使命,例如VQA。对于在下流天生使命,例如图象描写,视觉-语言预练习模子其实不合适。

咱们团队也开展了摸索性研究,研究思绪是重叠Transformer+自留意力机制,此中立异地提出自留意力模子区分地处置惩罚视觉模态及文本模态,即采用差别的QKV变换参数,别离对于视觉及文本模态建模。
同时,引入视觉观点信息,减缓视觉语义鸿沟。颠末验证发明,咱们提出的基在留意力模态解耦的VL-PTM: DIMBERT(2020),可以同时合用在分类使命及天生使命。
比拟昔时(2020年)的最新SOTA, DIMBERT模子更小(隐形双塔),仅仅于 Conceptual Captions使命长进行预练习,具备数据量需求上风,于测试的下流使命都到达SOTA,于没有decoder的架构下,可以迁徙至下流天生使命。
这项事情也给咱们两点启迪:
1.从信息表征视角来看,视觉信息及文本信息需要差别的表达要领,究竟文本拥有相对于越发高阶的语义信息。
2.只管即便引入人类高阶语义信息,人类对于物体有很是明确的界说,苹果就是苹果,梨就是梨,是以界说物体属性,用语言信息减缓语义鸿沟很是有须要。

2021年10月份,Facebook发布了Video CLIP相干事情,属在视频VL预练习模子。从这个模子可以看出,Video CLIP颇具野心,期待对于在下流使命不需要使命相干练习数据集,不需要举行微调,直接基在Video CLIP举行零样本迁徙。
详细而言,它基在对于比进修联合Transformer框架,试图搭建视觉-文本结合预练习模子,指望可以或许存眷更细粒度的布局。
Video CLIP的焦点事情聚焦在对于比进修框架联合练习数据样本的组织,其正样本的组织是视频段-匹配文本描写对于。此外,经由过程对于正样本举行近邻搜刮,得到坚苦负样本,从而构建出视频-非匹配文本对于。
更为详细,该模子采用对于比丧失,进修匹配视频-文本对于之间的细粒度相似性;经由过程对于比进修方式拉近具备相似语义的视频-文本表征。这个事情从研究的立异性来看其实不凸起,但模子机能使人惊奇。

咱们认为,借鉴Video CLIP的研究思绪,可以于更细粒度层面举行晋升,咱们提出了一个帧级别文本细粒度匹配要领。
试验成果注解,细粒度匹配能得到越发正确、具备完备的空间建模能力。咱们于 ActivityNet数据集长进行了视频检索的召回率测试,发明于所有 epoch下,咱们提出的基在细粒度匹配计谋的预练习模子机能都优在基在全局匹配计谋的预练习模子;此外,咱们发明,当得到统一机能,咱们提出的基在细粒度匹配的模子其练习速率是基在全局匹配要领的四倍。
综上,预练习模子、跨模态预练习模子方面的研究长短常值患上摸索的,不管是模子布局、练习计谋还有是预练习使命的设计都另有很是年夜的潜力。
将来,AI社区也许会摸索更多的模态,例如多语言、运动、音频以和文字;更多的下流使命,例如视频描写、视频择要;更多的迁徙进修机制,例如参数迁徙、提醒进修、常识迁徙等等。

雷峰网(公家号:雷峰网)雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





