米兰·(milan)中国官方网站-牛津大学最新调研:AI面临基准危机,NLP集中“攻关”推理测试

作者 | 维克多
人工智能(AI)基准为模子提供了权衡及比力的路径,逾越基准,到达SOTA,常常成为顶会论文的标配。同时,有些基正确实鞭策了AI的成长,例如ImageNet 基准测试对于近几年的热潮功不成没。
如今,ImageNet 基准仍旧于研究中阐扬焦点作用,一些新模子,例如google的Vision Transformer于论文中仍旧与ImageNet要领举行比力。
但,假如某一基准的分数一直盘踞榜首,后续没有高质量基准引入,那末这类依赖基准鞭策成长的“途径”就有问题。

近日,维也纳医科年夜学及牛津年夜学的研究职员对于AI基准图谱举行了查询拜访,共统计了2013年以来CV及NLP范畴的406项使命的1688项基准。发明:很年夜一部门基准迅速趋在靠近饱及,还有有一部门基准被弃捐;同时,于NLP范畴,从2020年最先,新基准的成立削减,标的目的转向推理或者推理相干的高级使命上。
于文中,作者呼吁,将来的事情应该着重在年夜范围的社区互助,以和将基准机能与实际世界效用及影响相接洽。
133%的AI基准被“弃捐”
从单个基准出发,如上图可以看出基准上的SOTA有三种状况:不变增加,阻滞或者饱及,以和阻滞后的奔腾。此中,不变增加代表技能不变;阻滞暗地里代表缺少技能前进的能力;而发作是指技能呈现冲破。
事实上,最近几年来,要害范畴,如NLP,有相称一部门新基准迅速趋在饱及,或者者设计针对于特定基准特性过分优化的模子,而这些模子往往没法泛化到其他数据中。

今朝,这些征象已经经伸张到不异范畴的差别基准中,例如上图,CIFAR-10及CIFAR-100的状况。
同时,数目方面也呈现了难堪的场合排场,例如《2021年的人工智能指数陈诉》指出,CV基准数目也许能满意日趋增加的使命需求;而NLP模子的增加速率正于跨越现有的问答及天然语言理解基准。
Martínez-Plumed等学者阐发了 CIFAR-100 及 SQuAD1.1 等 25 个风行 AI 基准暗地里“故事”,他们发明“SOTA 前沿”由某些持久协作的社区主导,例如美国或者亚洲年夜学与科技公司配合互助的构造。
此外,其他学者阐发了年夜量 AI 基准测试事情中数据集利用及再使用的趋向,他们发明,很年夜一部门“知名”数据集是由少数高知名度的构造提出,此中一些数据集被愈来愈多地从头用在新的使命。NLP是个破例,它对于新的、特定使命的基准的引入及利用跨越了平均程度。
于这项研究中,维也纳医科年夜学及牛津年夜学的研究职员注解:饱及及弃捐很是常见。整体看来有如下几个趋向:
1.缺少研究兴致是致使阻滞不前的缘故原由之一;
2.所有基准中的年夜大都很快就会到达技能阻滞或者饱及;
3.于某些环境下,会呈现连续增加,例如于 ImageNet 基准测试中;
4.机能改良的动态变化其实不遵照一个清楚可辨的模式:于某些环境下,阻滞阶段以后是不成猜测的奔腾。

图注:基准有三种成长趋向:不变增加,阻滞或者饱及,以和阻滞后的奔腾。
此外,于1688个基准中,只有66%的基准充实被使用,换言之33%的基准被弃捐。同时,基准测试的另外一个趋向是:被某些既定机谈判公司的数据集主导。
2NLP基准正面向高难度的使命已往几年,CV范畴的基准盘踞主导职位地方,但NLP也最先了蓬勃成长。2020年,新基准的数目有所降落,愈来愈多地集中于难度较高的使命上,例如测试推理的使命,例如BIG-bench及NetHack,前者属在google,后者来自Facebook。

上图是NLP的基准生命周期展示,可以清楚看出,年夜大都使命的几个主流基准是于2011~2015年间成立的,这时期,也只有少数几个SOTA呈现。2016年以后,新基准的成立速率年夜年夜加速,于翻译及天然语言建模方面体现最为凸起;2018及2019年,别离都针对于各类使命成立了年夜量的基准;2020年是个迁移转变点,新基准的成立削减,标的目的转向推理或者推理相干的高级使命上。
总体来讲,当前AI基准的趋向是:来自既定机构(包括工业界)的基准的趋向引起了人们对于基准的成见及代表性的存眷;很多基准其实不能彻底将AI机能与实际世界相匹配,是以,开发极少量但有质量包管,涵盖多种AI能力、场景的基准多是可取的。
末了,研究职员瞻望,于将来,新的基准应该由来自很多机构、常识范畴的年夜型互助团队开发,云云才能确保成立高质量的基准。
参考链接
https://mixed-news.com/en/are-we-running-out-of-ai-benchmarks/
https://arxiv.org/ftp/arxiv/papers/2203/2203.04592.pdf

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





