米兰·(milan)中国官方网站-新技术,老问题:NLP领域中没有被听到的「声音」

作者 | Ben Batorsky
编译|钱磊、Ailleurs
编纂 | 陈彩娴
遭到技能前进及开源数据集的鞭策,已往十年中人工智能履历了一次中兴,其前进的地方重要集中于计较机视觉及天然语言处置惩罚(NLP)等范畴。ImageNet于2010年建造了一个包罗2万张内容标签的图片的公然语料库。google在2006年发布了万亿词语料库(Trillion Word Corpus),并从年夜量的大众网页中得到了n-gram频率。NLP的前进使患上呆板翻译质量年夜幅提高,数字助理的运用也迅速扩展,诸如“人工智能是新的电力”及“人工智能将代替大夫”之类的言论也愈来愈多。
像Allen Institute、Hugging Face及Explosion等构造也发布了开放源代码库及于年夜型语言语料库上预先练习的模子,这使患上NLP范畴飞速进展。近来,NLP技能经由过程发布大众解释研究数据集及创立大众相应资源促成了对于COVID-19的研究。
然而,实在人工智能范畴早已经形成。艾伦·图灵(Alan Turing)于1950年就提出了“能思索的呆板”的设法,这反应于人们其时对于算法能力的研究上,其时人们但愿研究出可以或许解决一些过在繁杂而没法主动化的问题(例如翻译)的算法。于接下来的十年里,投资人看好 AI 研究并投入了年夜量资金,使患上翻译、物体辨认及分类等研究得到了很猛进步。到了1954年,进步前辈的机械辞书已经经可以或许举行基在辞汇及短语的合理翻译。于必然前提下,计较机可以辨认并解析莫尔斯电码。然而,到了20世纪60年月末,这些研究较着遭到限定,现实用途有限。数学家詹姆斯·莱特希尔(James Lighthill)于1973年发表的一篇论文中指出,于将本身研究的体系运用在实际世界中的问题时,人工智能研究职员没法处置惩罚各类因素的“组合爆炸”。社会上攻讦声不停,投入资金日趋枯竭,人工智能进入了第一个“冬天”,开发基本上阻滞不前。

图注:AI 的成长时间线
于已往的几十年里,人们对于人工智能的兴致又复苏了,技能也突飞大进。NLP近来的研究热门重要与基在 Transformer 的架构有关。然而现实运用的问题仍旧值患上提出,由于人们对于在“这些模子真正于进修甚么”感应担心。2019年的一项研究利用BERT来解决论证理解(argument comprehension)的坚苦挑战,该模子必需按照一系列事实来确定一个说法是否合理。BERT的体现到达了SOTA,但进一步的研究发明,该模子使用的是语言中的特定线索,而这些线索与论证的“推理”无关。
有时研究员可以或许于运用算法前就解决好体系里的一切问题,但有时AI体系还有是会带有其不该有的进修模式。一个典型例子是COMPAS算法,这类算法于佛罗里达州用来确定一个罪犯是否会再次犯法。ProPublica 于2016年的一项查询拜访发明,这类算法预估黑人被告比白人被告犯下暴力犯法的可能性超出跨越77%。更使人担心的是,高达48%再次犯法的白人被告会被该算法标志为低危害,而黑人只有28%,二者相差20%。因为该算法是专用算法,其可能使用的线索的透明度有限。但因为这类算法傍边差别种族之间的差异云云较着,这注解该算法“眼中”有种族不服等的嫌疑,这既倒霉在算法自身的机能,也倒霉在司法体系。

图注:COMPAS算法的运用
于人工智能范畴,这类高调的掉败其实不少见。亚马逊近来拔除了一种人工智能雇用算法,由于这类算法更有可能保举男性担当技能职位,其缘故原由多是该算法使用了以往的雇用模式。而最顶尖的呆板翻译也常常会碰到性别不服等问题及语言资源不足的问题。
现代NLP的缺陷有许多出处。本文将专注在几个代表性问题:于数据及NLP模子的成长中,甚么人或者物被代表了?这类不服等的代表是怎样致使NLP技能好处的不服平分配的?
1“年夜”就必然“好”?一般来讲,呆板进修模子,特别是深度进修模子,数据越多,其体现就会越好。Halevy等人(2009)注释说,对于在翻译使命来讲,与比力小的数据集上练习的更繁杂的几率模子比拟,于年夜型数据集上练习的简朴模子的体现更好。Sun等人于2017年也从头审阅了呆板进修可扩大性的设法,指出视觉使命的机能跟着提供的示例数目呈对于数增加。
人工智能从业者已经将这一原则服膺在心,尤其是于NLP研究中。自监视方针的呈现,如BERT的掩码语言模子(该模子可以按照上下文进修猜测单词),基本上使整个互联网均可以用在模子练习。2019年的原始BERT模子是于16 GB的文本数据上练习的,而近期的模子,如GPT-3(2020)是于570 GB的数据上练习的(从45 TB的Co妹妹onCrawl中过滤)。Bender等人(2021)将“数据越多越好”这一格言作为模子范围增加暗地里的驱动思惟。但他们的文章引起我的一个思索:这些年夜型数据集中包罗了甚么思维?

图注:语言模子的范围随时间的推移而增年夜
Wikipedia是BERT、GPT及很多其他语言模子的来历。但Wikipedia研究发明,其编纂所代表的不雅点存于问题。约莫90%的文章编纂是男性,他们往往是来自觉达国度的受过正规教诲的白人。他们的身份可能会对于维基百科的内容孕育发生影响,好比只有17%的列传是关在女性的,但是被编纂提名删除了的列传中却有41%是关在女性的,女性列传被删除了内容较着高在通例比例。
NLP模子的另外一个重要来历是Google News,包括原始的word2vec算法。从汗青上看,新闻编纂室一直由白人男性主导,这类模式于已往十年中没有多年夜转变。现实上,于已往几十年,这类差异变患上更年夜,这象征着当模子利用旧的新闻数据集时,这类被代表的问题只会变患上更糟糕。
此外,互联网用户偏向在年青、高收入及白人。GPT模子的来历之一Co妹妹onCrawl利用了Reddit的数据,Reddit有67%的用户是男性,70%是白人。Bender等人(2021)指出,GPT-2如许的模子有包涵/排斥要领,可能会删除了代表特定社区的语言(例如经由过程解除潜于的冲犯性辞汇,就会将代表LGBTQ群体的语言解除于外)。
当前NLP中的很多进步前辈机能都需要年夜型数据集,这类对于数据如饥似渴的干劲已经经盖过了人们对于数据中所代表的不雅点见解的存眷。然而,从上面的证据可以清晰地看出,有些数据源其实不是“中立的”,反而放年夜了那些汗青上、于社会上盘踞主导职位地方的人的声音。
并且,即即是出缺陷的数据源也不克不及平等地用在模子开发。绝年夜大都标志及非标志数据仅以7种语言存于,约占所有利用者的1/3。这使患上世界上其他2/3的国度没法到达这类体现。为了填补这一差距,NLP研究职员摸索了于高资源语言中预练习的BERT模子及低资源语言微调(凡是称为Multi-BERT),并利用“适配器”跨语言迁徙进修。可是凡是来讲,这些跨语言要领的体现要比单语言要领差。
这些模子很难跨语言泛化,这一事实可能指向一个更年夜的问题。乔希等人(2021年)如许注释:“NLP体系接管练习及测试的少数几种语言凡是是相干的……这会致使形成一种类型学的反响室。是以,咱们的NLP体系从未看到过绝年夜大都类型多样化的语言征象。”

The State and Fate of Linguistic Diversity and Inclusion in the NLP World
图注:语言多样性及包涵性于天然语言处置惩罚范畴的近况及运气

图注:语言多样性及包涵性于天然语言处置惩罚范畴的近况及运气
如上所述,这些体系很是擅长挖掘语言中的线索。是以,它们极可能是于使用一组特定的语言模式,以是当这些体系运用在资源较低的语言时,机能会瓦解。
2输入的是垃圾,输出的也是垃圾于上文中,我描写了现代NLP数据集及模子是怎样为一组特定的视角「代言」的,这些视角往往是白人、男性及英语利用者的视角。可是,每个数据集都必需从它的来历入手,解决数据代表的不平衡问题,好比ImageNet 于2019年的更新中删除了了60万张图象。这类调解不单单是为了统计的稳健性,也是对于那些偏向在对于女性及有色人种利用性别歧视或者种族主义标签的模子的一种回应。

图注:一名Twitter用户于基在ImageNet的模子所天生的图象标签中发明成见
不管我上传甚么样的图片,利用拥有2500个标签的AI来举行分类的ImageNet Roulette,城市把我当作是「Black」(黑人)、「Black African」(非裔黑人)、「Negroid」(玄色人种的)、「Negro」(黑人)。
其它可能呈现的标签还有有「Doctor」(大夫)、「Parent」(父亲)、「Handsome」(帅气的)。
所有的模子城市堕落,以是于决议是否利用一个模子时,老是要衡量危害及收益。为了便在对于这类危害效益举行评估,咱们可使用现有的经常使用机能指标,来得到「过错」的发生频率,好比正确率。可是咱们很是缺少相识的是,这些过错是怎样漫衍的?假如一个模子于一个群体中的体现不如另外一个群体,这象征着该模子可能会让一个群体受益,而捐躯另外一个群体的好处。
我把这类不服等的危害收益分配称为「成见」。统计误差被界说为“成果的指望值与被预计的真正潜于定量参数之间的差异”。呆板进修中存于很多类型的误差,但我会重要会商“汗青误差”及“表征误差”。汗青误差是指世界上已经经存于的误差及社会技能问题于数据中获得的反应。例如,当一个于ImageNet上练习的模子输出种族主义或者性别歧视标签时,它是于复制练习数据的种族主义及性别歧视。表征误差是由咱们从整体中界说及抽样的方式酿成的。由于咱们的练习数据来自在一个特定群体的视角,于是咱们指望练习出的模子会代表这个群体的视角。
于NLP范畴,存于在词嵌入模子word2vec及GloVe中的成见已经经被深切研究。这些模子是很多下流使命的基础,它们提供包罗句法及语义信息的单词暗示。它们都基在自监视技能,按照上下文来对于单词举行暗示。假如这些暗示反应了一个词的真正“意义”,那末咱们可以想象,与职业相干的词语(如“工程师”或者“管家”)于性别及种族上具备中立性,由于职业类型其实不与特定人群联系关系起来。
然而,Garg等人(2019)发明,职业辞汇的暗示并不是性别中立或者种族中立的。与男性性别辞汇比拟,“管家”这种职业辞汇与女性性别辞汇(如“she”、“her”)联系关系更强,而“工程师”这种职业的嵌入词则更靠近男性性别辞汇。这些问题还有延长到了种族上,与西班牙裔有关的辞汇更靠近在“管家”,而与亚洲人有关的辞汇与“传授”或者“化学家”更靠近。

图注:该表显示了别离与西班牙裔、亚裔、白人三个种族最紧密亲密相干的十年夜职业类型。引自Garg等(2019)论文“Word embeddings quantify 100 years of gender and ethnic stereotypes”(《词嵌入量化100年来的性别及种族刻板印象》)。
这些问题也存于在年夜型的语言模子中。好比,Zhao等人(2019)的事情注解,ELMo嵌入把性别信息纳入到职业术语中,而且对于男性的性别信息编码比对于女性做患上更好。Sheng等人(2019)的事情也发明,于利用GPT-2来对于完成含有人口统计信息(即性别、种族或者性取向)的句子时,会对于典型的边沿化群体(即女性、黑人及同性恋者)孕育发生成见性成果。

图注:该表显示了用OpenAI的GPT-2于给定的差别提醒下天生的文本示例。引自Sheng等(2019)论文“The Woman Worked as a Babysitter: On Biases in Language Generation”(《当保母的女人:论语言天生中的成见》)。
词嵌入模子ELMo及GPT-2,都是于来自互联网的差别数据集长进行练习的。如上所述,互联网上所代表的不雅点往往来自那些于汗青上处在上风职位地方并得到更多媒体存眷的人。这些不雅点极可能是成见问题的泉源,由于模子已经经内化了那些有成见的不雅点。正如Ruha Benjamin于他的《追赶科技》(Race After Technology)一书中所言:
「将世界的美、丑及残忍喂给AI体系却指望它只反应美,这是一种空想。」
这些NLP模子不仅复制了他们所练习的上风群体的不雅点,并且成立于这些模子上的技能也增强了这些群体的上风性。如上文所述,今朝只有一部门语言拥有数据资源来开发有效的NLP技能(如呆板翻译)。但纵然是于那些资源富厚的语言中,假如口音不尺度,呆板翻译及语音辨认之类的技能也体现欠安。
例如,Koenecke等人(2020年)发明,亚马逊及google等公司的语音辨认软件对于非裔美国人的偏差率险些是白人的两倍。这会造成一些未便,由于google助手(Google Assistant)或者Alexa对于非尺度口音的用户来讲体现患上不太好。这也会对于一小我私家的糊口造成庞大影响,好比移平易近工人很难与疆域治理职员沟通。由于练习数据中体现出了成见,以是可以预想,这些运用步伐对于具备数据「上风」的用户人群的帮忙会比其别人群更年夜。
除了了翻译及口译,一个风行的NLP利用场景是内容审核/治理。很难找到一个不包罗至少一个垃圾邮件检测练习的NLP项目。但于实际世界中,内容审核象征着它要决议甚么类型的言论是「可以接管的」。研究发明,Facebook及Twitter的算法于审核内容时,对于非裔美国用户内容举行标志的可能性是白人用户的两倍。一位非裔美国脸书用户由于援用了电视剧《亲爱的碧眼儿》中的一句台词而被冻结了账户,而她的白人伴侣则没有遭到任何处罚。
从上面这些例子中,咱们可以看到,数据练习中的代表性不平衡造成为了不平衡的后果。这些后果更严峻地落于了汗青上从新技能中获益较少的人群(即女性及有色人种)身上。是以,除了非对于天然语言处置惩罚技能的成长及部署作出本色性的转变,不然它不仅不会给世界带来踊跃的变化,并且还有会增强现有的不服等轨制。
2怎样步上“正”轨我于本文前面提到过,AI 范畴此刻被炒患上很热,这于汗青上实在已经经呈现过一次。于20世纪50年月,工业界及当局对于这项使人高兴的新技能寄与厚望。可是,当现实的运用最先达不到它的承诺时,人工智能的一个「隆冬」就会到临,这个范畴获得的存眷及资金投入城市变少。只管现代社会受益在免费、广泛可用的数据集及巨年夜的处置惩罚能力,但若人工智能仍旧只存眷全世界人口中的一小部门,那末于此次热潮中,也将很丢脸到它怎样兑现本身的承诺。
对于在NLP来讲,这类「包涵性」需求越发火急,由于年夜大都运用步伐只存眷7种最风行的语言。为此,专家们已经经最先呼吁更多地存眷低资源语言。DeepMind的科学家Sebastian Ruder于2020年发出了一项呼吁,指出“假如技能只面向尺度口音的英语利用者,那末它就没法普和”。计较语言学协会(ACL)近来也公布了2022年集会的「语言多样性」分主题。
然而,包涵性不该仅仅被视为数据收罗问题。2006年,微软发布了智利土著马普切人(Mapuche)的语言版本的Windows。然而,这项事情是于没有马普切人介入或者赞成的环境下举行的,马普切部落的人们一点也没有感觉本身被微软的发起所「接纳」,由于微软未经许可以使用他们的语言,他们告状了微软。要解决NLP技能笼罩规模方面的差距,就需要更多地存眷代表性不足的群体。这些群体已经经插手了NLP社区,而且已经经启动了他们本身的发起,以扩展NLP技能的效用。像如许的举措,不仅可以将NLP技能运用在越发多样化的数据集,还有可让各类语言的母语人士介入该技能的开发。
正如我以前提到的,当前用在确定甚么是「开始进」的NLP的指标,于预计一个模子可能会犯几多过错方面会颇有用。然而,它们其实不能权衡这些过错于差别人群中是否漫衍不均(便是否存于成见)。对于此,麻省理工学院的研究职员发布了一个数据集StereSet,用在丈量语言模子于多个维度上的误差。这项事情的成果是一套权衡模子整体体现的指标,以和它与偏好刻板印象联系关系的偏向性,这很轻易让它自己成为一个“排行榜”框架。Drivennda于其Deon ethics checklist(Deon伦理清单)中提出了一种更看重历程的要领。
然而,咱们仍于处置惩罚一些始终困扰着技能的庞大问题:前进往往会让强者受益,并加重强者与弱者的现有「分野」。要想实现NLP技能的革命性前进,就需要将它变患上更好,并与此刻差别。Bender等人(2021年)提出了一种更具「价值敏感性」的设计,于这类研究的设计中,可以实现监控哪些不雅点被纳入,哪些被解除,以和该混淆不雅点的危害效益计较。是以,「乐成」其实不于在正确率多高,而是于在技能可否鞭策表现好处相干者的价值不雅。
这是一个很是有力的建议,但这象征着,假如一项发起不太可能促成要害价值不雅的前进,那末它可能就不值患上寻求。Paullada等人(2020年)指出,“一个映照可以被进修其实不象征着它成心义”。如上文所举例,一种算法会被用来确定一个罪犯是否可能再次实行犯法。据报导,该算法的AUC分数很高,可是,它学到了甚么?如上所述,模子是它的练习数据的产品,是以它极可能会重现司法体系中已经经存于的任何一种成见。这就对于这类非凡算法的价值提出了质疑,也对于讯断算法的年夜范围利用提出了挑战。而咱们会看到,对于价值敏感的设计可能会带来一种很是差别的要领。
归功在研究职员、开发职员及整个开源社区的努力,NLP近来取患了使人震动的前进。从呆板翻译到语音助手,再到病毒研究(如COVID-19),NLP从底子上转变了咱们所利用的技能。但要取患上进一步的进展,不仅需要整个NLP社区的事情,还有需要跨本能机能集体及学科的事情。咱们不该该寻求指标上的边际收益,而应该着眼在真正具备「厘革性」的转变,这象征着咱们要去理解谁正于被「落于后面」,并于研究中纳入他们的价值不雅。
参考链接:https://thegradient.pub/nlp-new-old/
https://www.mdpi.com/2072-666X/12/6/665
https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
https://arxiv.org/pdf/1910.01108.pdf
https://arxiv.org/abs/2004.09095
https://twitter.com/lostblackboy/status/1174112872638689281

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





