米兰·(milan)中国官方网站-2021谷歌年度AI技术总结

编纂丨青暮
又是一年一度的google年度盘货,Jeff Dean再次执笔,为咱们回首已往一年来google于5年夜标的目的的研究进展以和将来趋向。Jeff Dean暗示,“于已往几十年里,咱们见证了呆板进修及计较机科学范畴的很多庞大变化。初期要领的掉效促成了现代要领的降生,并被证实很是有用。”
根据这类成长模式,他认为,咱们将于将来几年内见证一些“使人高兴的进展”,这些进展终极将造福数十亿人的糊口,孕育发生比以往任什么时候候都更年夜的影响。
于这篇文章中,Jeff Dean重点先容了呆板进修有望孕育发生此等影响的五个方面。对于在每一个方面,他将会商google相干的研究(重要是从2021年最先),以和于将来几年可能呈现的新标的目的及新进展。
这些方面别离触及了算法、效率、个性化、全世界化、责任:
算法上,基在Transformer的年夜范围预练习模子如今不管是于单模态数据的多使命通用性,以和多模态结合进修的能力上,都证实了自身的潜力;
效率上,从算力到模子练习、部署,呆板进修流水线的效率正不停提高;于模子运行方面,编译器的改良及加快器软件的优化也提供了很年夜的助力;而架构方面的改良,主动化呆板进修的连续成长、以和对于模子稀少性的使用,都让算法研究成长迅速;
个性化上,呆板进修不仅运用变患上越发广泛,并且愈来愈人道化,于功效上愈来愈天然,同时也越发看重隐私掩护;
全世界化上,呆板进修的影响规模愈来愈广漠,触及到愈发多样的全世界性问题,好比科学研究、医疗、芯片设计、碳排放减缓、天然灾难预防等等;
末了是责任,只管饱受争议,但Jeff Dean暗示,google对于在AI公允性很是器重,并从数据、算法、流传阐发、模子可注释性、文化差异性研究以和年夜模子隐私掩护上做了年夜量事情。
可以说,呆板进修正于而且也将变患上无处不于。
如下是关在五年夜趋向总结的编译先容:
1趋向1:功效更强盛、更通用的呆板进修模子如今,研究者正于练习比以往任什么时候候都更年夜型、功效更强盛的呆板进修模子。
例如,仅于近来几年,语言范畴的模子范围已经经从于数百亿个数据标志上练习的数十亿个参数(例如,11B 参数的T5模子),成长到于数万亿个数据标志上练习的数百亿参数(例如,密集模子如 OpenAI 的 175B 参数 GPT-3 模子及 DeepMind 的 280B 参数 Gopher 模子,以和稀少模子如 Google 的 600B 参数 GShard 模子及 1.2T 参数 GLaM 模子)。
数据集及模子范围的加强,使患上各类语言使命的正确性显著提高,正如标注天然语言处置惩罚(NLP)基准使命的周全晋升所注解的那样(例如对于语言模子及呆板翻译模子的神经标度定律的研究所猜测的)。
上述年夜部门高级模子都专注在书面语言的单一但不成或者缺的模态数据,并于语言理解基准及开放式对于话能力方面揭示出开始进的结果,甚至于一个范畴中的多个使命中也具备云云体现。
此外,它们还有体现出使人高兴的能力,可以于练习数据相对于较少的环境下推广到新的语言使命。某些环境下,新使命的练习示例很少甚至没有。例如,NLP中的改良长问答、零标签进修使命。google还有提出了LaMDA模子,该模子展示了一种繁杂的能力,可以举行开放式对于话,于多轮对于话中连结主要的上下文接洽。


图注:“与 LaMDA 的对于话,经由过程预设真实提醒模拟威德尔海豹,“嗨,我是威德尔海豹。你有甚么问题要问我吗?” 该模子于很年夜水平上连结了对于话的脚色特性。
Transformer 模子也对于图象、视频及语音模子孕育发生了庞大影响,正如视觉 Transformer 模子的标度定律所猜测的那样,所有这些使命也都从范围扩大中受益不浅。
用在图象辨认及视频分类的Transformer于很多基准上都取患了开始进的结果,google还有证实,与零丁利用视频数据比拟,于图象数据及视频数据上的结合练习模子可以提高视频使命的机能。
他们为图象及视频Transformer开发了稀少的轴向留意力机制,可以更有用地利用计较,为视觉Transformer模子找到更好的标志图象要领,并经由过程查抄视觉Transformer要领与卷积神经收集的操作方式比拟,提高了对于视觉Transformer要领的理解。将Transformer模子与卷积运算相联合,已经于视觉及语音辨认使命中显示出显著的优胜性。
天生模子的输出质量也于年夜幅提高,这于图象的天生模子中体现患上最为较着。
例如,近来的模子已经经证实,仅给定一个种别(例如,输入“爱尔兰塞特”或者“有轨电车”)就能够创立传神的图象,也能够经由过程修复低分辩率图象,以创立一个看起来天然的高分辩率匹配图象(例如,输入“计较机,加强!”),甚至可以创立肆意巨细的天然场景。
另外一个例子是,可以将图象转换为一系列离散标志,然后可使用自回归天生模子以高保真度合成这些标志。

图注:级联扩散模子的示例,该模子从给定种别天生新图象,然后将其用作种子来创立高分辩率示例:第一个模子天生低分辩率图象,其余模子对于终极高分辩率图象履行上采样。
SR3 超分辩率扩散模子将低分辩率图象作为输入,并从纯噪声构建响应的高分辩率图象。
视频链接:https://iterative-refinement.github.io/assets/cascade_movie2_mp4.mp4
这些强盛的功效暗地里,亦陪同着巨年夜的责任,是以google暗示会按照其 AI 原则细心审查此类模子的潜于运用。
除了了进步前辈的单模态模子外,google也最先留意年夜范围多模态模子的潜力。这些是迄今为止开始进的模子,由于它们可以接管多种输入模态(例如,语言、图象、语音、视频),并可以天生多种输出模态,例如,基在描写性的句子或者段落天生图象,或者用人类语言描写图象的视觉内容。
这是一个使人高兴的标的目的,由于及实际世界同样,于多模态数据中有些工具更易进修(例如,浏览并不雅看演示比仅仅浏览更有效)。是以,将图象及文本配对于可以帮忙完成多语言检索使命。而且,更好地舆解怎样将文本及图象输入配对于,可以为图象描写使命带来更好的成果。
一样,对于视觉及文本数据的结合练习也有助在提高视觉分类使命的正确性及鲁棒性,而对于图象、视频及音频使命的结合练习可以提高所有模态的泛化机能。
此外还有有一些迹象注解,天然语言可以用作图象处置惩罚的输入,告诉呆板人怎样与世界交互并节制其他软件体系,这预示着用户界面的开发方式可能会发生变化。这些模子处置惩罚的模态将包括语音、声音、图象、视频及语言,甚至可能扩大到布局化数据、常识图谱及时间序列数据。

图注:基在视觉的呆板人操作体系示例,该体系可以或许泛化到新使命。左图:呆板人正于履行一项基在“将葡萄放入陶瓷碗中”指令的使命,而模子并未接管该特定使命的练习。右图:近似左图,但使命描写为“将瓶子放入托盘”。
这些模子凡是利用自监视进修要领举行练习,此中模子从未经标志的“原始”数据的不雅察中进修,例如 GPT-3 及 GLaM 中利用的语言模子、自监视语音模子 BigSSL 、视觉对于比进修模子 SimCLR 及多模态对于比模子 VATT。自监视进修让年夜型语音辨认模子患上以到达以前的语音搜刮主动语音辨认 (ASR) 基准的正确度,同时仅利用 3% 的带解释练习数据。
这些趋向使人高兴,由于它们可以年夜年夜削减为特定使命启用呆板进修所需的事情量,而且因为使患上于更具代表性的数据上练习模子变患上更易,这些数据更好地反应了差别的亚群、地域、语言,或者其他主要的暗示维度。
所有这些趋向都指向练习功效强盛的通用模子的标的目的,这些模子可以处置惩罚多种数据模式,并解决成千上万个使命。经由过程构建稀少性模子,使患上模子中独一被给定使命激活的部门,仅有那些为其优化过的部门,从而这些多模态模子可以变患上高效。
Jeff Dean暗示,于接下来的几年里,google将基在Pathways架构寻求这一愿景。

Pathways:google正于努力的同一模子,可以泛化至数百万个使命。
2趋向2:呆板进修效率的连续晋升因为计较机硬件设计以和呆板进修算法及元进修研究的前进,呆板进修的效率获得连续晋升,鞭策着呆板进修模子的功效变患上越发强盛。
ML 流水线触及很多方面,从练习及履行模子的硬件,到 ML 架构的各个组件,均可以举行效率优化,同时连结或者提高总体机能。
与前几年比拟,这些线程中的每个均可以以显著的乘法因子提高效率,而且综合起来可以将计较成本(包括二氧化碳当量排放量)降低几个数目级。
更高的效率促进了很多要害的前进,这些前进将继承显著提高呆板进修的效率,使更年夜、更高质量的呆板进修模子可以或许以高效的方式开发,并进一步使拜候公允化。
ML 加快器机能的连续改良
每一一代 ML 加快器都于前几代的基础长进行了改良,使每一个芯片的机能更快,而且凡是可以扩展整个体系的范围。
去年,google发布了其TPUv4 体系,这是google的第四代张量处置惩罚单位,它于 MLPerf 基准测试中比 TPUv3 晋升了 2.7 倍。TPUv4 芯片的峰值机能是 TPUv3 芯片的约 2 倍,每一个 TPUv4 pod 的范围为 4096 个芯片(是 TPUv3 pod 的 4 倍),每一个 pod 的机能约为 1.1 exaflops(而每一个 TPUv3 pod约为 100 petaflops)。拥有年夜量芯片并经由过程高速收集毗连于一路的 Pod 可以提高峻型模子的效率。
此外,挪动装备上的呆板进修能力也于光鲜明显提高。Pixel 6 手机采用全新的 Google Tensor 处置惩罚器,该处置惩罚器集成为了强盛的 ML 加快器,以更好地撑持主要的装备功效。

左:TPUv4 主板;中:TPUv4 pod的一部门;右图:于 Pixel 6 手机中的 Google Tensor 芯片。
Jeff Dean暗示,google利用 ML 来加快各类计较机芯片的设计也带来了利益,尤其是于出产更好的 ML 加快器方面。
ML 编译及 ML 事情负载优化的连续改良
纵然硬件稳定,编译器的改良及呆板进修加快器体系软件的其他优化也能够显著提高效率。
例如,“A Flexible Approach to Autotuning Multi-pass Machine Learning Compilers”展示了怎样利用呆板进修来履行编译设置的主动调解,用在统一底层硬件上的一套 ML 步伐,以得到 5-15% 的周全机能晋升(有时甚至高达2.4 倍改良)。
此外,GSPMD 描写了一种基在 XLA 编译器的主动并行化体系,该体系可以或许将年夜大都深度进修收集架构扩大到加快器的内存容量以外,并已经运用在很多年夜型模子,例如 GShard-M四、LaMDA、BigSSL、ViT、MetNet -2 及 GLaM,于多个范畴孕育发生了开始进的结果。

图注:经由过程于 150 个 ML 模子上利用基在 ML 的编译器主动调解实现端到端模子加快。图中包括实现 5% 或者更多改良的模子。条形颜色代表优化差别模子组件的相对于改良。
人类创造的更高效模子架构
模子架构的连续改良年夜年夜削减了为很多问题实现给定精度程度所需的计较量。
例如,google于 2017 年开发的 Transformer 架构可以或许提高于多个 NLP 基准上确当前最好程度,同时利用比其他各类经常使用要领少 10 到 100 倍的计较来实现这些成果,例如 LSTM 及其他轮回架构。
一样,只管利用的计较量比卷积神经收集少 4 到 10 倍,但视觉 Transformer 可以或许于很多差别的图象分类使命上显示出改善的开始进成果。
呆板驱动的更高效模子架构的发明
神经架构搜刮(NAS)可以主动发明对于给定问题域更有用的新 ML 架构。NAS 的一个重要长处是它可以年夜年夜削减算法开发所需的事情量,由于 NAS 只需要对于每一个搜刮空间及问题域组合举行单次查验。
此外,虽然履行 NAS 的初始事情于计较上可能很昂贵,但由此孕育发生的模子可以年夜年夜削减下流研究及出产设置中的计较,从而年夜年夜降低整体资源需求。
例如,发明 Evolved Transformer 的单次搜刮仅孕育发生了 3.2 吨二氧化碳当量(远低在其他处所陈诉的 284 吨二氧化碳当量),但孕育发生了一个比平凡的 Transformer 模子效率高 15-20%的模子。
近来,google使用 NAS 发明了一种更高效的架构,称为 Primer(也已经开源),与平凡的 Transformer 模子比拟,它可以将练习成本降低 4 倍。经由过程这类方式,NAS 搜刮的发明成本凡是可以从利用发明的更有用的模子架构中收回,纵然它们仅运用在少数下流使命(NAS 成果可被反复利用数千次)。

NAS还有被用在于视觉范畴发明更有用的模子。EfficientNetV2 模子架构是神经架构搜刮的成果,它结合优化了模子精度、模子巨细及练习速率。于 ImageNet 基准测试中,EfficientNetV2 将练习速率提高了 5 到 11 倍,同时与之前开始进的模子比拟,模子参数年夜年夜削减。
CoAtNet 模子架构是经由过程架构搜刮发明的,联合了视觉 Transformer 及卷积收集来创立一个混淆模子架构,其练习速率比视觉 Transformer 快 4 倍,并实现了新的 ImageNet 开始进成果。

图注:EfficientNetV2 的练习效率比以前的 ImageNet 分类模子要好患上多。
广泛利用搜刮来帮忙改良 ML 模子架谈判算法,包括利用强化进修及进化技能,引发了其他研究职员将这类要领运用在差别范畴。
除了了模子架构以外,主动搜刮还有可用在寻觅新的、更有用的强化进修算法,成立于初期的 AutoML-Zero 事情的基础上。
稀少性的使用
稀少性模子具备很是年夜的容量,但对于在给定的数据(示例或者 token ),只有模子的某些部门被激活,这是另外一个可以年夜年夜提高效率的主要算法前进。
2017 年,google引入了稀少门控混淆专家层,该层于各类翻译基准上展示了更好的成果,同时利用的计较量比之前开始进的密集 LSTM 模子少 10 倍。
近来,Switch Transformers 将混淆专家气势派头的架构与 Transformer 模子架构相联合,与密集的 T5-Base Transformer 模子比拟,练习时间及效率提高了 7 倍。
GLaM 模子注解,Transformer 及混淆专家气势派头的层可以联合起来天生一个模子,该模子于 29 个基准测试中平均跨越 GPT-3 模子的正确性,而练习的能耗削减了 3 倍,推理的计较量削减了 2 倍。稀少性的观点也能够用在降低Transformer 架构中留意力机制的成本。

图注:BigBird 稀少留意力模子由存眷输入序列所有部门的全局标志、局部标志及一组随机标志构成。从理论上讲,这可以注释为于 Watts-Strogatz 图上添加一些全局标志。
于模子中利用稀少性,显然是一种于计较效率方面具备很是高潜力的要领。Jeff Dean 暗示,google只是于这个标的目的上涉及了外相。
与利用 P100 GPU 练习的基线 Transformer 模子比拟,这些提高效率的要领中的每一一种均可以组合于一路,可将高效数据中央练习的等效精度语言模子的能源效率提高约 100 倍,孕育发生的二氧化碳排放量削减约 650 倍。
Jeff Dean暗示,其团队很快就会发表更为具体的博客文章阐发 NLP 模子的碳排放趋向。
3趋向3:呆板进修正鞭策小我私家及社区的成长ML 及诸如手机上的Tensor 处置惩罚器等硅基硬件的立异,使患上挪动装备可以更连续有用地感知周围情况,而这将为用户带来一系列新的体验。
他认为这类前进不仅提高了其可和性、易用性,并且晋升了计较的能力,这对于改善挪动摄影、及时翻译等功效也至关主要。值患上留意的是,这类最新的技能于为用户提供越发个性化体验的同时,还有增强了隐私保障办法。
今朝,利用手机摄像来记载一样平常糊口或者举行艺术表达的热度空前。Jeff Dean 认为,ML 于计较摄影中的巧妙应用,可以不停促成手机相机功效的晋升,使其操作起来越发轻易,也能够提高拍摄机能,孕育发生更高质量的图象。
好比,颠末改良的HDR+,于很是低的光芒下就能够很好地处置惩罚人像,使相机更具包涵性,而且合用在所有肤色,可以拍摄出可以或许到达摄影师预想视觉效果而且更切合主题的照片。
不仅云云,基在 ML 的 Google Photos 东西,像影戏照片、降噪、恍惚以和魔术橡皮擦等,可以进一步完美照片。

图注:HDR+ 从一连串全分辩率原始图象最先,每一个图象都有不异的暴光不足(左)。交融后的图象削减了噪点并增长了动态规模,从而得到了更高质量的终极图象(右)。
除了了利用手机举行创作外,Jeff Dean 还有枚举了人们依赖手机举行跨语言及跨模式的及时沟通的例子,好比于动静运用步伐中利用及时翻译,于通话交流中利用及时字幕等。
患上益在自监视进修及噪声学生练习 (Noisy Student Training)等技能的前进,语音辨认的正确率于重音、嘈杂情况或者语音堆叠及多语言情况下,都有较着提高。基在从文本到语音合成方面的进展,愈来愈多的平台推出了朗诵技能,答应人们用听的方式获取网页或者文章内容,使信息更易超过模态及语言的障碍。
不变、及时天生的翻译以和高质量、不变、有保障的直接语音翻译,为利用差别语言交流的人们提供了更好的用户体验,呆板翻译中的及时语音翻译功效也已经获得极年夜改善。
将ML与传统的编解码要领相联合的新事情,可以促使更高保真度的语音、音乐或者其它声音以更低的比特率举行交流。另外一方面,Jeff Dean 还有暗示像主动呼叫或者者与 ML 智能体举行的一些一样平常互动性的功效变患上愈来愈天然。
纵然是用户可能会常常举行的,像智能文本选择等如许的简朴使命也获得了改良,可以实现主动选择德律风号码或者地址等,可以或许利便复制粘贴,或者者于手机上输入时的语法改正。
此外,“屏幕留意(Screen Attention )”可避免手机屏幕于被凝视时变暗,而且凝视辨认(Gaze Recognition)的改良为可拜候性及改善康健状态斥地了新的用例。ML 也正于启用新的要领来保障人们及社区的安全。例如, 可疑信息警报 ( Suspicious Message Alerts ) 对于可能存于的收集垂钓进犯发出正告、 安全线路(Safer Routing ) 可以检测到急刹车事务以和提供建议替换线路。

图注:近来的事情证实了凝视辨认可作为精力疲惫的主要生物标记物。
然而,这些新功效的开发离不开数据支撑,Jeff Dean 暗示鉴在此中潜于的敏感性问题,将其设置为于默许状况下私有长短常有须要的。
此中的许多功效是于安卓私有的计较焦点内运行,提供了一个与操作体系其它部门断绝的开源安全情况。安卓体系可以确保于私有计较焦点中处置惩罚的数据不会于用户不知情的环境下分享给任何运用步伐。安卓体系还有避免私有计较焦点内的任何功效直接拜候收集。
相反,这些功效经由过程一小套开源 API 与私有计较办事举行通讯,私有计较办事剥离了辨认信息,并使用了包括联邦进修、联邦阐发及私家信息检索于内的隐私技能,确保于进修的同时掩护隐私。

图注:联邦重修是一种新奇的部门局部联邦进修技能,此中模子被划分为全局及局部参数。对于在每一一轮联邦重修练习:(1) 办事器将当前全局参数 g 发送给每一个用户 i;(2) 每一个用户 i 冻结 g 并重修他们的局部参数 l_i;(3) 每一个用户i冻结 l_i 并更新 g 孕育发生 g_i ;(4) 对于用户的 g_i 取平均值,天生下一轮的全局参数。
于 Jeff Dean 看来,这些技能对于在成长下一代计较及交互模式至关主要。小我私家或者大众装备可以于不加害隐私的环境下,从团体模子中进修,并鞭策模子练习的前进。
用结合无监视的要领来进修上述的通用模子,并针对于特定的使命或者情况举行微调,可以孕育发生愈来愈多的智能体系,这些体系更像是一个社会实体而不是呆板,与之互动要更为直不雅。只有从边沿到数据中央,深切转变技能仓库(technology stacks),使其适量撑持神经计较,才有可能广泛而公允地利用这些智能接口。
4趋向4:呆板进修对于科学、康健及可连续成长的影响愈来愈年夜最近几年来,google看到 ML 于基础科学中的影响愈来愈年夜,从物理学到生物学,于很多相干范畴(例如可再生能源及医学)中都具备使人高兴的现实运用。
计较机视觉模子已经被部署用来解决小我私家及全世界规模内的问题,它们可以协助大夫举行一样平常事情,扩展人们对于神经心理学的理解,还有可以提供更好的气候预告成果及简化救灾事情。
经由过程发明削减碳排放及提高替换能源输出的要领,其他类型的 ML 模子被证实于应答天气变化方面至关主要。
跟着 ML 变患上越发硬朗、完美及得到更广泛的拜候,它于广泛的实际世界范畴中具备高影响力的运用的潜力继承扩展,有助在解决研究职员面对的一些最具挑战性的问题。
计较机视觉的年夜范围运用以得到新的洞察力
已往十年,计较机视觉的前进使计较性能够用在差别科学范畴的各类使命。好比,于神经科学中,主动重修技能可以从脑构造薄片的高分辩率电子显微镜图象中恢复脑构造的神经结缔布局。
前几年,google为果蝇、小鼠及鸣禽的年夜脑创立了此类资源。但于去年,他们与哈佛年夜学的 Lichtman 试验室互助,阐发了以不异粒度成像及重修的多种物种的年夜脑构造样本,并初次对于人类皮层中的突触毗连举行了年夜范围研究,该研究超过了皮层所有层的多种细胞类型。
这项事情的方针是得到一种新的资源来帮忙神经科学家研究人类年夜脑的繁杂性。例如,下图显示了成人年夜脑中约 860 亿个神经元中的 6 个神经元。

图注:来自人类皮层重修的单小我私家类枝形吊灯神经元,以和与该细胞毗连的一些锥体神经元。
此外,计较机视觉技能还有提供了强盛的东西来应答更年夜甚至全世界规模内的挑战。
例如,基在深度进修的气候预告要领,该要领利用卫星及雷达图象作为输入,联合其他年夜气数据,于长达 12 小时的猜测时间内,孕育发生比传统的基在物理的模子更正确的气候及降水预告。与传统要领比拟,它们还有可以更快地天生新的猜测,这于极度气候中很是主要。

图注:2020 年 3 月 30 日,差别模子猜测科罗拉多州丹佛市 0.2 毫米/小时降水量的比力。左图:真实数据,来历(MRMS)。中间:MetNet-2 猜测的几率图。右图:基在物理的 HREF 模子猜测的几率图。MetNet-2 可以或许于猜测中比 HREF 更早地猜测风暴的最先以和风暴的肇始位置,而 HREF 错过了肇始位置,但很好地捕获到了生长阶段。
正确记载修建萍踪对于在人口预计及都会计划等一系列运用至关主要。于世界很多处所,包括非洲年夜部门地域,这些信息之前都是不成用的。
但新事情注解,将计较机视觉技能运用在卫星图象可以帮忙辨认年夜陆标准的修建界限。这类要领的相干成果已经于 Open Buildings 数据集中发布,这是一个新的开放拜候数据资源,此中包罗 5.16 亿座修建物的位置及萍踪,笼罩非洲年夜陆的年夜部门地域。
Jeff Dean 团队还有于与世界食粮规划署的互助中利用这个数据集,经由过程运用呆板进修于天然灾难后提供快速的侵害评估。

于卫星图象中支解修建物的示例。左:源图象;中:语义支解,每一个像素都分配了一个置信度分数,注解它是修建物还有长短修建物;右图:实例支解,经由过程对于毗连组件举行阈值化及分组得到。
这些案例反应出的一个配合主题是,ML 模子可以或许基在对于可用视觉数据的阐发,高效、正确地履行专门的使命,撑持高度相干的下流使命。
主动化设计空间摸索
另外一种于多个范畴取患上结果的要领是,答应 ML 算法以主动化方式摸索及评估问题的设计空间以寻觅可能的解决方案。
好比于一个运用步伐中,基在 Transformer 的变分主动编码器进修创立雅观且有效的文档结构,而且可以扩大不异的要领来摸索可能的家具结构。
另外一种 ML 驱动的要领主动摸索游戏法则的巨年夜设计空间,以提高游戏的可玩性及其他属性,令人类游戏设计师可以或许更快地创立使人痛快的游戏。

图注:变分Transformer收集 (VTN) 模子的可视化,它可以或许提取结构元素(段落、表格、图象等)之间的成心义的瓜葛,以天生传神的合成文档(例如,具备更好的对于齐及边距)。
其他 ML 算法已经被用在评估 ML 加快器芯片自己的计较机架构决议计划的设计空间。
google还有注解,ML 可用在为 ASIC 设计快速创立芯片结构,这些结构优在人类专家天生的结构,而且可以于几小时而不是几周内天生。这降低了芯片的固定工程成本,并降低了为差别运用快速创立专用硬件的障碍。他们于行将推出的 TPU-v5 芯片的设计中乐成地利用了这类要领。
这类摸索性 ML 要领也已经运用在质料发明。于 Google Research 及加州理工学院的互助中,几个 ML 模子与改良的喷墨打印机及定制的显微镜相联合,可以或许快速搜刮数十万种可能的质料,发明了 51 种之前未表征的三金属氧化物质料,于电池技能及水电解等范畴具备运用远景。
这些主动化的设计空间摸索要领可以帮忙加快很多科学范畴,尤其是当天生试验及评估成果的整个试验轮回均可以以主动化或者年夜部门主动化的方式完成时。Jeff Dean 暗示,但愿看到这类要领于将来几年于更多范畴中阐扬优良的效果。
于康健范畴的运用
除了了推进基础科学,呆板进修还有可以更广泛地鞭策医学及人类康健的前进。
使用计较机科学于康健方面其实不是甚么新鲜事——事实上,google初期就开发软件来帮忙阐发风行病学数据。可是呆板进修打开了新的年夜门,带来了新的时机,也带来了新的挑战。
以基因组学范畴为例。自基因组学问世以来,计较一直很主要,但 ML 增长了新功效并推翻了旧范式。当google研究职员最先于这一范畴事情时,很多专家认为利用深度进修帮忙从测序仪输出揣度遗传变异的设法是穿凿附会的。
今天,这类呆板进修要领被认为是开始进的。但将来对于在 ML 来讲将饰演更主要的脚色——基因组学公司正于开发更正确、更快的新测序仪器,但也带来了新的推理挑战。
google发布的开源软件 DeepConsensus 以和与 UCSC 互助的 PEPPER-DeepVariant 撑持这些具备尖端信息学的新仪器。

图注:DeepConsensus 的 Transformer 架构示用意,可改正测序过错以提高产量及正确性。
除了了处置惩罚测序仪数据以外,还有有其他时机利用 ML 来加快研究职员将基因组信息用在个性化康健。广泛表型及测序个别的年夜型生物库可以完全转变人们理解及治理疾病遗传易感性的方式。
Jeff Dean 等人基在 ML 的表型阐发要领提高了将年夜型成像及文本数据集转换为可用在遗传联系关系研究的表型的可扩大性,他们的 DeepNull 要领更好地使用年夜型表型数据举行遗传发明,而且已经经开源。

图注:天生剖解及疾病特性的年夜范围量化以与生物库中的基因组数据相联合的历程。
正如 ML 帮忙研究职员看到基因组数据的隐蔽特性同样,它也能够帮忙发明新信息并从其他康健数据类型中网络新看法。疾病诊断凡是是关在辨认模式、量化相干性或者辨认更年夜种别的新实例——这些都是 ML 擅长的使命。
google研究职员已经经利用 ML 解决了广泛此类问题,但或许这些问题都没有比 ML 于医学成像中的运用更进一步。
事实上,google 2016 年的论文描写了深度进修于糖尿病性视网膜病变筛查中的运用,被美国医学会杂志 (JAMA) 的编纂选为十年来最具影响力的 10 篇论文之一——不单单是呆板进修及康健方面最有影响力的论文,甚至是整个十年中最具影响力的 JAMA 论文。
Jeff Dean 暗示,其团队成员但愿看到这类不异模式的辅助 ML 体系被部署用在改善乳腺癌筛查、检测肺癌、加快癌症放射医治、标志异样 X 射线及分期前列腺癌活检。
ML 辅助结肠镜查抄步伐是更高阶的有趣例子。结肠镜查抄不仅用在诊断结肠癌——于手术历程中切除了瘜肉是制止疾病进展及预防严峻疾病的主要部门。于这个范畴,研究职员已经经证实 ML 可以帮忙检测难以捉摸的瘜肉,而且可以增长质量包管的新维度,例如经由过程运用同步定位及映照技能举行笼罩映照。
经由过程与耶路撒冷的 Shaare Zedek 医疗中央互助,google展示了这些体系可以及时事情,于每一次手术中平均检测到一个原本会被遗漏的瘜肉,每一次手术的误报少在四个。

图注:胸部 X 光片 (CXR) 的真假阳性样本,以和 (A) 一般异样、(B) 结核病及 (C) COVID-19 的真假阴性成果。于每一个 CXR 上,红色轮廓暗示模子重点辨认异样的区域(即类激活图),黄色轮廓暗示放射科大夫辨认的感兴致区域。
另外一个医疗保健规划 Care Studio 利用开始进的 ML 及进步前辈的 NLP 技能来阐发布局化数据及医疗记载,于准确的时间向临床大夫提供最相干的信息——终极帮忙他们提供更自动及正确的照顾护士。
只管 ML 可能对于扩展临床情况的可和性及提高正确性很主要,但一个一样主要的新趋向正于呈现:ML 运用在帮忙人们提高一样平常康健及福祉。
咱们的一样平常装备具备强盛的传感器,可以帮忙使康健指标及信息平易近主化,以便人们可以就本身的康健做出更明智的决议。
智能手机摄像头已经经可以评估心率及呼吸频率以帮忙用户,而无需分外硬件的发布,以和撑持非接触式睡眠感到,并让用户更好地相识他们的夜间康健状态的装备。
一方面,小我私家可以于本身的 ASR 体系中显著提高无序语音的语音辨认质量,另外一方面,还有可使用 ML 帮忙重修有语音障碍的人的声音。撑持呆板进修的智能手机甚至可以帮忙人们更好地研究新呈现的皮肤状态或者帮忙目力有限的人慢跑。

图注:用在非接触式睡眠感到的自界说 ML 模子有用地处置惩罚持续的 3D 雷达张量流(总结一系列间隔、频率及时间的勾当),以主动计较用户苏醒或者睡着的可能性的几率。
呆板进修于天气危机上的运用
另外一个最主要的范畴是天气变化,这对于人类来讲是一个极为紧急的威逼。
是以,人们需要配合努力,旋转有害排放物的增加曲线,以确保安全及繁荣的将来。关在差别选择对于天气带来的影响的信息可以帮忙人类以多种差别方式应答这一挑战。
为此,google近来于 Google 舆图中推出了环保线路保举运用,他们预计这将每一年削减约 100 万吨二氧化碳排放(相称在从门路上削减 200,000 多辆汽车)。
此外,让舆图产物更智能地相识电动汽车有助在减缓里程焦急,鼓动勉励人们改用无排放汽车。google还有与世界各地的多个都会互助,利用汇总的汗青交通数据来帮忙改良交通讯号灯时间设置,于以色列及巴西举行的一项初期试点研究注解,燃料耗损及延误时间可以削减10-20%。

图注:借助环保线路运用,Google 舆图可以显示快及省油的线路。
于更长的时间规模内,聚变有望成为转变游戏法则的可再生能源。于与 TAE Technologies 的持久互助中,google利用 ML 经由过程建议设置 1000 多个相干节制参数来帮忙维持其聚变反映堆中的不变等离子体。
经由过程他们的互助,TAE 实现了诺曼反映堆的重要方针,这使研究职员离盈亏均衡聚变的方针更近了一步。该呆板于 30 毫秒内连结 3000 万开尔文的不变等离子体,这是其体系可用功率的规模。
google也于存眷天然灾难预防。去年,他们推出了由卫星数据提供撑持的野火界限图,以帮忙人们直接经由过程装备轻松相识火警的年夜致范围及位置。
于此基础上,研究职员此刻将google的所有野火信息整合于一路,并于全世界规模内推出google舆图上的新图层。他们一直于运用图形优化算法来帮忙优化火警疏散线路。
2021 年,google初次于现实的洪水预警体系中部署了基在 LSTM 的猜测模子及新的模子( Manifold inundation model)。

图注:Google 舆图中的野火层可于紧迫环境下为人们提供主要的最新信息。
ML 模子练习的碳排放是 ML 社区存眷的问题,google已经经证实了关在模子架构、数据中央及 ML 加快器类型的选择可以将练习的碳萍踪削减约 100-1000 倍。
5趋向5:对于呆板进修更深切的理解跟着呆板进修被更广泛地接管及运用,继承开发新技能可以推进呆板进修更好地造福在社会。
基在于线产物中的用户勾当的保举体系就是此中一个。凡是保举体系是由多个差别组件组成的,想要理解它们的公允属性,需要相识各个组件以和它们组应时的运行方式。
google最新的研究提高了单个组件及总体保举体系的公允性,帮忙用户更好地舆解这些“联系关系性”。并且,于从匿名用户勾当中进修时,保举体系以“中立”的方式进修至是十分须要的。从先前用户的数据中直接进修到的“经验”,可能带有显而易见的“成见”。假如不改正,那新用户可能会频仍收到不切合心意的产物保举。
与保举体系近似,上下文情况于呆板翻译中至关主要。年夜大都呆板翻译体系都是伶仃地翻译单个句子,没参考分外的上下文内容,无心间添加了性别、春秋等“歧视”属性。google去年宣布了一个专门针对于翻译中性别成见的数据集,用来研究基在维基百科列传的翻译成见。
部署呆板进修模子中另外一个常见问题是漫衍偏移(distributional shift):假如练习模子数据的统计漫衍与输入模子数据的统计漫衍差别,可能造成模子孕育发生的成果不成猜测。
google使用 Deep Bootstrap 框架对于比有限练习数据的实际世界与无穷数据的“年夜同世界”。从而更好地舆解模子的举动(真实中与抱负中的世界),研究职员可以开发泛化性更强的模子,对于固定练习数据集削减“成见”。
虽然呆板进修算法及模子开发一直备受存眷,但数据网络及数据集治理类的事情相对于较少。无庸置疑,它们是不成轻忽的范畴,由于练习呆板模子所依据的数据多是下流运用步伐中公允性问题的潜于来历。阐发呆板进修中此类数据级联,将有助在辨认项目周期中对于成果孕育发生庞大影响的很多因素。

图注:差别颜色的箭头暗示各类类型的数据级联,每一个级联凡是发源在上游,于ML开发历程中复合,并于下流出现。
更好地舆解数据是呆板进修研究的一个焦点环节。google开发了一类要领可以或许深切相识特定练习示例对于呆板进修模子的影响,由于过错标志的数据或者其他近似问题对于总体模子都有巨年夜负面影响。google还有构建了Know Your Data 东西,用以帮忙研究职员及从业者把握数据集属性,例如:怎样利用 Know Your Data 东西来摸索性别、春秋成见等问题。

图注:Know Your Data 的数据显示了描写吸引力的词与性别词之间的瓜葛
相识基准数据集利用的动态也十分须要,由于它们于呆板进修范畴的中阐扬着焦点作用。只管对于单个数据集的研究变患上更为普和,但整个范畴的数据集利用动态仍有神秘范畴待摸索。近来google发表了第一个关在数据集创立、采用及重用动态的年夜范围实证阐发。
创立更具包涵性及更少成见的大众数据集是可以改善呆板进修范畴的主要要领。2016 年,google发布了 Open Images 数据集,该数据集包罗约 900 万张图象,标注了涵盖数千个对于象种别的图象标签及 600 个种别的界限框解释。
去年,Jeff Dean团队于 Open Images Extended 调集中引入了更具包涵性的人物解释 (MIAP) 数据集。它有更完备的人类界限框解释,像感知性别暗示及感知春秋规模等都标有更为公允的属性。同时,研究职员还有构建了数据集搜刮来帮忙用户发明新的数据集。
处置惩罚各类情势的于线滥用举动,例若有害言论、愤恨言论及过错信息等,可以或许有用年夜范围检测这种滥用情势,对于确保平台安全、防止经由过程以无人监视的方式从于线话语中进修语言的此类负面特性的危害至关主要。
google经由过程 Perspective API 东西举行了事情,但年夜范围检测有害性所触及的细微不同仍旧是高难度挑战。Jeff Dean等引入了周全分类法来推理于线愤恨及骚扰的言论变化场合排场。
他们一样研究了怎样检测于收集中常被纰漏的隐藏有害情势,例如微歧视(microaggression)。研究了怎样用传统要领处置惩罚数据解释中的歧视,这些主不雅观点会边沿化少数人的不雅点,并提出了一种新的基在多使命框架的分类建模要领。
其他的潜于问题是,呆板进修语言理解及天生模子有时也会孕育发生缺乏证据撑持的成果。为了于问答、总结及对于话中解决这个问题,google开发了一个新框架权衡成果是否可以归因在特定来历,并随后发布了解释指南,证实可以或许靠得住地用在评估候选模子。
模子交互式阐发及调试仍旧是呆板进修的要害。google更新了语言可注释性东西,用新功效及技能推进这项事情,包括对于图象及表格数据的撑持,以和内置撑持经由过程观点激活向量测试技能举行公允性阐发等。
呆板进修体系的可注释性及对于模子决议计划历程的过后可重修性也是google卖力任的AI 愿景的要害部门。经由过程与 DeepMind 互助,研究职员于理解人类国际象棋观点于自棋战练习的 AlphaZero 国际象棋体系中的获取上取患了进展。

图注:摸索 AlphaZero 进修到的国际象棋观点。
google也于将人工智能的视线拓宽到西方配景以外。他们近来的研究查验了基在西方机谈判基础举措措施的传统算法公允框架的假定为什么于非西方配景下不顺应。
他们正于多个国度踊跃开展查询拜访研究,以相识人们对于人工智能的见解及偏好。西方对于算法公允性研究的框架往往只存眷少数几个属性,是以关在非西方配景的成见于很年夜水平上被轻忽,于经验上研究不足。
为相识决这一问题,google与密歇根年夜学互助,开发了一种弱监视要领,于 NLP 模子中稳健地检测更广泛的地舆文化配景中的辞汇误差,这些模子反应了人类于这些区域中对于进犯性及非进犯性语言的判定。
此外,他们还有摸索了 ML于南半球主导的情况中的运用,包括为以庄家为中央的呆板进修研究提出建议。
基在社区的研究要领,也为google设计数字福祉及解决呆板进修体系中的种族平等问题提供了依据,包括提高对于非裔美国人利用 ASR 体系体验的理解。
跟着ML模子于很多范畴的运用,私有信息的掩护一直是研究的重点。沿着这些思绪,google最新研究解决了年夜型模子中的隐私问题,既夸大了从年夜型模子中提取练习数据,也指出了于年夜型模子中实现隐私的要领,例如差分私有BERT。
除了了上面提到的联邦进修及阐发方面的事情以外,利用实用的呆板进修技能从而加强研究职员的东西箱,确保差分隐私,好比私有聚类、私有个性化、私有矩阵完成、私有加权采样、私有分位数、半空间的私有鲁棒进修,以和遍及样本高效的私有 PAC 进修,还有有扩大可针对于差别运用步伐及模子定制的隐私观点集,像标签隐私及用户与项目级另外隐私。

图注:差分私有聚类算法的可视化图示。
6结语研究凡是是对于实际世界孕育发生影响的持久过程。几年前发生的初期研究事情此刻对于google以致全球都孕育发生了巨年夜的影响。
对于ML 硬件加快器以和软件框架的投资已经取患上结果。ML 模子于很多差别产物及功效中愈来愈遍及,由于它们的强盛功效及易在表达的特色简化了 ML 模子于机能要害情况中的试验及出产。
对于创立 Seq2Seq、Inception、EfficientNet 及 Transformer 的模子架构的研究或者批归一化及蒸馏等算法研究正于鞭策语言理解、视觉、语音等范畴的前进。
更好的语言及视觉理解以和语音辨认等基本功效也许将具备厘革性,是以,这些类型的模子被广泛部署用在解决很多产物中的各类问题,包括搜刮、助理、告白、云、邮箱、舆图、视频、及翻译等等。
这些是呆板进修及计较机科学真正冲动人心的时刻。计较机经由过程语言、视觉及声音理解及与周围世界互动的能力不停提高,这为计较机怎样帮忙人们完成肆意的使命斥地了全新的范畴。这篇文章概述的五个趋向中谈到的示例将是这个持久过程中的路标!
原文链接:https://ai.谷歌blog.com/2022/01/谷歌-research-themes-from-2021-and.html
相干浏览google等揭破「AI使命疑问」:存于局限的ImageNet等基准,就像没法代表「整个世界」的博物馆
2022-01-03

与Jeff Dean聊ML for EDA,最好论文花落伯克利:EDA顶级集会DAC 2021 出色回首
2021-12-19

google科学家:方针优化欠好使?今天聊聊泛化这件事儿
2021-10-29

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





