米兰·(milan)中国官方网站-少于两层的transformer,且只有注意力块,GPT
只有一层或者两层、且只有留意力块的transformer,于机能上有望到达96层、兼具留意力块与MLP块的GPT-3的效果吗?作者 | Mordechai Rorvig
编译 | bluemin
编纂 | 陈彩娴于已往的两年里,基在Transformer架构开发的年夜范围语言模子于机能(如语言流利度)上到达了使人叹为不雅止的效果。
可是,Transformer对于单词的处置惩罚要领是甚么?学术界仍未有确定的谜底。遍及的理解是,transformer模子可以或许以某种方式同时存眷多个单词,以便当即举行“全局”阐发。但它究竟是怎样事情的,或者者这是不是transformer模子的真正处置惩罚方式,仍然错综复杂。
换言之,咱们知道菜品的配料,但不知道配方。
针对于这一问题,一家叫做 Anthropic AI 公司的研究职员举行了两项研究,但愿从底子上理清transformer于处置惩罚及天生文本时的事情内容是甚么。
他们发明,少在两层、且只有留意力块的transformer于某些方面也能到达繁杂transformer的效果,且可以或许帮忙理解暗地里的事情机制。
1少在两层的Transformer于12月发布的第一篇论文(以下)中, Anthropic AI 公司的科研职员研究了transformer的简化版本,并周全注释了它们的功效。
这个事情获得了以色列理工学院 Yonatan Belinkov 的高度评价:“这篇论文很好地讲述了transformer架构于很是简朴的环境下是怎样事情的。”“我很是看好这项事情,它既有趣又有出路,而且有些怪异及新奇。”

论文地址:https://transformer-circuits.pub/2021/framework/index.html
按照论文内容,他们所研究的简化版transformer是先进修基本语言模式,再得到语言处置惩罚的通用能力。哈佛年夜学的 Martin Wattenberg 传授评价,他们的研究使患上transformer的竞争力获得年夜幅跃升,同时揭破transformer暗地里的事情道理。
于3月8日发布的第二篇论文中,研究职员发明,他们所提出的简化版transformer的能力于最繁杂的transformer模子中也阐扬了作用。他们于简朴模子中的发明可以运用到范围更年夜的模子中。虽然这些简化模子的数学道理仍旧高妙莫测,但其成果为深切理解transformers提供了一条新路子。

论文地址:https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html
理解 transformer 的难点于在其抽象性。传统的步伐遵照一个合乎情理的历程,例如,每一当看到“green”(绿色的)这个词,它们就会输出“grass”(草)这个词,而transformer将“green”这个词转换为数字,然后将它们乘以某些值。这些值(也称为参数)决议了下一个单词是甚么。参数于练习历程中获得了微调,模子会进修怎样天生最好输出,但不清晰模子详细于进修甚么。
年夜大都呆板进修步伐将其数学部门封装成模块化要素,并称之为“神经元”。transformer插手了别的一种要素,称为attention head(留意头),它们成组分层摆列,就像神经元同样。但head履行的操作与神经元差别。一般认为,head答应步伐记住输入的多个单词,但这仅是一知半解。
为了更好地舆解transformer的事情道理,Anthropic AI的研究职员简化了transformer的布局,去除了了所有的神经元层及除了一层或者两层之外的所有attention head层。这让他们发明了transformer及他们已经经彻底理解的更简朴模子之间的接洽。
咱们可以看最简朴的语言模子——二元模子,它再现了基本的语言模式。例如,于对于年夜量文本举行练习时,二元模子会留意到“green”一词后面最常呈现的单词(例如“grass”)并记住它。然后,于天生文本时,它会重现不异的模式。经由过程为每一个输入单词影象一个相干的后续单词,它可以得到很是基本的语言常识。
研究职员注解,具备一层attention head的 transformer 模子也具有一样的能力:它再现了所影象的内容。假定给定一个特定的输入,好比“Doctor Smith went to the store because Doctor X…”(史姑娘博士去市肆是由于X博士)这个输入被称为提醒或者上下文。对于咱们来讲,下一个词X指向“Smith”是显而易见的。
于颠末练习的单层模子中,attention head可以经由过程两个步调举行猜测。起首,它查看上下文中的末了一个单词(Doctor),并于上下文中搜刮它已经经进修(于练习时期)与末了一个单词相干联的特订单词。然后,对于在它找到的肆意单词,从中查找另外一个它已经经学会与找到的单词相干联的单词,就像于二元模子中同样,这可所以统一个词。再将这个联系关系的单词作为模子的输出。
于上述例子中,研究职员注解,按照末了一个单词“Doctor”,head经由过程练习知道怎样搜刮一个经常使用名称。于句子的前面找到“Smith”这个名字后,head会查看所学的与“Smith”联系关系的内容,并将该单词作为输出。于这类环境下,模子已经经学会将统一个词“Smith”与找到的词“Smith”相干联。整个历程的终极效果是模子将“Smith”一词从上下文复制到输出。

图注:从左到右别离为 Chris Olah、Catherine Olsson 与 Nelson Elhage
不外,到今朝为止,影象只能采用一种模式。没关系想一下,当Smith的名字酿成了一个虚构的名字,好比“Gigamuru”时会发生甚么。对于咱们而言,猜测下一个单词垂手可得,但模子于练习时期不会辨认出虚构的词,是以不成能记住它与其他词之间的任何干系,也不会天生它。
2引入归纳头Anthropic 团队还有发明,当他们研究一个更繁杂的模子时,好比一个有两层attention head的模子,呈现了一种解决方案。它依靠在attention head独占的能力:不仅可以将信息挪动到输出,还有可以挪动到上下文中的其他位置。这类能力可使第一层的head使用前面单词的信息,进修解释上下文中的每一个单词。然后,第二个head可以搜刮“Doctor”(于本例中为“Gigamuru”)以前的单词,并像单层模子中的head同样,将其挪动到输出。
研究职员将后一层与前一层协作的attention head称为induction head(归纳头)。它不单单起到影象的作用。按照Nelson Elhage的注释,它还有可以做一些看起来更像是抽象推理或者算法实现的事情。
induction head可让两层模子阐扬更年夜的作用,但它们与全标准transformer的相干性尚不清晰,由于全标准transformer有数百个attention head协同事情。于他们的第二篇论文中,研究职员暗示这些发明获得了延续:induction head好像对于一些最繁杂、多层布局的举动起到了要害作用。
于这些举动中,算术能力尤为凸起,由于模子只接管了完成文本的练习。例如,假如给出反复提醒:“问:48+76是几多?答:124,问:48+76是几多?答:“全标准模子会获得准确谜底。”。于给出足够的非反复性示例后,它将可以或许准确回覆从未见过的算术问题。这类从语境中进修新能力的征象被称为上下文进修。
这类征象使人费解,由于从上下文中进修是不成能的。这是由于决议模子机能的参数只于练习时期调解,而不是于模子处置惩罚输入上下文时调解。
induction head至少解决了部门难题。它们注释了怎样使上下文进修的简朴及反复情势成为可能,而且提供了所需的功效:可以或许复制模子没有练习过的新单词(如“Gigamuru”或者“124”)。
另外一位来自Anthropic的合著者Catherine Olsson说:“induction head更有可能履行任何模式,纵然它有些奇特或者新奇。”
研究职员进一步于多条理模子中辨认出induction head,并注解它们介入了更新奇的上下文进修情势,好比进修语言间的翻译。
“这其实不是要注释整个机制,”OpenAI 的 Jacob Hilton 说。“只是induction head好像介入此中。”
这些成果为咱们理解transformer模子提供了一个安身点。它们不仅于获取常识,还有于进修怎样处置惩罚他们底子没有学到的事物。或许经由过程相识其事情机制,咱们可以对于“年夜放异彩”的transformer少些惊奇与感叹。
原文链接:
https://www.quantamagazine.org/researchers-glimpse-how-ai-gets-so-good-at-language-processing-20220414/

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





