米兰·(milan)中国官方网站-少于两层的transformer，且只有注意力块，GPT

作者：米兰·(milan)文化更新时间：2026-04-01 08:30:32 点击数：

只有一层或者两层、且只有留意力块的transformer，于机能上有望到达96层、兼具留意力块与MLP块的GPT-3的效果吗？

作者 | Mordechai Rorvig

编译 | bluemin

编纂 | 陈彩娴

于已往的两年里，基在Transformer架构开发的年夜范围语言模子于机能（如语言流利度）上到达了使人叹为不雅止的效果。

可是，Transformer对于单词的处置惩罚要领是甚么？学术界仍未有确定的谜底。遍及的理解是，transformer模子可以或许以某种方式同时存眷多个单词，以便当即举行“全局”阐发。但它究竟是怎样事情的，或者者这是不是transformer模子的真正处置惩罚方式，仍然错综复杂。

换言之，咱们知道菜品的配料，但不知道配方。

针对于这一问题，一家叫做 Anthropic AI 公司的研究职员举行了两项研究，但愿从底子上理清transformer于处置惩罚及天生文本时的事情内容是甚么。

他们发明，少在两层、且只有留意力块的transformer于某些方面也能到达繁杂transformer的效果，且可以或许帮忙理解暗地里的事情机制。

1少在两层的Transformer

于12月发布的第一篇论文（以下）中， Anthropic AI 公司的科研职员研究了transformer的简化版本，并周全注释了它们的功效。

这个事情获得了以色列理工学院 Yonatan Belinkov 的高度评价：“这篇论文很好地讲述了transformer架构于很是简朴的环境下是怎样事情的。”“我很是看好这项事情，它既有趣又有出路，而且有些怪异及新奇。”

论文地址：https://transformer-circuits.pub/2021/framework/index.html

按照论文内容，他们所研究的简化版transformer是先进修基本语言模式，再得到语言处置惩罚的通用能力。哈佛年夜学的 Martin Wattenberg 传授评价，他们的研究使患上transformer的竞争力获得年夜幅跃升，同时揭破transformer暗地里的事情道理。

于3月8日发布的第二篇论文中，研究职员发明，他们所提出的简化版transformer的能力于最繁杂的transformer模子中也阐扬了作用。他们于简朴模子中的发明可以运用到范围更年夜的模子中。虽然这些简化模子的数学道理仍旧高妙莫测，但其成果为深切理解transformers提供了一条新路子。

论文地址：https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html

理解 transformer 的难点于在其抽象性。传统的步伐遵照一个合乎情理的历程，例如，每一当看到“green”（绿色的）这个词，它们就会输出“grass”（草）这个词，而transformer将“green”这个词转换为数字，然后将它们乘以某些值。这些值（也称为参数）决议了下一个单词是甚么。参数于练习历程中获得了微调，模子会进修怎样天生最好输出，但不清晰模子详细于进修甚么。

年夜大都呆板进修步伐将其数学部门封装成模块化要素，并称之为“神经元”。transformer插手了别的一种要素，称为attention head（留意头），它们成组分层摆列，就像神经元同样。但head履行的操作与神经元差别。一般认为，head答应步伐记住输入的多个单词，但这仅是一知半解。

为了更好地舆解transformer的事情道理，Anthropic AI的研究职员简化了transformer的布局，去除了了所有的神经元层及除了一层或者两层之外的所有attention head层。这让他们发明了transformer及他们已经经彻底理解的更简朴模子之间的接洽。

咱们可以看最简朴的语言模子——二元模子，它再现了基本的语言模式。例如，于对于年夜量文本举行练习时，二元模子会留意到“green”一词后面最常呈现的单词（例如“grass”）并记住它。然后，于天生文本时，它会重现不异的模式。经由过程为每一个输入单词影象一个相干的后续单词，它可以得到很是基本的语言常识。

研究职员注解，具备一层attention head的 transformer 模子也具有一样的能力：它再现了所影象的内容。假定给定一个特定的输入，好比“Doctor Smith went to the store because Doctor X…”（史姑娘博士去市肆是由于X博士）这个输入被称为提醒或者上下文。对于咱们来讲，下一个词X指向“Smith”是显而易见的。

于颠末练习的单层模子中，attention head可以经由过程两个步调举行猜测。起首，它查看上下文中的末了一个单词（Doctor），并于上下文中搜刮它已经经进修（于练习时期）与末了一个单词相干联的特订单词。然后，对于在它找到的肆意单词，从中查找另外一个它已经经学会与找到的单词相干联的单词，就像于二元模子中同样，这可所以统一个词。再将这个联系关系的单词作为模子的输出。

于上述例子中，研究职员注解，按照末了一个单词“Doctor”，head经由过程练习知道怎样搜刮一个经常使用名称。于句子的前面找到“Smith”这个名字后，head会查看所学的与“Smith”联系关系的内容，并将该单词作为输出。于这类环境下，模子已经经学会将统一个词“Smith”与找到的词“Smith”相干联。整个历程的终极效果是模子将“Smith”一词从上下文复制到输出。

图注：从左到右别离为 Chris Olah、Catherine Olsson 与 Nelson Elhage

不外，到今朝为止，影象只能采用一种模式。没关系想一下，当Smith的名字酿成了一个虚构的名字，好比“Gigamuru”时会发生甚么。对于咱们而言，猜测下一个单词垂手可得，但模子于练习时期不会辨认出虚构的词，是以不成能记住它与其他词之间的任何干系，也不会天生它。

2引入归纳头

Anthropic 团队还有发明，当他们研究一个更繁杂的模子时，好比一个有两层attention head的模子，呈现了一种解决方案。它依靠在attention head独占的能力：不仅可以将信息挪动到输出，还有可以挪动到上下文中的其他位置。这类能力可使第一层的head使用前面单词的信息，进修解释上下文中的每一个单词。然后，第二个head可以搜刮“Doctor”（于本例中为“Gigamuru”）以前的单词，并像单层模子中的head同样，将其挪动到输出。

研究职员将后一层与前一层协作的attention head称为induction head（归纳头）。它不单单起到影象的作用。按照Nelson Elhage的注释，它还有可以做一些看起来更像是抽象推理或者算法实现的事情。

induction head可让两层模子阐扬更年夜的作用，但它们与全标准transformer的相干性尚不清晰，由于全标准transformer有数百个attention head协同事情。于他们的第二篇论文中，研究职员暗示这些发明获得了延续：induction head好像对于一些最繁杂、多层布局的举动起到了要害作用。

于这些举动中，算术能力尤为凸起，由于模子只接管了完成文本的练习。例如，假如给出反复提醒：“问:48+76是几多？答:124，问:48+76是几多？答:“全标准模子会获得准确谜底。”。于给出足够的非反复性示例后，它将可以或许准确回覆从未见过的算术问题。这类从语境中进修新能力的征象被称为上下文进修。

这类征象使人费解，由于从上下文中进修是不成能的。这是由于决议模子机能的参数只于练习时期调解，而不是于模子处置惩罚输入上下文时调解。

induction head至少解决了部门难题。它们注释了怎样使上下文进修的简朴及反复情势成为可能，而且提供了所需的功效：可以或许复制模子没有练习过的新单词（如“Gigamuru”或者“124”）。

另外一位来自Anthropic的合著者Catherine Olsson说：“induction head更有可能履行任何模式，纵然它有些奇特或者新奇。”

研究职员进一步于多条理模子中辨认出induction head，并注解它们介入了更新奇的上下文进修情势，好比进修语言间的翻译。

“这其实不是要注释整个机制，”OpenAI 的 Jacob Hilton 说。“只是induction head好像介入此中。”

这些成果为咱们理解transformer模子提供了一个安身点。它们不仅于获取常识，还有于进修怎样处置惩罚他们底子没有学到的事物。或许经由过程相识其事情机制，咱们可以对于“年夜放异彩”的transformer少些惊奇与感叹。

原文链接：

https://www.quantamagazine.org/researchers-glimpse-how-ai-gets-so-good-at-language-processing-20220414/

雷峰网(公家号：雷峰网)

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-少于两层的transformer，且只有注意力块，GPT

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天