米兰·(milan)中国官方网站-在Scaling Transformers用稀疏性就足够了！“有了这样的研究，我们以后或许能在笔记本电脑上托管 GPT

作者：米兰·(milan)文化更新时间：2026-04-06 03:20:54 点击数：

于Scaling Transformers用稀少性就充足了！“有了如许的研究，咱们之后也许能于条记本电脑上托管 GPT-3”

在Scaling Transformers用稀疏性就足够了！“有了这样的研究，我们以后或许能在笔记本电脑上托管 GPT-3”

年夜型模子于很多使命上都孕育发生了使人印象深刻的成果，可是练习及微调的成本很高，并且解码速率过慢，以至在研究及利用难度晋升。华沙年夜学，google研究及OpenAI的学者们经由过程使用稀少性来解决这个问题。他们研究了模子中所有层级的稀少变量，并提出了下一代Transformer模子族-Scaling Transformers。

作者｜郑宇宏

编纂｜陈彩娴

Scaling Transformers：

让年夜型语言模子更容易在治理

最近几年来，基在Transformer架构的年夜型神经收集，天然语言处置惩罚范畴取患了巨年夜的前进。前几年于Reddit上发布年夜量注水贴的thegentlemetre账号一周后才被人类觉察：这居然是一个运用步伐于“捣蛋”！它恰是以被称为地表最强的语言模子GPT-3为基础开发的步伐。

GPT-3作为一个年夜型语言模子，可以创作出整篇文章，纵然把这些文章及人类写的文章比拟较的话，都很难被区别出来。

可是这类“智慧”的模子却有一个毛病。

由于它的练习成本极高，不是每一个人都有资源来练习这类年夜型模子。

那末怎样让年夜型语言模子更容易在治理以合用一样平常需要呢？

华沙年夜学，google研究及OpenAI的学者们提出一个新的模子族-Scaling Transformers。

在Scaling Transformers用稀疏性就足够了！“有了这样的研究，我们以后或许能在笔记本电脑上托管 GPT-3”

论文地址：https://arxiv.org/abs/2111.12763

文章提出了一种经由过程稀少化收集中线性层的激活（前馈及 Q、K、V 投影）来练习年夜范围稀少模子的要领。该要领尤其吸惹人，由于它好像不需要任何特定在硬件或者初级另外优化便可有用。节制器收集于激活时天生一个块式 one-hot 掩码，并按照此掩码动态选择后续层的权重。当扩展模子巨细时，用稀少层来有用扩大并履行非批次解码的速率比尺度Transformer模子快的多。于参数数目不异的环境下，稀少层足以得到与尺度Transformer不异的困惑度。

2文章解读

Fabio Chiusano于NLP上发表了对于这篇论文的正面评价。Fabio Chiusano是Digitiamo 数据科学主管，也是人工智能范畴的顶级媒体作家。AI科技评论对于Chiusano的点评做了不改原意的收拾：

Scaling Transformer 真的颇有趣，由于当咱们扩展模子巨细时，它们答应有用地缩放语言模子而且比尺度 Transformer 更快地履行非批处置惩罚解码。严谨地说：

咱们称其d 为 Transformer 模子的参数个数。

然后，一个尺度的密集 Transformer 将需要类似d^2计较来举行猜测。

相反，稀少的 Scaling Transformer 将需要类似d^1.5计较。

假如说如许的改良看起来不较着，请思量一下这d凡是是一个很是高的数字，约莫数十亿，现实上试验注解，Scaling Transformer 为单个令牌带来了近 20 倍的猜测加快（从 3.690s 到 0.183 s) 关在具备 17B 个参数的密集 Transformer。留意：这些加快是针对于未批量猜测的。

在Scaling Transformers用稀疏性就足够了！“有了这样的研究，我们以后或许能在笔记本电脑上托管 GPT-3”

于具备建议的稀少机制（FF、QKV、FF+QKV）的 C4 数据集上，Scaling Transformers（相称在 T5 巨细，具备约莫 800M 参数）的对于数困惑度近似在基线密集模子。

在Scaling Transformers用稀疏性就足够了！“有了这样的研究，我们以后或许能在笔记本电脑上托管 GPT-3”

具备 17B 参数的 Terraformer 的单个令牌的解码速率比密集基线模子快 37 倍，推理所需的时间少在 100 毫秒/令牌。这里留意力稀少 = 64，ff-稀少 = 256，丧失稀少 = 4

稀少化的收益很是好。然而，当解码较长的序列时，它们会更糟糕，由于解码时间将由留意力操作节制。

幸运的是，已经经提出了很多要领来解决 Transformer 的这个问题，例如LSH（Locality-Sensitive Hashing）留意处置惩罚长序列及可逆层以提高内存效率。我会说这不是个眇乎小哉的成果！

这篇论文还有对于用在提高 Transformer 效率的其他技能举行了有趣的概述。我于这里陈诉了它的一些摘录，我认为它可以作为那些不认识 Transformer 技能效率的人的参考。

模子压缩。模子修剪经由过程于练习以后或者练习时期移除了不需要的权重来使矩阵更小。

模子蒸馏。模子蒸馏包括于先前练习的年夜模子（即西席）的输出上练习一个小模子（即学生）。用在挪动推理的几种天然语言模子依赖蒸馏来加快从预先练习的年夜型模子中举行推理。

稀少留意力。基在稀少留意力的要领经由过程归并分外的组合机制或者选择该层所存眷的标志子集，使留意力层越发高效，特别是对于在长序列。

稀少前馈。要害思惟是将前馈层划分为多个部门（称为专家），每一个令牌只检索一个部门，这降低了前馈块的繁杂性。这些加快重要以练习速率来权衡，而且该要领偏重在前馈块。专家要领的混淆已经被证实可以于练习中实现计较效率，扩大到一万亿个参数。

虽然今朝的成果有很多局限性。只管云云，这篇论文可以被认为是通往可连续年夜型模子的第一步。

各人怎么看？

参考资料

https://medium.com/nlplanet/two-minutes-nlp-scaling-transformers-with-sparsity-5bf004a7ea56

https://arxiv.org/abs/2111.12763

https://openreview.net/forum?id=-b5OSCydOMe

雷峰网(公家号：雷峰网)

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-在Scaling Transformers用稀疏性就足够了！“有了这样的研究，我们以后或许能在笔记本电脑上托管 GPT

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天