米兰·(milan)中国官方网站-用Transformer做线代作业，真香！

作者：米兰·(milan)文化更新时间：2026-04-12 18:54:14 点击数：

用Transformer做线代作业，真香！

作者丨莓酊

编纂丨青暮

线性代数（linear algebra）是关在向量空间及线性映照的一个数学分支。

现代线性代数的汗青可以上溯到19世纪中期的英国。1843年，爱尔兰数学家哈密顿发明四元数。1844年，赫尔曼·格拉斯曼发表他的著作《线性外代数》（Die lineare Ausdehnungslehre），包括今日线性代数的一些主题。1848年，詹姆斯·西尔维斯特引入矩阵（matrix）。阿瑟·凯莱于研究线性变换时引入矩阵乘法及转置的观点。很主要的是，凯莱利用一个字母来代表一个矩阵，是以将矩阵当成了聚合对于象。他也意想到矩阵及行列式之间的接洽。

几多学子魂牵梦绕、夜不克不及寐的现代线性代数就是如许形成的。

古语有云：线代虐我千百遍，我待线代如初恋。搜刮“线代太难了”，google秒给我726, 000个相干成果。

用Transformer做线代作业，真香！

一些同窗不由得吐槽，做线代题觉得本身像个傻子......（摸摸头）

用Transformer做线代作业，真香！

不管是布局力学到人工智能，穷究理工科研究以后会发明处处都是线性代数的身影。线性代数的职位地方真的主要，这是科研人、技能人于实践中的最年夜感触感染。很多算法都用到线性代数常识，好比很是热点的深度进修，它的底层实现方式用到很多多少线性代数方面的常识。假如底层基础打欠好，不大白此中的道理，算法实现方式真的很难理解，更不成能去立异了。

12月3日，Facebook 人工智能研究院发布最新研究，可以用Transformers解决线性代数问题了！

用Transformer做线代作业，真香！

论文地址：https://arxiv.org/pdf/2112.01898.pdf

Transformer 是 Google 的团队于 2017 年提出的一种 NLP经典模子。Transformer采用留意力机制（ Self-Attention）来提高模子练习速率，它丢弃了传统的CNN及RNN，整个收集布局彻底是由Attention机制构成。重要由两部门构成：encoder及decoder。

用Transformer做线代作业，真香！

Transformer最初为呆板翻译设计，后被运用在各类问题，从文本天生到图象处置惩罚、语音辨认等等。于数学中，Transformer年夜多运用集中于符号计较上，它“操作”数学符号，就像“操作”天然语言中的单词同样。

但数学≠ 符号处置惩罚：很多现实运用触及数值计较，切确（如算术）或者类似（如函数计较、方程数值解）。利用Transformer数值计较的研究较少，并且大都初期算术试验成果差能人意。

但有一个不成逃避的问题：数学及科学中的年夜大都问题都触及符号计较及数值计较。假如咱们但愿Transformer端对于端解决这些问题，它们就必需能举行高精度数值计较。

作者François Charton练习Transformer计较线性代数问题的解，线性代数是很多科学问题的基本构成部门：矩阵的基本运算、矩阵求逆、特性值及奇特值分化。

接下来咱们将先容四种将问题及解决方案暗示为Transformer可处置惩罚的编码方案，于天生的随机矩阵数据集上练习小型Transformer（至多 6 层，1000 到 5000 万个可练习参数）。练习过的模子计较问题的类似解（到其L1范数的几个百分比），切确度跨越90%（年夜大都环境下为99%）。

同时，泛化练习过的模子，经由过程更多样化的数据集（尤其是具备非自力及不异漫衍系数矩阵举行的练习），可以或许年夜年夜提高域外精度。

作者信赖这些成果为Transformer打开了全新世界的年夜门，为Transformer作为数学及科学问题的端对于端解算器摊平了门路。

1问题建模

用Transformer做线代作业，真香！

第一步，将矩阵编码为序列。

由于问题的输入及输出是矩阵，要由Transformer处置惩罚，它们需要转换为token序列。

起首对于一个m×n矩阵举行编码，将其维度编码为两个符号标志（Vm及Vn），然后是其mn系数，编码为序列。于本文中，利用了四种矩阵系数的编码方案：P十、P1000、B1999 及 FP15。

于基数为 10 的位置编码 (P10) 中，是五个标志的序列：一个符号标志（+ 或者 -）、尾数的 3 位数字（从 0 到 9）及符号标志（来自E-100到E+100) 的指数。

例如，3.14 将暗示为用Transformer做线代作业，真香！，并编码为。下图中展示了一些编码的示例。

用Transformer做线代作业，真香！

第二步，随机矩阵天生。

年夜大都试验是于匀称漫衍的随机矩阵数据集上练习模子的，[−A, A] (with A = 10)。有时，也对于具备不异尺度误差用Transformer做线代作业，真香！的高斯系数举行采样。

于研究特性值问题的漫衍外泛化时，天生具备差别特性值漫衍的随机对于称矩阵（对于应在具备非 iid 系数的随机矩阵）。为此，作者应用高斯系数随机采样对于称矩阵M，并计较它们的特性值分化用Transformer做线代作业，真香！ P是特性向量的正交矩阵。然后，用从另外一个漫衍采样的对于角线D 替代M的特性值的对于角矩阵D。

末了从头计较用Transformer做线代作业，真香！，一个对于称矩阵（由于P是正交的），特性值按选择漫衍，特性向量匀称漫衍于单元球面上。

2试验及成果矩阵转置

进修转置矩阵相称在进修其元素的摆列。矩形矩阵的摆列触及更长的周期。作者研究了两个公式：

1.固定巨细环境，数据集中所有矩阵都具备不异维度，只需要进修一个摆列。

2.可变巨细的环境，数据集包括差别维度的矩阵，尽可能多的摆列进修。

于编码器及解码器中利用四种编码方案，并数据集上练习1 层、256 个维度及 8 个留意力头的Transformer。模子学会于跨越 99% 的测试用例正确猜测解决方案（具备 0% 的容差）。

用Transformer做线代作业，真香！

矩阵加法

进修两个m×n矩阵的加法相称在进修输入及输出位置之间的对于应瓜葛（如于转置问题中），以和于mn对于元素上履行浮点暗示中两个数字相加的算法。作者对于此练习了 1 层或者 2 层、8 个留意力头及 512 个维度的 Transformer。

对于在巨细不跨越 10 的固定巨细矩阵的加法，包括n=m及n≠m两种环境，于 1% 的容差规模到达99% 正确率（而且于 0.5% 内跨越 98%）。FP15 模子于 15×15 矩阵的 0.5% 容差内实现了 99.5% 正确率，而 B1999 模子于 20×20 矩阵上实现了 89.7% 正确率及 1% 的容差。

维度高达 10 的可变巨细矩阵由 2 层Transformer利用 B1999 编码猜测，正确率跨越 99.5%，容差为 1%。编码器中有一层，解码器中有 6 层的模子于不异的数据集上实现了 77% 及 87% 的正确率。下图总结了试验成果。

用Transformer做线代作业，真香！

矩阵乘法

维数为m×n的矩阵M与向量用Transformer做线代作业，真香！相称在计较V及M之间的m个点积。

每一次点积计较包罗n个乘法及n − 1 个加法，触及矩阵中的此中一行及向量中的所有系数。模子必需相识这2n个元素于计较中的位置，以和两个运算（加法及乘法）。

经由过程对于1 层或者2 层、跨越5×5矩阵的模子举行试验，作者不雅察到P10及P1000编码的模子才能练习到高精度。P1000编码机能最佳，两层及一层模子之间不同不年夜。对于在5×5及10×10平方矩阵，采用P1000编码的2层Transformer可实现99.9%以上的精度，容差为1%。成果汇总于下图中。

用Transformer做线代作业，真香！

矩阵M及P的乘法是矩阵向量乘法的进阶版本，其对于矩阵 P 中的每一一列向量履行上述运算。及之前同样，只有利用P10及P1000的编码模子才能练习高精度猜测。

跨越5×5矩阵及近似巨细的矩形矩阵，练习模子精度与向量乘法不异（于 1% 容差下跨越 99%），但需要更深的解码器（4 到 6 层）。

用Transformer做线代作业，真香！

特性值

咱们把留意力转向由迭代算法解决的非线性问题。

作者于编码器或者解码器中练习 4 层或者 6 层的模子，用以猜测对于称矩阵的特性值。

对于在 5×5 随机矩阵的样本，于 5% 的容差下到达 100% 的正确率，于所有四种编码下到达 98.5% 的 1%。对于在 8×8 矩阵，于 5% 及 1% 的容差下实现了 100% 及 85% 的正确率。

但也碰到了瓶颈，对于在年夜范围问题，模子难以进修：于 10×10 矩阵上，3.6 亿个示例可达 25% 的正确率及 5% 的容差。比拟之下，对于在5×5矩阵，模子于约莫 4000 万个样本中练习到最高正确率，对于在8×8矩阵，模子于约莫 6000 万个样本中练习到最高正确率。

这个限定经由过程于可变巨细的数据集上练习模子可以或许降服。于维度为 5-十、5-15 及 5-20 的矩阵样本上，模子于 5% 的容差下到达 100% 的正确率，于 1% 容差下到达 88%、94% 及 45%。利用 5-15 模子，10×10 矩阵的特性值可以于 2% 的容差下以 100% 的正确率举行猜测，于 1% 容差时为 73%。成果以下图所示。

用Transformer做线代作业，真香！

特性向量

除了了特性值，作者还有猜测了特性向量的正交矩阵。

于5×5矩阵上，利用P10及P1000编码的模子于5%容差的环境下，实现了97.0%及94.0%的正确率。FP15 型号的机能较弱，正确率为51.6%，但非对于称型号，带有6层FP15编码器及1层P1000解码器，于5%容差下的正确率为93.5%，于1%容差下的正确率为67.5%。P1000模子可以猜测6×6矩阵的特性向量，猜测正确率为81.5%。

用Transformer做线代作业，真香！