米兰·(milan)中国官方网站-用Transformer做线代作业,真香!

编纂丨青暮
线性代数(linear algebra)是关在向量空间及线性映照的一个数学分支。
现代线性代数的汗青可以上溯到19世纪中期的英国。1843年,爱尔兰数学家哈密顿发明四元数。1844年,赫尔曼·格拉斯曼发表他的著作《线性外代数》(Die lineare Ausdehnungslehre),包括今日线性代数的一些主题。1848年,詹姆斯·西尔维斯特引入矩阵(matrix)。阿瑟·凯莱于研究线性变换时引入矩阵乘法及转置的观点。很主要的是,凯莱利用一个字母来代表一个矩阵,是以将矩阵当成了聚合对于象。他也意想到矩阵及行列式之间的接洽。
几多学子魂牵梦绕、夜不克不及寐的现代线性代数就是如许形成的。
古语有云:线代虐我千百遍,我待线代如初恋。搜刮“线代太难了”,google秒给我726, 000个相干成果。

一些同窗不由得吐槽,做线代题觉得本身像个傻子......(摸摸头)

不管是布局力学到人工智能,穷究理工科研究以后会发明处处都是线性代数的身影。线性代数的职位地方真的主要,这是科研人、技能人于实践中的最年夜感触感染。很多算法都用到线性代数常识,好比很是热点的深度进修,它的底层实现方式用到很多多少线性代数方面的常识。假如底层基础打欠好,不大白此中的道理,算法实现方式真的很难理解,更不成能去立异了。
12月3日,Facebook 人工智能研究院发布最新研究,可以用Transformers解决线性代数问题了!

论文地址:https://arxiv.org/pdf/2112.01898.pdf
Transformer 是 Google 的团队于 2017 年提出的一种 NLP经典模子。Transformer采用留意力机制( Self-Attention)来提高模子练习速率,它丢弃了传统的CNN及RNN,整个收集布局彻底是由Attention机制构成。重要由两部门构成:encoder及decoder。

Transformer最初为呆板翻译设计,后被运用在各类问题,从文本天生到图象处置惩罚、语音辨认等等。于数学中,Transformer年夜多运用集中于符号计较上,它“操作”数学符号,就像“操作”天然语言中的单词同样。
但数学≠ 符号处置惩罚:很多现实运用触及数值计较,切确(如算术)或者类似(如函数计较、方程数值解)。利用Transformer数值计较的研究较少,并且大都初期算术试验成果差能人意。
但有一个不成逃避的问题:数学及科学中的年夜大都问题都触及符号计较及数值计较。假如咱们但愿Transformer端对于端解决这些问题,它们就必需能举行高精度数值计较。
作者François Charton练习Transformer计较线性代数问题的解,线性代数是很多科学问题的基本构成部门:矩阵的基本运算、矩阵求逆、特性值及奇特值分化。
接下来咱们将先容四种将问题及解决方案暗示为Transformer可处置惩罚的编码方案,于天生的随机矩阵数据集上练习小型Transformer(至多 6 层,1000 到 5000 万个可练习参数)。练习过的模子计较问题的类似解(到其L1范数的几个百分比),切确度跨越90%(年夜大都环境下为99%)。
同时,泛化练习过的模子,经由过程更多样化的数据集(尤其是具备非自力及不异漫衍系数矩阵举行的练习),可以或许年夜年夜提高域外精度。
作者信赖这些成果为Transformer打开了全新世界的年夜门,为Transformer作为数学及科学问题的端对于端解算器摊平了门路。
1问题建模
第一步,将矩阵编码为序列。
由于问题的输入及输出是矩阵,要由Transformer处置惩罚,它们需要转换为token序列。
起首对于一个m×n矩阵举行编码,将其维度编码为两个符号标志(Vm及Vn),然后是其mn系数,编码为序列。于本文中,利用了四种矩阵系数的编码方案:P十、P1000、B1999 及 FP15。
于基数为 10 的位置编码 (P10) 中,是五个标志的序列:一个符号标志(+ 或者 -)、尾数的 3 位数字(从 0 到 9)及符号标志(来自E-100到E+100) 的指数。
例如,3.14 将暗示为
,并编码为
。下图中展示了一些编码的示例。

第二步,随机矩阵天生。
年夜大都试验是于匀称漫衍的随机矩阵数据集上练习模子的,[−A, A] (with A = 10)。有时,也对于具备不异尺度误差
的高斯系数举行采样。
于研究特性值问题的漫衍外泛化时,天生具备差别特性值漫衍的随机对于称矩阵(对于应在具备非 iid 系数的随机矩阵)。为此,作者应用高斯系数随机采样对于称矩阵M,并计较它们的特性值分化
P是特性向量的正交矩阵。然后,用从另外一个漫衍采样的对于角线D 替代M的特性值的对于角矩阵D。
末了从头计较
,一个对于称矩阵(由于P是正交的),特性值按选择漫衍,特性向量匀称漫衍于单元球面上。
进修转置矩阵相称在进修其元素的摆列。矩形矩阵的摆列触及更长的周期。作者研究了两个公式:
1.固定巨细环境,数据集中所有矩阵都具备不异维度,只需要进修一个摆列。
2.可变巨细的环境,数据集包括差别维度的矩阵,尽可能多的摆列进修。
于编码器及解码器中利用四种编码方案,并数据集上练习1 层、256 个维度及 8 个留意力头的Transformer。模子学会于跨越 99% 的测试用例正确猜测解决方案(具备 0% 的容差)。

进修两个m×n矩阵的加法相称在进修输入及输出位置之间的对于应瓜葛(如于转置问题中),以和于mn对于元素上履行浮点暗示中两个数字相加的算法。作者对于此练习了 1 层或者 2 层、8 个留意力头及 512 个维度的 Transformer。
对于在巨细不跨越 10 的固定巨细矩阵的加法,包括n=m及n≠m两种环境,于 1% 的容差规模到达99% 正确率(而且于 0.5% 内跨越 98%)。FP15 模子于 15×15 矩阵的 0.5% 容差内实现了 99.5% 正确率,而 B1999 模子于 20×20 矩阵上实现了 89.7% 正确率及 1% 的容差。
维度高达 10 的可变巨细矩阵由 2 层Transformer利用 B1999 编码猜测,正确率跨越 99.5%,容差为 1%。编码器中有一层,解码器中有 6 层的模子于不异的数据集上实现了 77% 及 87% 的正确率。下图总结了试验成果。

维数为m×n的矩阵M与向量
相称在计较V及M之间的m个点积。
每一次点积计较包罗n个乘法及n − 1 个加法,触及矩阵中的此中一行及向量中的所有系数。模子必需相识这2n个元素于计较中的位置,以和两个运算(加法及乘法)。
经由过程对于1 层或者2 层、跨越5×5矩阵的模子举行试验,作者不雅察到P10及P1000编码的模子才能练习到高精度。P1000编码机能最佳,两层及一层模子之间不同不年夜。对于在5×5及10×10平方矩阵,采用P1000编码的2层Transformer可实现99.9%以上的精度,容差为1%。成果汇总于下图中。

矩阵M及P的乘法是矩阵向量乘法的进阶版本,其对于矩阵 P 中的每一一列向量履行上述运算。及之前同样,只有利用P10及P1000的编码模子才能练习高精度猜测。
跨越5×5矩阵及近似巨细的矩形矩阵,练习模子精度与向量乘法不异(于 1% 容差下跨越 99%),但需要更深的解码器(4 到 6 层)。

咱们把留意力转向由迭代算法解决的非线性问题。
作者于编码器或者解码器中练习 4 层或者 6 层的模子,用以猜测对于称矩阵的特性值。
对于在 5×5 随机矩阵的样本,于 5% 的容差下到达 100% 的正确率,于所有四种编码下到达 98.5% 的 1%。对于在 8×8 矩阵,于 5% 及 1% 的容差下实现了 100% 及 85% 的正确率。
但也碰到了瓶颈,对于在年夜范围问题,模子难以进修:于 10×10 矩阵上,3.6 亿个示例可达 25% 的正确率及 5% 的容差。比拟之下,对于在5×5矩阵,模子于约莫 4000 万个样本中练习到最高正确率,对于在8×8矩阵,模子于约莫 6000 万个样本中练习到最高正确率。
这个限定经由过程于可变巨细的数据集上练习模子可以或许降服。于维度为 5-十、5-15 及 5-20 的矩阵样本上,模子于 5% 的容差下到达 100% 的正确率,于 1% 容差下到达 88%、94% 及 45%。利用 5-15 模子,10×10 矩阵的特性值可以于 2% 的容差下以 100% 的正确率举行猜测,于 1% 容差时为 73%。成果以下图所示。

除了了特性值,作者还有猜测了特性向量的正交矩阵。
于5×5矩阵上,利用P10及P1000编码的模子于5%容差的环境下,实现了97.0%及94.0%的正确率。FP15 型号的机能较弱,正确率为51.6%,但非对于称型号,带有6层FP15编码器及1层P1000解码器,于5%容差下的正确率为93.5%,于1%容差下的正确率为67.5%。P1000模子可以猜测6×6矩阵的特性向量,猜测正确率为81.5%。

5×5矩阵的求逆比以前使命难度更年夜,P10模子的正确率为 73.6%,P1000模子的正确率为80.4(5%容差,6层编码器及1层解码器)。
留意力头数目增长到 10 及 12 瞄准确率基本没影响,但可以加速练习速率:于约莫2.5亿个示例中,8头模子的练习正确率到达75%。非对于称模子实现了最高的正确率(90.0%)。

虽然这项使命与特性分化有关,但事实证实它的进修难度更年夜:利用P10或者P1000编码的多达6层Transformer可以猜测4×4矩阵的奇特值分化。单奇特值(容差为5%及1%)的正确率较高,别离为100%及86.7%,彻底分化的正确率别离为98.9%及75.3%。

此外,域外泛化及再练习中,作者为了练习模子,天生自力同漫衍 (iid) 系数的随机n×n矩阵,从[−A, A]上的匀称漫衍中采样。
Transformer假如想要解决线性代数问题,相识于 Wigner 矩阵上练习模子于差别特性值漫衍的矩阵上履行要领十分主要。
研究职员创立了 10,000 个矩阵的测试集,其漫衍与练习集差别。然后,天生差别特性值漫衍的矩阵的测试集:正特性值(特性值替代为其绝对于值的 Wigner 矩阵),以和按照匀称、高斯或者拉普拉斯定律的特性值漫衍,尺度误差为
及
。
为了提高漫衍外的正确性,作者于具备差别特性值漫衍的数据集上练习新模子,并于以前创立的测试集上评估它们。

终极获得一个主要成果:常被视为随机矩阵默许模子的 Wigner 矩阵可能不是练习Transformer的最好选择。非漫衍泛化需要尤其留意练习数据的天生。
保举浏览GAIR 2021年夜会首日:18位Fellow的40年AI岁月,一场技能前沿的传承与舌战
2021-12-10

致敬传奇:中国并行处置惩罚四十年,他们从无人区摸索走到计较的黄金时代 | GAIR 2021
2021-12-09

时间的气力——1991 人工智能年夜辩说 30 周年数念:主义再也不,共融互生|GAIR 2021
2021-12-12

论智三易,串联通信,领悟边沿,演进认知,汇在呆板:听五位IEEE Fellow泛论AI将来 | GAIR 2021
2021-12-25

新一代AI人材从哪里来,该往哪里去?| GAIR 2021院长论坛
2021-12-29

雷峰网雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





