米兰·(milan)中国官方网站-Richard Sutton 直言卷积反向传播已经落后,AI 突破要有新思路:持续反向传播
作者 | Richard Sutton
编译 | bluemin编纂 | 陈彩娴
“可塑性丧失”(Loss of Plasticity)是深度神经收集最常被诟病的一个错误谬误,这也是基在深度进修的 AI 体系被认为没法连续进修的缘故原由之一。
对于在人脑而言,“可塑性”是指孕育发生新神经元及神经元之间新毗连的能力,是人举行连续进修的主要基础。跟着春秋的增加,作为巩固已经学到常识的价钱,年夜脑的可塑性会逐渐降落。神经收集也是近似。
一个形象的例子是,2020 年热启动式(warm-starting)练习被证实:只有抛除了最初学到的内容,以一次性进修的方式于整个数据集上练习,才会取患上比力好的进修效果。
于深度强化进修(DRL)中,AI 体系往往也要“遗忘”神经收集以前所进修的所有内容,只将部门内容生存到回放缓冲区,再从零最先实现不停进修。这类重置收集的方式也被认为证实了深度进修没法连续进修。
那末,怎样才能使进修体系连结可塑性?
近日,强化进修之父 Richard Sutton 于 CoLLAs 2022 集会中作了一个题为“Maintaining Plasticity in Deep Continual Learning” 的演讲,提出了他认为可以或许解决这个问题的谜底:连续反向流传算法(Continual Backprop)。

Richard Sutton 起首从数据集的角度证实了可塑性丧失的存于,然后从神经收集内部门析了可塑性丧失的缘故原由,末了提出连续反向流传算法作为解决可塑性丧失的路子:从头初始化一小部门效费用较低的神经元,这类多样性的连续注入可以无穷期地连结深度收集的可塑性。
如下是演讲全文,AI 科技评论做了不改原意的收拾。
1可塑性丧失的真实存于深度进修是否能真正解决连续进修的问题?
谜底是否认的,重要缘故原由有如下三点:
“没法解决”是指犹如非深度的线性收集,进修速率终极会很是迟缓;
深度进修中采用的专业尺度化要领只于一次性进修中有用,与连续进修相违反;
回放缓存自己就是认可深度进修不成行的极度要领。
是以,咱们必需寻觅合用在这类新型进修模式的更优算法,挣脱一次性进修的局限性。
起首,咱们使用 ImageNet 及 MNIST 数据集做分类使命,实现回归猜测,对于连续进修效果举行直接测试,证实了监视进修中可塑性丧失的存于。
ImageNet 数据集测试
ImageNet 是一个包罗数百万张用名词标志的图象的数据集。它有 1000 个种别,每一个种别有700张或者更多图象,被广泛用在种别进修及种别猜测。
下面是一张沙鱼照片,经由过程下采样降到 32*32 巨细。这个试验的目的是从深度进修实践中寻觅最小的变化。咱们将每一个种别的 700 张图象划分成 600 个练习样例及 100 个测试样例,然后将 1000 个种别分成两组,天生长度为 500 的二元分类使命序列,所有的数据会议被随机地打乱挨次。每一个使命练习竣事后,咱们于测试样例上评估模子的正确率,自力运行 30 次后取平均,再进入下一个二元分类使命。

500 个分类使命会同享不异的收集,为了消弭繁杂性影响,使命切换后会重置头收集。咱们采用尺度收集,即 3 层卷积 + 3 层全毗连,不外对于在 ImageNet 数据集来讲输出层可能相对于小一些,这是因为一个使命只用了两种种别。对于在每一个使命,每一 100 个示例作为一个 batch,共有 12 个 batch,练习 250 个 epoch。于最先第一个使命前只举行一次初始化,使用 Kaiming 漫衍初始化权重。针对于交织熵丧失采用基在动量的随机梯度降落法,同时采用 ReLU 激活函数。
这里引出两个问题:
一、于使命序列中,机能会怎样演化?
二、于哪个使命上的机能会更好?是初始的第一个使命会更好?还有是后续使命会畴前面使命的经验中获益?
下图给出了谜底,连续进修的机能是由练习步长及反向流传综合决议的。
因为是二分类问题,偶尔性几率是 50%,暗影区域暗示尺度差,这类差异其实不显著。线性基准采用线性层直接处置惩罚像素值,没有深度进修要领效果好,这类差异很显著。
图注:利用更小的进修率(α=0.001)正确率会更高,于前 5 个使命中机能慢慢晋升,但从久远来看却呈降落趋向。咱们接着将使命数量增长到了 2000,进一步阐发了进修率对于在连续进修效果的影响,平均每一 50 个使命计较一次正确率。成果以下图。

图注:α=0.01 的红色曲线于第一个使命上的正确率约莫是 89%,一旦使命数跨越 50,正确率便降落,跟着使命数进一步增长,可塑性逐渐缺掉,终极正确率低在线性基准。α=0.001 时,进修速率减慢,可塑性也会急剧降低,正确率只是比线性收集高一点点。
是以,对于在优良的超参数,使命间的可塑性会衰减,正确率会比只利用一层神经收集还有要低,红色曲线所显示的险些就是“灾害性的可塑性缺掉”。
练习成果一样取决在迭代次数、步长数及收集尺寸等参数,图中每一条曲线于多个处置惩罚器上的练习时间是 24 小时,于做体系性试验时可能其实不实用,咱们接下来选择 MNIST 数据集举行测试。
MNIST 数据集测试
MNIST 数据集共包罗 60000 张手写数字图象,有 0-9 这 10 个种别,为 28*28 的灰度图象。
Goodfellow 等人曾经经由过程打乱挨次或者者随机摆列像素创立一种新的测试使命,如右下角的图象就是天生的摆列图象的示例,咱们采用这类要领来天生整个使命序列,于每一个使命中 6000 张图象以随机的情势出现。这里没有增长使命内容,收集权重只于举行第一个使命以前初始化一次。咱们可以用于线的交织熵丧失举行练习,一样继承利用正确率指标权衡连续进修的效果。

神经收集布局为 4 层全毗连层,前 3 层神经元数为 2000,末了一层神经元数为 10。因为 MNIST 数据集的图象居中并举行过缩放,以是可以不履行卷积操作。所有的分类使命同享不异的收集,采用了不含动量的随机梯度降落法,其他的设置与 ImageNet 数据集测试的设置不异。

图注:中间的图是于使命序列上自力运行 30 次取平均值后的成果,每一个使命有 6000 个样本,因为是分类使命,最先时随机猜的正确率是 10%,模子进修到摆列图象的纪律后,猜测正确率会逐渐晋升,但切换使命后,正确率又降到 10%,以是整体出现不停颠簸趋向。右侧的图是模子于每一个使命上的进修效果,初始正确率为 0,跟着时间推移,效果逐渐变好。于第 10 个使命上的正确率比第 1 个使命好,但于举行第 100 个使命时正确率有所降落,于第 800 个使命上的正确率比第一个还有要低。
为了搞清晰整个历程,后续还有需要重点阐发突出部门的正确率,对于其取均值后获得中间图象的蓝色曲线。可以清楚地看到,正确率刚最先会慢慢晋升,后面直到第 100 个使命时趋在平稳。那于第 800 个使命时正确率为何会急剧降落呢?
接下来,咱们于更多的使命序列上测验考试了差别的步长值,进一步不雅察它们的进修效果。成果以下图:

图注:红色曲线采用及前面试验不异的步长值,正确率简直于稳步降落,可塑性丧失相对于较年夜。
同时,进修率越年夜,可塑性减小的速率就越快。所有的步长值城市存于巨年夜的可塑性丧失。此外,隐蔽层神经元数量也会影响正确率,棕色曲线的神经元数量为 10000,因为神经收集的拟合能力加强,此时正确率会降落患上很是迟缓,仍有可塑性丧失,但收集尺寸越小,可塑性减小的速率也越快。
那末从神经收集内部来看,为何会孕育发生可塑性丧失?
下图注释了此中的缘故原由。可以发明,“灭亡”神经元数量占比太高、神经元的权重过年夜以和神经元多样性损失,都是孕育发生可塑性丧失的缘故原由。

图注:横轴仍旧都暗示使命编号,第一张图的纵轴暗示“灭亡”神经元的百分比,“灭亡”神经元是指输出及梯度总为 0 的神经元,再也不猜测收集的可塑性。第二张图的纵轴暗示权庞大小。第三张图的纵轴暗示残剩隐蔽神经元数量的有用等级。
2现有要领的局限性咱们阐发了现有的、反向流传之外的深度进修要领是否会有助在连结可塑性。

成果注解,L2 正则化要领会使可塑性丧失减小,于此历程中令权重缩小到 0,从而可以动态调解并连结可塑性。
紧缩及扰动要领与 L2 正则化近似,同时还有会向所有权重中插手随机噪声增长多样性,基本不会有可塑性丧失。
咱们还有测验考试了其他于线尺度化要领,最先时效果还有比力好,但跟着连续进修可塑性丧失严峻。Dropout 要领的体现更糟糕糕,咱们随机将一部门神经元设置为0再练习,发明可塑性丧失急剧加年夜。
各类要领对于神经收集内部布局也会孕育发生影响。利用正则化要领会使“灭亡”神经元数目百分比上升,由于于将权重缩小到 0 的历程中,假如其一直为 0 ,就会致使输出为 0,神经元就会“灭亡”。而紧缩及扰动向权重中添加了随机噪声,以是不会有太多的“灭亡”神经元。尺度化要领也有许多的“灭亡”神经元,它好像于朝着过错的标的目的走,Dropout 也近似。

权值随使命数目变化的成果更为合理,利用正则化会得到很小的权值,紧缩及扰动于正则化的基础上添加了噪声,权值降落幅度相对于削弱,而尺度化则会使权重变年夜。可是对于在 L2 正则化以和紧缩及扰动方,其隐蔽神经元数有用等级相对于较低,申明其于连结多样性方面体现较差,这也是一个问题。
迟缓变化的回归问题(SCR)
咱们所有的 idea 及算法都源自迟缓变化的回归问题试验,这是一个聚焦在连续进修的新的抱负化问题。
于这个试验中,咱们的目的是要实现一个具备随机权重的单层神经收集形成的方针函数,隐蔽层神经元为 100 个线性阈值神经元。
咱们没有做分类,只是天生了一个数字,是以这是一个回归问题。每一练习 10000 步,咱们才会从输入的后 15 位中选择 1 位举行翻转,是以这是一个迟缓变化的方针函数。
咱们的解决方案是用不异的收集布局,只包罗一个神经元的隐蔽层,同时包管激活函数可微,可是咱们将会有 5 个隐蔽神经元。这就近似在于 RL 中,智能体摸索的规模比交互的情况小许多,以是只能做类似处置惩罚,跟着方针函数的变化测验考试转变类似值,如许就会轻易做一些体系性试验。

图注:输入为 21 位随机的二进制数,第 1 位是值为 1 的输入常数误差,中间 5 位是自力同漫衍的随机数,其他 15 位是迟缓变化的常数,输出为实数。权值随机化为 0,可以随机地选择 +1 或者者 -1。
咱们进一步研究了变化的步长值及激活函数对于进修效果的影响,好比这里用了 tanh、sigmoid 及 relu 激活函数等:

以和激活函数情势对于所有算法进修效果的影响:

于步长及激活函数同时变化的环境下,咱们也对于 Adam 反向流传的影响做了体系性阐发:

末了是利用差别激活函数后,基在 Adam 机制的差别算法之间的偏差变化环境:

以上试验成果都注解深度进修要领已经经再也不合用在连续进修,碰到新的问题时,进修历程会变患上很是迟缓,没有表现出深度的上风。深度进修中的尺度化要领也只合适一次性进修,咱们需要改良深度进修要领才有可能将其用在连续进修中。
3连续反向流传卷积反向流传算法自己会是一个好的连续进修算法吗?
咱们认为不是。
卷积反向流传算法重要包罗两个方面:用小的随机权重举行初始化及于每一个时间步举行梯度降落。只管它于最先天生小的随机数来初始化权重,但其实不会再次反复。抱负环境下,咱们可能需要一些于任什么时候候均可以举行近似计较的进修算法。
那咱们怎样使卷积反向流传算法连续地进修?
最简朴的要领就是选择性地举行从头初始化,好比于履行几项使命落伍行初始化。但同时,从头初始化整个收集于连续进修中可能其实不合理,由于这象征着神经收集正于健忘全数所学内容。以是咱们最佳选择性地初始化神经收集的一部门,好比从头初始化一些“灭亡”神经元,或者者按照效费用对于神经收集举行排序,从头初始化效费用较低的神经元。
随机选择初始化的思惟与 2012 年 Mahmood 及 Sutton 提出的天生及测试要领有关,只需要天生一些神经元并测试它们的实用性,连续反向流传算法搭建了这两个观点之间的桥梁。天生及测试要领存于一些局限性,只用一个隐蔽层并只有一个输入迷经元,咱们将其扩大到多层收集,可以用一些深度进修要领举行优化。
咱们起首思量将收集设置成多层,再也不是单个输出。以前的事情提到过效费用的观点,因为只有一个权重,这个效费用只是权重层面的观点,可是咱们有多个权重,最简朴的泛化是思量权重乞降层面的效费用。
另外一个设法是思量特性的勾当,而不单单是思量输出权重,是以咱们可以将权重的总及乘以平均特性激活函数,从而分配差别的比例。咱们但愿设计可以或许连续进修并连结快速运行的算法,咱们于计较效费用的时辰还有思量了特性的可塑性。末了,将特性的平均孝敬转移到输出的偏置中,降低特性删除了的影响。

将来的改良标的目的重要有两点:(1)咱们需要对于效费用举行全局器量,权衡神经元对于所表征的整个函数的影响,而不单单局限在输入权重、输出权重及激活函数如许的局部器量;(2)咱们需要进一步改良天生器,今朝只是从初始漫衍中采样举行举行初始化,还有要摸索可以改善机能的初始化要领。
那末,连续反向流传于连结可塑性方面体现怎样呢?
试验成果注解,连续反向流传使用于线摆列的 MNIST 数据集练习,彻底连结了可塑性。下图中的蓝色曲线显示了这一成果。

图注:右图显示了差别替代率对于在连续进修的影响,例如替代率为 1e-6 暗示于每一个时间步长替代 1/1000000 个表征。即假定有 2000 个特性,每一走 500 步,就会于每一一层改换一个神经元。这个更新速率很是迟缓,以是替代率对于超参数不是很敏感,不会显著影响进修效果。
接下来,咱们需要研究连续反向流传对于在神经收集内部布局的影响。连续反向流传险些没有“灭亡”神经元,由于效费用思量了平均特性激活,假如某个神经元“灭亡”,会当即被改换。并且因为咱们不停改换神经元,咱们获得了权重幅度较小的新神经元。由于随机初始化了神经元,它们也响应地保留了更富厚的表征及多样性。

是以,连续反向流传解决了 MNIST 数据集上可塑性缺掉激发的全数问题。
那末,连续反向流传是否可以扩大到更深的卷积神经收集中?
谜底是必定的!于 ImageNet 数据集上,连续反向流传彻底连结了可塑性,模子终极的正确率于 89% 摆布。实在于初始的练习阶段,这几种算法的体现相称,前面提到过替代率的变化很是迟缓,使命数量充足年夜的时辰才类似的比力好。

这里以“Slippery Ant”问题为例展示一个强化进修的试验成果。
“Slippery Ant”问题长短平稳强化问题的一个扩大,与 PyBullet 情况基本近似,独一差别的是地面及智能体之间的磨擦力每一 1000 万步后会发生变化。咱们基在连续反向流传实现了连续进修版本的 PPO 算法,可以选择性初始化。PPO 算法及连续 PPO 算法的对于比成果以下图。

图注:PPO 算法于刚最先体现还有不错,但跟着练习举行机能不停降落,引入 L2 算法以和紧缩及扰动算法后会有所减缓。而连续 PPO 算法的体现相对于较好,保留了年夜部门可塑性。
有趣的是,PPO 算法练习的智能体只能挣扎着走路,可是连续 PPO 算法练习的智能体可以跑到很远之处。
4结论深度进修收集重要为一次性进修举行优化,从某种意义上说用在连续进修可能会彻底掉败。像尺度化及 DropOut 等深度进修要领对于在连续进修可能没有帮忙,可是于此基础上做一些小的改良可能会很是有用,好比连续反向流传。
连续反向流传按照神经元的效用对于收集特性举行排序,尤其是对于在递归神经收集,排序方式可能有更多改良要领。
强化进修算法使用了计谋迭代思惟,连续进修问题当然存于,连结深度进修收集的可塑性为 RL 及基在模子的 RL 斥地了巨年夜的新可能性。
原视频链接:https://www.youtube.com/watch?v=p_zknyfV9fY t=11s
更多内容,点击下方存眷:扫码添加 AI 科技评论 微旌旗灯号,投稿 进群:
雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





