米兰·(milan)中国官方网站-向真实世界应用进军:持续自监督学习的挑战
于 Yann Lecun 等人的鞭策下,自监视进修成了深度进修范畴最受瞩目的技能之一。互联网世界源源不停孕育发生的数据流无疑是充实阐扬自监视进修能力的最好泥土。然而,将自监视进修运用在天然场景将面对哪些严重的挑战?且看来自 CMU 的 Abhinav Gupta 团队怎样对于此睁开研究。编译 | OGAI
编纂 | 陈彩娴1择要自监视进修旨于消弭暗示进修对于人工标注的需求,咱们但愿自监视进修使用天然场景下的数据进修表征,即不需要有限的及静态的数据集。真实的自监视算法应该可以或许使用互联网上孕育发生的持续数据流,或者者使用智能体于摸索其情况时孕育发生的数据流。
可是传统的自监视进修要领于这类环境下有用吗?于本文中,咱们经由过程试验对于「持续自监视进修」问题睁开了研究。于天然场景放学习时,咱们但愿利用持续(无穷)的非自力同漫衍数据流,它遵照视觉观点的非平稳漫衍。咱们的方针是于不遗忘已往看到的观点的前提下,进修一种鲁棒、自顺应的表征。
本文指出,直接将现有的要领运用在这类持续进修的设定存于如下问题:(1)计较效率低下、数据使用率低(2)于一些流数据源中,时间相干性(数据非自力同漫衍)致使表征较差(3)于具备非平稳数据漫衍的数据源长进行练习时,揭示出灾害性遗忘的迹象。咱们作者提出利用回放缓冲区(replay buffer)来减缓低效及时间相干性问题。咱们进一步提出了一种新的要领,经由过程保留起码的冗余样原来加强回放缓冲区。最小冗余(MinRed)缓冲区让咱们纵然是于由单个具身智能体得到的序列化视觉数据构成的最具挑战性的流场景中,也能够进修到有用的表征,并减缓使用非平稳语义漫衍的数据进修时的灾害性遗忘问题。
2弁言计较机视觉范畴正履历着从「监视进修」到「自监视进修」的范式转换。于自监视进修场景下,因为咱们再也不受制在手动数据标注的成本,可以开释数据的真正潜能。最近几年来,一些事情最先将现有的要领拓展到包罗跨越 10 亿张图片的超年夜范围数据集上,从而但愿进修到更好的表征。那末,咱们是否预备幸亏天然场景下部署自监视进修,从而使用无穷的数据的全数潜力呢?

图注:传统自监视进修与连续自监视进修对于比。传统自监视进修设定下,数据集是固定的。而天然场景下连续网络到的数据是无穷、非自力同漫衍、具备非平稳语义的。是以,传统设定很难作为天然场景下部署的自监视进修的对于比基准。
只管自监视进修有望使用互联网或者呆板人智能体天生的无穷数据流,但当下的自监视进修要领仍旧依靠在传统的数据集设置。咱们采用堆集的图象及视频创立练习语料库,然后使用数百个颠末打乱的数据遍历优化模子。利用数据集的重要是为了复现基准测试。然而,这类传统的静态进修设置合用在作为自监视进修的基准测试吗?这类设置是否正确地反应了于天然场景下部署的自监视体系所面对的挑战?
谜底是否认的。例如,思量一个如许的自监视的体系,它试图进修收集多年堆集下来的汽车的表征。今朝的试验设定只评估静态进修,而不评估模子于不健忘旧车型的环境下顺应新车型的表征的能力。此外,部署的呆板人自监视进修智能体自动地从输入的视频中获取帧数据。因为时间是联贯的,这些数据具备很强的布局性及相干性。然而,因为现有的自监视基准测试依靠在经由过程随机抽样孕育发生自力同漫衍样本的数据集,它们并无反应这一挑战。
于本文中,咱们飘逸在数据驱动的自监视进修,进而研究现有的连续自监视进修要领的机能。详细而言,咱们切磋了两种部署的要领面对的挑战:(1)基在互联网的自监视模子,依靠在连续得到的图象/视频数据;(2)基在智能体的自监视体系,直接按照智能体传感器数据进修。以上两种方式都依靠在连续天生新数据的流数据源,为自监视进修基准测试带来了如下三个怪异的挑战:
(1)存储无穷数目的数据是不成行的。因为带宽或者传感器速率的限定,于天然场景下获取数据凡是要泯灭必然时间。是以,咱们不成能举行逐 Epoch 的练习。传统的自监视进修方式每一次利用一个样本,进修器的效率较低,常常需要等候可用的数据,未充实使用处置惩罚的数据。一些研究职员依赖回放缓冲区从练习历程中解耦出数据收罗事情。那末,于收罗数据同时使表征连续晋升的环境下,回放机制有多年夜的效果?
(2)不克不及「打乱」流数据源从而创立自力同漫衍样本的 mini-batch。相反,样本的挨次是由数据源自己决议的。练习数据纷歧定满意自力同漫衍要求,这对于传统的暗示进修要领带来了挑战。那末,怎样让现有的自监视要领,从而于各类非自力同漫衍前提放学习到鲁棒的表征?
(3)真实世界的数据长短平稳的。例如,于世界杯时期,人们会看到更多与足球相干的图片。此外,摸索室内情况的呆板人会不雅察到按照时间聚类的语义漫衍。智能的终身进修体系应该可以或许不停地进修新观点,同时不健忘来自非平稳数据漫衍的旧观点。然而,经验注解,传统的对于比进修要领可使表征对于当前的布过拟合,孕育发生遗忘征象。那末,咱们应该怎样设计可以于非平稳前提放学习的自监视进修要领?
本文的重要孝敬包括:确定了于连续自监视进修设定下呈现的三个要害挑战——即练习效率、对于非自力同漫衍数据流的鲁棒性及非平稳语义漫衍下的进修。咱们都构建了针对于性的数据流来模仿每一项挑战,定量地展示了现有自监视进修要领的错误谬误,提出了这些问题的开端解决方案。咱们摸索了缓冲自监视进修(Buffered SSL)的思惟,它用回放缓冲区来加强现有的要领,以提高练习效率。其次,咱们经由过程去除了存储样本的相干性,提出了一种新要领来处置惩罚非自力同漫衍数据流。咱们申明了,于非平稳数据漫衍下,去相干缓冲可以避免遗忘,并改善连续进修。
图注:于天然场景下部署连续自监视进修体系面对的三年夜挑战。起首,无线数据流中的样本没法反复,咱们利用回放缓冲区加强现有的自监视进修要领,显著减缓了该问题。其次,连续从天然场景下网络的数据往往于时间上是相干的,不满意优化算法的自力同漫衍假定。咱们经由过程加强回放缓冲区来保留最低限度的冗余样本(MinRed),从而天生相干性较低的数据。末了,于天然场景下网络到数据的在一分部长短平稳的,模子可能会「遗忘」于已往的漫衍中看到的观点。MinRed 缓冲区可以经由过程从各类语义类中网络怪异的样本减缓「遗忘」问题。
3流自监视进修 v.s 传统自监视进修现有的自监视进修要领依靠在固定巨细的数据集。这些数据集是有限、不成变、现成可用的。是以,咱们可以对于样本举行编号、打乱其挨次,于练习的所有节点上均可以获取样本。传统的自监视进修经由过程于数据集长进行多个 Epoch 的练习来使用这些特征的上风。
相较之下,连续自监视进修依靠在流数据源 S,即无标签传感器数据的时间序列
,该序列的长度多是无穷的。于给定的肆意时间点 t 上,从流数据源 S 中抓取数据会孕育发生当前的样本,此时没法获取将来的样本。只有于已往抓取时生存下来的样本才能被再次拜候。
于连续自监视进修设定下,数据加载时间及履行每一个优化步所需的时间之比是很主要的参数。于年夜大都环境下,因为数据架子速率较慢、传感器帧率较低,纵然利用并行化技能,优化算法仍旧需要等候数据加载。是以,连续自监视进修要领需要于利用流数据源中得到的样本举行练习的环境下,高效、连续地构建更好的表征。
4连续自监视进修有何上风?
扩增怪异图象的数目是否有助在暗示进修?
为了理解增加练习数据的范围的作用,咱们为所有于 2008 年至 2021 年间上传至图片分享网站 Flickr.com 的带有常识同享标签的图象付与编号。接着,咱们利用该编号创立了各类范围的数据集,经由过程多伦传统自监视进修要领练习视觉表征。咱们采用了代表性的对于比进修要领 SimSiam,它经由过程优化加强稳定性丧失来进修表征:

此中,及是对于在图象的两种随机变化,为模子输出的表征,sg 为住手梯度,g 为猜测头。

图注:利用 ResNet-18 骨干收集于差别范围的数据集上练习的 SimSiam 模子于 ImageNet 分类下流使命中的正确率。
如上图所示,利用更多元化的数据练习可以获得更好的表征,申明扩大怪异图象的范围是有益的,而连续自监视进修可以将这一特征阐扬到极致。
5连续自监视进修面对的挑战于连续自监视进修设定放学习表征带来了一些传统自监视进修要领不存于挑战:
(1)多轮练习 vs 单趟练习。于利用流数据源时,咱们没法从头拜候没有贮存的已往得到的样本。流数据的长度多是无穷的,将完备的流数据存储下来其实不可行,持续自监视要领需要经由过程于样本上「单趟」练习的方式进修表征。
(2)采样效率。因为传感器帧频或者带宽的限定,于实际世界中从流数据源中采样可能十分低效。因为优化算法可能于等候数据时处在余暇状况,进修表征所需的时间会显著增长。
(3)相干样本。很多天然场景下的流数据源存于时间相干性。例如,来从容线视频或者呆板人摸索情况的持续帧会揭示出微小的变化。这类相干性打破了传统优化算法所依靠的自力同漫衍假定。
(4)终身进修。利用无穷的数据流让咱们可能不停改良视觉表征。然而,天然场景下非平稳的数据流会致使自监视进修要领很快遗忘再也不与当前漫衍相干的特性。跟着咱们不停获取新数据,连续自监视进修要领怎样于不遗忘以前学到的观点的环境下将新观点集成到表征中?
上述挑战同时存于在天然场景下,直接评估当前的自监视进修要领会使咱们没法周全、零丁地阐发每一一项挑战。是以,咱们经由过程设计一组别离凸起各项挑战的数据流,评估其对于现有自监视进修要领的影响。
6高效练习计较效率及数据效率是今朝拦阻自监视进修于天然场景下的持续数据流上部署的两年夜挑战。对于在年夜大都现实运用来讲,可能很高,是以自监视进修要领应该更好地使用余暇时间来改良模子。其次,获取新样本的成本仍旧很高。简朴地将现有的自监视进修要领部署到流数据设定下会于利用一次后就抛弃每一批数据。然而,今朝的深度进修优化实践注解,于多个 epoch 中迭代地练习不异的样本有助在进修到更好的表征。
缓冲自监视进修

图注:缓冲自监视进修引入了回放缓冲区,使模子纵然于有限的带宽设定下仍旧能连续练习。
为了于流数据设定下晋升数据效率,咱们维护了一个固定巨细的回放缓冲区,存储极少量近来的样本。这个设法的灵感来自常被用在强化进修及监视连续进修的经验回放技能。如上图(a)所示,回放缓冲区将流数据源与练习历程解耦。当流数据可历时,可以将其添加到回放缓冲区,替代插手缓冲区时间最早的样本(即进步前辈先出的行列步队更新法则)。同时,经由过程对于缓冲区随机采样,可以随时天生练习数据的 batch。如上图(b)所示,回放缓冲区让咱们可以于余暇等候时期继承练习。回放缓冲区让咱们可以经由过程屡次采样来重用样本,从而削减总的数据成本。
单趟(One Pass)练习
咱们研究了回放缓冲区于利用单趟练习数据时的作用。咱们利用 Flickr 数据集中序号为前 2 万万的图象,别离练习了利用/不利用回放缓冲区的 ResNet-18 SimSiam 模子。

图注:具备带宽限定的流自监视进修。缓冲自监视进修可以使用余暇时间有用地改良进修到的表征
如上图所示,经由过程维护一个小的回放缓冲区(只包罗近来的 64,000 张图象),缓冲自监视进修可以或许充实使用余暇时间。与传统自监视进修要领比拟,显著改良了表征。回放缓冲区还有可以提高连续自监视进修设定下的数据效率,每一个样本均可以被屡次重用。数据使用率与超采样率 K 成正比,K 是为练习天生的 mini-batch 数与从流数据源获取的 mini-batch 数之比。
为了理解超采样的限定,咱们练习将一个带有回放缓冲区的 ResNet-18 SimSiam 模子练习了固定的更新次数。

图注:数据效率。经由过程回放缓冲区加强自监视进修要领可以晋升数据效率,使咱们可以单次练习数据流。
如上图所示,基在 Epoch 的自监视进修及缓冲自监视进修于优化更新次数不异的环境下,缓冲自监视进修的机能更佳。只管需要使用单趟数据举行练习,超采样率为 K=10 的缓冲自监视进修可以得到与基在 epoch 的练习相称的机能(纵然缓冲区的巨细仅为 64,000 张图象)。跟着超采样率晋升,回放缓冲区变患上愈来愈主要。例如,当 K=200 时,不管缓冲区巨细怎样,于数目不异的数据上,缓冲自监视进修仍旧相较在传统自监视进修有显著的晋升。然而,跟着缓冲区巨细晋升,进修到的表征也会更好。是以,于高度超采样时,缓冲区被来自流数据源的新图象迟缓更新,增年夜缓冲区的巨细可以避免模子快速过拟合缓冲区中的样本。
7相干数据源天然场景下获得的视觉数据往往是相干、非自力同漫衍的。这与传统自监视进修要领利用的数据形成为了光鲜的对于比。例如,ImageNet 数据集使咱们可以从 1,000 个匀称漫衍的对于象种别中对于图象采样。纵然是于更年夜的数据集上练习的要领,也不太可能于 mini-batch 中碰到高度相干的样本。可是,纵然是于静态图象设定下,连续自监视进修设定下的连续数据流也往往不满意上述假定。
令为一个样本序列,此中从年夜数据集中随机采样天生,这类采样类似在自力同漫衍。是以,样本及样本之间高度相干的几率较低。样真相关申明图象于视觉上十分相似,或者纵然视觉上不相似但描写了相似的语义内容。然而,于连续自监视进修设定下,自力同漫衍假定往往不被满意,即。假定连续的数据流中的持续样本具备不异的相干性几率,长度为 b 的 batch 中随机数据对于相干似然很年夜:

于引入尺寸为的回放缓冲区时,相干似然越低,则表征进修更有用。

最小冗余回放缓冲区
只管回放缓冲区可以减小相干性似然,但需要很是年夜的回放缓冲区,才能于样本高度相干的设定下获得较低的。为了减缓这一问题,咱们提出了一种批改后的回放缓冲区——最小冗余回放缓冲区(MinRed),它只保留去相干的样本,是以可以自动地降低。
为此,咱们基在进修到的嵌入空间确定冗余样本。假定一个回放缓冲区的最年夜容量为 B,它已经经包罗了 B 个具备表征的样本。为了向该缓冲区中插手新的样本 x,咱们按照所有样本对于之间的余弦间隔抛弃年夜大都冗余的样本:

换而言之,咱们抛弃那些与其近来邻具备最小余弦间隔的样本。
非自力同漫衍数据流上的试验
咱们评估了自监要领于两种具备高度时间相干性的数据流上的机能。第一个数据流是经由过程毗连 Kinetics 数据集中的视频样本创立的。咱们从每一个视频中随机采样帧,并将它们依次添加到数据流中。第二个练习流是 KrishnaCAM 数据集中的持续帧,记载了一位计较机视觉研究生九个月的以自我为中央的视频。咱们别离于每一个流数据上练习传统的 SimSiam、听过回放缓冲区加强的缓冲 SimSiam,经由过程 MinRed 缓冲区加强的 SimSiam。

图注:视觉上相干的自监视进修。于具备高度时间相干性的数据源上练习的缓冲及非缓冲 SimSiam 表征的线性分类效果。MinRed 经由过程对于数据举行解相干学到更好的表征。
如上图所示,数据的相干性严峻侵扰了传统模子的练习,而通例的回放缓冲区技能于必然水平上减缓了这个问题,但进修到的表征于高度相干的数据流(例如,的 Kinetics 数据集及 KrishaCAM 数据集)上仍旧会收到影响。相较之下,本文提出的 MinRed 缓冲于上述设定下体现出了显著的机能晋升。利用 MinRed 缓冲区练习的模子机能往往十分靠近利用彻底解相干的数据流练习。
练习样本的相干性:天生具备较低相干似然的练习样本是缓冲自监视进修的上风之一,是以这些样本越发靠近自力同漫衍。

图注:利用/不利用回放缓冲练习时的 batch 内的数据有关性。
如上图所示,MinRed 回放缓冲区中的内容比 FIFO 缓冲区中内容的相干性较着较低。于利用 KrishnaCAM 数据集时,MinRed 缓冲区可以或许维护已往更长的时间内的怪异帧。于利用 Kinetics 数据集时,MinRed 缓冲区用可以孕育发生包罗更多怪异视频中的帧组成的练习用 mini-batch。
8终身自监视进修于摸索世界时,咱们会碰到各类方针类的漫衍,会常常碰到一些不曾见过的种别,语义类的漫衍凡是会及时偶尔变化。然而,传统的自监视进修要领针对于有限的观点进修,这些观点被反复利用了数千次。这类简化的进修设定不克不及反应观点于天然场景下的非平稳特征。
用在自监视进修对于比基准的非平稳数据流
受监视式连续进修的开导,咱们引入了具备光滑偏移语义漫衍的设置。起首,咱们基在 Wordnet 的种别条理布局将 ImageNet-21K 数据集划分为 4 份
,每一一份包罗语义相似的种别的图象。对于在每一一类,咱们拿出 25 张图象用在评估。咱们经由过程从打乱的上述 4 个数据集
中依次随机采样图象并汇总,从而获得练习数据流。此中,是的摆列。如许一来,咱们就模仿了语义漫衍的光滑变化。咱们旨于进修到可以于不发生过拟合、不遗忘先前看到的观点的环境下,可以或许判别所有数据集中观点的表征。
非平稳漫衍上的试验
咱们别离于单趟数据流上利用传统的 SimSiam、带有回放缓冲区的 SimSiam、带有最小冗余缓冲区的 SimSiam 举行练习。于评估阶段,咱们使用学到的表征练习了一个线性分类器,用来辨认 ImageNet-21K 数据集中的所有种别,并于每一个的留出集上评估了模子正确率,试验成果取三次摆列的平均值。

图注:完备 ImageNet 数据集上的连续无监视表征进修试验成果。(a)于每一个使命的数据上练习,丈量于其它每一个使命上的正确率降落环境。最小冗余缓冲区可以保留先前使命的实例,是以减缓了传统自监视进修中的灾害性遗忘问题,可以或许有纪律地回放缓冲区中的内容。(b)15,790 个种别上的总体正确率。经由过程确保来自已往种别漫衍的图象没有被遗忘,最小冗余缓冲区可以进修更好的整体表征。
如上图所示,所有的要领机能城市遭到「遗忘」征象的侵害。然而,MinRed 缓冲区维护了语义规模更广的练习数据,利用了 MinRed 缓冲区的 SimSiam 的机能降落较小,始终具备较好的泛化能力。
9结语于本文中,作者指出了构建鲁棒、可部署的自监视进修器所面对的三年夜挑战。经由过程使用回放缓冲区从头拜候较早拜候过的样本,作者晋升连续自监视进修模子的效率。将来,研发经由过程预先评估样本价值实现快速拒绝样本的要领可能会提高数据效率。作者还有提出了新的最小冗余缓冲区技能,该技能可以抛弃相干性较强的样本,使咱们可以或许模仿自力同漫衍练习数据的天生。此外,将来的研究可以越发存眷使用数据流的相干性,从细粒度的差异中进修表征。
于具备非平稳语义漫衍的数据流中,作者发明 MinRed 缓冲区减缓了灾害性遗忘的问题,它们可以或许维护来自已往漫衍的怪异样本。然而,当引入新观点时,作者不雅察到「饱及泛化」的征象,这多是因为:(1)余弦衰减进修率(2)模子的容量是固定的,没法进修年夜的新观点序列。作者发明,利用恒定的进修率举行练习其实不能显著提高模子机能。作者还有发明,按期扩大模子架构其实不会带来较着的机能晋升。咱们需要以自监视的方式不停进修新的观点。

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





