米兰·(milan)中国官方网站-浙大蔡登团队：基于序列对比学习的长视频逐帧动作表征

作者：米兰·(milan)文化更新时间：2026-03-30 20:42:52 点击数：

浙大蔡登团队：基于序列对比学习的长视频逐帧动作表征

浙年夜蔡登团队联袂微软亚洲研究院，提出了一个新的对于比动作表征进修（CARL）框架，以自监视的方式进修逐帧动作表征，特别是针对于长视频；它思量了时空上下文来提取逐帧表征，是一种基在Transformer的简朴而高效的视频编码器。他们提出了一种新的序列对于比丧失（SCL），运用在经由过程一系列时空数据加强得到的两个相干的视图。于FineGym、PennAction及Pouring数据集上的试验注解，该要领于下流细粒度动作分类方面年夜年夜优在已经有的最新技能。值患上一提的是，虽然没有效成对于视频举行练习，但该要领于视频对于齐及细粒度帧检索使命方面也有着精彩的体现。

编译 | 龚倩

编纂 | 陈彩娴

1弁言

论文链接：https://arxiv.org/pdf/2203.14957.pdf

于已往几年中，基在深度进修的视频理解于视频分类使命上取患了巨年夜乐成。I3D及SlowFast等收集凡是将短视频片断（32帧或者64帧）作为输入，提取全局表征来猜测动作种别。不外，很多现实运用，例如手语翻译、呆板人模拟进修、动尴尬刁难齐及相位分类都要求算法可以或许对于具备数百帧的长视频举行建模，并提取逐帧表征，而不是全局特性。

浙大蔡登团队：基于序列对比学习的长视频逐帧动作表征

(a) 于FineGym 数据集上的细粒度帧检索

浙大蔡登团队：基于序列对比学习的长视频逐帧动作表征

(b) 于Pouring 数据集上的相位界限检测

浙大蔡登团队：基于序列对比学习的长视频逐帧动作表征

（c）于PennAction 数据集上的时间视频对于齐

之前的要领测验考试经由过程监视进修来进修逐帧表征，此中子动作或者相位界限被解释。然而，于年夜范围数据集上手动标志每一个帧及切确的动作界限很是耗时，甚至不切现实，从而故障了基在全监视进修练习的模子于实际场景中的推广。为了削减对于标志数据的依靠性，TCC、LAV及GTA等要领经由过程利用轮回一致性丧失或者软动态时间扭曲来举行弱监视进修。所有这些要领都依靠在视频程度的解释，而且是用体现不异动作的成对于视频举行练习的。该条件使患上于没有可用标签的更一般的视频数据集中没法运用这些要领。

本研究的目的因此自监视方式进修长视频中具备时空上下文信息的逐帧表征。受对于比表征进修最新进展的开导，咱们提出了一个新框架——对于比动作表征进修（CARL）。咱们假定于练习时期没有可用的标签，而且练习及测试集中的视频都很长（数百帧）。此外，咱们不依靠具备不异动作的成对于视频举行练习，从而可以或许以更低的成本扩展练习集范围。

为数百帧的长视频建模是一项挑战。直接利用为短视频片断分类而设计的现成骨架也不太实际，由于咱们的使命是提取长视频的逐帧表征。于本研究中，咱们提出了一种简朴而高效的视频编码器，它由一个对于每一帧的空间信息举行编码的2D收集及一个对于时间交互举行建模的Transformer编码器构成。然后利用逐帧特性举行表征进修。

近来，SimCLR利用实例辨别作为收集前置使命，并引入了一个名为NT-Xent的对于比丧失，该对于比丧失最年夜化不异数据的两个加强视图之间的一致性。于他们的实现中，除了正面参照样本外的所有实例都被判断为负样本。与图象数据差别的是，视频提供了更富厚的实例（每一一帧都被视为一个实例），相邻帧具备很高的语义相似性。直接将这些帧视为负样本可能会侵害进修历程。为了不这个问题，咱们提出了一种新的序列对于比丧失框架（SCL），它经由过程最小化两个加强视频视图的序列相似性与先验高斯漫衍之间的KL散度来优化嵌入空间。

综上，本文的重要孝敬总结以下：

咱们提出了一个名为对于比动作表征进修（CARL）的新架构，以自监视方式进修长视频中具备时空上下文信息的逐帧动作表征。咱们的要领不依靠在任何数据解释，也不合错误数据集举行假定。

咱们引入了一种基在Transformer的收集来对于长视频举行高效编码，及一种新的序列对于比损耗（SCL）用在表征进修。同时，咱们设计了一系列时空数据加强，以增长练习数据的多样性。

咱们的框架于差别数据集的多个使命上年夜年夜优在今朝为止开始进的要领。例如，于FineGym数据集上的线性评估和谈下，咱们的框架实现了41.75%的正确率，比现有的最好要领GTA超出跨越+13.94%。于Penn Action及Kendall s Tau数据集上，咱们的要领别离实现了91.67%及99.1%的细粒度分类，以和前五个细粒度帧检索精度的90.58%，这些成果都优在现有的最好要领。

2要领

2.1. 概述

图2中咱们对于CARL架构举行了概述。起首经由过程一系列时空数据加强为输入视频构建两个加强视图。此步调称为数据预处置惩罚。然后，咱们将两个加强视图输入到帧级视频编码器（FVE）中，以提取密集表征。遵照SimCLR，FVE附加了一个小型投影收集，它是一个两层的MLP，用在得到潜于嵌入。因为时间上相邻的帧高度相干，咱们假定两个视图之间的相似性漫衍遵照先验高斯漫衍。基在此，咱们提出了一种新的序列对于比丧失（SCL）来优化嵌入空间中的逐帧表征。

浙大蔡登团队：基于序列对比学习的长视频逐帧动作表征

图2 架构概述（CARL）。经由过程一系列时空数据加强，从练习视频构建两个加强视图。帧级视频编码器（FVE）及投影头经由过程最小化两个视图之间的序列对于比丧失（SCL）举行优化。

2.2. 视图构建

起首先容本要领的视图构建步调，如图2中的数据预处置惩罚部门所示。于自监视进修中，数据加强对于在防止普通解至关主要。之前针对于图象数据的要领只需要空间加强，与此差别，咱们引入了一系列时空数据加强，以进一步增长视频的多样性。

详细而言，对于在一个具备S帧的练习视频V，咱们的方针是经由过程一系列时空数据加强，自力地组织两个T帧的加强视频。对于在时间数据加强，咱们起首对于V履行随机时间裁剪，以天生两个长度为[T，αT]帧的随机裁剪片断，此中α是节制最年夜裁剪长度的超参数。于此历程中，咱们包管两个剪辑片断之间至少存于β%的堆叠帧。然后对于每一个视频序列随机采样T帧，得到视频序列V1及V2，默许设置T=240。对于在小在T帧的视频，于淘汰以前会对于空帧举行填充。末了，别离于V1及V2上运用几种时间一致的空间数据加强，包括随机调解巨细及裁剪、程度翻转、随机颜色掉真及随机高斯恍惚。

图3 帧级视频编码器（FVE）的布局。输入T帧长视频，输出逐帧表征。ResNet-50于ImageNet长进行了预练习。咱们冻结了ResNet-50的前四个残差块，只微调末了一个块。

2.3. 帧级视频编码器

直策应用视频分类架构对于数百帧的长视频序列举行建模，因其计较量巨年夜而没法实现。TCC提出了一种视频编码器，它将2D ResNet及3D卷积相联合，以天生逐帧特性。然而叠加太多3D卷积层会致使计较成本太高。这致使这类类型的设计可能只有有限的感触感染野来捕获时间上下文。近来，Transformers于计较机视觉方面取患了巨年夜的前进。Transformers使用留意机制解决序列到序列使命，同时轻松处置惩罚远间隔依靠瓜葛。于本收集实现中，咱们采用了Transformer编码器来建模时间上下文。

图3展示了咱们的帧级视频编码器（FVE）。为了于表征机能及推理速率之间到达均衡，咱们起首利用一个2D收集（例如ResNet-50）沿时间维度提取长度为T×224×224×3的RGB视频序列的空间特性。然后用一个转换块（该转换块由两个具备批量归一化ReLU的全毗连层构成），将空间特性投影到巨细为T×256的中间嵌入。遵照通例做法，咱们于中间嵌入的顶部添加了正弦-余弦位置编码，以编码挨次信息。接下来，将编码后的嵌入输入到3层Transformer编码器中，以对于时间上下文举行建模。末了，采用一个线性层来获取终极的逐帧表征H。

浙大蔡登团队：基于序列对比学习的长视频逐帧动作表征

图4 序列对于比丧失图解。以V1中的一个视频帧丧失计较历程为例。咱们起首计较时间戳间隔的先验高斯漫衍。然后计较该帧的嵌入与V2中所有视频帧的嵌入之间的嵌入相似性漫衍，末了将嵌入空间中两个漫衍的KL散度最小化。

2D 的ResNet-50收集于ImageNet长进行了预练习。思量到计较预算有限，咱们冻结了前四个残差块，由于它们已经经经由过程预练习进修了优良的初级视觉表征。这类简朴的设计确保本收集可以于跨越500帧的视频长进行练习及测试。VTN采用了一种近似的基在Transformer的混淆收集来履行视频分类使命。他们利用[CLS]令牌来天生全局特性，而咱们的收集是经由过程思量时空上下文来提取帧表征。此外，咱们的收集测验考试了对于更长的视频序列举行建模。

2.4. 序列对于比丧失

SimCLR经由过程最年夜化统一实例的加强视图之间的一致性，引入了一个叫做NTXent的对于比丧失。

与图象的自监视进修差别，视频提供了富厚的序列信息，这是一个主要的监视旌旗灯号。对于在典型的实例判别，除了了正面参考样本以外的所有实例都被判断为负样本。然而，参考帧四周的帧高度相干。直接将这些帧视为负样本可能会侵害进修历程，是以咱们应该只管即便防止这个问题。为了优化逐帧表征，咱们提出了一种新的序列对于比丧失（SCL），它经由过程最小化两个加强视图的嵌入相似性及先验高斯漫衍之间的KL散度来实现，如图4所示。

详细来讲，与SimCLR近似，咱们利用一个由两层MLP构成的小型投影收集g，由FVE编码的帧表征H由该投影收集投影到潜于嵌入Z。思量到两个视频序列V1及V2对于应的嵌入向量Z1及Z2中每一个潜于嵌入，于时间上相邻的帧比相距更远的帧相干性更高，咱们假定每一个视频帧的潜于嵌入及另外一个视频序列的潜于向量之间的嵌入相似性遵照时间戳间隔的先验高斯漫衍。基在这个假定，咱们利用KL散度优化嵌入空间。详细来讲，对于在V1，咱们起首计较 V1中每一个帧的丧失，然后计较V1所有帧丧失的平均值即为V1的总丧失，V2同理，序列对于比丧失为两个视频序列V1及V2总丧失的及。值患上留意的是，本要领中的丧失其实不依靠在V1及V2之间的帧到帧的对于应瓜葛，这增长了时空数据加强的多样性。

3试验成果

咱们利用三个视频数据集，即PennAction、FineGym及Pouring来评估本要领的机能。咱们于三个数据集大将本要领与迄今为止开始进的技能举行了比力。

PennAction数据集上的成果

如表2所示，咱们陈诉的成果低在平均精度@K指标（Average Precision@K metric），该指标权衡细粒度帧检索的机能。出乎意料的是，只管咱们的模子没有颠末成对于数据的练习，但它仍旧可以从其他视频中乐成地找到具备相似语义的帧。对于在所有的AP@K，咱们的要领优在之前的要领至少11%。

表2 于PennAction数据集上的细粒度帧检索成果。

FineGym数据集上的成果

表3总结了FineGym99及FineGym288上细粒度动作分类的试验成果。成果显示咱们的要领优在其他自监视及弱监视要领。咱们的要领于FineGym99及FineGym288上的机能比以前开始进的要领GTA别离超出跨越+13.94%及+11.07%。如TCC、TW及GTA等弱监视要领假定练习集中的两个视频之间存于最好对于齐。然而，对于在FineGym数据集，纵然于描写统一动作的两个视频中，子动作的设置及挨次也可能差别。是以，这些要领找到的对于齐可能不准确，于是会拦阻进修。咱们的要领于两个指标上有很年夜的提高，从而验证了咱们框架的有用性。