米兰·(milan)中国官方网站-从视音角度看多模态学习的过去与未来

作者：米兰·(milan)文化更新时间：2026-03-15 13:49:50 点击数：

作者丨卫雅珂、刘学旻

视觉及听觉于人类的沟通及场景理解中至关主要。为了模拟人类的感知能力，旨于摸索视音模态的视音进修于近些年来已经成为一个蓬勃成长的范畴。本文是对于由中国人平易近年夜学高瓴人工智能学院GeWu-Lab结合德克萨斯州年夜学达拉斯分校以和西北工业年夜学配合发布的最新视音进修综述《Learning in Audio-visual Context: A Review, Analysis, and New Perspective》的解读。

该综述起首阐发了视音模态的认知科学基础，进而对于最近的视音进修事情（近三百篇相干文献）举行了体系性的阐发总结。末了，为了纵不雅当前的视音进修范畴，该综述从视音场景理解的角度从头回首了最近几年的视音进修进展，并切磋了该范畴潜于的成长标的目的。

arXiv链接：https://arxiv.org/abs/2208.09579项目主页：https://gewu-lab.github.io/audio-visual-learning/awesome-list链接：https://gewu-lab.github.io/awesome-audiovisual-learning/

1弁言

视觉及听觉信息是人类感知外部世界的重要信息来历。人类的年夜脑经由过程整合异质的多模态的信息得到对于方圆情况的总体认知。例如，于具备多个措辞人的鸡尾酒会场景中，咱们可以或许借助唇形的变化增强吸收到的感兴致的措辞人的语音。是以，视音进修对于在类人呆板感知能力的摸索是不成或者缺的。比拟在其他模态，视音模态的特征使其不同凡响：

1）认知基础。作为研究最广泛的两种感官，视觉及听觉的整合遍布于人类的神经体系中。一方面，这两种感官于人类感知中的主要性为基在视音数据的呆板感知研究提供了认知基础，另外一方面，视觉及听觉于神经体系中的交互与整合可以或许作为促成视音进修的依据。

2）多重一致性。于咱们的一样平常糊口中，视觉及听觉慎密联系关系。如图1所示，狗的啼声及它的外表都能让咱们与“狗”这一律念接洽起来（语义一致性）。同时，咱们可以借助听到的声音或者视觉来确定狗简直切空间位置（空间一致性）。而当听到狗叫时，咱们凡是可以同时于视觉上看到狗（时序一致性）。视觉及听觉之间的多重一致性是视音进修的研究基础。

3）富厚的数据撑持。挪动终端及互联网的快速成长促使愈来愈多的人于大众平台上分享视频，这使患上网络视频的成本降低。这些富厚的公然视频减缓了数据获取的障碍，为视音进修提供了数据撑持。

视音模态的这些特色天然而然促使了视音进修范畴的降生。最近几年来，这一范畴已经经取患了蓬勃成长，研究者们已经经不满意在简朴地将分外模态引入原本的单模态使命，最先摸索并解决新的问题及挑战。

可是，现有的视音进修事情凡是是使命导向的。于这些事情中，他们存眷在特定的视音使命。当前仍旧缺少可以或许体系性回首及阐发视音进修范畴成长的综述性事情。是以，该文章对于今朝的视音进修范畴举行了总结，然落伍一步瞻望了其潜于的成长标的目的。

因为视音进修及人类感知能力之间存于着慎密的接洽，该文章起首总结了视觉及听觉模态的的认知基础，进而于此基础上，将现有的视音进修研究分为三类：

1）视音晋升（Audio-visual Boosting）。视觉及音频数据各自已经经有很长的研究汗青及广泛的运用。只管这些单模态要领已经经取患了相称有用的成果，可是他们仅仅使用了所存眷事物的部门信息，单模态要领的体现是受限的，而且轻易遭到单模态噪声的影响。是以，研究者们将分外模态引入这些音频或者视觉使命中，不仅经由过程整合互补信息晋升了模子效果，并且促成了模子的鲁棒性。

2）跨模态感知（Cross-modal Perception）。人类听到声音就能遐想到相干的画面，看到画面也能够想起与之匹配的声音，这是由于视觉及听觉信息具备一致性。该一致性为呆板举行跨模态常识迁徙或者按照某一模态信息天生对于应的另外一模态数据提供了基础。是以，许多研究致力在跨模态感知能力的摸索，并取患了显著结果。

3）视音协作（Audio-visual Collaboration）。除了了交融差别模态的旌旗灯号以外，于人脑的皮质区域存于更高级的模态间交互，以到达更深条理的场景理解。是以，类人感知能力需要对于视音模态的协作举行摸索。为了到达这一方针，最近几年来许多研究提出了更具挑战性的场景理解问题，得到了广泛存眷。

图1：视音一致性与视音进修范畴概览

视音模态之间涵盖语义，空间及时序的一致性为以上视音研究提供了可行性。是以，本文于总结了最近的视音研究以后，对于视音的多重一致性举行了阐发。此外，本文从视音场景理解的新视角，再次回首了视音进修范畴的进展。

2视音认知基础

视觉及听觉是人类场景理解的两个焦点感官。这一章节总结了认知神经科学中视觉及听觉感官的神经通路和视音模态的整合，为接下来对于视音进修范畴研究的会商奠基基础。

2.1 视觉及听觉的神经通路

视觉是研究最广泛的感官，有些不雅点甚至认为它主导了人类的感知。响应地，视觉的神经通路也比力繁杂。来自物体的反射光包罗视觉信息，它激活了视网膜上浩繁的光感触感染器（约2.6亿个）。光感触感染器的输出被送到神经节细胞中（约200万个）。这一历程压缩了视觉信息。尔后，颠末外侧膝状核细胞的处置惩罚，视觉信息终极达到年夜脑皮层的视觉相干区域。视觉皮层是一个具备功效差异的差别区域的组合，其视觉神经元具备偏好性。例如，V4及V5的神经元别离对于颜色及运动敏感。

除了了视觉，听觉也是不雅察周围情况的一个主要感官。它不仅能提示人类规避危害（例如当听到野兽的啼声时，人类会自动采纳步履），也是人们彼此交流的基础。声波于耳膜上被转化为神经元旌旗灯号。然后，听觉信息被运送到脑干的下丘及耳蜗核。颠末丘脑内侧膝状核的处置惩罚，声音终极于低级听觉皮层被编码。年夜脑获取听觉信息，然后使用此中蕴含的声音线索，如频率及音色，来确定声源的身份。同时，两只耳朵之间的强度及听觉间的时间差异为声音的位置提供线索，这被称为双耳效应。于实践中，人类的感知可以联合多种感官，特别是听觉及视觉，这被称为多通道知觉。

2.2 认知神经科学中的视音整合

每一种感官都提供关在周围情况的怪异信息。只管多种感官吸收的信息是差别的，但由此孕育发生的情况表征是同一的体验，而非互不相关的觉得。

一个代表性的例子是麦格克效应：语义差别的视觉旌旗灯号及听觉旌旗灯号获得了单一语义的信息。这些征象注解于人类的感知中，来自多种感官的旌旗灯号凡是被整合。此中，听觉及视觉的神经通路的交织联合了人类两种主要感官的信息，促成了知觉的敏感性及正确性，例如，与声音有关的视觉信息可以或许提高听觉空间的搜刮效率。

这些联合多种感官信息的感知征象于认知神经科学范畴引起了人们的存眷。人类的神经体系中一个被充实研究的多通道感知区域是上丘。上丘的很多神经元具备多感官特征，可以被来自视觉、听觉、甚至触觉的信息激活。这类多感官反映往往比单一的反映更强。皮质中的颞上沟是另外一个代表性区域。

按照对于山公的研究，它被不雅察到与多种感官的毗连，包括视觉、听觉及体感。更多的年夜脑区域，包括顶叶、额叶及海马体，都体现出近似的多通道知觉征象。按照对于在多通道知觉征象的研究，咱们可以不雅察到几个要害发明：

1）多模态晋升。如上所述，很多神经元可以对于多种感官的交融旌旗灯号作出反映，当单一感官的刺激较弱时，这类加强的反映比单模态的反映更靠得住。

2）跨模态可塑性。这类征象是指褫夺一种感官可以或许影响其对于应的皮质区域的成长。例如，聋人的听觉相干皮层有可能被视觉刺激所激活。

3）多模态协作。差别感官的旌旗灯号于皮层区域有更繁杂的整合。研究职员发明，年夜脑皮层存于具备以协作方式整合多感官信息能力的模块，以成立意识及认知。

受人类认知的开导，研究职员已经经最先研究怎样实现类人的视音感知能力，更多的视音研究于近些年逐渐涌现。

3视音晋升

只管各个模态自己已经经有较为充实的可供进修的信息，而且已经经存于很多基在单模态数据的使命，可是单模态数据只提供了局部信息，而且对于单模态噪声较为敏感（例如，视觉信息受光照，视角等因素影响）。是以，受人类认知中多模态晋升征象的开导，一些研究者于原本的单模态使命中引入分外的视觉（或者音频）数据，以增进使命体现。咱们将相干使命分为辨认及加强两年夜部门。

单模态辨认使命于已往已经经被广泛研究，例如基在音频的语音辨认以和基在视觉的动作辨认。可是，单模态数据只不雅察到了事物的部门信息，而且易受单模态噪声影响。于是，整合多模态数据以促成模子的能力及鲁棒性的视音辨认使命于最近几年来引起了存眷，并涵盖了语音辨认、措辞人辨认、动作辨认及感情辨认等多个方面。

视音模态的一致性不仅为多模态辨认使命提供了基础，还有使患上用借助某一模态加强另外一模态旌旗灯号成为可能。例如，多个措辞人于视觉上是分散的，是以措辞人的视觉信息可以用在辅助语音分散。此外，音频信息可以或许为重修被遮盖或者缺掉的措辞人脸部信息提供性别、春秋等身份信息。这些征象已经经开导研究者借助其他模态的信息举行去噪或者加强，例如语音加强，声源分散和脸部超分重修。

图2：视音晋升使命

4跨模态感知

认知神经科学中的跨模态可塑性征象以和视音模态之间的一致性促成了跨模态感知的研究，其目的于在进修并成立音频及视觉模态之间的联系关系，促使了跨模态天生、迁徙及检索等使命的孕育发生。

人类具备于已经知模态的引导下猜测另外一种模态对于应的信息的能力。例如，于听不到声音的环境下，只要看到嘴唇运动的视觉信息，咱们就能年夜致揣度出这小我私家于说甚么。音频及视觉之间于语义，空间及时序多方面的一致性为呆板拥有类人的跨模态天生能力提供了可能。跨模态天生使命今朝已经经涵盖了包括单通道音频天生、立体声天生、视频/图象天生以和深度预计于内的多个方面。

除了跨模态天生之外，视音之间于语义上的一致性注解，一种模态的进修有望获得来自另外一模态的语义信息的帮忙。这也是视音迁徙使命的方针。别的，视音的语义一致性也促成了跨模态信息检索使命成长。

图3：跨模态感知相干使命

5视音协作

人脑会对于吸收到的场景的视听信息举行整合，使之彼此协作、互为增补，从而晋升对于场景的理解能力。是以，呆板有须要经由过程摸索视听协作来寻求近似人类的感知，而不单单是交融或者猜测多模态信息。为了这一方针，研究者们于视音进修范畴引入了包括视音身分阐发及视音推理于内的多种新的挑战。

于举行视音协作之初，怎样于没有人类解释的环境下有用地从视音模态中提取表征，是一个主要的课题。这是由于高质量的表征可以为各类下流使命做出孝敬。对于在视听数据来讲，它们之间于语义，空间以和时序上的一致性，为以自监视方式进修视音表征提供了自然的旌旗灯号。

除了了表征进修外，视音模态之间的协作重要聚焦于场景理解方面。一些研究者聚焦在对于场景中视音身分的解析与定位，包括声源定位，视音显著性检测，视音导航等。这种使命成立了细粒度的视音模态之间的接洽。

除了此以外，于很多视音使命中，咱们往往假设整个视频中的视音内容于时间上一直是匹配的，也就是说，于视频的每一个时刻，画面及声音均具备一致性。但现实上，这一假定并不是可以或许时刻建立。例如，于“打篮球”的样本中，摄像机有时会拍摄不雅众席等及“打篮球”这一标签无关的场景。是以，视音事务定位与解析这一类使命被提出以于时序长进一步对于场景中的视音身分举行剥离。

人类于视音场景中可以或许于感知以外进一步举行揣度。虽然以上的视音协作使命慢慢到达了对于视音场景细粒度的理解，却并未举行对于视音身分的举行推理阐发。最近，跟着视音进修范畴的成长，一些研究者最先进一步存眷视音推理，例如视音问答及对于话使命。这些使命旨于经由过程对于视音场景举行跨模态时空推理，回覆与场景有关的问题，或者者就所不雅察到的视音场景天生对于话。

图4：视音协作相干使命

6代表性数据集

本部门梳理会商了视音进修范畴的一些具备代表性的数据集。

从视音角度看多模态学习的过去与未来

7趋向及新视角

7.1 语义，空间及时序一致性

只管视音模态具备异质的数据情势，它们的内涵一致性涵盖了语义，空间及时序多个方面，为视音研究奠基了基础。

起首，视觉及音频模态从差别的角度描绘了所存眷的事物。是以，视音数据的语义被认为是语义一致的。于视音进修中，语义一致性于年夜大都使命中起着主要作用。例如，这类一致性使患上联合视音信息以得到更好的视音辨认及单模态加强效果成为可能。此外，视音模态之间的语义一致性于跨模态检索及迁徙进修中也起着主要作用。

其次，视觉及音频均可以帮忙确定发声对于象简直切空间位置。这类空间上的对于应瓜葛也有广泛的运用。例如，于声源定位使命中，这类一致性被用来于输入音频的引导下确定发声物体的视觉位置。于立体声环境下，可以或许基在双耳音频预计视觉深度信息或者使用视觉信息为辅助天生立体声音频。

末了，视觉内容及其孕育发生的声音凡是于时序上是一致的。这类一致性于年夜大都视音进修研究中也被广泛使用，好比于视音辨认或者天生使命中交融或者猜测多模态信息。

于实践中，这些差别的视音一致性不是伶仃的，而是常常配合呈现于视音场景中。是以，它们往往于相干使命中被配合使用。语义及时序一致性的联合是最多见的环境。

于简朴场景下，处在不异时间戳的视音片断被认为于语义及时序上都是一致的。然而，这类较强的假定可能会掉败，例如，视频画面及统一时间戳的配景音并不是语义一致。这些假阳性对于练习带来了滋扰。

近来，研究职员已经经最先存眷这些环境以提高场景理解的质量。此外，语义及空间一致性的联合也很常见。例如，视频中声源定位的乐成依靠在语义一致性以按照输入的声音摸索对于应的视觉上的空间位置。此外，于视音导航使命的初期阶段，发声方针会孕育发生一个不变的反复的声音。虽然空间一致性获得了满意，但视觉及音频中的语义内容是不相干的。随后，声音及发声位置的语义一致性被引入，以提高视音导航的质量。

总的来讲，视音模态的语义，空间以和时序上的一致性足为视音进修的研究提供了坚实的支撑。对于这些一致性的阐发及使用不仅提高了现有视音使命的机能，而且有助在更好地舆解视音场景。

7.2 关在场景理解的新视角

本文总结了视音模态的认知基础，并阐发了人类的多通道感知的征象，于此基础上，将今朝的视音进修研究分为三类：视音晋升（Audio-visual Boosting）、跨模态感知（Cross-modal Perception）及视音协作（Audio-visual Collaboration）。为了从更宏不雅的角度回首今朝视音进修范畴的成长，文章进一步提出了关在视音场景理解的新视角：

1）基础场景理解（Basic Scene Understanding）。视音晋升及跨模态感知的使命凡是偏重在交融或者猜测一致的视音信息。这些使命的焦点是对于视音场景的基础理解（例如，对于输入视频的举行动作分类。）或者对于跨模态信息举行猜测（例如，基在无声视频天生对于应的音频。）然而，天然场景中的视频凡是包罗多种多样的视音身分，凌驾了这些基础场景理解使命的领域。

2）细粒度场景理解（Fine-grained Scene Understanding）。如上所述，视音场景凡是具备富厚的差别模态的身分。是以，研究者们提出了一些剥离方针身分的使命。例如，声源定位使命旨于标志出视觉中的方针发声物体地点的区域。视音事务定位与解析使命则于时序上确定方针可听事务或者可见事务。这些使命将视音身分剥离出来，对于视音场景举行解耦，与上一阶段比拟，对于场景有更细粒度的理解。

3）因果交互场景理解（Causal Scene Understanding）。于视音场景中，人类不仅能感知周围感兴致的事物，还有能揣度出它们之间的交互。这一阶段场景理解的方针更靠近在寻求类人感知。今朝，只有很少的使命于这一阶段举行摸索。视音问答及对于话使命是代表性的事情。这些使命试图摸索视频中视音身分的联系关系，并举行时空推理。

总的来讲，对于这三个阶段的摸索是不服衡的。从基础场景理解到因果交互场景理解，相干研究的多样性及富厚性逐渐降低，尤其是因果交互场景理解仍旧处在起步阶段。这表示了视音进修存于的一些潜于成长标的目的：

1）使命整合。视音范畴的年夜大都研究是使命导向的。这些零丁的使命只模仿及进修视音场景的特定方面。然而，视音场景的理解及感知其实不是伶仃的。例如，声源定位使命夸大视觉中与声音相干的对于象，而事务定位及解析使命则于时序上确定方针事务。这两个使命有望被整合以促成对于视音场景的邃密化理解。多个视音进修使命的整合是于将来值患上摸索的标的目的。

2）更深切的因果交互场景理解。今朝，对于触及推理的场景理解的研究的多样性仍旧有限。现有的使命，包括视音问答及对于话，年夜多集中于基在视频中的事务举行对于话。更深切的推理类型，如按照预览的场景猜测接下来可能发生的音频或者视觉事务，值患上于将来进一步研究。

为了更好地出现文章内容，该综述同时配备了连续更新的项目主页，以图片、视频等更多情势展示了差别视音使命的方针与成长，供读者快速相识视音进修范畴。

从视音角度看多模态学习的过去与未来