米兰·(milan)中国官方网站-多模态视频理解模型新标杆！微软黄学东团队发布 i

作者：米兰·(milan)文化更新时间：2026-03-31 02:25:24 点击数：

多模态视频理解模型新标杆！微软黄学东团队发布 i-Code

黄学东领衔，微软 Azure 认知办事研究团队重磅发布「视觉-语言-语音」多模态预练习模子 i-Code。于 5 项多模态视频理解使命以和 GLUE NLP 使命上树立了业界新标杆！编译丨OGAI

编纂丨陈彩娴

人类的智能触及多个模态：咱们整合视觉、语言及声音旌旗灯号，从而形成对于世界周全的熟悉。然而，今朝年夜大都的预练习要领仅针对于一到两种模态设计。

于本文中，咱们提出了一种多模态自监视预练习框架「i-Code」，用户可以矫捷地将视觉、语音及语言的情势组合成同一的通用的向量表征。于该框架下，咱们起首将各个模态的数据输入给预练习的单模态编码器。接着，咱们经由过程多模态交融收集集成各单模态编码器的输出，该收集利用新型留意力机制等架构立异，有用地交融了差别模态的信息。

咱们利用新的方针端到端地预练习整个体系，新的方针包括掩码模态单位建模及交织模态对于比进修。差别在以往只利用视频举行预练习的研究，i-Code 框架可以于练习及推理历程中动态处置惩罚单模态、双模态及三模态数据，矫捷地将差别的模态组合投影到单个暗示空间中。试验成果注解，于 5 个视频理解使命及 GLUE NLP 基准测试上，i-Code 的体现相较在今朝开始进的技能的晋升高达 11%，展示了集成多模态预练习的威力！

1弁言

真实的类人智能要思量来自各类旌旗灯号及觉得器官的信息。智能体系应该是综合的，引入来自所有可用模式的旌旗灯号。于很多现实的数据系统中，咱们可以使用视觉（V）、语言（L）及语音/音频（S）模态的数据。今朝，研究者们于成立理解单模态、双模太的模子方面取患了巨年夜的进展，然而将这些事情推广到可以或许同时解译视觉、语言、语音的三模态体系上仍旧是一项艰难的使命。

三模态练习需要年夜量的三模态数据（例如，带文字描写的视频），而此类数据的范围往往比可用的单模态或者双模态数据小好几个数目级。例如，今朝最年夜的带标注的视频数据集由 1.8 亿段视频构成，而最年夜的图象描写数据集则包罗高达 9 亿个图文对于。

为相识决该问题，本文提出了两种解决方案。起首，除了了三模态视频，咱们还有使用了年夜范围的双模态数据，例如：带有文本描写的图象（V+L）、带有转写文本的语音（S+L）及视频描写（V+S）。这极年夜地扩大了模子输入数据的范围及多样性，同时涵盖了全数三种方针模式。其次，咱们提出了一种交融架构，可以采用研究社区提出的开始进的单模态编码器的上下文输出，而非重新最先构建一个自力的模子。

本文提出了「i-Code」,此中 i 代表集成多模态进修。咱们开发了一个有用的交融模块，该模块集成为了单模态编码器的输出，举行跨模态理解，从而得到终极的猜测成果。为了设计最好的交融架构，咱们实验了多种 Transformer 架构内的自留意机制的变体，包括交织及归并差别模态的留意力患上分的机制。

接着，咱们利用各类自监视方针使用双模态及三模态数据对于 i-Code 举行预练习。这些方针包括：（1）掩码单位建模。此中所有输入旌旗灯号都被转换为离散的词例（Token），旨于猜测各模态下的被掩蔽的单位的准确词例。（2）对于比进修。给定两种输入模态，模子猜测给定的旌旗灯号是否来自练习数据中的统一个三元组（或者数据对于）。

咱们于多个多模态对于比基准上完全评估了 i-Code。试验成果证实了所提出的多模态预练习框架的有用性。对于 i-Code 举行微调，相较今朝开始进，咱们可以于 6 个多模态数据集及 GLUE NLP 基准测试中的算法得到 11% 的机能晋升。

2年夜范围多模态预练习数据

视频中包罗了视觉、语言、语音三种模态的数据。咱们选用了近来发布的视频数据集 YT-Temporal-180M，利用给定的视频编号及时间戳网络了此中的 1.8 亿个视频片断，每一个片断的平均长度为 7.8 秒。对于在每一个片断，咱们平均采样 8 帧作为视觉输入，提取到的原始音频波形会被下流的语音编码器进一步处置惩罚。每一个片断还有带有一个文本剧本，改剧本是对于原始 ASR 转录细心去噪以后获得的。

然而，视频数据中存于帧及转录文本之间对于齐禁绝的问题。为此，咱们利用Azure 认知办事的 API 为每一个视频片断的高分辩率中间帧天生字幕，以加强视频数据集。

因为高质量的三模态视频的范围有限，咱们还有利用了双模态数据集举行预练习，这已经被广泛运用在视觉语言暗示进修等运用、零样本跨模态天生、主动语音辨认（ASR）及文本转语音（TTS）等运用。这也是成对于数据的数据集初次被用在练习「视觉-语言-语音」模子。i-Code 于预练习时期利用了如下双模态数据集：

（1）视觉-语言：利用来自 Florence 计较机视觉基础模子的预练习数据中的7,280 万对于「图象-描写文本」对于。

（2）语言-语音：利用内部的 75 小时的英语语音转录数据。该数据集包罗 6,320 万对于「转录-语音」对于，触及 Cortana、远场语音及呼叫中央等多样化的场景。

（3）视觉-语音：利用了视频叙事数据集 SMiT，该数据和包罗 500,000 段语音描写文本，每一段文本描写了短视频中一系列差别的事务。

3i-Code 多模态预练习框架

模子架构

i-Code 由四个模块构成。前三个模块是别离用在视觉、语言、语音的单模态编码器。末了一个模块是模态交融收集。起首，咱们将每一个模态的原始输入输入到对于应的单模态编码器中。然后，咱们经由过程线性投影层处置惩罚所有编码后的输入，经由过程模态交融收集集成它们。i-Code 可以处置惩罚各类输入：单模态输入，两种模态的肆意组合，全数三种模态一路输入。

咱们并不是重新最先练习每一个单模态编码器，而是设计了一个模块化的框架：可使用任何预练习的模子替代单模态编码器。这为交融收集提供了高质量的上下文表征，从而举行更有用的多模态理解。咱们采用了各类模态的开始进的编码器：

（1）语言编码器：采用 DeBERTa V3 base，该预练习模子包罗 1.83 亿参数，用到相识耦留意力机制。

（2）视觉编码器：采用 CoSwin Transformer。为了使 i-Code 可以处置惩罚图象及视频帧序列，咱们使用预练习的 CoSwin Transformer 实例化了一个视频 CoSwin Transformer，该模子包罗 9,100 万参数。

（3）语音编码器：采用预练习的 WavLM-large 模子，该模子包罗 3.15 亿参数，利用了时域卷积编码器提取输入语音波形，并进一步利用 transformer 编码。值患上留意的是，咱们还有可使用其它的单模态编码器来构成 i-Code 架构。

多模态视频理解模型新标杆！微软黄学东团队发布 i-Code

图 1：（左）i-Code 模子架构（右）交融收集中的留意力及前馈收集操作。

模态交融模块

每一个单模态编码器提取的特性会经由过程单层前馈收集投影，其维度等在交融收集的隐蔽维度。咱们将投影的特性输入给模态交融收集，天生集成的多模态表征。因为单模态编码器已经经包罗了位置信息，咱们于交融模块中不利用位置嵌入。交融收集的骨干是一个 Transformer 编码器，此中每一一层城市履行跨模态留意力、前馈投影及层归一化。如图 1 所示，为了促成更有用的跨模态理解，咱们摸索了传统留意力机制的两种变体：交融留意力及协同留意力。

交融留意力

此时，差别的模态同享不异的留意力参数。为了帮忙交融模块区别差别的模态，咱们于所有时间及空间维度上，将每一个模态独占的辨认嵌入添加到投影后的特性上（于所有的时间及空间维度上）。咱们未来自差别模态的投影特性毗连于一路，输入给交融收集，交融收集的每一一层都与经典的 Transformer 编码器层不异。

协同留意力

此时，每一个 Transformer 层起首于每一个模态内部的特性之间履行自留意力机制，每一个模态都具备模态特定的留意力参数。假定前一个 Transformer 层的语言、视觉及语音输出别离为多模态视频理解模型新标杆！微软黄学东团队发布 i-Code 、及。以语言模态的单个留意力头为例：

多模态视频理解模型新标杆！微软黄学东团队发布 i-Code

咱们于自留意力子层后运用一个跨模态留意力：

多模态视频理解模型新标杆！微软黄学东团队发布 i-Code

对于在具备交融留意力机制的交融收集模块，咱们利用了 6 个 Transformer 编码器层，隐层的向量维度为 768，交融模块有 1.54 亿个参数。对于在协同留意交融模块，为了连结模子的维度与交融留意力模子相近，咱们利用了 3 层 Transformer，隐蔽维度不异，终极的模子具备 1.63 亿个参数。交融模块中的参数于预练习中随机初始化，而不是从预练习的 Checkpoint 上被实例化。

4i-Code 的预练习

掩码单位建模

此类自监视预练习方针包括：

（1）掩码语言模子（MLM）。MLM 于针对于语言及「视觉-语言」预练习的自监视进修方面取患了显著的乐成。于预练习历程中，咱们将 30% 的文本词例屏蔽失。模子需要猜测被屏蔽失的词例，丧失函数为真实值及猜测词例索引之间的交织熵。

（2）掩码视觉模子（MVM）。咱们于视觉自监视进修中采用了与 MLM 一致的高级计谋。咱们将视觉输入转换为离散词例，屏蔽输入图象中的某些区域，并最年夜化被屏蔽区域的猜测值及真实词例之间的交织熵。给定一组帧序列，咱们使用今朝开始进的视觉矢量量化变分自编码器（VQ-VAE）——PeCo，将每一一帧离散为词例。咱们采用 Wang 等人于论文「Bevt: Bert pretraining of video transformers」中提出的 3D tube 掩码计谋，跨时间维度屏蔽图象区域举行遮蔽，每一一帧屏蔽 50% 的区域。

（3）掩码语音片断模子（MSM）。利用预练习的 wav2vec 2.0 语音量化器模子将语音离散化为词例序列。咱们利用与 HuBERT 及 wav2vec 2.0 不异的掩码计谋，随机选择 p% 的时间步作为肇始的索引，并屏蔽接下来的 L 步语音片断。此时，咱们取 L=十、p=8。MSM 丧失多模态视频理解模型新标杆！微软黄学东团队发布 i-Code 为猜测标签及真实标签之间的交织熵。

跨模态对于比进修

咱们先将每一个单模态输入经由过程响应的编码器编码，然后将编码成果别离送入多模态编码器。接下来，对于每一组单模态嵌入举行平均池化。对于在语言及语音模态，多模态编码器输出沿时序维度取平均。视觉输入则同时沿时间及空间维度取平均。咱们别离将视觉、语言及语音的所得到的表征暗示为多模态视频理解模型新标杆！微软黄学东团队发布 i-Code 、、，而且将表征归一化为单元向量，例如：

每一个 batch（B）中的视觉语言对于比丧失多模态视频理解模型新标杆！微软黄学东团队发布 i-Code 为：

多模态视频理解模型新标杆！微软黄学东团队发布 i-Code

此中，「视觉到语言」、「语言到视觉」的对于比进修方针函数为：

多模态视频理解模型新标杆！微软黄学东团队发布 i-Code

近似地，咱们别离界说了「视觉-语音」、「语言-语音」的对于比进修方针函数及。

于对于视频举行预练习时，咱们将视频描写及 ASR 转录文本毗连起来作为视觉语言对于比进修及 MLM 的语言输入。预练习方针函数是掩码单位建模及对于比进修方针的加权及：

多模态视频理解模型新标杆！微软黄学东团队发布 i-Code

5试验

咱们于多模态情绪感情阐发、多模态推理、视频问答以和一些单模态使命上评估了 i-Code 模子的机能。

多模态情绪感情阐发

咱们于迄今为止最年夜的多模态感情阐发及感情辨认数据集 CMU-MOSEI 上测试了 i-Code，该数据集包罗 23,453 段视频，提出了两个使命：情绪阐发及感情辨认。

就情绪阐发使命而言，给定一段视频，模子需要猜测措辞人的情绪程度，其规模为高度消极（-3）到高度踊跃（3）。评价指标为 MAE、猜测情绪标签及真实情绪标签之间的相干性（Corr）及 F1 患上分。该数据集还有可以被用在构建二元分类使命评估模子，将-3到-1分作为一个种别，将1到3分组作为另外一个种别。

表 1：CMU MOSEI 情绪阐发成果

咱们测试了 i-Code 利用差别交融留意力机制、预练习数据时的机能。如表 1 所示，i-Code 于 CMU MOSEI 情绪阐发使命上取患了今朝最好的机能。于 Dual 数据集上练习的 i-Code 模子比于视频数据集上练习的 i-Code 模子揭示出了更好的机能。于此数据集上，交融留意力的机能优在协同留意力机制。纵然不举行多模态预练习，使用开始进的编码器的 i-Code 已经经揭示出与之前的模子比拟具备竞争力的机能。

表 2：CMU MOSEI 感情辨认成果

就感情辨认而言，咱们根据 Ekman 感情阐发系统为视频付与如下标签：欢愉、哀痛、愤慨、惧怕、讨厌、惊奇。评价指标为正确率（accuracy）、精度（precision）、召回率（recal）及 Micro-F1。咱们于未举行模态对于齐的数据集上评估模子机能。如表 2 所示，相较在以前的最好模子，i-Code 的正确率提高了 4.1%，F1 提高了 3.3%，协同留意力的机能优在交融留意力。同时使用 Dual 数据及视频数据举行预练习，可以有用晋升模子机能。

表 3：UN-FUNNY 二分类成果

咱们于 UR-FUNNY 数据集上测试了 i-Code 于感情二分类使命上的机能。给定一段视频帧及声音，模子需要猜测该片断是否会当即引起笑声。对于比基线包括Bi-Bimodal 交融收集、低秩矩阵交融、MultiBench、张量交融收集等使用了三模态输入的模子。如表 3 所示，i-Code 模子的正确率相较在以前最优的模子超出跨越了 7.5%，利用视频预练习及交融留意力交融收集时的机能最优。

多模态推理

咱们利用 VIOLIN 数据集评估 i-Code 的跨模态推理能力，该数据集的输入是一段剪辑自电视节目的视频片断。该片断由视频帧 V、对于齐后的描写文本 T 及音频 S 构成。模子的使命是判定文本假定 H 与视频片断抵牾还有是相符。咱们将交融收集输出的平均值作为多模态表征，并以此练习一个二分类器。如表 4 所示，i-Code 的正确率相较在以前最优的对于比基线晋升了 3.5%。此中，D、V、NP 别离代表利用 Dual、视频作为预练习数据及不利用预练习数据；M、C 别离代表利用交融留意力机制及协同留意力机制。

表 4：VIOLIN 数据集上的多模态推理成果

视频问答

于视频问答（VQA）使命中，给定一段包罗视频帧 v、视频描写 t、音频 s 的视频，以和问题 q。问答体系需要从若干候选谜底多模态视频理解模型新标杆！微软黄学东团队发布 i-Code 中选择出准确的谜底。咱们将问题、候选谜底、文本描写毗连起来作为文本输入。接着，咱们将文本输入、视频帧、语音波形一路输入给 i-Code 模子，对于各模态的输出取平均，获得多模态视频理解模型新标杆！微软黄学东团队发布 i-Code 的多模态表征。咱们经由过程投影层将表征转换为 logit 患上分，并将 softmax 运用在这些患上分获得分类几率。

咱们别离于 How2QA、KnowIT 数据集上测试了 i-Code 于视频问答使命上的机能。How2QA 包罗来自 HowTo100M 的 37,000 daunt视频片断；KnowIT 包罗 24,282 小我私家类标注的问答对于，每一个问题附有 4 个候选谜底。试验成果如表 5 及表 6 所示。