英伟达联合团队提出长视频新框架连接情节和语义

随着互联网和社交媒体平台上视频内容的爆炸性增长，视频理解技术的重要性日益凸显。视频理解不仅仅是对视频内容的简单分类或标签化，而是深入分析视频中的动作、场景、情节和语义信息。这项技术在多个领域具有广泛的应用前景，包括视频摘要、内容检索、内容审核、版权保护和智能推荐等。

在信息时代，视频理解技术扮演着越来越重要的角色。随着视频内容的激增，如何有效地理解和处理这些内容成为了一个关键问题。视频理解不仅仅是对视频进行分类或标注，而是需要深入分析视频中的动作、场景、情节和语义信息，这项技术在多个领域具有广泛的应用前景。

视频摘要方面，通过自动生成视频摘要，用户可以快速获取视频的核心内容，节省时间和精力。这在新闻、教育和娱乐等领域尤为重要。内容检索方面，视频理解技术可以帮助用户通过视频内容进行搜索和检索，提高信息获取的效率。例如，在大型视频库中快速找到相关视频片段。内容审核方面，自动检测和过滤不良内容，保障平台内容的安全性。这对于社交媒体平台和视频分享网站尤为重要，可以有效防止不良信息的传播。版权保护方面，通过识别和管理视频内容的版权信息，防止侵权行为的发生。这对于保护创作者的权益和维护市场秩序具有重要意义。智能推荐方面，根据用户的观看历史和偏好，推荐相关视频内容，提升用户体验。这在流媒体平台和视频分享网站中得到了广泛应用。

目前，大多数视频理解研究主要集中在短视频的处理上，这些方法通常依赖于卷积神经网络（CNN）和Transformer等模型。然而长视频理解面临着更大的挑战，主要包括时间复杂性、语义理解和内存计算限制等问题。

长视频包含大量帧，处理这些帧需要高效的时间序列分析方法。现有的方法在处理长视频时，往往无法有效应对时间复杂性的问题。长视频通常包含复杂的叙事结构和高层次的语义信息，需要对视频中的高层次概念和叙事结构进行深刻理解。然而，现有的方法在语义理解方面表现不足。处理长视频需要大量的计算资源和内存，现有方法在这方面往往表现不足，难以在实际应用中推广。

尽管一些研究尝试将短视频理解的方法扩展到长视频，但这些方法通常未能充分考虑长视频的独特特性，导致性能提升有限。例如，传统的方法往往将长视频视为多个短视频的简单拼接，忽略了长视频中情节和语义的连续性和复杂性。

为了填补现有方法在长视频理解中的空白，NVIDIA、国立台湾大学和国立清华大学（中国台湾）的联合团队提出了一个新的框架——BREASE（BRidging Episodes And SEmantics）。该框架的设计灵感来自于人类的认知过程，旨在通过模拟情节记忆积累和语义知识的结合，更准确地理解长视频内容。

BREASE框架的主要目标是开发一个高效的情节压缩器（Episodic COmpressor，ECO），能够从微观到半宏观层面聚合关键表示，捕捉视频中的动作序列。ECO通过模拟人类的情节记忆积累过程，有效地将视频内容分解为多个情节单元，从而提高模型的理解能力。此外，BREASE还提出了一个语义检索器（Semantics reTRiever，SeTR），通过关注更广泛的上下文，增强模型对视频内容的理解，显著减少特征维度，同时保留相关的宏观信息。SeTR通过提取视频中的高层次语义信息，帮助模型更好地理解视频的整体结构和内容。

通过这两个关键组件，BREASE框架在多个长视频理解基准上实现了最先进的性能，显著超越了现有方法。论文的研究目标是通过BREASE框架，解决长视频理解中的时间复杂性、语义理解和内存计算限制等问题，为视频理解技术的发展提供新的思路和方法。大量实验表明，BREASE 在零样本和全监督设置的多个长视频理解基准中均实现了最佳性能。项目页面和代码位于：https://joslefaure.github.io/assets/html/hermes.html。

这项研究由来自不同机构的专家团队合作完成，成员有来自国立台湾大学的Gueter Josmy Faure、Jia-Fong Yeh、Hung-Ting Su和Winston H. Hsu，他们在视频理解和计算机视觉领域有着丰富的研究经验。Winston H. Hsu不仅是国立台湾大学的教授，还在Mobile Drive Technology担任重要职务，负责项目的整体协调和技术指导。来自NVIDIA的Min-Hung Chen，专注于深度学习和视频理解技术的研究，为团队带来了工业界的先进技术和实践经验。国立清华大学的Shang-Hong Lai，专注于计算机视觉和图像处理领域的研究，为团队提供了坚实的学术支持。

这个多机构合作团队结合了学术界和工业界的力量，致力于推进长视频理解的研究。通过他们的共同努力，BREASE框架在长视频理解领域取得了显著的进展，为视频理解技术的发展提供了新的思路和方法。

相关工作

在视频理解领域，研究者们已经在多个方向上取得了显著进展。

动作识别是视频理解中的一个核心任务，主要关注在短视频片段中识别特定的动作。早期的研究主要依赖于卷积神经网络（CNN），例如使用3D卷积来捕捉视频中的时空特征。随着技术的发展，研究者们逐渐引入了时间卷积和其他更复杂的模型来提高识别精度。

近年来，基于Transformer的模型在动作识别中表现出色。例如，研究者们通过引入自注意力机制，使模型能够更好地捕捉视频中的长距离依赖关系。这些模型在多个动作识别基准上取得了最先进的性能，展示了其在处理复杂视频数据方面的潜力。

视频问答（VQA）是视频理解中的另一个重要任务，旨在回答与视频内容相关的问题。这需要模型对视频中的视觉信息和文本信息有深刻的理解。为此，研究者们开发了多个数据集，如ActivityNet-QA和MovieChat-1k，这些数据集为评估模型在视频问答任务中的表现提供了基准。

在VQA任务中，模型不仅需要识别视频中的物体和动作，还需要理解视频的上下文和叙事结构。这通常涉及到多模态学习，即结合视觉和文本信息进行联合建模。近年来，随着大规模预训练模型的出现，VQA任务的性能得到了显著提升。

与短视频相比，长视频理解面临着更多的挑战。长视频通常包含复杂的叙事结构和大量的帧，这使得处理和理解这些视频变得更加困难。为了应对这些挑战，研究者们开发了多个专门用于长视频理解的数据集，如LVU、COIN、Breakfast和MovieChat。

传统的方法往往将长视频视为多个短视频的简单拼接，忽略了长视频中情节和语义的连续性和复杂性。为了更好地理解长视频，研究者们提出了多种方法，包括记忆技术和状态空间模型（SSM），这些方法能够更有效地处理长时间跨度的视频数据。

最近，大语言模型（LLM）在视频理解中的应用引起了广泛关注。这些模型通过将视频内容转化为文字，能够更好地理解视频的语义信息。例如，在视频字幕生成、视频问答和动作分类等任务中，LLM展示了其强大的能力。

一些研究提出了使用记忆技术处理大量视频内容的框架，这些框架能够有效地管理视频中的时间依赖信息。此外，研究者们还探索了如何利用LLM进行长视频理解，通过结合视觉和文本信息，进一步提升模型的性能。

视频理解领域的研究正在不断发展，新的方法和技术不断涌现。通过结合情节记忆和语义知识，BREASE框架为长视频理解提供了一个新的思路，展示了其在处理复杂视频数据方面的潜力。

方法

BREASE的设计理念

BREASE（BRidging Episodes And SEmantics）框架的设计灵感来自于人类的认知过程，旨在通过模拟情节记忆积累和语义知识的结合，更准确地理解长视频内容。该框架的核心理念是将视频内容分解为多个情节单元，并通过语义信息进行强化，从而提高模型的理解能力。BREASE框架由多个模块组成，每个模块在视频处理的不同阶段发挥关键作用。

图1：框架概述。逐窗口流式传输视频，并使用冻结的ViT提取特征。每个窗口特征都由ECO（如图左下所示）以在线方式处理，在此过程中丢弃冗余，并保留传递给情节Q-Former的视频片段。视频令牌库包含每个窗口的特征，SeTR仅选择高级信息传递到分层帧以对Q-Former进行排序。然后将情节和高级表示连接起来，然后馈送到冻结的LLM，LLM按照指令输出文本。

视频编码的初步处理

BREASE框架的第一步是对视频进行编码处理。为了处理任意长度的视频，首先需要指定要提取的帧数，将视频分割成若干不重叠的窗口。每个窗口的特征由ViT-G/14模型逐步编码，提取出视频数据的特征表示。这些特征表示将作为后续处理的输入，为情节压缩器（ECO）提供基础数据。

情节压缩器的工作机制

ECO（Episodic COmpressor）是BREASE框架中的关键组件之一，负责将视频内容分解为多个情节单元。ECO通过维护一个最大容量为E的记忆缓冲区，接收窗口特征后，检查缓冲区是否有足够带宽。如果有，则直接连接；否则进行压缩。ECO的核心是通过计算帧特征的余弦相似度，合并最相似的帧，直到满足大小约束。这样可以有效地减少冗余信息，保留视频中的关键情节。

其中M是现有缓冲区，Fw表示w帧特征的传入窗口，A是连接的缓冲区和新窗口，∥A∤A的大小。总结方程式（2），Ai·Aj Ai Aj计算帧特征Ai和Aj之间的余弦相似度，arg-maxi̸=j找到余弦相似度最高的帧对，（Ai∗+Aj∗）2组合最相似的帧，A\Aj*删除帧Aj*合并后的A。重复该过程，直到A的大小在允许的最大事件E范围内，并且A成为新的缓冲区M′。

情节查询变换器的作用

Episodic Q-Former使用与原始Q-Former相同的架构，通过自注意力和交叉注意力机制处理初始查询和视觉表示。具体来说，Episodic Q-Former首先对初始查询进行自注意力处理，然后与ECO提供的视觉表示进行交叉注意力处理。经过这一过程，查询被增强，并通过类似ECO的过程合并相似查询，形成高信息密度的情节。这有助于在整个视频中保持查询的数量恒定，提高模型的处理效率。

语义检索器的功能

SeTR（Semantics reTRiever）是BREASE框架中的另一个关键组件，负责从视频特征中提取高层次的语义信息。SeTR通过归一化特征、分组、计算相似度分数并合并最相似的帧，减少帧数，保留最相关的特征。具体来说，SeTR首先对视频特征进行归一化处理，然后将帧分为两组，计算两组帧之间的相似度分数，并合并最相似的帧。这样可以有效地减少特征维度，同时保留视频中的关键语义信息。

将视频表示转化为自然语言输出

在BREASE框架中，SeTR提取的语义表示通过层次化Q-Former处理后，与Episodic Q-Former的输出连接，投射到大语言模型（如Vicuna-7B）的输入空间。大语言模型根据提供的指令，生成所需的自然语言输出。这一过程将视频的视觉表示转化为自然语言描述，使得模型能够回答与视频内容相关的问题，生成视频字幕，或进行其他形式的文本生成任务。

通过这些模块的协同工作，BREASE框架能够高效地处理和理解长视频内容，显著提高了视频理解的性能和准确性。

实验与结果

LVU和MovieChat数据集

在本研究中，BREASE框架的性能在两个主要数据集上进行了评估：LVU和MovieChat。LVU数据集专注于电影内容和元数据，提供了丰富的长视频分类任务。MovieChat数据集则是一个新引入的数据集，专门用于长视频问答任务，涵盖了电影中的对话和情节信息。这两个数据集的选择，旨在全面评估BREASE框架在不同长视频理解任务中的表现。

在不同数据集上的表现

在实验中，BREASE框架展示了其在长视频理解任务中的卓越性能。通过对LVU和MovieChat数据集的测试，BREASE框架在多个基准上实现了最先进的结果，显著超越了现有方法。

表1：LVU数据集的SOTA比较：该表显示了各种模型的前1精度。最高分以粗体突出显示，次高分以下划线突出显示。与其他方法中观察到的微小增量改进不同，我们的模型表现出了显著的性能飞跃，平均比其最接近的竞争对手高出7.3%。

分类准确率的提升

在LVU数据集上，BREASE框架的表现尤为突出。实验结果显示，BREASE在长视频分类任务中的top-1分类准确率显著提高了7.3%。这一显著提升表明，BREASE框架在处理复杂电影内容和元数据时，能够更好地捕捉和理解视频中的关键情节和语义信息。

零样本和完全监督场景下的表现

在MovieChat数据集上，BREASE框架同样表现出色。在零样本模式下，BREASE的准确率提高了14.9%，显著超过了之前的最先进方法。此外，在完全监督场景下，BREASE框架通过对MovieChat训练集进行一次训练，进一步提升了模型的性能。这些结果表明，BREASE框架在处理长视频问答任务时，能够有效地理解和回答与视频内容相关的问题。

ECO和SeTR的重要性分析

为了进一步验证BREASE框架中各个组件的重要性，研究团队进行了多次消融实验，重点分析了ECO和SeTR的作用。

在ECO的重要性实验中，结果表明，缺少ECO会导致模型性能显著下降。具体来说，ECO通过有效地压缩和聚合视频中的情节信息，显著提高了模型的理解能力。相比之下，使用随机选择特征或FIFO流式方法的替代策略，均未能达到ECO的效果。

在SeTR的重要性实验中，结果显示，移除SeTR会导致准确率下降5%。SeTR通过提取视频中的高层次语义信息，帮助模型更好地理解视频的整体结构和内容。相比之下，简单的方法如最大池化和平均池化效果不如SeTR。

通过这些消融实验，研究团队验证了ECO和SeTR在BREASE框架中的关键作用，进一步证明了BREASE框架在长视频理解任务中的卓越性能。

BREASE框架在LVU和MovieChat数据集上的实验结果，展示了其在长视频理解任务中的强大能力。通过有效地结合情节记忆和语义信息，BREASE框架为长视频理解提供了一个新的思路，显著提升了视频理解的性能和准确性。

讨论

BREASE框架的创新点

BREASE框架在长视频理解领域引入了多项创新，显著提升了模型的性能和理解能力。首先，BREASE通过模拟人类的认知过程，将视频内容分解为多个情节单元，并通过语义信息进行强化。这种方法不仅提高了模型对视频内容的理解深度，还有效地减少了冗余信息。

Episodic COmpressor (ECO) 是BREASE框架中的关键组件之一。ECO通过维护一个记忆缓冲区，动态地压缩和聚合视频中的情节信息，保留了视频中的关键情节。这种方法模拟了人类的情节记忆积累过程，使得模型能够更好地捕捉视频中的动作序列和情节变化。

Semantics reTRiever (SeTR) 则通过提取视频中的高层次语义信息，增强了模型对视频内容的理解。SeTR通过归一化特征、分组、计算相似度分数并合并最相似的帧，减少了特征维度，同时保留了视频中的关键语义信息。这种方法不仅提高了模型的处理效率，还增强了模型对视频整体结构和内容的理解。

与现有方法的对比

在多个长视频理解基准上，BREASE框架展示了其卓越的性能。与现有方法相比，BREASE在LVU和MovieChat数据集上的表现尤为突出。在LVU数据集上，BREASE的top-1分类准确率显著提高了7.3%，展示了其在处理复杂电影内容和元数据时的强大能力。在MovieChat数据集上，BREASE在零样本模式下的准确率提高了14.9%，显著超过了之前的最先进方法。这些结果表明，BREASE框架在处理长视频问答任务时，能够有效地理解和回答与视频内容相关的问题。

通过消融实验，研究团队进一步验证了ECO和SeTR在BREASE框架中的关键作用。结果显示，缺少ECO会导致模型性能显著下降，而移除SeTR则会导致准确率下降5%。这些实验结果进一步证明了BREASE框架在长视频理解任务中的卓越性能。

在实际应用中的潜力

BREASE框架在实际应用中具有广泛的潜力。首先，在视频摘要方面，BREASE可以自动生成视频摘要，帮助用户快速获取视频的核心内容，节省时间和精力。这在新闻、教育和娱乐等领域尤为重要。其次，在内容检索方面，BREASE可以通过视频内容进行搜索和检索，提高信息获取的效率。例如，在大型视频库中快速找到相关视频片段。

在内容审核方面，BREASE可以自动检测和过滤不良内容，保障平台内容的安全性。这对于社交媒体平台和视频分享网站尤为重要，可以有效防止不良信息的传播。在版权保护方面，BREASE可以识别和管理视频内容的版权信息，防止侵权行为的发生。这对于保护创作者的权益和维护市场秩序具有重要意义。

此外，BREASE还可以用于智能推荐，根据用户的观看历史和偏好，推荐相关视频内容，提升用户体验。这在流媒体平台和视频分享网站中得到了广泛应用。总的来说，BREASE框架为长视频理解提供了一个新的思路，展示了其在处理复杂视频数据方面的强大能力和广泛应用前景。（END）

参考资料：https://arxiv.org/pdf/2408.17443

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

英伟达联合团队提出长视频新框架连接情节和语义

独角也有噬元兽