在Sora引爆视频生成时，Meta开始用Agent自动剪视频了！

未来，视频剪辑可能也会像视频生成领域一样迎来 AI 自动化操作的大爆发。

这段时间，AI视频创作领域异常热闹，尤其是OpenAI的视频生成大模型Sora，一跃成为行业焦点。对视频剪辑而言，大模型驱动的Agent技术正逐渐展露锋芒。

通过利用自然语言处理任务，用户现在可以仅通过描述意图来指导视频剪辑，极大减少了对手动操作的依赖。然而，尽管如此，当前的视频剪辑工具还是过分依赖手动干预，且在提供个性化辅助方面做得不够。

针对这一问题，来自多伦多大学、Meta（Reality Labs Research）、加州大学圣迭戈分校的研究者提出了一个使用大语言模型来实现视频剪辑的新思路，并探索了减轻传统视频剪辑负担的新范式，这一切都在预示着视频剪辑未来的转型，向着更加高效、自动化的方向前进。

来百度APP畅享高清图片

论文标题：LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing

论文地址：https://arxiv.org/pdf/2402.10294.pdf

LAVE，作为视频剪辑领域的一大创新，利用了大语言模型（LLM）提供的强大语言增强功能。这款工具的核心是一个能够解读用户自由表达的命令、进行高效规划与执行的LLM基智能体，它为用户实现个性化的剪辑目标提供了强大支持。从创意头脑风暴到视频素材的快速概览，再到基于语义的视频检索、故事板创建和精细剪辑，LAVE的智能体能在各个环节提供实质性帮助，使视频剪辑工作变得更加直观和高效。

LAVE通过集成视觉语言模型（VLM），自动地将视频视觉效果转化为语言描述，从而极大地促进了智能体的操作效率。这些视觉描述让大语言模型（LLM）可以更准确地理解视频内容，借助其语言处理优势，帮助用户轻松实现剪辑目标。LAVE还引入了两种互补的视频剪辑交互模式：智能体协助模式与直接操作模式，它们赋予用户根据需要选择最适合的剪辑方式，无论是依赖智能体的高级辅助还是进行个性化的直接编辑，LAVE都能满足用户的多样化需求。

LAVE的剪辑性能评估通过一项包含8位参与者的用户研究得到了验证，这些参与者从视频剪辑新手到经验丰富的编辑者不等，研究结果显示，他们均能利用LAVE完成高质量的AI辅助视频制作。特别值得一提的是，负责这项研究的六位作者中有五位是华人，他们分别是论文的第一作者、多伦多大学计算机科学领域的博士生Bryan Wang，Meta的研究科学家Yuliang Li、Zhaoyang Lv、Yan Xu，以及加州大学圣迭戈分校的助理教授Haijun Xia。这反映了华人科研人员在推动视频编辑AI技术进步中的关键作用。

LAVE 用户界面（UI）

我们首先来看 LAVE 的系统设计，具体如下图 1 所示。

LAVE 的用户界面包含三个主要组件，分别如下：

语言增强视频库，显示带有自动生成的语言描述的视频片段；

视频剪辑时间轴，包括用于剪辑的主时间轴；

视频剪辑智能体，使用户与一个会话智能体进行交互并获得帮助。

LAVE的设计理念旨在创造一个互动且直观的视频剪辑环境。核心在于，用户与智能体的每次对话交互都通过聊天界面（UI）中的消息交换实时展示，确保了操作的透明度和互动性。当用户执行相关命令时，智能体即刻响应，对语言增强视频库和视频剪辑时间轴进行相应的更新和调整。此外，LAVE还允许用户通过光标直接在视频库和时间轴上进行操作，这种设计不仅保留了传统视频剪辑工具的熟悉感，也融入了AI的先进性，从而实现了高效与用户友好的双重优势。

语言增强视频库

语言增强视频库的功能如下图 3 所示。

LAVE在继承传统视频剪辑工具核心功能的基础上，引入了创新的视觉叙述特性，通过自动生成每个视频片段的文本描述，包括语义丰富的标题和摘要，为用户提供了额外的信息层。这些自动生成的标题不仅便于用户理解和索引视频剪辑，而且摘要部分提供了对视频视觉内容的精炼概述，极大地促进了用户在编辑过程中故事情节的构建。此外，为了提高操作的直观性，每个视频片段下方都明确展示了标题和时长，使用户能够更有效地管理和安排自己的编辑项目。

LAVE的另一突破在于它为用户提供了基于语义语言查询的视频搜索功能。通过这一功能，用户可以简单地输入查询条件，剪辑智能体会即刻在视频库中检索并展示与查询条件相关的视频片段，且这些视频会按照相关性进行排序。这种方式极大地简化了视频素材的寻找过程，提高了编辑效率，而且完全是通过剪辑智能体来实现的，体现了LAVE在智能视频编辑领域的先进技术和用户友好的设计理念。

视频剪辑时间轴

在用户将选中的视频片段添加到剪辑时间轴中后，这些片段会在LAVE界面的底部时间轴上显示。时间轴上，每个视频剪辑都用一个框表示，并内嵌有三个缩略图帧，这三帧分别代表了视频的开始、中间和结束。这样的布局让用户能够一目了然地看到每个视频片段的关键帧，极大地便利了编辑过程中的视频内容规划和调整，确保了用户可以更加精细地掌握视频剪辑的每一步。

在LAVE系统的核心功能之一是其视频剪辑时间轴，每个时间轴上的缩略图帧精确代表了剪辑中的一秒钟视频素材，旨在为用户提供清晰的视觉参考。与视频库的操作类似，每个视频剪辑旁边都配有详细的标题和描述，使用户能够快速理解每个片段的内容和上下文。LAVE的时间轴设计专注于优化剪辑的排序和修剪流程，以支持创造连贯的视频叙述。用户可以选择基于LLM的智能排序，通过与视频剪辑智能体互动使用其故事板功能来自动安排片段顺序；或者采取更传统的手动排序方法，通过拖放视频框来自定义每个剪辑的出现顺序，这两种功能共同确保了用户在视频编辑过程中的灵活性和控制力。

在LAVE视频编辑工具中，修剪是一个核心功能，它允许用户精确地高亮显示视频中的关键部分并剔除不需要的片段。为了实现这一点，当用户需要对某个视频片段进行修剪时，他们可以通过双击时间轴上的剪辑框来激活一个特殊的弹出窗口。这个窗口专门显示该剪辑的一秒帧视图，为用户提供了一个非常详细的帧选择界面。通过这种方式，用户可以更细致地审查和编辑视频内容，确保最终视频剪辑的质量和连贯性。如下图 4 所示。

视频剪辑智能体

LAVE的视频剪辑智能体通过一个基于聊天的界面促进了用户与智能体之间的互动，这一点与传统的命令行工具有着根本的不同。用户可以利用日常语言与智能体进行交流，这极大地简化了编辑过程中的指令输入。借助于LLM的语言处理能力，智能体能够理解用户的需求，并提供相应的编辑辅助和反馈，确保用户在剪辑过程中得到有效的帮助。每一项智能体的操作都旨在执行系统支持的一系列编辑功能，从而使用户能够轻松完成复杂的视频编辑任务。

总的来说，LAVE提供了一个全方位的视频编辑解决方案，从初始的想法构思到最终的编辑实施，整个流程无缝连接。然而，LAVE的优势在于其灵活性，它并未强迫用户遵循某一特定的编辑流程。这意味着用户可以根据自己的具体需求和目标，选择最适合自己的功能集合。例如，对于那些已经有明确编辑计划和故事框架的用户，可以直接跳过规划阶段，进入到实际的视频编辑环节。LAVE的这一设计思想极大地促进了用户的创造性工作，使得每个人都可以按照自己的节奏和风格进行视频创作。

后端系统

该研究采用 OpenAI 的 GPT-4 来阐述 LAVE 后端系统的设计，主要包括智能体设计、实现由 LLM 驱动的编辑功能两个方面。

智能体设计

该研究利用 LLM（即 GPT-4）的多种语言能力（包括推理、规划和讲故事）构建了 LAVE 智能体。

LAVE 智能体有两种状态：规划和执行。这种设置有两个主要好处：

允许用户设置包含多个操作的高级目标，从而无需像传统命令行工具那样详细说明每个单独的操作。

在执行之前，智能体会将规划呈现给用户，提供修改的机会并确保用户可以完全控制智能体的操作。研究团队设计了一个后端 pipeline 来完成规划和执行流程。

如下图 6 所示，该 pipeline 首先根据用户输入创建行动规划。然后，该规划从文本描述转换为函数调用，随后执行相应的函数。

实现 LLM 驱动的编辑功能

为了帮助用户完成视频编辑任务，LAVE 主要支持五种由 LLM 驱动的功能，包括：

素材概述

创意头脑风暴

视频检索

故事板

剪辑修剪

其中前四个可通过智能体来访问（图 5），而剪辑修剪功能可通过双击时间轴中的剪辑，打开一个显示一秒帧的弹出窗口（图 4）。

其中，利用最新的向量存储数据库技术，基于语言的视频检索功能得以实现。通过精心设计的LLM提示工程技巧，我们能够在自动生成的视频语言描述基础上，为视频库中的每个剪辑提供准确的标题和摘要。研究团队将这种文字描述方法称为“视觉叙述”，它极大地增强了视频内容的检索效率和准确性。

幸福双城资讯网

在Sora引爆视频生成时，Meta开始用Agent自动剪视频了！

格物时间