Meta的新AI模型会标记和跟踪视频中的每个对象

脚踏科技风火轮 2024-07-31 14:34:34

Meta 的新 AI 模型会标记和跟踪视频中的每个对象

Meta 有一种新的 AI 模型,可以在视频中移动时标记和跟踪任何对象。Segment Anything Model 2 (SAM 2) 扩展了其前身 SAM 的功能,该功能仅限于图像,为视频编辑和分析开辟了新的机会。

SAM 2 的实时分割可能是一个巨大的技术飞跃。它展示了人工智能如何处理移动图像并区分屏幕上的元素,即使它们在画面中移动或移出画面,然后再回到画面中。

分割是软件如何确定图像中的哪些像素属于哪些对象的术语。可以做到这一点的 AI 助手可以更轻松地处理或编辑复杂的图像。这是 Meta 原始 SAM 的突破。SAM 帮助分割珊瑚礁的声纳图像,解析卫星图像以帮助救灾工作,甚至分析细胞图像以检测皮肤癌。

SAM 2 拓宽了视频容量,这是一项不小的壮举,直到最近才可行。作为 SAM 2 首次亮相的一部分,Meta 分享了一个包含 50,000 个视频的数据库,该视频是为训练模型而创建的。这是在 Meta 提到的 100,000 个其他视频之上的。除了所有训练数据外,实时视频分割还需要大量的计算能力,因此,虽然 SAM 2 目前是开放且免费的,但它可能不会永远保持这种状态。

(图片来源:Meta)

细分市场成功

使用 SAM 2,视频编辑器可以比当前编辑软件的有限功能更轻松地隔离和操作场景中的对象,并且远远超出手动调整每一帧的能力。Meta 也设想 SAM 2 将彻底改变交互式视频。借助 AI 模型,用户可以在实时视频或虚拟空间中选择和操作对象。

Meta 认为 SAM 2 还可以在计算机视觉系统的开发和训练中发挥至关重要的作用,尤其是在自动驾驶汽车中。准确高效的物体跟踪对于这些系统安全地解释和导航其环境至关重要。SAM 2 的功能可以加快视觉数据的注释过程,为这些 AI 系统提供高质量的训练数据。

很多 AI 视频炒作都是围绕着从文本提示生成视频。OpenAI 的 Sora、Runway 和 Google Veo 等模型受到广泛关注是有原因的。尽管如此,SAM 2 提供的那种编辑能力可能会在将 AI 嵌入视频创作方面发挥更大的作用。

而且,虽然 Meta 现在可能具有优势,但其他 AI 视频开发人员热衷于制作自己的版本。例如,谷歌最近的研究导致了它正在YouTube上测试的视频摘要和物体识别功能。Adobe 及其 Firefly AI 工具也以照片和视频编辑为中心,包括内容感知填充和自动重构功能。

0 阅读:12

脚踏科技风火轮

简介:感谢大家的关注