乌鸦AI日报：谷歌新AI为视频生成配乐和对白；Runway发布Gen-3，一键生成10秒视频

Google1人工智能研究实验室DeepMind正在开发为视频生成配乐的AI，他们独有的V2A技术可以将配乐描述与视频配对，创造出与视频中的人物和语气相匹配的音乐、音效甚至对话。

Runway推出新一代模型Gen-3 Alpha，可根据文字描述和静态图像生成视频片段，90秒内快速生成10秒视频，能包含多样的电影叙事手法。

过去一天，国内外AI行业还有哪些热点值得关注呢？让乌鸦君带你一起看看吧。

/ 01 / 大模型

1）Runway推出全新视频模型Gen-3

Runway推出全新模型Gen-3 Alpha，这是即将推出的系列模型中的首款。Gen-3 Alpha可根据文字描述和静态图像生成视频片段，模型驱动新的文本到视频(T2V)、图像到视频(I2V)和文本到图像(T2I)。

Gen-3 Alpha可以处理复杂的场景变化，并能包含多样的电影叙事手法；拥有动作笔刷、高级摄像机控制、导演模式；

模型在保真度、一致性和运动方面都相比Gen-2有了很大提升，90秒内快速生成10秒视频，还可并行生成多个视频。

官方表示，Gen-3将在未来“几天内”向Runway的付费用户开放，免费版本也将在未来某个时间点向所有用户开放。

2）DeepMind的新AI可以为视频生成配乐和对白

Google的人工智能研究实验室DeepMind正在开发为视频生成配乐的人工智能技术，为V2A提供动力的人工智能模型是在声音和对话文本以及视频剪辑的组合上训练出来的。据悉，当前还未有模型能在生成视频时同步生成音效。

DeepMind的V2A技术可以将配乐描述与视频配对，创造出与视频中的人物和语气相匹配的音乐、音效甚至对话，并通过SynthID深度防伪技术打上水印。

3）潞晨Open-Sora技术路线公开，单镜头16秒720p高清视频一键生成

潞晨Open-Sora是免费开源了视频生成模型，16秒720p高清画质一键生成，支持无缝产出任意风格的高质量短片。其最新版本引入视频压缩网络等技术，降低训练成本。团队提供完整训练方案，支持多种视频宽高比输出，并可通过GPT-4修改指令。模型权重和训练代码可免费获取，适用于游戏、广告等领域。

开源地址：https://github.com/hpcaitech/Open-Sora

4）新对口型视频项目Hallo发布可对表情，嘴型进行精确控制

新对口型视频项目Hallo发布，通过单张图像和音频输入生成唱歌和说话的视频，实现精确控制人物表情和姿态，提升语音输入与生成动画之间的对齐精度。该技术不仅可用于虚拟角色动画生成，还可应用于真实人物，支持多种运动控制，跨演员应用，以及歌唱动画生成。技术先进，动画逼真，具有广泛的应用潜力。

5）北大快手联合推视频生成框架VideoTetris复杂视频生成效果超越Pika

本文介绍了北京大学与快手AI团队合作攻克复杂视频生成难题，提出VideoTetris框架，成功超越商用模型Pika和Gen-2。该框架定义了组合视频生成任务，支持复杂指令和长视频生成，保留位置信息和细节特征。团队采用时空组合扩散方法，优化训练数据预处理和引入参考帧注意力机制，生成更具动感和自然的视频。

6）网格生成模型MeshAnything：将任何3D转换为艺术家创建的网格

由重建和生成创建的3D资产已经达到了手工制作资产的质量水平，凸显了它们在替代领域的潜力。MeshAnything是一种用于生成艺术家创建的3D网格的自动回归模型，通过VQ-VAE和形状条件的仅解码器变压器实现高质量的网格生成。该方法显著提高了存储、渲染和模拟效率，同时保持与以往方法相当的精度。

/ 02 / AI应用

1）苹果AI或计划将延迟推出，开发者要等到夏末才能进行测试

据彭博社报道，苹果的人工智能(AI)计划将是一个漫长而缓慢的过程。苹果公司上周宣布的苹果Intelligence计划预计将在夏末晚些时候才能供开发者测试。这意味着它不会成为苹果新操作系统更新的首批测试版，并且仅会在今年秋季推出一个预览版。

2）KREA AI推出视频增强功能，一键提升视频画质

KREA AI推出的视频增强功能“Enhancer”，可以提升图片和视频画质，并支持更高的分辨率和帧速率。用户可以简单操作，上传需要改善的目标图片/视频，KREA AI将进行在线处理，最终生成高质量视频。

3）腾讯混元推出肖像动画生成框架Follow Your Emoji

腾讯混元携手香港科技大学及清华大学，推出了肖像动画生成框架“Follow Your Emoji”，这是一个基于扩散的人像动画框架，它不仅可以对人物的脸部动作进行细节化的控制处理，同时也可以处理动物的面部表情。此外，它不仅可以为单个表情制作多种肖像，同时也可以为单个肖像制作多个表情。

4）Luma AI发布了 Extend 功能视频时长扩充到10秒以上

Luma AI最近更新了Dream Machine视频模型，新增了Extend功能，可以将视频时长扩充到10秒以上，并保持原视频风格、人物对象一致。虽然Extend功能生成延长视频耗时较长，但风格一致性保持得很好。

/ 03 / 投融资情报

1）软银宣布与Perplexity达成合作

软银昨日在官网发文，宣布与生成式AI搜索初创公司Perplexity建立战略合作伙伴关系。明（19）日起，软银将向使用软银、Y！mobile和LINEMO这3个品牌的客户，开放Perplexity Pro一年免费试用的申请。

/ 04 / AI基础设施

1）哈佛神经科学家和谷歌DeepMind在虚拟老鼠中创建人工大脑

哈佛大学研究人员与谷歌DeepMind团队合作，利用人工智能技术为虚拟老鼠创建人工"大脑"的突破性研究。他们成功建立了生物力学逼真的3D老鼠模型，并利用DeepMind的深度强化学习算法训练了一个人工神经网络大脑，实现了超越真实的模拟效果。这一创新有望为神经科学和人工智能领域带来革命性进展。

2）AI研究的主要推动力是什么？ChatGPT团队科学家：算力成本下降

OpenAI研究科学家Hyung Won Chung解释了机器学习研究的主要推动力。他指出，计算成本的指数级下降是促进AI研究的关键因素，并且这种趋势将继续推动AI的发展。他鼓励研究者关注过去架构的分析，以帮助我们理解未来可能的发展方向。

3）清华与北大合作发布长视频理解基准测试：LVBench

智谱、清华大学和北京大学合作推出的长视频理解基准测试项目LVBench，旨在弥补现有多模态大型语言模型在处理长视频方面的挑战。该项目包含多类别的数小时QA数据，涵盖不同类型的视频内容，旨在推动长视频领域的技术突破和创新。许多研究机构已在LVBench数据集上展开工作，为视频理解和多模态学习领域注入新活力。

4）多模态模型的画布框架Sketchpad：提升多模态模型数学能力

研究人员引入的“Sketchpad”概念，为多模态LM提供了视觉画板和绘图工具，使其能够进行视觉推理。通过实验结果显示，Sketchpad显著提高了LM在数学任务和复杂的视觉推理任务上的表现，进一步接近人类的思维方式，为人工智能技术的发展开辟了新的可能性。

5）拯救Transformer推理能力！DeepMind新研究：给模型嵌入算法推理大脑

DeepMind最新研究提出混合架构，将Transformer模型的自然语言理解(NLU)技能和基于图神经网络(GNN)的神经算法推理器(NAR)的推理能力结合，可实现更泛化、稳健、准确的大型语言模型(LLM)推理。此项研究，解决了Transformer模型在数学、代码等领域推理任务上的精确、稳健做推理的问题。

幸福双城资讯网

乌鸦AI日报：谷歌新AI为视频生成配乐和对白；Runway发布Gen-3，一键生成10秒视频

乌鸦智能说