谷歌AI大牛蒋路加入字节跳动,发力视频生成

卓乎 2024-02-23 18:21:42

近日消息,原谷歌VideoPoet 的项目研究负责人、高级科学家蒋路将加入字节跳动旗下TikTok,负责视频生成AI的开发。

VideoPoet是谷歌在2023年12月30日发布的视频生成模型,与OpenAI最近发布的视频生成模型Sora类似。据谷歌介绍,该模型可以“零样本生成视频”,不仅支持常见的文生视频、图生视频,还支持视频编辑、风格化处理、视频扩展以及视频配乐。从谷歌提供的输出视频效果来看,VideoPoet确实较以往的AI视频大模型有了质的飞跃,也被认为是Sora的有力竞争对手。

目前,蒋路Google Scholar上资料显示已加入TikTok。

我们先来看这一大牛的履历:

据公开资料显示,蒋路不仅是谷歌高级科学家、 VideoPoet 的负责人,同时也是卡梅隆大学计算机学院的兼职教授(全美乃至全世界最大的计算机学院)。

此外,蒋路还是研究社区的活跃成员,美国国家种子基金(NSFSBIR)的 AI评审专家,并定期担任CVPR、ICML、ICCV、NeurIPS和 AAAI等著名会议的领域主席。

蒋路毕业于西安交通大学,此后又前往布鲁塞尔自由大学(位于比利时)、卡内基梅隆大学计算机学院学习。先后在微软亚洲研究院、雅虎和谷歌实习。

2017年毕业后,蒋路正式加入谷歌,并成为谷歌云AI的创始成员之一,也是李佳博士和李飞飞博士首次聘请的研究员。他的研究被曾被应用到谷歌多个产品,比如YouTube、CloudAutoML、Ads、Waymo 和 Translate,影响了全球数十亿用户的日常生活。

其参与的多任务视频生成方面的研究:MAGVIT:Masked Generative Video Transformer论文在CVPR 2023中以近乎满分。

蒋路也时常活跃在社交平台,2024年1月5日,在知乎,“2023年后,AI 还有什么研究方向有前景?”话题下蒋路进行了评论,其表示:

视频生成领域的“ChatGPT 时刻”预计会在24年底或25年中实现,到那个时候视频生成已经可以达到好莱坞样片级别的效果。放眼更长远的未来,视频生成研究更加终极的目标是追求 “visual intellegence”,人工通用智能也会在视频生成中实现。

就一个月多后,2月16日,OpenAI发布了视频生成大模型Sora,迅速“引爆”视频生成市场。吸引了包括马斯克、Yann LeCun(杨立昆,图灵奖获得者)等一众大佬的注意。

国内市场也开始沸腾。在OpenAI推出Sora以来,短短三日,就有超过14家券商发布逾19份相关研报。

券商纷纷给予Sora极高评价,国泰君安认为,Sora模型推动AI多模态领域飞跃式发展,AI创作等相关领域将迎来深度变革;天风证券研报称,2000亿美元的短视频创作生态有望率先被颠覆,下一个亿级用户的互联网平台雏形已然出现;招商证券指出,Sora显著领先于其他文生视频模型,推动AI视频生成进入了一个全新的时代;华泰证券认为,AI视频进入大规模应用前夜.......

与此同时,很多人也将视线转向了国内企业。在ChatGPT发布后,百度推出了文心一言,阿里推出通义千问、腾讯推出混元大模型、字节跳动云雀大模型。除了头部企业纷纷入局之外,也有不少大牛牵头成立相关研究公司,包括百川智能、月之暗面等。

这一次大家也同样如此。作为视频平台抖音和Tik Tok的母公司,字节跳动成为很多人首先关注的对象。

很快市场传闻:字节跳动在Sora引爆文生视频赛道之前,已经在研发“中文版Sora”:一款名为Boximator的创新性视频模型。它可以通过文本精准控制生成视频中人物或物体的动作。

消息刚出来,字节跳动相关人士就作出了回应称,Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

对于大规模研究字节跳动的确是认真的!

在2023年2月就有消息,字节跳动在大模型上已有所布局。当时的消息,大模型团队负责人的间接和直接汇报对象,均为Tik Tok产品技术负责人朱文佳。

紧接着3月份,又有消息,阿里M6大模型的前带头人杨红霞加入了字节AI Lab(人工智能实验室),参与语言生成大模型的研发。而杨红霞在阿里达摩院负责的就是超大规模多模态预训练模型M6的技术。

2023年8月31日,首批大模型产品陆续通过《生成式人工智能服务管理暂行办法》备案,字节的云雀大模型就是首批上线的8家大模型之一。

(首批备案大模型:百度文心一言、字节的云雀大模型、百川智能的百川大模型、清华系AI公司智谱华章旗下的智谱清言、中科院旗下紫东太初、商汤的“商量SenseChat”、MiniMax的ABAB大模型、上海人工智能实验室的书生通用大模型。)

不过相较于百度、阿里等公司,字节在这场大模型之战中显得略为“低调”。

相信很多人都不知道。在今年1月,字节跳动就已发布了MagicVideo-V2文生视频模型,通过文生图大模型先生成一张符合当前输入文本的图片,然后使用图片与文本描述利用图生成视频模型生成简单的视频。

据悉,该模型通过大规模用户评估,它表现出了优于Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型等领先文本转视频系统的性能。不过与Sora几乎难辨虚拟与真实的视觉效果相比,还有不小差距。

MagicVideo-V2生成的视频截图

Sora生成视频截图

作为竞争对手的百川智能创始人王小川,对字节却非常看好,其曾表示,字节在这场争夺战应占有一席之地,”如果能够出现一个产品可以理解视频,基本就立于不败之地了。”

如今AI视频大模型之战已经一触即发,蒋路的加入对于字节跳动来说将是巨大的助力,同时也可以说AI大模型之战字节跳动已经加入,2024年可以期待一波了。

0 阅读:122
评论列表
  • C4 2
    2024-02-25 10:22

    字节这种垃圾公司早点倒闭

卓乎

简介:专注半导体、新能源、人工智能、云计算等科技领域