字节跳动不能输掉的一场仗|焦点分析 - 未分类资讯(幸福双城资讯网)

文｜邓咏仪周鑫雨

编辑｜苏建勋

事情大家都知道了：字节跳动终于发布了自家的“Sora”。

9月24日的深圳AI创新巡展上，火山引擎发布两款视频生成大模型PixelDance（像素舞动）和Seaweed（海草），并且面向企业市场开启邀测。

这是一次毫无预警的发布。除了少数进入到内测环节的创作者，字节没有发布任何有关新产品的消息。

尽管低调，但市场对字节系sora仍有着巨大期待。年初，OpenAI的Sora几乎是一脚踢开了多模态、视频生成的大门。之后，6月快手可灵的爆火出圈，彻底点燃了这个赛道。

作为短视频巨头的字节，从去年ChatGPT发布后，就背负了巨大期待。从已有条件上看，字节几乎是大厂中，先天优势最足的一家：有钱、有芯片、人才密度也足够大。

类Sora赛道，也早已被市场公认为是字节、快手的“天选场景”——短视频巨头不仅有巨量数据，也有足够丰富的应用场景。

但现实是，快手可灵自6月上线以来，已有超260万人使用过可灵，累计生成了2700万个视频、5300万张图片。此前的字节却仍未有动静，不免要面对市场上的诸多猜测——等到此时发布AI视频生成模型，还有多大胜算？

字节版“Sora”，可以摘掉Sora的帽子吗？

从效果上看，两款模型初步可以实现的的效果，无疑令人惊艳。

字节官方给出的实例中，无论是统一性、角色丰富度，都上了一个台阶。

由文字或图像生成的AI视频，不仅能够遵循复杂指令，让不同人物完成多个动作指令的互动，人物样貌、服装细节甚至头饰在不同运镜下也保持一致，接近实拍效果。

△来源：豆包AI视频生成模型

值得关注的，一是多帧视频的连续性。

此前，视频生成模型大多只能完成简单指令，比如某个人/某个物体，完成单个动作。一旦有比较复杂的动线，视频就容易失真、变形。

现在的豆包AI视频生成模型，则可以实现自然连贯的动作，在奔跑、走路、抬头等等上面，连贯性和效果都好了不少。简单来说，不会看着看着，就突然从史密斯吃面，变成特朗普吃面。

△来源：豆包AI视频生成模型

二是角色的丰富度。豆包这次发布的AI模型，优势尤为突出的是多主体间的互动。

在不少实例中，都可以看到多个角色之间的互动，动作连贯合理，镜头类型也十分丰富，包含了多种类型的镜头调度方式——远景和近景的切换。镜头也能实现变焦、环绕、平摇、缩放、目标跟随等多种形式的变化。

在切换前后，人物样貌、服装细节甚至头饰也都可以保持一致。

下面这则视频，就从前面戴潜水墨镜的人，切换到后方另一位潜水员，两者的形象也都保持了一致。

△来源：豆包AI视频生成模型

目前，PixelDance（像素舞动）和Seaweed（海草）模型都正在内测版小范围测试，还未完全开放公测。但《智能涌现》通过内测风景、人物等等场景，即梦AI在实时生成风景视频上，镜头的调度、画面质量上，都可圈可点。

△来源：36氪实测PixelDance功能

不过，在人物生成场景里，输入原图+指定的动作Prompt后，随着动作改变，一致性还是相当可以，但会有部分手指变形的Bug，

△来源：36氪实测PixelDance图生视频功能

豆包本次的AI模型基于自研的DiT架构打造，这也被认为是OpenAI Sora的同款架构，是目前AI视频赛道上的主流技术路线。

不过，AI视频生成赛道的发展阶段比文字、图像都还要更早。如今的底层算法以闭源为主，数据极其稀缺——意味着各家都只能闭门造车，拼的就是工程优化能力。

火山引擎总裁谭待也表示，即梦AI等业务场景，已经对Transformer结构进行深度优化，而在DiT架构的研究上也有多款创新，才能大幅解决AI视频应用成本昂贵的问题，让应用成本降到最低。

但也有AI视频领域的从业者保持冷静，认为不用抱有太高期待。“现在底层的大模型没有代差，拉不开太大差距。”

AI博主归藏，就把豆包和AI视频老大哥Runway，以及明星初创Luma AI的生成效果，做了直观对比——

△来源：归藏

从功能上看，此次字节发布的Seaweed模型产品功能和体验更多元，不仅支持各种风格提示词响应，还有横竖多种比例的输出。

“综合结果比Luma要好很多，跟Runway各有优劣。”归藏在即刻上表示。

无论如何，字节的雄心壮志已经摆在了桌上。除了两款AI视频新模型，本次字节还发布了新的豆包音乐模型和同声传译模型，以及音乐模型。对创作者而言，豆包的大模型家族真正成为了”全家桶“：覆盖语言、语音、图像、视频等模态。

更值得关注的，是业务层面的迅猛增长。

自豆包大模型家族正式发布以来，日均调用量经历了爆发式增长。截至9月，豆包语言模型的日均tokens使用量超过1.3万亿，相比5月首次发布时增加十倍。其中，多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

近期的一张AI产品增长表现统计图，就颇令人玩味：单单是豆包App的MAU增长，就已经远远拉开了与其他产品的距离。

△来源：AI产品榜

豆包爆发式的增长，更多来自此前的激进价格战。自5月以来，包括字节、阿里、腾讯等巨头，以及Deepseek等创业公司，展开了一场轰轰烈烈的降价。字节甚至把每千Token价格卷到了以”厘“为单位，迅速拉到了地板价。

现在，底层模型已经到了拼性能的阶段。火山引擎总裁谭待，这次就又提出了一个新指标：峰值TPM（每分钟Token数）。“业内多家大模型目前最高仅支持300K甚至100K的TPM，难以承载企业生产环境流量。”他说。

TPM，可以看作是在在单位时间内，模型的数据吞吐量。豆包Pro支持800K的TPM——据谭待表示，比如某科研机构的文献翻译场景，TPM峰值为360K，某汽车智能座舱的TPM峰值为420K，某AI教育公司的TPM峰值会达到630K。这些场景，豆包Pro如今都可以满足。

随着豆包AI生成视频的发布，字节最后补上了AI视频的一块拼图。这和昨夜OpenAI突然发布的高级语音功能一起，一起形成了一种明喻：在模型层，大厂们已经武装到牙齿，大的细分赛道都有相应的模型——留给创业者的空间，又要再一次打个问号。

字节和快手的漫长对垒

在AI赛场上，字节对于胜利的渴望已经溢于言表。

剪映及其旗下的AI视频产品“即梦”，就由前抖音集团CEO、现剪映业务负责人张楠亲自带队。而为了尽快让此次的两款新模型上线，字节也抽调了不少人做工程。

字节跳动的焦虑，来自短视频战场上的老对手：快手。

2024年6月，文生视频模型“可灵”，就突然空降快手剪辑产品“快影”。

在行业苦等“中国版Sora”出现的当下，可灵的表现是亮眼的。

“现在视频生成很难做长的原因，一是成本高，二是前后一致性太难保证。”一名AI从业者告诉36氪，“但是可灵能生成2分钟视频，比Sora（60秒）的天花板还高。”

更进一步，从镜头的连贯性和元素关系的逻辑性来看，不少业内人士都表示，可灵在中国类Sora产品中，效果是Top级别。

与彼时仍未开放的Sora，和小出圈的生数科技视频生成模型Vidu相比，快手对“老铁们”也可谓是慷慨和坦诚：立马开放公测，且免费。

与“众多工程师参与”的PixelDance和Seaweed不同，可灵团队的项目执行方式可谓是相当粗放和激进。

有媒体曾报道，可灵团队只有20余人，从立项到上线只花了3个月。可灵启动一个月后，就被上升为快手的战略级项目。快手高级副总裁、主站业务与社区科学线负责人盖坤常说的一句话是：公司的卡都给你们用，公司全力支持。

在豆包发布之前，可灵也提供截至9月19日，可灵已经迭代了9次，最新的1.5版本上线了Web端，有了更高清的画质、更符合物理规律的运动轨迹，支持更为复杂的镜头控制和可自定义的运动轨迹。

不少从业者对36氪判断，可灵的出圈，与快手丰富的视频数据积累密不可分。而能与之一战的，大概率只有拥有抖音的字节跳动。

然而在视频生成领域，字节对阵快手以来，碰到了罕见的败北。其实早在可灵发布前1个月，剪映就在AIGC产品“即梦”上线了AI视频生成功能。

但无论是关注度，还是用户口碑，即梦都不算一款成绩漂亮的产品。一名使用者评价：在效果一般的情况下，非会员生成视频超3秒竟然还要收费。

压力已经给到了字节。一位AI 3D领域生成的从业者就表示，AI视频生成公司给出的样例，一般都是尝试过输入多次Prompt，才得出来的Good Case（好样本）。等之后全量上线，才能真正看到豆包在实用场景下的表现。

“一些明显可以感知的指标在于，长镜头时长什么时候可以超过1分钟，多分镜切换后时空一致性能不能保持，以及随着分辨率加大时，生成时间会不会跟随分辨率指数增长。”他表示。

对于当下的抖音和剪映业务体量而言，AI视频的应用成本依旧是高昂的。

一个最直观的问题在于，对于剪映这样一个月活已经超过3亿，专注在视频剪辑场景的应用，如何要在降低AI应用成本的同时，维持产品和效果的高水平，将是更难的挑战。

先发优势在AI模型层依然重要。目前，可灵、Vidu已经先行占据了视频生成领域的用户心智，作为后入者的字节，不得不加快步伐。

漫长的战役才刚刚开始。

封面来源｜视频截图

欢迎交流