文生视频模型“Sora”登场，令竞争对手绝望的OpenAI总是又快又强

不久前的2月中旬，在没有任何预热的情况下，知名人工智能公司Open AI突然发布了王炸级别的人工智能模型“Sora”，Sora是第一个文生视频模型，通过自然语言输入可以生成最长可达一分钟的视频，这大大突破了过去生成式人工智能以秒为单位的视频生成能力，比过去的生成式人工智能视频生产能力提高了15倍。

Sora在自然语言理解上运用了十分成功的 Transformer 架构，在视频生成上运用了Diffusion架构来生成视频。同时和一般意义上的视频动画不同，其具备世界模型的潜质，虽然这不是生成视频的必须要素，但是却是生成拟真视频的重要能力，其具备对真实的物理世界进行模型建立，在虚拟世界中进行模拟，这可以让其生成的视频更贴切于真实世界，符合物理世界的逻辑，也可以帮助诸如人工智能驾驶这样的应用进一步落地。

在其生成的越野车在山区行驶的视频中，车辆的倾斜和颠簸非常贴近于真实的汽车在非铺装路面行驶的情况。

当然Sora的拟真能力仍然有问题，还存在诸如饼干被咬过后没有留下齿印的BUG，这一点Open AI也把这些缺陷写入其官方网站信息上。现在Sora仍然处于内测阶段，没有开放使用，但是相信和大众见面也不会太遥远。

一分钟级别的视频生成能力已经具备了十分广阔的市场应用前景，甚至将会影响到部分内容生成型平台的生存逻辑。生成式人工智能从文字生成、图片生成已经迅速跨入到视频生成领域，这将有可能冲击到短视频、短剧等具备巨大市场的场景中。

作为自然语言命令生成视频的人工智能，其不需要图片或者其他原始素材，仅仅根据语言描述由人工智能自行分析出时空逻辑，并且让生成的物体的运动、变化、光线反射等服从现实世界规律，这种时空逻辑同时还是连续的，不是文生图模型中的定格的。当然这种拟真在当前阶段Sora并没有做到完美，仍然有许多BUG，比如三只小狗玩耍的视频中凭空出现第四个小狗等。

烟雾弹藏好Sora这个大杀器

在Sora发布之前，有很多烟雾弹式的消息来掩盖这个关键项目，比如Open AI正准备推出GPT-4.5-turbo之类的消息，这也导致诸如一些其他竞争企业完全没有任何防备。有数据透露，仅国内的短视频用户就在10亿以上，除了幼童和老人外，基本实现了适龄人口全覆盖，并且透露抖音在2022年收入达到5000亿人民币以上，快手也在900亿人民币以上，如此巨大的市场均依靠正常的视频制作流程。Sora的诞生将会冲击到众多内容生产者，大大降低了视频制作门槛，让一些真正有创意的创作者有了更大的机会。

而在Sora发布之前，众多厂商对于生成式人工智能视频生成能力投入很是模糊，没有意识到可以做到如此贴近实际应用，并没有花费大量资源进行技术储备和投入。这使得他们低估了技术的爆发速度，在此之前众多厂商和媒体以为仍然有足够长的时间来开发，使其没有投入到世界模型和更长的时长等关键指标上。业内的诸如Pika、Runway、Meta的模型可以做出画质更精美的视频，但是时长不超过4秒，同时物体运动幅度极低，并且会变形。国内大厂字节跳动倒是有类似的投入，在2023年11月其发布了PixelDance，该AI工具可以通过上一个视频的尾帧为下个视频的片头帧提供指导。

Sora的发布很可能让之前备受重视的Pika团队陷入危机，其在2023年11月刚刚实现5500万美元的融资，但是其现在的业务表现在Sora面前缺乏竞争力，下一轮融资可能受到冲击，Runway团队同样如此，其在2023 年 5 月完成 1.41 亿美元融资，受到Sora的冲击，其之后的融资可能出现困难。

Open AI确实在生成式人工智能上表现出强大的统治力，其一步快、步步快，每一步都领先竞争对手。对于那些追逐风口的创业者来说，确实是比你强大还比你快，令人感到窒息。而在未来生成式人工智能可能具备更大的市场价值，根据工信部赛迪研究院数据，23年，中国生成式人工智能的企业采用率已达15%，市场规模约14.4万亿元。制造、零售、电信和医疗等行业的生成式人工智能技术的采用率取得较快增长，到2035年生成式人工智能可能为全球贡献近90万亿的价值，希望每个人都可从中受益！

幸福双城资讯网

文生视频模型“Sora”登场，令竞争对手绝望的OpenAI总是又快又强

陆超芝士