文生视频模型“Sora”登场,令竞争对手绝望的OpenAI总是又快又强

陆超芝士 2024-03-01 17:56:17

不久前的2月中旬,在没有任何预热的情况下,知名人工智能公司Open AI突然发布了王炸级别的人工智能模型“Sora”,Sora是第一个文生视频模型,通过自然语言输入可以生成最长可达一分钟的视频,这大大突破了过去生成式人工智能以秒为单位的视频生成能力,比过去的生成式人工智能视频生产能力提高了15倍。

Sora在自然语言理解上运用了十分成功的 Transformer 架构,在视频生成上运用了Diffusion架构来生成视频。同时和一般意义上的视频动画不同,其具备世界模型的潜质,虽然这不是生成视频的必须要素,但是却是生成拟真视频的重要能力,其具备对真实的物理世界进行模型建立,在虚拟世界中进行模拟,这可以让其生成的视频更贴切于真实世界,符合物理世界的逻辑,也可以帮助诸如人工智能驾驶这样的应用进一步落地。

在其生成的越野车在山区行驶的视频中,车辆的倾斜和颠簸非常贴近于真实的汽车在非铺装路面行驶的情况。

当然Sora的拟真能力仍然有问题,还存在诸如饼干被咬过后没有留下齿印的BUG,这一点Open AI也把这些缺陷写入其官方网站信息上。现在Sora仍然处于内测阶段,没有开放使用,但是相信和大众见面也不会太遥远。

一分钟级别的视频生成能力已经具备了十分广阔的市场应用前景,甚至将会影响到部分内容生成型平台的生存逻辑。生成式人工智能从文字生成、图片生成已经迅速跨入到视频生成领域,这将有可能冲击到短视频、短剧等具备巨大市场的场景中。

作为自然语言命令生成视频的人工智能,其不需要图片或者其他原始素材,仅仅根据语言描述由人工智能自行分析出时空逻辑,并且让生成的物体的运动、变化、光线反射等服从现实世界规律,这种时空逻辑同时还是连续的,不是文生图模型中的定格的。当然这种拟真在当前阶段Sora并没有做到完美,仍然有许多BUG,比如三只小狗玩耍的视频中凭空出现第四个小狗等。

烟雾弹藏好Sora这个大杀器

在Sora发布之前,有很多烟雾弹式的消息来掩盖这个关键项目,比如Open AI正准备推出GPT-4.5-turbo之类的消息,这也导致诸如一些其他竞争企业完全没有任何防备。有数据透露,仅国内的短视频用户就在10亿以上,除了幼童和老人外,基本实现了适龄人口全覆盖,并且透露抖音在2022年收入达到5000亿人民币以上,快手也在900亿人民币以上,如此巨大的市场均依靠正常的视频制作流程。Sora的诞生将会冲击到众多内容生产者,大大降低了视频制作门槛,让一些真正有创意的创作者有了更大的机会。

而在Sora发布之前,众多厂商对于生成式人工智能视频生成能力投入很是模糊,没有意识到可以做到如此贴近实际应用,并没有花费大量资源进行技术储备和投入。这使得他们低估了技术的爆发速度,在此之前众多厂商和媒体以为仍然有足够长的时间来开发,使其没有投入到世界模型和更长的时长等关键指标上。业内的诸如Pika、Runway、Meta的模型可以做出画质更精美的视频,但是时长不超过4秒,同时物体运动幅度极低,并且会变形。国内大厂字节跳动倒是有类似的投入,在2023年11月其发布了PixelDance,该AI工具可以通过上一个视频的尾帧为下个视频的片头帧提供指导。

Sora的发布很可能让之前备受重视的Pika团队陷入危机,其在2023年11月刚刚实现5500万美元的融资,但是其现在的业务表现在Sora面前缺乏竞争力,下一轮融资可能受到冲击,Runway团队同样如此,其在2023 年 5 月完成 1.41 亿美元融资,受到Sora的冲击,其之后的融资可能出现困难。

Open AI确实在生成式人工智能上表现出强大的统治力,其一步快、步步快,每一步都领先竞争对手。对于那些追逐风口的创业者来说,确实是比你强大还比你快,令人感到窒息。而在未来生成式人工智能可能具备更大的市场价值,根据工信部赛迪研究院数据,23年,中国生成式人工智能的企业采用率已达15%,市场规模约14.4万亿元。制造、零售、电信和医疗等行业的生成式人工智能技术的采用率取得较快增长,到2035年生成式人工智能可能为全球贡献近90万亿的价值,希望每个人都可从中受益!

0 阅读:5

陆超芝士

简介:感谢大家的关注