文字生成视频SORA强悍来袭未来电影雏形初具！

就在刚刚，OpenAI公司2 月 15 日在一篇博客文章中表示，这款名为Sora的人工智能系统可以快速制作长达一分钟的视频，这些视频可以呈现「具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景」。OpenAI 首席执行官Sam Altman表示，该工具最初将提供给「有限数量的创作者」。从目前公开的视频看，画面中的人物腿部不太协调，但整体属于可接受范围。

Sora 对于需要制作视频的艺术家、电影制片人或学生来说，都带来了无限可能。该模型可以深度模拟真实物理世界，标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。

Sora是一种扩散模型，它能够通过从一开始看似静态噪声的视频出发，经过多步骤的噪声去除过程，逐渐生成视频。Sora不仅能够一次性生成完整的视频，还能延长已生成的视频。

OpenAI希望通过Sora与Meta(META.US)和谷歌(GOOGL.US)等公司的视频生成人工智能工具竞争。谷歌今年1月宣布推出AI视频大模型Lumiere。其他初创公司也有类似的人工智能工具，比如Stability AI，该公司有一款名为Stable Video Diffusion的产品。亚马逊(AMZN.US)还发布了“Create with Alexa”，这是一个专门生成基于提示的儿童动画短片的模型。

去年就有大火的文字生成图片工具《Midjourney》，这是一款2022年3月面世的AI绘画工具，创始人是David Holz。2022年在8月迭代至V3版本并开始引发一定的关注，而2023年更新的V5版本让Midjourney及其作品成功“出圈”，代表作是“中国情侣”图片。

随着软件版本的不断迭代，可预期的未来，精致的视频画面或将对好莱坞电影创作产生巨大冲击。事实上，通过AI来替代编剧，通过视频捕捉人物动作已经让好莱坞头痛不已，不少编剧、演员等都选择罢工抗议，这次Sora推出的视频，只会加剧技术替代人工，完全借助技术的力量，一部大片即可形成，这也让目前特效制作企业感到压力。马斯克则直接做出预判称，2024年将是 “人工智能电影” 元年。

另外一家Stability AI 公司的最新图像生成模型 Stable Cascade 承诺比其业界领先的前身 Stable Diffusion 更快、更强大，而 Stable Diffusion 是许多其他文本到图像生成 AI 工具的基础。Stable Cascade 可以生成照片，并对所创建的图片进行修改，或尝试提高现有图片的分辨率。其他文本到图片的编辑功能还包括内画和外画（模型只对图片的特定部分进行填充编辑），以及可视边缘（用户可利用现有图片的边缘制作新照片）。

最近，谷歌也没有闲着。就在刚刚，谷歌DeepMind首席科学家Jeff Dean，以及联创兼CEO的Demis Hassabis激动地宣布了最新一代多模态大模型——Gemini 1.5系列的诞生。其中，最高可支持10,000K token超长上下文的Gemini 1.5 Pro，也是谷歌最强的MoE大模型。不难想象，在百万级token上下文的加持下，我们可以更加轻易地与数十万字的超长文档、拥有数百个文件的数十万行代码库、一部完整的电影等等进行交互。

国内初创企业视觉多模态大模型公司 HiDream.ai 梅涛近期告诉记者，在视频生成领域，HiDream.ai 在即将推出的新产品中已经能够做到打破如今 Runway、Pika 普遍面临的 4 秒时长限制，做到支持 15 秒钟左右的生成时长。公司创始人兼CEO梅涛说，HiDream.ai 团队在文生视频上创新了一套自己的思路：不直接从文本向视频转换，而是从文本先向图片转换，生成关键帧，再由此在时间维度上前后进行拓展。

AI也好，大模型也好，是最近一年多以来，科技前沿阵地。美国涌现出了大批公司，诸如OpenAI、微软、谷歌、META、英伟达、博通、奥多比、AMD、英特尔、ARM等，涉及到软件、AI芯片、算法、应用场景等多维度，以纳斯达克为代表的美股之所以在去年大涨的背景下，今年还能继续上涨，与之高度相关，不少龙头公司股价更是创出历史新高，获益最大的就是英伟达。我国从GPU源头上受限，也就是即便我们算法OK、设计OK，但不能制造出最先进的GPU，且美国对我国已经完全封锁了先进GPU的出售，一步落后，步步都受到掣肘。不过稍感欣慰的是以华为、百度、科大讯飞、阿里、腾讯、寒武纪、龙芯中科等为代表的科技企业，并没有躺平认怂，还再加大投入，且在部分领域譬如AI用到自能驾驶方面开始超越特斯拉等美国公司，只要我们自己不抛弃不放弃，紧赶慢赶，还是能走出一条自己的路。毕竟，在AI大模型领域，全球就剩下中美两国还在鏖战！其他的工业强国，如日本、德国、法国、英国、加拿大、韩国、意大利、澳大利亚等已经被甩得看不到中美两国的后尾灯了！

周鸿祎（360创立者）：科技竞争最终比拼的是让人才密度和深厚积累；AI不一定那么快颠覆所有行业，但它能激发更多人的创作力；国内大模型发展水平表面看已经接近GPT-3.5了，但实际上跟4.0比还有一年半的差距。而且我相信 OpenAl手里应该还藏着一些秘密武器，无论是GPT-5，还是机器自我学习自动产生内容，包括AIGC；大语言模型最牛的是，它不是填空机，而是能完整地理解这个世界的知识；Open AI训练这个模型应该会阅读大量视频。

许四清（阿尔法公社创立者，著名天使投资人）：融巨资过程中的OpenAI在Google 发布Gemini1.5后一天就公布了Sora做的demo而不是产品，多少有点抢风头的意思。不过Sora确实是个里程碑，它用diffusion＋transformer，极大地利用了LLM的能力，把视觉生成带上了大语言模型的快车，而且在官网上发文章讲述，很了不起。

纽约大学助理教授谢赛宁（ResNeXt的一作）直言，Sora将改写整个视频生成领域；Sora应该是建立在DiT这个扩散Transformer之上的；关于视频压缩网络，Sora可能采用的就是VAE架构，区别就是经过原始视频数据训练；Sora参数大概30亿个。

Sora发布后，马斯克用一句话点评：“gg人类（gg humans）。”gg为Good Games缩写，代指“打得好，我认输” 。

幸福双城资讯网

文字生成视频SORA强悍来袭未来电影雏形初具！

行者吴江