"姚遥领先"公众号的第166篇原创文章
阅读大约需要3分钟,并帮忙点击文末的“赞”和“在看”!
凡所有相,皆是虚妄。
大年初六,OpenAI给本已火热的AIGC市场,投放了一枚新核弹,Sora横空出世!乍看效果惊艳,用Prompt(提示词)可生成60秒的高清视频,镜头切换自然,视觉效果逼真,关键的关键是,视频中的事物不合逻辑,但符合物理规律!沙坑中挖出塑料椅子、大街上游荡的“大”黄鸭、雪后盛开的樱花,想象力被完美呈现,众人惊呼,Sora要彻底改变世界!
Sora在英语里是个名字,男女皆可用,有人强行解释成日语、韩语、芬兰语纯属自作多情,OpenAI是为了和全人类共同的母亲Lisa呼应,意思Sora将是虚拟世界的母体。Sora紧跟Gemini发布,刻意而为,谷歌还在竭尽全力追赶GPT,而Sora的文生视频已经打开了一个新世界。谷歌已不是当年那个用搜索引擎改变世界的谷歌,而OpenAI却已成为虚拟世界的王者!
许多人好奇,这一轮AI浪潮为什么越来越急,从火星爆发成烈焰都没有中间过程?凯文凯利去年ChatGPT刚出现的时候,还在说5000天后世界将被AI彻底改变,1年以后的今天,满嘴跑火车的周鸿祎,预言AGI(通用人工智能)将从10年缩短到1年。其实,这只是个开始,上帝将人类设计成无法想象没见过的世界,而我们对于大模型也还几乎一无所知。
三四个月前,我曾在文章中探讨过,这一轮AI浪潮是由Transformer架构的发
展推动的,文字处理首先应用就诞生了ChatGPT神器,人类获取信息的80%来自眼睛,Transformer的视觉领域应用才是改变世界的关键。特斯拉是这个领域的先行者,马斯克早在三年前就预言,只凭视觉摄像头就能解决自动驾驶问题,他的底气就来自于Transformer+BEV对激光雷达方案的超越。
Sora的发布证明了,Transfomer在视觉领域大有可为,OpenAI的厉害之处在于,以Transfomer为基础,加上Diffusion真正改变了游戏规则。Diffusion并不新鲜,去年热度仅次于ChatGPT的Stable Diffusion早就在做了,但之前还只能生成图片。上周五StabilityAI匆匆发布,同样基于Diffusion Transformer的Stable Diffusion3但却问题多多,Midjourney基于GAN这类上一代技术,则完全被甩在了脑后。
OpenAI的Sora团队只有12个人(全公司共770人),大多是00后,核心人物Bill Peebles博士刚毕业(就是和谢赛宁一起提出Diffusion Transfomers理论的同学),而Sora项目启动是在2023年1月。仅仅1年,这些年轻人就惊艳了全世界,OpenAI的组织能力可谓惊人。另一方面看,OpenAI潜力惊人,毕竟还有700多人在做的工作还不为人知。
唱了这么多赞歌,当然也得泼泼冷水,尽管Sora初看效果经验,但对于构建虚拟世界几乎毫无用处!
研究Sora的原理就知道,Diffusion基于扩散过程的数学原理,再加上对图像Patch进行分析预测生成视频。什么是Patch,可以想象一段拍摄森林的视频片段,把它展开成一格一格的电影胶片,把每帧画面里的蜻蜓抠出来。对这些数据也就是Patch进行训练,数据足够多算力足够强,就能大力出奇迹,而这和人类用物理规律理解世界,没有半毛钱关系。
这已经是人类用计算机来模拟世界的最高水平,随便一个人,哪怕只是婴儿,能力都远远超过Sora,但,目前看不到其他的路,只能继续这样强力推进。随之而来,是对算力和能源的无限量需求,这也是为什么传闻OpenAI的Sam Altman不满意英伟达的GPU,想要筹建7万亿美元来重做AI芯片,要知道,全球半导体产业2023年销售额总共就5200亿美元!
Sora是在创造虚拟世界,却要消耗实体经济中的全部半导体和能源都不够,这样投入是否值得?马斯克早就Diss过,没有人愿意整天在脸上绑一块屏幕。他的战略是,用星舰来拓展人的物理世界,用NeuralInk来打通人脑和电脑(而不是创造“假”视频给眼睛看)。这几种路线目前看都还没走通,但却是全球经济的新增长点,产生出巨大的投资机会,英伟达收入暴涨,能限制股价的只有人类的想象力了。
回过头来,这一切和我们有什么关系。某些人说,中国和美国的AI差距只有1年,嗯,确实如此,时间是最公平的,有些人1年能做出Sora,有些人1年卖了几千万AI学习课。Sora取得的进展连马斯克都酸溜溜,其他竞争对手都变得小儿科,比如最近在A股被热炒的信达雅董事长女儿创业的Pika,更别提中国那些只会割韭菜的跳梁小丑,人和人、公司和公司真的是天壤之别!
不过也不用怕,1667年牛顿发明力学大定律、万有引力定律和微积分的时候,康熙刚战胜多尔衮夺回权力、正踌躇满志的重振大清,嗯,我们都有美好的未来。