佛偈里有「竖三世佛」说法,过去佛、现在佛、未来佛,三佛并在,表示佛法永存。
自1915年,广义相对论打破绝对时空观,时空显性流形或连续结构,整体形成一个四维向量空间。
麻省理工学院哲学教授Bradford Skow提出“块宇宙”理论,认为过去、现在和未来同时存在。
02.时间这条一维线,无论单独存在or整体存在,人类的具象理解,总是代入Movie的进度条,可以前后拖拽。
每个人都有自己的剧情分支,对于声网创始人赵斌来说,大概率有两个停留锚点:
一个是2014年,突然顿悟Google WebRTC的价值树,毅然决定躬身入局;一个是2020年,在纳斯达克现场,抓紧一个周期的尾巴,成功敲钟上市。
历历在目,酸甜辣苦。
03.当拖拽到2023-2024年,时间轴突然自己加速起来。
因为生成式AI,他来了!
今年5月,GPT-4o发布会上,平均320毫秒的反应时间,让AI与人类的对话,第一次接近人类真实对话的反应速率。
这开创了AI实时语音交互的先河,让实时成为生产力的一部分。
GPT-4o实时互动背后,一条明线是端到端实时多模态的崛起,一条暗线则是 RTC(Real-Time Communications)实时音视频技术的进步。
04.RTE是生成式AI的标配,生成式AI是RTE的延拓。
对于RTE产业来说,生成式AI是一个无法拒绝的诱惑,即使最顶尖的战略规划,也无法提前设计一个如此Match的超级增量模型。
这就是势,而命在势中。
05.10月初,声网的兄弟公司Agora作为语音API合作者,出现在了OpenAI发布的Realtime API 公开测试版中。
就在上周,声网也官宣,与MiniMax正在打磨中国第一个Realtime API,真正的人工智能体已经快来了。
06.声网CEO赵斌称,生成式AI会向多模态清晰深度进化。
多模态对话体验存在两个关键:(1)声音体验包括延迟、语气、情感、情绪、口音,这些都是人与大模型进行人机对话时体验的关键角度。(2)人与大模型支持的Agent对话时的互动体验中,最核心的就是「打断行为」,如果在对话中打断不自然,出现抢话、不知道如何顺利开展下一段讨论等行为,也会对人机交互的效果产生影响。
未来RTE基础设施,将会成为多模态大模型AI Infra的关键部分。
07.从云时代的边缘龙套,到AI时代的重要配角,短短两三年时间,已然算是逆天改命。
其实市场没得选,这是声网该得的。
扎根在音视频行业整整十年,作为孤独的拓荒者,独自面对一波又一波大厂的商业竞争,如果不是实打实的技术壁垒,声网根本撑不到今天这个新剧本。
所幸,二级市场有一小部分人,开始懂了。
08.时间轴拖到此处,突然开始混沌起来。
人眼成像的基本原理是,自动对焦你盯着的地方,模糊更远处的空间背景。
在中国,文科生极度擅长纲目化,理科生极度擅长图谱化,二者并无本质区别,(RTE+生成式AI)x千行百业,变成了无穷尽的业务推理,以及沉重的商业想象力。
声网终究没忍住,发布了RTE+AI能力全景图,从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度,清晰呈现了解决方案的全面组合。
再结合当前主营行业,在线教育、出海、社交泛娱乐、企业服务、IoT、Voice AI、空间计算等,横纵交错,琳琅满目,即使专业人士也难分主次。
虽能理解,但略贪心了。减法不易,知道不做什么才更难能可贵。
09.当下的原点有两个,一个在梦开始的Timing,一个在梦醒来的Timing。
在电影《2046》中,王家卫对数字和时间的偏执,几乎达到了极致。
2046年,AI、硅基、智能体会是什么样子?2046年,需要什么样的RTE能力?2046年,生产关系会是什么形态?2046年,落在声网这家公司的使命是什么?
或许答案简洁地令人惊叹,亦或许答案就隐藏在声网的纳斯达克代码中。
10.唯硅基代码跳跃,实时互动;
唯碳基创业精神,实时进化。
等2046年穿越,才发现:“隐藏在现在的过去,早已决定未来。”