《声网故事之2046》

01.

佛偈里有「竖三世佛」说法，过去佛、现在佛、未来佛，三佛并在，表示佛法永存。

自1915年，广义相对论打破绝对时空观，时空显性流形或连续结构，整体形成一个四维向量空间。

麻省理工学院哲学教授Bradford Skow提出“块宇宙”理论，认为过去、现在和未来同时存在。

02.

时间这条一维线，无论单独存在or整体存在，人类的具象理解，总是代入Movie的进度条，可以前后拖拽。

每个人都有自己的剧情分支，对于声网创始人赵斌来说，大概率有两个停留锚点：

一个是2014年，突然顿悟Google WebRTC的价值树，毅然决定躬身入局；一个是2020年，在纳斯达克现场，抓紧一个周期的尾巴，成功敲钟上市。

历历在目，酸甜辣苦。

03.

当拖拽到2023-2024年，时间轴突然自己加速起来。

因为生成式AI，他来了！

今年5月，GPT-4o发布会上，平均320毫秒的反应时间，让AI与人类的对话，第一次接近人类真实对话的反应速率。

这开创了AI实时语音交互的先河，让实时成为生产力的一部分。

GPT-4o实时互动背后，一条明线是端到端实时多模态的崛起，一条暗线则是 RTC（Real-Time Communications）实时音视频技术的进步。

04.

RTE是生成式AI的标配，生成式AI是RTE的延拓。

对于RTE产业来说，生成式AI是一个无法拒绝的诱惑，即使最顶尖的战略规划，也无法提前设计一个如此Match的超级增量模型。

这就是势，而命在势中。

05.

10月初，声网的兄弟公司Agora作为语音API合作者，出现在了OpenAI发布的Realtime API 公开测试版中。

就在上周，声网也官宣，与MiniMax正在打磨中国第一个Realtime API，真正的人工智能体已经快来了。

06.

声网CEO赵斌称，生成式AI会向多模态清晰深度进化。

多模态对话体验存在两个关键：（1）声音体验包括延迟、语气、情感、情绪、口音，这些都是人与大模型进行人机对话时体验的关键角度。（2）人与大模型支持的Agent对话时的互动体验中，最核心的就是「打断行为」，如果在对话中打断不自然，出现抢话、不知道如何顺利开展下一段讨论等行为，也会对人机交互的效果产生影响。

未来RTE基础设施，将会成为多模态大模型AI Infra的关键部分。

07.

从云时代的边缘龙套，到AI时代的重要配角，短短两三年时间，已然算是逆天改命。

其实市场没得选，这是声网该得的。

扎根在音视频行业整整十年，作为孤独的拓荒者，独自面对一波又一波大厂的商业竞争，如果不是实打实的技术壁垒，声网根本撑不到今天这个新剧本。

所幸，二级市场有一小部分人，开始懂了。

08.

时间轴拖到此处，突然开始混沌起来。

人眼成像的基本原理是，自动对焦你盯着的地方，模糊更远处的空间背景。

在中国，文科生极度擅长纲目化，理科生极度擅长图谱化，二者并无本质区别，（RTE+生成式AI）x千行百业，变成了无穷尽的业务推理，以及沉重的商业想象力。

声网终究没忍住，发布了RTE+AI能力全景图，从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度，清晰呈现了解决方案的全面组合。

再结合当前主营行业，在线教育、出海、社交泛娱乐、企业服务、IoT、Voice AI、空间计算等，横纵交错，琳琅满目，即使专业人士也难分主次。

虽能理解，但略贪心了。减法不易，知道不做什么才更难能可贵。

09.

当下的原点有两个，一个在梦开始的Timing，一个在梦醒来的Timing。

在电影《2046》中，王家卫对数字和时间的偏执，几乎达到了极致。

2046年，AI、硅基、智能体会是什么样子？2046年，需要什么样的RTE能力？2046年，生产关系会是什么形态？2046年，落在声网这家公司的使命是什么？

或许答案简洁地令人惊叹，亦或许答案就隐藏在声网的纳斯达克代码中。

10.

唯硅基代码跳跃，实时互动；

唯碳基创业精神，实时进化。

等2046年穿越，才发现：“隐藏在现在的过去，早已决定未来。”

幸福双城资讯网

很多事不好说吖