AI大军接管六大科技巨头！效仿微软组织结构，工作效率惊人

编辑：桃子

【新智元导读】你有没有想过，或许未来某天，AI大军完全能够承担公司重任，人类是否会沦为配角？

小扎坚信，「未来世界上AI智能体，将比人类还要多」。

那么，如果这些AI也有企业文化，会怎样？

它们是否也像人类一样，既有手握决策大权的AI，也有苦哈哈干活的AI。

几个月前，OpenAI曾被曝出，内部定义了五级AGI路线，L5——组织者：可以完成组织工作的AI。

这所说的，或许就是未来公司的组织架构图。

因为多个智能体的合作，正在崛起。

此前，一项研究表明，拥有30+AI智能体系统，在几乎任何任务中，都优于简单的LLM调用，同时还减少了幻觉，提高了准确性。

论文地址：https://arxiv.org/pdf/2402.05120

但是，多个智能体之间，应该如何进行实际协作呢？

在探索改善AI在软件工程任务中的表现的方法时，Alex Sima突然有了灵感：

如果将AI智能体之间互动机构化，让其类似于科技巨头的「组织架构图」，会怎样？

接下来，Alex让AI接管了6大科技巨头——亚马逊、谷歌、微软、苹果、Meta、Oracle，看看它们如何协作。

先来一张图，感受下。

关键要点

以下是，Alex将AI智能体，组织成类似苹果、微软、谷歌等公司结构后，得到的一些关键要点：

- 有多个「竞争」团队（即竞争生产最佳最终产品）的公司，如微软、苹果，表现优于集中化的层级结构。

- 具有单点故障（比如一个领导者做出重要决策）的系统，如谷歌、亚马逊和Oracle，表现不佳。

- 大型科技公司的组织结构，对问题解决能力有适度但明显的影响。

AI智能体与科技巨头组织

之前通过简单增加AI智能体数量，来提升性能的方法，比如SWE-bench，并未取得显著的成效。

这表明，仅仅依赖数量的增加，并不能解决问题。

那么，有什么其他的方法可以让AI智能体在软件工程方面变得更好？

三周前，Alex偶然看到了James Huckle关于「康威定律」的一篇文章——软件和产品架构注定会反映创造它的组织结构。

James展示了一幅插图，揭示了亚马逊、谷歌、Facebook、微软、苹果和Oracle的戏剧化组织结构，并提出了一个想法：

就像大型科技公司中的人类一样，多智能体通信结构可能会塑造问题解决方法。

Alex受到启发，决定在SWE-bench实例上测试James的假设。

实验设置

作者将AI智能体组织成不同的公司结构，在SWE-bench-lite的13个实例「mini」子集上，评估了六种不同的组织结构。

在构建这六种组织时，他基于一些核心观察设计了多智能体组织结构：

亚马逊

顶层有一个「管理者」的二叉树。

为了复制这一结构，Alex使用了大量执行代码库搜索的智能体，和一个最终执行代码库更新的单一智能体。

谷歌

类似亚马逊的树状结构，但中间层之间有更多连接。

Alex通过在单一层内聚合复制所有智能体结果，并将其传递给下一层的智能体。

Meta（Facebook）

缺乏层级结构，但仍是一个智能体之间有许多连接的网状组织。

Alex通过增加不同智能体之间的转换可能性，来修改原始的智能体设计。

微软

强调竞争团队，每个团队有自己的层级。

本质上，Alex重新调整了亚马逊的结构（减少智能体数量），并使用向量相似性投票方法，从三次单独运行中选择「最佳」解决方案（每次运行对层级结构略有调整）。

苹果

许多小型竞争团队，每个团队都有自己的最小结构。

Alex使用了与微软相同的「最佳解决方案」方法，但进行了更多没有智能体层级的运行（每次运行有不同的转换）。

Oracle

有两个不同的团队，一个较大的「法律」二叉树和一个较小的工程树。

Alex将法律团队解释为，搜索代码库和检索关键上下文的智能体，而工程团队由实际编写代码的智能体组成。

两个团队的结构类似于亚马逊，顶层有一个单一智能体协调「法律」和「工程」之间的信息传递。

评估结果

为了评估SWE-bench上的每组patch，作者使用了SWE-bench evaluation。

结果如下：

组织结构图绩效分析

以下是作者对不同公司结构，如何影响性能的一些观察：

- 有竞争力的团队增加成功机会。

表现最佳的两个（微软和苹果）都有多个团队在竞争解决问题，而其他公司似乎只有一个巨大的团队生成单一patch。

多个团队允许增加问题解决方法的多样性，提高解决问题的概率。

- 有单点故障的结构表现不佳。

提到单点故障，是指是那些有高层管理者/智能体可以完全改变运行结果的公司（如谷歌、亚马逊和甲骨文）。

在协调多个智能体之间的互动时，一个常见问题是某个智能体失败——导致可能出现一个智能体改变团队问题解决策略方向的情况。

具有单点故障的公司容易受到这些问题的影响。

另外，表现最好的两家公司，微软和苹果，恰好是世界上市值最大的两家科技公司。

事实证明，在现实世界中似乎最有效的组织结构对AI智能体也同样有效。

截图来自CompaniesMarketCap，2024年07月25日

对SWE-bench进展的思考

看着不同公司结构的结果，在这个Mini基准上是可以预料到的。

总的来说，似乎在一个像软件工程这样复杂的任务中，增加更多的智能体，或改变这些智能体的组织方式，只会带来边际性能的提高。

虽然论文More Agents Is All You Need 发现，准确率有相当大的提高（约20%），但在GSM8K（小学数学）测试中，30个智能体后性能明显趋于平缓。

研究还发现，过于复杂的任务（如SWE-bench中的任务）可能超出模型的推理能力，导致性能增益递减。

坐着在SIMA中同样验证了这一发现，最多只比基础架构提高了2-3%（使用40多个智能体）。

他预计，这种小幅提升在其他非多智能体架构中也会一致。

作者认为，若想在基准测试上取得更大进步，需要改变智能体的实际逻辑推理能力，或者它们可以采用（或被给予）的解决软件问题的策略和方法。

这可以通过更强大的基础模型（GPT-5）或给予智能体更广泛的工具来实现。

这与公司运作是一样的。

归根结底，如果你不雇用更聪明的员工，或给他们更好的资源，无论你如何组织他们或有多少人，他们的产出都不会提高。

不得不承认，13个实例的性能可能与完整基准测试的实际性能相差甚远。

仅在这个mini子集中的差异就足够显著，值得关注（从谷歌到苹果提高了约50%）。

基础模型/工具可能是智能体软件工程的限制因素，但随着基础模型的改进，探索智能体通信结构（无论是否在公司组织中）绝对应该被测试。

正如James Huckle所说，这个概念可能成为AI智能体设计中的「关键超参数」，不同的组织结构可能更适合不同的任务。

参考资料：

https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures

幸福双城资讯网

AI大军接管六大科技巨头！效仿微软组织结构，工作效率惊人

之槐看科技