杀疯了！全面超越Llama3的强悍开源模型，仅9B，1000k上下文

去年的这个时候，笔者特别喜欢钻研OpenAI开发者平台的模型列表，为了做出好用&好玩的东西，可以说是把OpenAI的模型能力边界摸得透透的。

但今天智谱AI低调放了个大招后，我突然间发现OpenAI已经不香了。

事情是这样的。

笔者今天来到了智谱AI Open Day大会现场吃瓜（social），发现智谱AI开放平台 bigmodel.cn的最新更新，以及最新开源模型GLM-4-9B的炸裂程度均超出了我的预期。

3.5研究测试：hujiaoai.cn4研究测试：askmanyai.cnClaude-3研究测试：hiclaude3.com

先贴一组智谱AI开放平台的最新数据：

“30万+企业用户，过去4个月，90倍的增长。”

这是智谱AI开放平台的全模型矩阵，仔细看，最新发布的GLM-4级别的模型GLM-4-Flash在企业端的价格可以卷到100万tokens 6分钱！

这是什么概念？

去年的这个时候，GLM-4模型是1k tokens 5毛钱，仅一年时间，降价了10000倍！

不仅价格卷到离谱，企业端的大模型落地边际成本卷到无限低。而且大模型类型太丰富了，从文本、视觉理解、检索embedding到文生图等，几乎全方位的覆盖到了B端大模型落地的各类场景。

不仅是API，智谱AI开放平台今天迎来的重大升级还囊括了垂直场景落地必备的——模型微调。

首先，在智谱AI开放平台上做模型微调同样跟不要钱一样：

一年前完全不敢想象，如今500元就能全参数微调1000万tokens的GPT-4级别的模型了！这价格完全卷爆了自己去租服务器。

这还没完，我们知道，如果你自己搭建环境去微调模型，流程非常繁琐：

准备数据集、数据格式适配、准备GPU机器、搭建训练环境、安装微调加速依赖、执行微调、调参、训练出模型、推理权重转换、推理环境准备、部署并使用微调模型…

一整套下来，经验丰富的算法工程师在准备充分的情况下也得折腾上个把月。

但在最新升级的智谱AI开放平台上完全不需要了，直接零代码三步操作就能完成上述过程了：

给你们放个演示视频：

，时长01:18

感慨一下，调参侠不存在了。

GLM-4-9B开源发布：1000k上下文

这还没完，今天智谱AI OpenDay上还发布了一个重磅开源模型：GLM-4-9B。

话不多说，先上链接！

Github链接：https://github.com/THUDM/GLM-4

模型链接：https://huggingface.co/collections/THUDM/glm-4-665fcf188c414b03c2f7e3b7

魔搭社区：https://modelscope.cn/organization/ZhipuAI

我拍了一张图来总结这个模型能力有多么逆天：

在这个矩阵图中 GLM-4-9B 各种让人眼花缭乱的能力中，让我们来勾画几个重点：

通用能力提升 40%，超越训练量更多的 Llama-3-8B 模型最高支持 1 M 无损上下文（让我们数数有 1000000 有多少个零！？）附带多模态版本模型——GLM-4V-9B （比肩 GPT-4V……）

从评测数据来看，这应该是离GPT-4o和GPT-4v最接近的开源模型了，重点是，中文友好：

而且模型大小仅仅9B，本地化部署也毫无压力，如果对性能觉得不满意，甚至可以直接微调一把来解决问题，这是开源模型相比商业闭源模型而言无法比拟的优势。

当然，效果好不好，不能只看刷榜结果，来，上demo！

不少多模态模型为了提升视觉能力，牺牲了语言能力和推理能力。从这个case可以看出，GLM-4V-9B不仅精准地理解了图片中的物体、含义，而且还常识推理出了“牛马”代指“辛勤工作的员工”，不仅非常有意思，而且这个case难度确实不低。

这个case能被一个仅仅只有9B的开源模型解掉，只能让笔者感慨——AI发展太快了！

再来看这个case，T恤上的麦克斯韦方程组都被GLM-4V-9B准确地解析了…笔者一时不知道该夸它数学好还是眼睛好。

在如此参数量下这么极限性能表现，不禁让笔者开始关注这个 9B 小家伙到底是怎么做到这一切的。从模型训练的角度，提升模型性能无非也就从「训练数据」与「训练效率」两个角度入手。从去年开始，大模型社区已经开始逐渐建立数据 Quality > Quantity（数据质量 > 数据数量）共识，在模型训练阶段，数据的质量与多样性对大模型的性能影响非常之大，而从这个角度出发，GLM-4-9B 通过引入大模型进入数据筛选流程，最终获得了 10T 高质量多语言数据，这个数据量是它的前一代模型 ChatGLM3-6B 的 3 倍！

而从另一边，GLM-4-9B 在模型训练过程中也引入了低精度训练技术，在当下模型训练的主流方案仍然集中于 16 位和 32 位浮点的混合精度训练，而这次的 GLM-4V-9B 应用于了更加先进的 FP8 8 位浮点混合精度训练，低精度训练的直接好处就是大幅提升训练速度与极大降低训练的内存与通信成本，而这次 GLM-4-9B 的成功也直接印证了 FP8 训练技术的强大，相较于其第三代模型，GLM-4V-9B 的训练效率提高了 3.5 倍。

此外，在 GLM-4-9B 训练过程之中，智谱AI在有限显存的情况下，还探索了 6B 模型性能的极限，在考虑用户显存大小的情况下，通过将模型规模提升至 9B，将预训练计算量增加了 5 倍，成功打造了 GLM-4V-9B 这样一个 10B 以下模型的大杀器。

如果说回 GLM-4V-9B，这个多模态模型架构采用了经典处理方式——在GLM-4-9B这个语言模型的基础上，引入视觉encoder，并在视觉encoder的基础上引入下采样和MLP Adapter，实现计算开销大幅降低；之后与文本模态的输入embedding进行concat后丢给了Transformer。而为了避免多模态训练时的语言能力遗忘，智谱AI则采用了语言+图像数据混合预训练的经典解法：