幸福双城资讯网

几张图表总结Llama3相比此前的升级，单Llama3-70B训练成本近千万

数据学习科技行 2024-04-22 03:54:45

本文来自DataLearnerAI官方网站：

Llama3是MetaAI开源的最新一代大语言模型。一发布就引起了全球AI大模型领域的广泛关注。这是MetaAI开源的第三代大语言模型，也是当前最强的开源模型。但相比较第一代和第二代的Llama模型，Llama3的升级之处有哪些？本文以图表的方式总结Llama3的升级之处。

Llama3系列模型的总结Llama3模型架构的升级Llama系列的上下文长度一直在增长Llama3模型的词汇表大幅提高Llama3模型的训练过程的升级Llama3模型的训练数据大幅增长Llama3模型的训练时长大幅增加Llama3的评测基准大幅提高Llama3总结Llama3系列模型的总结

第一代和第二代的Llama模型都包含了四个不同参数规模的版本，其中最小的模型参数规模在70亿，往上分别有130亿、340亿和700亿（第一代最高的是650亿）。而此次发布的第三代Llama3模型，目前公开的只有80亿参数规模版本和700亿版本。而根据透露，最高的参数版本是4000亿参数规模的模型。只是目前还在训练中。

下面我们就用图表的形式说明本次Llama3的升级细节。

Llama3模型架构的升级

首先是模型架构相关的升级。目前，官方没有公开Llama3的技术报告或者论文细节，在官方博客中只给出了一些简单的指标。

关于Llama3的模型架构，应该是没有本质变化，官方的说法是：

根据我们的设计理念，我们在 Llama 3 中选择了一个相对标准的纯解码器（decoder-only）变压器架构。

因此，模型架构基本没变，但是增加了Group Query Attention（分组查询注意力，GQA），这项技术最大的特点是可以加速推理，这也是我们实测中感受到的，Llama3-8B-Instruct在4090上的速度飞快！

剩余的模型相关的架构，这里我们对比的是上下文长度和词汇表。

Llama系列的上下文长度一直在增长

上下文长度每一代都翻倍了，在Llama3中，训练的时候用的就是8K上下文：

从上图可以看到，Llama三代模型的上下文长度分别是2K、4K和8K，虽然Llama3训练是8K上下文，但是按照目前业界的技术，应该是可以继续拓展到更长上下文的。而官方也说过，未来Llama3会有更长上下文的版本。

Llama3模型的词汇表大幅提高

在模型架构中另一个值得注意的是词汇表的大幅提高。在Llama1和Llama2中，MetaAI的词汇表都是32K大小，这可能与前两代模型的训练数据差距不大有关。而第三代的Llama3模型的词汇表大小变为128K，也就是说它的tokenizer有了较大的变化。

更大的词汇表意味着更强的语义表达能力，也是支持更多语言的一个基础。

Llama3模型的训练过程的升级

训练过程的升级我们主要看训练时间和训练数据的变化。此前，业界一直说大模型的训练成本在下降。但是从Llama3的变化看，下降的是单位训练成本，但是大模型总的训练成本其实在大幅增长。

Llama3模型的训练数据大幅增长

Llama3的训练数据达到了15万亿，比第一代和第二代Llama模型加在一起还多好几倍。如下图所示，第一代的小一点的模型训练数据是1万亿tokens，而较大的650亿规模的模型训练数据是1.4万亿tokens。到了第二代Llama2系列，训练数据都增长到了2万亿tokens。

可以看到，第三代Llama3训练数据大幅增加，几乎也是目前市场上训练数据最多的一个模型了。这里有一点也值得提一下，DeepMind发表过一个非常著名的论文，就是关于Chinchilla模型的论文，里面提到了训练数据对大模型性能的影响。根据论文发现的规律，80亿参数规模的模型，用2000亿tokens数据集训练可以获得最佳性能，但是MetaAI发现，80亿参数规模的模型训练数据增长到15万亿tokens依然可以获得log线性增长！因此，数据可以说依然是王道。

Llama3模型的训练时长大幅增加

Meta公司一直是全球拥有显卡最多的公司。在Llama1论文发布的时候，大家就发现，Meta训练Llama1模型可能花费了几百万上千万美金。原因是650亿参数的Llama1模型训练了102万个GPU小时，按照公有云A100租赁的价格打折计算，这个成本也是几百万美金。

到了Llama3模型这里，训练成本的增长更为恐怖，Llama3-8B模型的训练时长比650亿参数规模的Llama1模型还长。结果如下：

上图对比的是Llama系列70亿参数规模模型和700亿参数规模模型的训练时长，单位是百万个GPU小时。忽略Llama3可能是H100的显卡，这个训练时长增长太恐怖了。而这些也是Llama3训练成本非常高的原因之一。以700亿参数规模的Llama3-70B为例，训练时长是640万个GPU小时。以AWS的p4d.24xlarge实例计算，包含8个A100，按需付费8卡是32.77美元一个小时，640万个GPU小时是80万台这样的机器，按需付费的价格就是80万×32.77美元=2621.6万美元，假设MetaAI自己用自己的硬件，成本是一半的话，训练700亿参数规模的Llama3-70B就是1300多万美元，十分之一的话那就是262万美元！成本十分昂贵！

Llama3的评测基准大幅提高

最后，我们用图表展示一下三代不同Llama系列在综合理解评测基准MMLU、数学推理GSM8K以及代码能力HumanEval的评测结果。不用说，Llama3相比Llama2的提升应该是比Llama2相比Llama1的提升要高的多的。

由于Llama1没有公布GSM8K和HumanEval的评测结果，所以没有展示了。

Llama3总结

Llama3-70B模型目前已经是Chatbot Arena大模型匿名评分最高的开源模型了。在英文的分项测试甚至超过了Claude-Opus模型，十分强悍。

未来，如果4000亿参数规模的Llama3-400B也开源的话，那无疑是给闭源模型企业一颗巨大的炸弹。

Llama3的详细介绍参考：Llama3在大模型匿名竞技场的得分排行榜：Llama3手动部署教程：

0 阅读：0

数据学习科技行

简介：感谢大家的关注

作者最新文章

科技TOP

科技最新文章