几张图表总结Llama3相比此前的升级,单Llama3-70B训练成本近千万

数据学习科技行 2024-04-22 03:54:45

本文来自DataLearnerAI官方网站:

Llama3是MetaAI开源的最新一代大语言模型。一发布就引起了全球AI大模型领域的广泛关注。这是MetaAI开源的第三代大语言模型,也是当前最强的开源模型。但相比较第一代和第二代的Llama模型,Llama3的升级之处有哪些?本文以图表的方式总结Llama3的升级之处。

Llama3系列模型的总结Llama3模型架构的升级Llama系列的上下文长度一直在增长Llama3模型的词汇表大幅提高Llama3模型的训练过程的升级Llama3模型的训练数据大幅增长Llama3模型的训练时长大幅增加Llama3的评测基准大幅提高Llama3总结Llama3系列模型的总结

第一代和第二代的Llama模型都包含了四个不同参数规模的版本,其中最小的模型参数规模在70亿,往上分别有130亿、340亿和700亿(第一代最高的是650亿)。而此次发布的第三代Llama3模型,目前公开的只有80亿参数规模版本和700亿版本。而根据透露,最高的参数版本是4000亿参数规模的模型。只是目前还在训练中。

下面我们就用图表的形式说明本次Llama3的升级细节。

Llama3模型架构的升级

首先是模型架构相关的升级。目前,官方没有公开Llama3的技术报告或者论文细节,在官方博客中只给出了一些简单的指标。

关于Llama3的模型架构,应该是没有本质变化,官方的说法是:

根据我们的设计理念,我们在 Llama 3 中选择了一个相对标准的纯解码器(decoder-only)变压器架构。

因此,模型架构基本没变,但是增加了Group Query Attention(分组查询注意力,GQA),这项技术最大的特点是可以加速推理,这也是我们实测中感受到的,Llama3-8B-Instruct在4090上的速度飞快!

剩余的模型相关的架构,这里我们对比的是上下文长度和词汇表。

Llama系列的上下文长度一直在增长

上下文长度每一代都翻倍了,在Llama3中,训练的时候用的就是8K上下文:

从上图可以看到,Llama三代模型的上下文长度分别是2K、4K和8K,虽然Llama3训练是8K上下文,但是按照目前业界的技术,应该是可以继续拓展到更长上下文的。而官方也说过,未来Llama3会有更长上下文的版本。

Llama3模型的词汇表大幅提高

在模型架构中另一个值得注意的是词汇表的大幅提高。在Llama1和Llama2中,MetaAI的词汇表都是32K大小,这可能与前两代模型的训练数据差距不大有关。而第三代的Llama3模型的词汇表大小变为128K,也就是说它的tokenizer有了较大的变化。

更大的词汇表意味着更强的语义表达能力,也是支持更多语言的一个基础。

Llama3模型的训练过程的升级

训练过程的升级我们主要看训练时间和训练数据的变化。此前,业界一直说大模型的训练成本在下降。但是从Llama3的变化看,下降的是单位训练成本,但是大模型总的训练成本其实在大幅增长。

Llama3模型的训练数据大幅增长

Llama3的训练数据达到了15万亿,比第一代和第二代Llama模型加在一起还多好几倍。如下图所示,第一代的小一点的模型训练数据是1万亿tokens,而较大的650亿规模的模型训练数据是1.4万亿tokens。到了第二代Llama2系列,训练数据都增长到了2万亿tokens。

可以看到,第三代Llama3训练数据大幅增加,几乎也是目前市场上训练数据最多的一个模型了。这里有一点也值得提一下,DeepMind发表过一个非常著名的论文,就是关于Chinchilla模型的论文,里面提到了训练数据对大模型性能的影响。根据论文发现的规律,80亿参数规模的模型,用2000亿tokens数据集训练可以获得最佳性能,但是MetaAI发现,80亿参数规模的模型训练数据增长到15万亿tokens依然可以获得log线性增长!因此,数据可以说依然是王道。

Llama3模型的训练时长大幅增加

Meta公司一直是全球拥有显卡最多的公司。在Llama1论文发布的时候,大家就发现,Meta训练Llama1模型可能花费了几百万上千万美金。原因是650亿参数的Llama1模型训练了102万个GPU小时,按照公有云A100租赁的价格打折计算,这个成本也是几百万美金。

到了Llama3模型这里,训练成本的增长更为恐怖,Llama3-8B模型的训练时长比650亿参数规模的Llama1模型还长。结果如下:

上图对比的是Llama系列70亿参数规模模型和700亿参数规模模型的训练时长,单位是百万个GPU小时。忽略Llama3可能是H100的显卡,这个训练时长增长太恐怖了。而这些也是Llama3训练成本非常高的原因之一。以700亿参数规模的Llama3-70B为例,训练时长是640万个GPU小时。以AWS的p4d.24xlarge实例计算,包含8个A100,按需付费8卡是32.77美元一个小时,640万个GPU小时是80万台这样的机器,按需付费的价格就是80万×32.77美元=2621.6万美元,假设MetaAI自己用自己的硬件,成本是一半的话,训练700亿参数规模的Llama3-70B就是1300多万美元,十分之一的话那就是262万美元!成本十分昂贵!

Llama3的评测基准大幅提高

最后,我们用图表展示一下三代不同Llama系列在综合理解评测基准MMLU、数学推理GSM8K以及代码能力HumanEval的评测结果。不用说,Llama3相比Llama2的提升应该是比Llama2相比Llama1的提升要高的多的。

由于Llama1没有公布GSM8K和HumanEval的评测结果,所以没有展示了。

Llama3总结

Llama3-70B模型目前已经是Chatbot Arena大模型匿名评分最高的开源模型了。在英文的分项测试甚至超过了Claude-Opus模型,十分强悍。

未来,如果4000亿参数规模的Llama3-400B也开源的话,那无疑是给闭源模型企业一颗巨大的炸弹。

Llama3的详细介绍参考:Llama3在大模型匿名竞技场的得分排行榜:Llama3手动部署教程:

0 阅读:0

数据学习科技行

简介:感谢大家的关注