重磅!谷歌开源Gemini同源技术大模型Gemma,同等规模评测优秀!

数据学习科技行 2024-02-23 09:35:38

本文原文来自DataLearnerAI官方网站:

Google Gemini是谷歌最新推出的和OpenAI竞争的大语言模型。尽管Gemini褒贬不一,但是Gemini模型的影响力是巨大的。而现在更加令人激动的是谷歌开源了2个新的不同参数规模的模型,分别是Gemma 7B和Gemma 2B,其技术与Gemini模型一致。但是这两个开源模型完全公开,可以商用授权。

Gemma模型简介

Gemma模型是谷歌开源的大语言模型的名称。目前有2个不同参数规模的4个版本,分别如下:

Gemma版本

模型简介

DataLearnerAI模型信息卡地址

Gemma-7B

70亿参数规模的基础大语言模型

https://www.datalearner.com/ai-models/pretrained-models/gemma-7b

Gemma-7B-It

70亿参数,指令微调的版本

https://www.datalearner.com/ai-models/pretrained-models/gemma-7b-instruct

Gemma-2B

20亿参数规模的基础大语言模型

https://www.datalearner.com/ai-models/pretrained-models/gemma-2b

Gemma-2B-It

20亿参数,指令微调的版本

https://www.datalearner.com/ai-models/pretrained-models/gemma-2b-instruct

Gemma系列模型与Gemini的技术同源,具体架构信息如下:

参数规模版本

Gemma-2B

Gemma-7B

d_model

2048

3072

Layers

18

28

Feedforward hidden dims

32768

49152

Num heads

8

16

Num KV heads

1

16

Head size

256

256

Vocab size

256128

256128

从这个架构可以看出,Gemma模型的词汇表达到了25万!非常高。此外,Gemma还采用了一系列新技术,包括Multi-Query Attention、RoPE Embeddings、GeGLU激活函数以及Normalizer Location等。Gemma 2B模型在2万亿tokens数据集上训练,而Gemma 7B则是在7万亿数据集上训练。数据集主要是英语为主的网络文档、数学数据以及代码数据。但是,与Gemini不同的是,Gemma只是一个语言模型,没有多模态的能力。也没有多语言的能力。但是,两个指令微调版本的Gemma都有做RLHF对齐。

这两个模型的上下文长度都是8K。

Gemma的评测结果:70亿参数MMLU得分最高

谷歌官方宣称Gemma模型达到了同等规模参数最好的语言模型水平,甚至超过了某些参数量更大规模的模型。

下图是DataLearnerAI的大模型评测结果的截图,都是70亿参数规模的模型。

数据来源:https://www.datalearner.com/ai-models/llm-evaluation?modelSize=7b

上图是按照MMLU排序,并且都是70亿参数规模的结果。可以看到Gemma2 7B是MMLU得分最高的。这个分数与马斯克的Grok差不多,也接近Qwen-14B的水平。就变成评测HumanEval来说,Gemma 7B与CodeLlama 7B差不多。

从这个结果看,Gemma是非常优秀的开源领域70亿参数的大模型,综合评测和代码能力水平都是同等规模参数模型最强的。也超过了Mistral 7B的水平。

Gemma的开源情况

Gemma是谷歌开源的模型,是一个完全自定义的开源协议。从协议内容看应该是允许商用授权的。

除了这个商用授权协议外,Google此次开源最大的特点是提供了非常丰富的工具和生态。具体如下:

通过Keras 3.0提供了JAX、PyTorch、TensorFlow推理和微调的工具链,这意味着支持主流的框架进行推理和微调提供了Google Colab和Kaggle Notebooks的代码示例支持HuggingFace、MaxText、Nvidia NeMO、TensorRT-LLM等加速框架对Nvidia的GPU和Google的TPU都有针对性的优化

从这些内容看,本次Google开源的Gemma非常有诚意,不仅是模型能力很强,在生态和社区支持方面也非常好。关于模型具体的代码示例、预训练开源地址可以参考DataLearnerAI的模型信息卡。

Gemma版本

模型简介

DataLearnerAI模型信息卡地址

Gemma-7B

70亿参数规模的基础大语言模型

https://www.datalearner.com/ai-models/pretrained-models/gemma-7b

Gemma-7B-It

70亿参数,指令微调的版本

https://www.datalearner.com/ai-models/pretrained-models/gemma-7b-instruct

Gemma-2B

20亿参数规模的基础大语言模型

https://www.datalearner.com/ai-models/pretrained-models/gemma-2b

Gemma-2B-It

20亿参数,指令微调的版本

https://www.datalearner.com/ai-models/pretrained-models/gemma-2b-instruct

更新信息参考原文:

0 阅读:0

数据学习科技行

简介:感谢大家的关注