近日,Hugging Face与Meta联手推出了Llama系列的最新版本——Llama 3.2。这次发布带来了十个开源模型,包括五个多模态模型和五个仅文本模型,为开发者和研究人员提供了更加丰富的工具选择。
Llama 3.2 Vision:强大的多模态模型Llama 3.2 Vision是Meta发布的最强大的开源多模态模型,具备卓越的视觉理解和推理能力。它可以处理文本和图像输入,适用于视觉推理、文档问答、图文检索等多种任务。该模型有两种规模:
11B参数模型:适合在消费级GPU上高效部署和开发。90B参数模型:适用于大规模应用。两种模型都提供基础版和指令微调版。此外,Meta还发布了支持视觉的Llama Guard 3,这是一款安全防护模型,能够分类模型的输入和输出,包括检测有害的多模态提示或助手响应。
模型特性多语言支持:除英语外,纯文本模式下还支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。长上下文长度:支持高达128k的上下文长度,允许进行包含多张图片的多轮对话,但模型在处理单张图片时效果最佳。架构设计:基于Llama 3.1语言模型,结合了视觉塔和图像适配器。据了解,训练视觉模型时,文本模型部分是冻结的,以保持文本生成的性能。Llama 3.2的小型文本模型:1B和3B参数Llama 3.2还引入了新的小型文本模型,参数规模为1B和3B,同样提供基础版和指令微调版。这些模型具有以下优势:
高性能:在相同参数规模下,这些模型的表现超过了许多现有的开源模型,甚至可以与更大规模的模型竞争。多语言支持:支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。设备端运行:由于模型较小,可以直接在设备端运行,适用于提示重写、多语言知识检索、摘要生成、工具使用和本地助手等应用场景。此外,还有一个1B参数的小型Llama Guard 3模型,可与这些文本模型一起部署,用于生产环境下的内容安全评估。
使用与集成模型获取
所有模型都已在Hugging Face Hub上提供,方便开发者下载和使用。
集成支持
Transformers和TGI集成:多模态模型已与Hugging Face的Transformers和Text Generation Inference(TGI)集成,支持推理和部署。推理与部署:支持通过Inference Endpoints、Google Cloud、Amazon SageMaker和DELL Enterprise Hub进行推理和部署。微调支持:开发者可以使用Transformers和TRL在单个GPU上对Llama 3.2 11B Vision模型进行微调。演示与示例官方提供了多个演示,供用户体验Llama 3.2的功能:
Gradio Space演示:使用Llama 3.2 11B Vision指令微调模型。(https://huggingface.co/spaces/huggingface-projects/llama-3.2-vision-11B)WebGPU演示:在浏览器中运行Llama 3.2 3B模型。此外,还提供了使用Hugging Face Transformers的示例代码,帮助开发者快速上手。
设备端运行Llama 3.2的1B和3B参数模型可以直接在设备端运行,包括CPU、GPU和浏览器环境。可使用以下开源库:
llama.cpp和llama-cpp-python:支持在多平台上运行Llama 3.2模型,提供4位和8位量化的权重模型,适用于内存受限的设备。Transformers.js:可以在浏览器或任何JavaScript运行时(如Node.js、Deno、Bun)中运行模型。微调Llama 3.2开发者可以使用TRL和Transformers等工具对Llama 3.2模型进行微调,以适应特定的应用需求。官方提供了相关的脚本和教程,支持对文本模型和多模态Vision模型的微调。
合作伙伴集成Hugging Face正与AWS、Google Cloud、Microsoft Azure和DELL合作,计划将Llama 3.2 11B和90B模型添加到Amazon SageMaker、Google Kubernetes Engine、Vertex AI Model Catalog、Azure AI Studio和DELL Enterprise Hub等平台。用户可以订阅Hugging Squad获取最新的集成信息。
结语Llama 3.2的发布为开发者和研究人员提供了强大的新工具,推动了多模态和小型模型在实际应用中的发展。特别感谢Meta团队的努力,以及众多社区成员的贡献,使这一发布成为可能。