Llama3.2全新发布：“多模态”与运行在普通设备上的“小模型”

近日，Hugging Face与Meta联手推出了Llama系列的最新版本——Llama 3.2。这次发布带来了十个开源模型，包括五个多模态模型和五个仅文本模型，为开发者和研究人员提供了更加丰富的工具选择。

Llama 3.2 Vision：强大的多模态模型

Llama 3.2 Vision是Meta发布的最强大的开源多模态模型，具备卓越的视觉理解和推理能力。它可以处理文本和图像输入，适用于视觉推理、文档问答、图文检索等多种任务。该模型有两种规模：

11B参数模型：适合在消费级GPU上高效部署和开发。90B参数模型：适用于大规模应用。

两种模型都提供基础版和指令微调版。此外，Meta还发布了支持视觉的Llama Guard 3，这是一款安全防护模型，能够分类模型的输入和输出，包括检测有害的多模态提示或助手响应。

模型特性多语言支持：除英语外，纯文本模式下还支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。长上下文长度：支持高达128k的上下文长度，允许进行包含多张图片的多轮对话，但模型在处理单张图片时效果最佳。架构设计：基于Llama 3.1语言模型，结合了视觉塔和图像适配器。据了解，训练视觉模型时，文本模型部分是冻结的，以保持文本生成的性能。Llama 3.2的小型文本模型：1B和3B参数

Llama 3.2还引入了新的小型文本模型，参数规模为1B和3B，同样提供基础版和指令微调版。这些模型具有以下优势：

高性能：在相同参数规模下，这些模型的表现超过了许多现有的开源模型，甚至可以与更大规模的模型竞争。多语言支持：支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。设备端运行：由于模型较小，可以直接在设备端运行，适用于提示重写、多语言知识检索、摘要生成、工具使用和本地助手等应用场景。

此外，还有一个1B参数的小型Llama Guard 3模型，可与这些文本模型一起部署，用于生产环境下的内容安全评估。

使用与集成

模型获取

所有模型都已在Hugging Face Hub上提供，方便开发者下载和使用。

集成支持

Transformers和TGI集成：多模态模型已与Hugging Face的Transformers和Text Generation Inference（TGI）集成，支持推理和部署。推理与部署：支持通过Inference Endpoints、Google Cloud、Amazon SageMaker和DELL Enterprise Hub进行推理和部署。微调支持：开发者可以使用Transformers和TRL在单个GPU上对Llama 3.2 11B Vision模型进行微调。演示与示例

官方提供了多个演示，供用户体验Llama 3.2的功能：

Gradio Space演示：使用Llama 3.2 11B Vision指令微调模型。（https://huggingface.co/spaces/huggingface-projects/llama-3.2-vision-11B）WebGPU演示：在浏览器中运行Llama 3.2 3B模型。

此外，还提供了使用Hugging Face Transformers的示例代码，帮助开发者快速上手。

设备端运行

Llama 3.2的1B和3B参数模型可以直接在设备端运行，包括CPU、GPU和浏览器环境。可使用以下开源库：

llama.cpp和llama-cpp-python：支持在多平台上运行Llama 3.2模型，提供4位和8位量化的权重模型，适用于内存受限的设备。Transformers.js：可以在浏览器或任何JavaScript运行时（如Node.js、Deno、Bun）中运行模型。微调Llama 3.2

开发者可以使用TRL和Transformers等工具对Llama 3.2模型进行微调，以适应特定的应用需求。官方提供了相关的脚本和教程，支持对文本模型和多模态Vision模型的微调。

合作伙伴集成

Hugging Face正与AWS、Google Cloud、Microsoft Azure和DELL合作，计划将Llama 3.2 11B和90B模型添加到Amazon SageMaker、Google Kubernetes Engine、Vertex AI Model Catalog、Azure AI Studio和DELL Enterprise Hub等平台。用户可以订阅Hugging Squad获取最新的集成信息。

结语

Llama 3.2的发布为开发者和研究人员提供了强大的新工具，推动了多模态和小型模型在实际应用中的发展。特别感谢Meta团队的努力，以及众多社区成员的贡献，使这一发布成为可能。

幸福双城资讯网

Llama3.2全新发布：“多模态”与运行在普通设备上的“小模型”

爱的威利斯