Meta推出多模态模型Chameleon，它才是GPT-4o的对手

不到一周前，OpenAI以GPT-4o引领了一场多模态浪潮，它是第一个真正实现端到端训练的模型，能够跨越文本、视觉和音频的界限，所有输入和输出都由一个神经网络统一处理。几天刚过，Meta团队就带来了Chameleon（变色龙），这个模型大胆地迈出了挑战GPT-4o的第一步。

Chameleon采用了一种创新的方法，将图像转化为可以像文本一样处理的离散单元，这使得它能够在生成和推理时，将文本和图像巧妙地编织在一起。这种方法被称为「早期融合」，它从根本上改变了数据处理的方式，所有的数据流都在模型的最初阶段就被整合在一个共同的表示空间中，实现了文本和图像的无缝处理。这种前瞻性的设计，虽然给模型训练带来了前所未有的挑战，但也为AI的未来开辟了新的可能。

Chameleon模型的发布，无疑是对现有多模态模型的一次重大升级。它采用了早期融合策略，这意味着不同类型的数据——无论是文本、图像还是代码——都在模型的最初阶段就被整合在一起。这种方法的优势在于能够更深入地理解和生成交织的多模态内容，这是以往模型难以实现的。

与此同时，Chameleon的出现也预示着它将成为GPT-4o的有力竞争者。GPT-4o作为OpenAI最新推出的多模态模型，已经展示了其在处理文本和图像方面的强大能力。然而Chameleon在某些方面甚至超越了GPT-4o，特别是在其能够生成和推理交错的文本和图像序列的能力上。这不仅展示了Meta在人工智能领域的技术实力，也为未来多模态模型的发展方向提供了新的视角。我们将看到，Chameleon不仅是GPT-4o的对手，更可能是推动多模态模型进入新时代的关键力量。

01.Chameleon模型概述

Chameleon的创新点

Meta的Chameleon模型在人工智能领域引起了广泛关注，其最大的创新点在于它采用了早期融合策略。这种策略允许模型从一开始就将文本、图像和代码等多种模态的数据融合在一起，形成一个统一的令牌空间。这样的设计使得Chameleon能够在处理混合模态内容时，实现更深层次的理解和生成能力。

图1：Chameleon将所有模态——图像、文本和代码——表示为离散标记，并使用基于统一转换器的架构，该架构以端到端的方式在交织混合模态数据的~10T标记上从头开始训练。因此，Chameleon既可以推理，也可以生成任意的混合模态文档。文本标记用绿色表示，图像标记用蓝色表示。

早期融合策略是指在模型的输入阶段就开始整合不同模态的数据，而不是在模型的后期阶段。这种方法的优势在于能够让模型更好地捕捉和利用不同模态之间的关联信息，从而提高模型对复杂多模态数据的处理能力。

Chameleon模型使用了统一的Transformer架构，这意味着无论是处理文本、图像还是代码，模型都使用相同的神经网络结构。这种统一性不仅简化了模型的设计，也提高了模型处理不同类型数据的效率。此外，通过将所有数据转换为令牌，Chameleon能够在一个共同的向量空间中处理多模态信息，这是传统多模态模型难以实现的。

技术挑战与解决方案

尽管早期融合策略带来了许多优势，但它也带来了一系列技术挑战，尤其是在训练稳定性和模型可扩展性方面。为了应对这些挑战，Meta的研究团队开发了一系列创新的架构和训练技术。

在训练大规模多模态模型时，保持训练过程的稳定性是一个重大挑战。此外，随着模型规模的增加，如何有效地扩展模型以处理更大量的数据也是一个问题。Chameleon模型需要在训练过程中处理高达10万亿个多模态令牌，这对模型的稳定性和可扩展性提出了极高的要求。

为了解决上述挑战，Meta的研究团队引入了包括QK归一化（query-key normalization）和Zloss正则化在内的多种技术。QK归一化通过对注意力机制中的查询和键向量应用层归一化，控制softmax层输入的范数增长。Zloss正则化则通过在损失函数中添加正则项，减少模型输出的logit偏移。这些技术的应用显著提高了Chameleon模型的训练稳定性和性能。

通过这些创新点，Chameleon模型不仅在多模态AI领域树立了新的标杆，也展示了Meta在推动人工智能技术发展方面的雄心和实力。随着Chameleon模型的进一步发展，我们有理由相信它将在未来的AI应用中发挥更加重要的作用。

02.Chameleon的技术细节

图像「分词器」的工作原理

Chameleon模型的一个关键组成部分是其图像「分词器」，它负责将图像数据转换为模型可以理解和处理的离散令牌。这个过程类似于自然语言处理中的文本分词，但它是针对图像内容的。图像分词器使用一种基于codebook的方法，将每个图像编码为一系列固定大小的令牌，这些令牌代表了图像的不同部分和特征。

图2：Chameleon的交错图像和文本生成示例。在<img>标记的位置生成相应的图像。

转换过程开始于将图像划分为小块或“图像块”，然后每个图像块被映射到一个预定义的codebook中的令牌上。这个codebook相当于一个字典，包含了所有可能的图像块的表示。通过这种方式，原始的图像数据被转换成了一串令牌，这串令牌随后被输入到模型中进行进一步的处理。

图3：Chameleon的样品生成。

图像分词器的训练是一个自监督的过程，它不需要标注的图像数据。训练过程中，分词器学习如何最有效地表示图像数据，以便模型可以从这些令牌中学习到有用的信息。一旦训练完成，分词器就可以应用于任何新的图像数据，将其转换为模型可以理解的格式。

图4：Chameleon输出示例。

Chameleon模型的预训练过程是多模态数据处理的核心。在预训练阶段，模型被暴露于大量的文本和图像数据，这些数据以不同的方式交织在一起。模型通过这个过程学习如何理解和生成包含多种模态的内容。

图5：Chameleon模型在各种设置下的输出范数和训练损失曲线。

预训练数据集由纯文本、文本-图像对，以及完全交错的文本和图像序列组成。这些数据被分为两个阶段进行处理：第一阶段主要是无监督学习，而第二阶段则引入了更高质量的数据集，以进一步提高模型的性能。

在预训练过程中，Chameleon模型面临的主要问题是如何保持训练的稳定性，特别是在处理如此大规模的数据时。为了解决这个问题，研究团队采用了多种优化策略，包括引入QK归一化和Zloss正则化，以及在注意力和前馈网络层后引入dropout。这些策略帮助模型在训练过程中保持稳定，同时也提高了模型处理多模态数据的能力。

图6：Chameleon模型在各种设置下的训练损失曲线。

通过这些技术细节的介绍，我们可以看到Chameleon模型是如何在技术上实现其创新的多模态处理能力的。这些技术的应用不仅使Chameleon在理论上具有强大的潜力，而且在实际应用中也展现出了卓越的性能。随着未来研究的深入，Chameleon有望在多模态人工智能领域发挥更大的作用。

03.Chameleon与GPT-4o的技术对比

1. 模型架构对比

Chameleon的早期融合与GPT-4o的端到端训练

Chameleon模型采用的早期融合策略，是其最显著的特点之一。这种策略允许模型在数据处理的最初阶段就整合不同模态的信息，如文本、图像和代码。这样的处理方式使得Chameleon能够更深入地理解和生成交织的多模态内容。相比之下，GPT-4o虽然也支持多模态输入和输出，但它的端到端训练方法更侧重于在模型的后期阶段整合不同模态的信息。这意味着GPT-4o可能在处理混合模态内容时，需要更多的步骤来融合和理解不同类型的数据。

图像分词器和文字分词器的比较

在处理图像数据方面，Chameleon使用了一种特殊的图像分词器，将图像转换为离散的令牌，这些令牌可以被模型以类似于处理文本的方式来处理。这种方法使得图像数据能够被直接融入模型的统一令牌空间中。而GPT-4o则可能使用不同的方法来处理图像数据，尽管具体细节尚未公开。在文字分词器方面，Chameleon采用了一个包含文本和图像令牌的BPE分词器，这进一步强化了其处理多模态数据的能力。

2. 预训练数据与方法对比

Chameleon的混合模态数据处理

Chameleon在预训练阶段使用了大量的混合模态数据，这包括纯文本、文本-图像对，以及文本和图像交错出现的多模态文档。这种数据处理方法使得Chameleon能够在预训练阶段就学习到如何处理和生成复杂的多模态内容。这种混合模态数据的使用，是Chameleon能够实现早期融合策略的关键。

GPT-4o的多模态输入输出处理

GPT-4o的多模态处理能力，使其能够接受包括文本和图像在内的多种类型的输入，并生成相应的输出。然而由于GPT-4o的具体预训练数据和方法尚未完全公开，我们无法直接比较两者在预训练数据处理方面的差异。不过可以推测GPT-4o在处理多模态输入时，也采用了一些先进的技术来整合不同模态的信息。

总的来说Chameleon和GPT-4o在技术上各有千秋，都代表了当前人工智能领域的前沿技术。Chameleon的早期融合策略和混合模态数据处理，在某些方面提供了对GPT-4o的有力竞争。随着这两个模型的进一步发展和应用，我们期待看到更多创新的多模态AI应用诞生。

04.Chameleon的性能评估

1. 基准评估

在纯文本任务中的表现

Chameleon模型在纯文本任务中的表现令人瞩目。它不仅在常规的语言理解和生成任务上展现了强大的能力，而且在更为复杂的推理和逻辑任务上也取得了优异的成绩。这得益于其混合模态训练方法，使得模型在处理纯文本内容时也能利用到在图像和代码等其他模态上学到的知识。在多项基准测试中，Chameleon与当前最先进的纯文本模型如GPT-4o、Gemini Pro等相比，展现出了相当或更优的性能。

在图像描述和视觉问答任务中的表现

Chameleon在图像描述和视觉问答（VQA）任务上同样表现出色。它能够生成与图像内容紧密相关的描述，并准确回答与图像相关的问题。这一能力体现了Chameleon在理解和生成交织的多模态内容方面的优势。在与其他模型的对比中，Chameleon在这些任务上的表现通常优于或接近专门为这些任务设计的模型，如Flamingo和IDEFICS。

2. 人工评估与安全测试

与Gemini Pro和GPT-4V的比较

在人工评估中，Chameleon的表现尤为引人注目。评估者通常更倾向于选择Chameleon生成的响应，而不是Gemini Pro或GPT-4V的输出。这表明在实际应用中，Chameleon在生成质量和用户满意度方面具有明显的优势。特别是在混合模态推理和生成方面，Chameleon展现了其独特的能力，这在其他模型中很少见。

表4注释者对相关评价的一致性。

安全性能的测试结果

在安全性能测试中，Chameleon展现了其设计的健壮性。即使面对可能引发不安全内容生成的提示，Chameleon也能够有效地避免生成有害内容。这一点在与红队的交互测试中得到了验证，Chameleon在绝大多数情况下都能给出安全的响应。这证明了Meta在模型安全性方面的投入，以及Chameleon在保护用户免受不良信息影响方面的能力。

Chameleon在性能评估中展现了其作为多模态AI模型的强大潜力。无论是在基准测试还是人工评估中，Chameleon都证明了它不仅是GPT-4o的有力竞争者，更可能是推动多模态模型发展的关键力量。随着技术的不断进步，我们有理由相信Chameleon将在未来的AI应用中扮演更加重要的角色。

05.Chameleon的发展

Meta的Chameleon模型不仅是对现有多模态模型的一次重大突破，更是对整个AI领域多模态模型发展方向的一次深刻影响。Chameleon的早期融合策略和统一的令牌空间为未来多模态模型的设计提供了新的思路。它证明了不同模态数据可以在更深层次上进行整合，从而实现更加自然和流畅的人机交互体验。这种深度融合的方法可能会成为未来多模态模型的标准配置，推动整个行业向更高级的AI应用迈进。

Chameleon模型在AI领域的潜在应用是多方面的。从提升搜索引擎的理解能力，到改善自动驾驶车辆的环境感知；从增强虚拟助手的交互体验，到优化社交媒体平台的内容审核机制，Chameleon的应用前景广阔。特别是在内容创作领域，Chameleon能够生成富有创意的多模态内容，这可能会彻底改变数字媒体、广告和娱乐行业的工作方式。

Chameleon模型的出现为未来AI研究方向提供了重要启示。它强调了混合模态数据处理的重要性，这可能会促使研究者在数据集构建和模型训练方法上进行更多探索。其次Chameleon的成功运用了多种新颖的训练技术，如QK归一化和Zloss正则化，这些技术可能会被广泛应用于其他AI模型的训练中。最后Chameleon的安全性能测试结果也表明，未来的AI模型需要在设计之初就考虑安全性和道德问题。

Chameleon与开源社区的关系是一个值得关注的话题。Meta在发布Chameleon时，展现了对开源贡献的积极态度。这不仅体现在他们公开了大量的技术细节和预训练数据，还在论文中详细介绍了贡献者的名单和角色。这种透明和开放的态度可能会吸引更多的开源社区成员参与到Chameleon模型的进一步开发和应用中来。

Meta对开源贡献的态度是积极和支持的。他们通过公开Chameleon的技术细节和研究成果，鼓励了知识的共享和技术的快速发展。这种态度不仅有助于提升Meta在科技界的声誉，也有助于推动AI技术的进步。

社区对Chameleon的期待是高度的。许多人认为Chameleon可能是真正能与GPT-4o竞争的模型，他们对Chameleon在多模态AI应用中的潜力充满期待。同时，社区对Chameleon的反馈也是积极的，许多人对Meta能够公开如此多的研究细节表示赞赏。这种积极的反馈可能会促使Meta在未来继续走开源路线，与更广泛的社区合作，共同推动AI技术的发展。

Meta 的人工智能研究员 Armen Aghajanyan 表示，Chameleon 只是 Meta 分享有关下一个规模范式的知识的开始：“早期融合”多模式模型才是未来。研究人员还指出，该模型是在五个月前训练的，自那时起团队已经取得了很大的进展。整合其他模式可能是其中之一。Meta 首席执行官马克扎克伯格已经宣布了未来的多式联运模式。（END）

参考资料：1. https://arxiv.org/pdf/2405.098182.https://the-decoder.com/metas-chameleon-ai-model-blends-text-and-images-hinting-at-a-future-gpt-4o-rival/

波动世界（PoppleWorld)是噬元兽容器的一款AI应用，采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

Meta推出多模态模型Chameleon，它才是GPT-4o的对手

独角也有噬元兽