万字长文总结多模态大模型最新进展(ModalityBridging篇)

前沿也要数据派 2024-05-15 04:54:40

本文大约17000字,建议阅读20分钟本文介绍了多模态大规模的最新进展。

多模态大型语言模型(MLLM)最近已成为一个新兴的研究热点,它将强大的大型语言模型(LLMs)作为大脑来执行多模态任务。MLLM 的惊人新能力,如基于图像撰写故事和无 OCR 的数学推理,在传统方法中很少见,这表明了通向通用人工智能的潜在路径。

通常人们会在 pair 数据上进行大规模(相对于 instruction tuning)的预训练,以促进不同模态之间的对齐。对齐数据集通常是图像文本对或自动语音识别(ASR)数据集,它们都包含文本。

更具体地说,图像文本对以自然语言句子的形式描述图像,而 ASR 数据集包含语音的转录。对齐预训练的常见方法是保持预训练模块(例如视觉编码器和 LLMs)冻结,并训练一个可学习的接口,本文调研了到近期位置不同的接口设计以及学习方法相关的文章。

01 Flamingo

论文标题:

Flamingo: a Visual Language Model for Few-Shot Learning

论文链接:

https://arxiv.org/abs/2204.14198

总的来说,首先,Perceiver Resampler 接收来自视觉编码器的时空特征(从图像或视频获取),并输出固定数量的视觉标记。其次,这些视觉标记用于通过新初始化的交叉注意力层对冻结的语言模型进行条件化,这些层被插入到预训练的语言模型层之间。这些新层为语言模型提供了一种表达方式,以便将视觉信息纳入到下一个标记预测任务中

1.1 Visual processing and the Perceiver Resampler

视觉编码器:是一个预训练并冻结的 Normalizer-Free ResNet(NFNet),使用 Radford 等人提出的 two-term contrastive loss,在图像和文本对数据集上对视觉编码器进行对比目标的预训练。使用最终阶段的输出,即一个二维空间网格的特征,将其压平为一个一维序列。

对于视频输入,帧以 1 FPS 进行采样并独立编码,以获得一个三维时空特征网格,然后将学习到的时间嵌入添加到其中。特征然后被压平为一维,然后输入到 Perceiver Resampler 中。

Perceiver Resampler 模块将由 Vision Encoder 输出的可变大小的时空视觉特征网格映射到固定数量的输出标记(图中为五个),与输入图像分辨率或输入视频帧数无关。这个 transformer 具有一组学习到的潜在向量作为查询,而键和值则是由时空视觉特征与学习到的潜在向量的连接组成。

Perceiver Resampler:从不同大小的大型特征图到少量视觉标记。这个模块将视觉编码器连接到冻结的语言模型,如上图所示。它以视觉编码器中的图像或视频特征的可变数量作为输入,并产生固定数量的视觉输出(64 个),从而降低了视觉-文本交叉注意力的计算复杂度。

类似于 Perceiver 和 DETR,本文学习了预定义数量的潜在输入查询,这些查询被输入到一个 Transformer 中,并对视觉特征进行交叉关注。消融研究中展示了使用这样一个视觉-语言重采样模块优于一个普通的 Transformer 和一个 MLP。

1.2 GATED XATTN-DENSE details

上图提供了一个 GATED XATTN-DENSE 块的示意图,以及它与一个冻结的 LM 块的连接方式,同时附上了伪代码。下图绘制了 Flamingo-3B 模型的 24 个 LM 层在训练过程中(从 0% 到 100%)不同层中 tanh 门控值的绝对值的演变。冻结的 LM 堆栈的所有层似乎都利用了视觉信息,因为 tanh 门控的绝对值从其 0 初始化中迅速增长。

我们还注意到,绝对值似乎随着深度增加而增加。然而,从这个观察中很难得出强有力的结论:门控之前的激活的规模也可能随着深度变化。未来的工作需要更好地理解这些添加层对优化动态和模型本身的影响。

1.3 Multi-visual input support

首先通过在文本中的视觉数据位置插入 image 标签以及特殊标记 BOS 表示“序列开始”或 EOC 表示“块结束”)来处理文本。图像由 Vision Encoder 和 Perceiver Resampler 独立处理,以提取视觉标记。在给定的文本标记处,模型仅与最后一个前导图像/视频对应的视觉标记进行交叉关注。 指示文本标记可以关注的图像/视频,或者在没有前导图像/视频时为 0

上图说明了本文使用的 mask 方法,以限制某个文本标记看到的视觉标记数量。我们还对图像/视频和文本的交错序列的符号化进行了规范化。交错的视觉数据和文本序列。我们考虑交错的图像/视频和文本示例:每个示例包含一系列文本 ,一系列图像/视频 ,以及图像在文本中的位置序列。

基于视觉数据的位置,我们定义一个函数 : [1, ] ↦ → [0, ],它为每个文本位置分配最后一个出现在该位置之前的图像/视频的索引(或者如果该位置之前没有视觉数据,则为 0)。函数 定义了我们考虑用于预测的标记 的可用视觉输入:前面的标记 .

1.4 训练细节

1. 训练数据集由不同格式的训练数据集混合而成。去除交错的图像文本数据集 M3W 导致性能下降超过 17%,而去除传统的配对图像文本对也会导致性能下降(下降 9.8%),这表明需要不同类型的数据集。

2. 冻结 LM 组件可以防止灾难性遗忘。如果从头开始训练,我们观察到性能大幅下降了-12.9%。有趣的是,微调我们预训练的 LM 也导致了性能下降了-8.0%。

3. 数据集加权。M3W、ALIGN、LTIP 和 VTP,其权重分别为 1.0、0.2、0.2 和 0.03。这些权重是在小模型规模下经验性地获得的,并且在之后保持不变。

02 BLIP-2

论文标题:

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

论文链接:

https://arxiv.org/abs/2301.12597

BLIP-2 框架概述。我们通过一个两阶段策略预训练轻量级的查询 Transformer,以弥合模态差距。第一阶段从冻结的图像编码器中引导视觉-语言表示学习。第二阶段从冻结的 LLM 中引导视觉到语言的生成学习,这使得零样本指导的图像到文本生成成为可能。

LLM 本质上是个语言模型,自然无法直接接受其他模态的信息。所以如何把各个模态的信息,统一到 LLM 能理解的特征空间,就是第一步要解决的问题。为此,作者提出了 Q-Former。

(左)Q-Former 和 BLIP-2 的第一阶段视觉-语言表示学习目标的模型架构。我们共同优化三个目标,这些目标强制查询(一组可学习的嵌入)提取与文本最相关的视觉表示。(右)每个目标的自注意力屏蔽策略,以控制查询-文本交互

Learned Query 的引入在这里至关重要。可以看到这些 Query 通过 Cross-Attention 与图像的特征交互,通过 Self-Attention 与文本的特征交互。这样做的好处有两个:

1. 这些 Query 是基于两种模态信息得到的;

2. 无论多大的视觉 Backbone,最后都是 Query 长度的特征输出,大大降低了计算量。

比如在实际实验中,ViT-L/14 的模型的输出的特征是 257x1024 的大小,最后也是 32x768 的 Query 特征。针对 Q-Former 的三个训练任务分别是 Image-Text Contrastive Learning(ITC),Image-grounded Text Generation(ITG),Image-Text Matching(ITM)。

第一阶段,对于模型的训练,就是由以上三个任务组成,通过这几个任务,实现了对于特征的提取与融合。但现在模型还没见过 LLM。我们现在用传感器完成了数据的提取与融合,下一步,我们得把数据转换成处理器能识别的格式。

BLIP-2 的第二阶段视觉到语言生成预训练,从冻结的大型语言模型(LLM)中引导。(顶部)引导基于解码器的 LLM(例如 OPT)。(底部)引导基于编码器-解码器的 LLM(例如 FlanT5)。全连接层从 Q-Former 的输出维度调整到所选 LLM 的输入维度

通过第一阶段的训练,Query 已经浓缩了图片的精华,现在要做的,就是把 Query 变成 LLM 认识的样子。这里作者针对两类不同 LLM 设计了不同的任务:

Decoder 类型的 LLM(如 OPT):以 Query 做输入,文本做目标;Encoder-Decoder 类型的 LLM(如 FlanT5):以 Query 和一句话的前半段做输入,以后半段做目标;

为了适合各模型不同的 Embedding 维度,作者引入了一个 FC 层做维度变换。

训练细节

作为图文预训练的工作,工程问题往往是关键。BLIP2 的训练过程主要由以下几个值得关注的点:

训练数据方面:包含常见的 COCO,VG,SBU,CC3M,CC12M 以及 115M的LAION400M中的图片。采用了BLIP中的CapFilt方法来 Bootstrapping 训练数据。CV 模型:选择了 CLIP 的 ViT-L/14 和 ViT-G/14,特别的是,作者采用倒数第二层的特征作为输出。训练时,CV 模型和 LLM 都是冻结的状态,并且参数都转为了 FP16。这使得模型的计算量大幅度降低。主要训练的基于 BERT-base 初始化的 Q-Former 只有 188M 的参数量。

03 InstructBLIP

论文标题:

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

论文链接:

https://arxiv.org/abs/2305.06500

InstructBLIP 的模型架构。Q-Former 从冻结的图像编码器的输出嵌入中提取了指示感知的视觉特征,并将这些视觉特征作为软提示输入馈送给冻结的 LLM。我们使用语言建模损失对模型进行指令调整,以生成响应

视觉编码器提取输入图片的特征,并喂入 Q-Former 中。此外,Q-Former 的输入还包括可学习的 Queries(BLIP-2 的做法)和 Instruction。Q-Former 的内部结构黄色部分所示,其中可学习的 Queries 通过 Self-Attention 和 Instruction 交互,可学习的 Queries 通过 Cross-Attention 和输入图片的特征交互,鼓励提取与任务相关的图像特征。

Q-Former 的输出通过一个 FC 层送入 LLM,Q-Former 的预训练过程遵循 BLIP-2 的两步:1)不用 LLM,固定视觉编码器的参数预训练 Q-Former 的参数,训练目标是视觉语言建模。2)固定 LLM 的参数,训练 Q-Former 的参数,训练目标是文本生成。

在推理的时候,对于大部分数据集,如 image captioning,open-ended VQA 等,InstructBLIP 可以直接使用 LLM 生成的文本作为输出;对于ification 和 multi-choice VQA 这样的任务,InstructBLIP 遵循 ALBEF 的做法生成固定的几种答案,根据概率选择最后的结果作为输出。

这种做法的数据集包括有 ScienceQA、IconQA、A-OKVQA(多项选择)、HatefulMemes、Visual Dialog、MSVD 和 MSRVTT 数据集。

Tricks

数据重采样由于训练数据集数量太大,而且每个数据集的大小存在显着差异,均匀混合它们可能会导致模型过拟合较小的数据集,并欠拟合更大的数据集。因此,作者改了一下采样数据的概率,从某个数据集里面采样数据的概率是 ,其中 是单个数据集的大小。

04 LLaVA

论文标题:

Visual Instruction Tuning

论文链接:

https://arxiv.org/abs/2304.08485

4.1 数据构造

结合 GPT-4 优异的文字能力,将原始数据构造成结构化的文本信息作为 Context,同时通过 prompt template 请求 GPT-4 得到一些结果,来生成原始的 instruction data。在训练时,则可加入 visual token,以得到 align 后的 instruction-tuned model。

训练分两步,第一步做对齐,只训 projection layer;第二步 e2e finetune,vision encoder(clip vit-L)是 freeze 的。可以看到 instruction tuning 对任务效果影响巨大,另外每个任务本身的指令数据也对各个任务都有互补作用

▲ 使用不同训练数据在 LLaVA-Bench(COCO)上的消融实验。我们报告相对分数,相对于一个仅使用地面真实图像标题和边界框作为视觉输入的文本 GPT-4 模型。我们使用我们模型输出的答案和 GPT-4(仅文本)的答案来提示 GPT-4,并让它在两者之间进行比较并给出一个带有解释的评分。

05 LLaVA-v1.5

论文标题:

Improved Baselines with Visual Instruction Tuning

论文链接:

https://arxiv.org/abs/2310.03744

Response formatting prompts。我们发现,像 InstructBLIP 这样的方法无法很好地平衡短形式和长形式 VQA 的原因主要有以下几点。首先,是响应格式上的模糊提示。例如,Q: {问题} A: {答案}。这样的提示并不清楚地指示了期望的输出格式,甚至在自然的视觉对话中,也可能使 LLM 在行为上过度拟合为短形式答案。

其次,没有对 LLM 进行微调。第一个问题由于 InstructBLIP 只对 Qformer 进行了指导调整而进一步恶化。它需要 Qformer 的视觉输出令牌来控制 LLM 的输出长度,使其为长形式或短形式,就像前缀调整一样,但是 Qformer 可能缺乏正确执行此操作的能力,因为与 LLMa 等 LLM 相比,其容量有限。

为了解决这个问题,我们建议使用一个单一的响应格式提示,清楚地指示输出格式,在促进短答案时附加到 VQA 问题的末尾:用一个词或短语回答问题。我们经验证明,当 LLM 使用这样的提示进行微调时,LLaVA 能够根据用户的指示正确调整输出格式,并且不需要对 VQA 数据进行额外处理,这进一步实现了对各种数据源的扩展。

Academic task oriented data 我们进一步包括了额外的学术任务导向的 VQA 数据集,用于 VQA、OCR 和区域级感知,以各种方式增强模型的能力,如表 1 所示。

我们首先包括了 InstructBLIP 中使用的四个额外数据集:开放知识 VQA(OKVQA ,A-OKVQA )和 OCR(OCRVQA ,TextCaps)。A-OKVQA 被转换为多项选择问题,并使用特定的响应格式提示:直接用给定选项的字母回答。

仅使用 InstructBLIP 使用的数据集子集,LLaVA 就在表 1 中的所有三个任务上都超过了它,表明 LLaVA 的有效设计。此外,我们发现进一步添加区域级 VQA 数据集(Visual Genome,RefCOCO)可以提高模型对细粒度视觉细节的定位能力。

Additional scaling. 进一步增加了输入图像的分辨率,以使 LLM 能够清晰地“看到”图像的细节,并将 GQA 数据集作为额外的视觉知识源。我们还加入了 ShareGPT 数据,并将 LLM 扩展到 13B,在 MM-Vet 上的结果显示了将 LLM 扩展到 13B 时的最显著的改进,表明了基础 LLM 能力对视觉对话的重要性。

Limitations.。尽管 LLaVA-1.5 展示了令人期待的结果,但必须承认存在一些限制。首先,LLaVA 利用完整的图像补丁,可能会延长每个训练迭代的时间。虽然视觉重采样器可以减少 LLM 中的视觉补丁数量,但它们目前不能像 LLaVA 那样有效地收敛,可能是由于重采样器中的可训练参数更多。

一个高效的样本重采样器的开发可以为未来扩展指导跟随多模态模型铺平道路。第二,由于缺乏这种指导跟随数据和上下文长度的限制,LLaVA-1.5 目前还不能处理多个图像。第三,尽管 LLaVA-1.5 在遵循复杂指令方面表现出了熟练,但其问题解决能力在某些领域仍然可能受到限制,这可以通过更有能力的语言模型和高质量、针对性的视觉指导调整数据来改善。

最后,尽管 LLaVA 的产生幻觉的倾向显著降低,但它仍然可能产生幻觉并偶尔传播错误信息,在关键应用(例如医学)中应谨慎使用。

06 LLaVA-NeXT

论文标题:

LLaVA-NeXT: Improved reasoning, OCR, and world knowledge

博客链接:

https://llava-vl.github.io/blog/2024-01-30-llava-next/

LLaVA-NeXT,它在推理、OCR 和世界知识方面有所改进。LLaVA-NeXT 甚至在几个基准测试中超越了 Gemini Pro。

与 LLaVA-1.5 相比,LLaVA-NeXT 有几个改进:

将输入图像分辨率提高了 4 倍像素。这使得它能够捕捉更多的视觉细节。它支持三种宽高比,分辨率可达 672x672、336x1344、1344x336。通过改进的视觉指导调整数据混合,提供更好的视觉推理和 OCR 能力。针对更多场景提供更好的视觉对话,涵盖不同的应用。具有更好的世界知识和逻辑推理能力。除了性能提升外,LLaVA-NeXT 还保持了 LLaVA-1.5 的简约设计和数据效率。它重用了 LLaVA-1.5 的预训练连接器,并且仍然使用不到 100 万个视觉指导调整样本。最大的 34B 变种在约 1 天内使用 32 个 A100 完成训练。

6.1 Detailed Technical Improvement

▲ 通过将图像分割成网格并独立对其进行编码,将 LLaVA-1.5 扩展到更高分辨率。这使得模型能够适应任何分辨率,而无需为 ViTs 执行位置嵌入插值。我们还将下采样图像的特征连接起来,以为 LLM 提供全局上下文。

Scaling to Higher Resolutions 我们通过将图像分成原始训练视觉编码器的分辨率的较小图像块,并独立对其进行编码来克服这一问题。在获取单个块的特征图后,我们将它们合并成目标分辨率的单个大特征图,并将其馈送到 LLM 中。

为了为 LLM 提供全局上下文并减少分割-编码-合并操作的人为因素,我们还将一个降采样图像的特征连接到合并后的特征图中。这使我们能够将输入扩展到任意分辨率并保持 LLaVA-1.5 的数据效率。我们将这个结果模型称为 LLaVA-1.5-HD。

高质量的用户指导数据。我们对高质量的视觉指导跟随数据的定义主要有两个标准:首先,任务指令的多样性,确保充分代表了在真实世界场景中可能遇到的广泛用户意图,特别是在模型部署阶段。其次,响应的优越性至关重要,目标是获得良好的用户反馈。

为实现这一目标,我们考虑了两个数据来源:(1)现有的 GPT-V 数据,包括 LAION-GPT-V 和 ShareGPT-4V。(2)为了进一步促进更多场景下更好的视觉对话,我们收集了一个包含不同应用的小型 15K 视觉指导调整数据集。

这些指令和图像来自 LLaVA 演示,是真实用户的请求。我们仔细过滤可能涉及隐私问题或潜在有害的样本,并使用 GPT-4V 生成响应。

多模态文档/图表数据:

1. 我们从训练数据中删除了 TextCaps,因为我们意识到 TextCaps 使用与 TextVQA 相同的训练图像集。这使我们能够更好地了解在开发过程中评估 TextVQA 时我们模型的零 -shot OCR 能力。为了维持和进一步提高我们模型的 OCR 能力,我们用 DocVQA和 SynDog-EN 替换了 TextCaps;

2. 受到 Qwen-VL-7B-Chat 的启发,我们进一步添加了 ChartQA、DVQA 和 AI2D,以便更好地理解图表和图表的内容。

6.2 Open Problems in LMMs

数据效率:在本节中,我们进行了进一步提高数据效率的实验,通过随机子采样 LLaVA-1.5 的训练数据混合,采样比例范围从 0.1 到 0.5 不等。我们在图 4 中可视化了不同采样变体的相对性能。

首先,完整的数据混合提供了最佳的知识覆盖,并允许模型实现最佳的整体性能。令我们惊讶的是,仅使用 50% 的样本,模型仍然保持了超过 98% 的完整数据集性能。这表明在数据效率方面还有进一步改进的空间。

其次,当将数据集缩减到 50% 时,模型在 MMBench、ScienceQA 和 POPE 上的性能完全不降低,甚至在 MMBench 上略有改善。同样,当进一步将数据从 50% 降至 30% 时,模型的性能保持稳定。这些结果显示了多模态模型也具有“少即是多”的潜在好处。

重新思考 LMM 中的幻觉:将模型的输入分辨率提高到 448 时,这种幻觉显著减少。这一发现很有意思,因为它表明 LMMs 可能对训练数据中的一些错误具有鲁棒性。

然而,当输入分辨率不足以使模型辨别训练数据中的所有细节,并且超出模型能力的数据量足够大时,模型会学会产生幻觉。这进一步表明,需要在提高数据注释的同时保持良好的模型处理信息的能力之间取得平衡。不平衡的扩展可能导致模型产生更多的幻觉或对视觉细节的理解能力降低。

07 Cheap and Quick

论文标题:

Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models

论文链接:

https://arxiv.org/abs/2305.15023

▲ Mixture-of-Modality Adaptation(MMA)概述及 LaVIN 的架构。在 LaVIN 中,采用了新颖的混合模态适配器来处理不同模态的指令。在指导调优过程中,LaVIN 通过端到端的模态混合训练(Mixture of Modality Training,MMT)进行优化。

本文提出了混合模态适应(Mixture-of-Modality Adaptation,MMA):一种端到端的优化方案,通过轻量级适配器连接图像编码器和 LLM。与此同时,我们还提出了 MMA 中的一种新颖路由算法,可以帮助模型自动调整单模态和多模态指令的推理路径。

基于 MMA,我们开发了一个名为 LaVIN 的大型视觉语言指导模型,它在各种遵循指令的任务中展现出了比现有多模态 LLM 更优异的训练效率和更好的推理能力。

LaVIN 在效率上具有优越性,并且与现有的多模态 LLM 相比具有竞争力的性能,同时也确认了它作为通用聊天机器人的巨大潜力。实验结果显示,LaVIN 可以达到与先进的多模态 LLM(如 LLaVA)相当的性能,同时减少了高达 71.4% 的训练时间和 99.9% 的存储成本。

值得注意的是,将 LaVIN 在 ScienceQA 上进行微调仅需 1.4 小时,使用 8 个 A100 GPU,更新的参数仅为 3.8M。

08 MIMIC-IT

论文标题:

MIMIC-IT: Multi-Modal In-Context Instruction Tuning

论文链接:

https://arxiv.org/abs/2306.05425

▲ MIMIC-IT 数据集包括 280 万个多模态指令-回复对,涵盖了基本能力:感知、推理和规划。每个指令都伴随着多模态的对话背景,使得在 MIMIC-IT 上训练的 VLM 能够展现出在交互式指令遵循方面的强大熟练度,实现零 -shot 泛化。

数据格式比较:LLaVA-Instruct-150K vs. MIMIC-IT。(a)LLaVA-Instruct-150K 由一张图片及其对应的仅包含语言的上下文信息(黄色框)组成。(b)MIMIC-IT 包含多个图片或视频的输入数据,并支持多模态上下文信息,即考虑图片/视频和语言输入作为上下文信息。

09 LLaVAR

论文标题:

LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

论文链接:

https://arxiv.org/abs/2306.17107

本工作通过文本丰富的图像(例如电影海报、书籍封面等)增强了当前的视觉指令调整流程。具体而言,我们首先使用公开可用的 OCR 工具在 LAION 数据集的 422K 个文本丰富的图像上收集结果。此外,我们使用识别出的文本和图像标题提示纯文本 GPT-4 生成 16K 个对话,每个对话包含针对文本丰富图像的问答对。

通过将我们收集的数据与先前的多模态指令遵循数据相结合,我们的模型 LLaVAR 大大提高了 LLaVA 模型在基于文本的 VQA 数据集上的能力(最多提高 20% 的准确率)。

10 SVIT

论文标题:

SVIT: Scaling up Visual Instruction Tuning

论文链接:

https://arxiv.org/abs/2307.04087

为了推动多模态能力的边界,我们提出了规模化视觉指导调整(SVIT)方法。

SVIT 涉及构建一个包含 420 万个视觉指导调整数据点的数据集,包括 160 万个对话问答(QA)对,160 万个复杂推理 QA 对,100 万个引用 QA 对和 10.6 万个详细的图像描述。除了数量之外,所提出的数据集还具有高质量和丰富多样性。它是通过提示 GPT-4 与丰富的图像手动注释一起生成的。

此外,我们提出了一种新的数据处理方法,选择具有更好多样性和平衡性的子集,从而激发模型的优越能力。

数据集选择算法

流行的基准测试评估多模态大型语言模型(MLLM)的不同能力,这需要特定的训练数据配方来激发预训练模型。因此,我们设计了一种新的数据配方,即核心集选择算法,以更好地适应这些基准测试,并在性能和训练效率之间取得平衡。

多样性。我们构建了一组与流行基准测试相匹配的关键概念,即 MME 和 MMBench。具体来说,我们设计了几个高级概念,然后使用 GPT-4 生成每个概念的数十个关键词。然后,我们过滤掉在 SVIT 数据集中频率较低的那些关键词。概念集在上表中。我们通过与概念集的重叠来衡量每个训练样本的信息量,并选择最具信息量的样本。

平衡。在 MME 基准测试中,使用“是”或“否”问题来评估模型。然而,在由 GPT-4 生成的数据中,这两个选择的比例极不平衡,这使得调整后的模型有倾向性地回答“是”。我们通过重新采样来调整比例。

通过以上两个操作,我们获得了 157,712 个样本的核心集 SVIT-core-150K,其大小与 LLaVA-Instruct-150K 相同。我们还用 SVIT-core-150K 替换了 LLaVA-v1.5-mix-665K 中的 LLaVA-Instruct-150K,从而生成了 SVIT-mix-665K。

11 Qwen-VL

论文标题:

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

论文链接:

https://arxiv.org/abs/2308.12966

预训练的第一阶段,我们主要利用大规模的、弱标记的、网络爬取的图文对数据集。我们的预训练数据集由几个公开可访问的来源和一些内部数据组成。我们努力清理了数据集中的某些模式。原始数据集包含总共 50 亿个图文对,在清理后,仅剩 14 亿数据,其中 77.3% 是英文(文本)数据,22.7% 是中文(文本)数据。

我们在这个阶段冻结了大型语言模型,只优化了视觉编码器和 VL 适配器。输入图像被调整为 224×224。训练目标是最小化文本标记的交叉熵。最大学习率为 2e−4,训练过程使用了 30720 的图文对批量大小,整个预训练的第一阶段持续了 50000 个步骤,消耗了大约 15 亿个图文样本。更多的超参数详见附录 C,该阶段的收敛曲线如图所示。

在多任务预训练的第二阶段,我们引入了高质量、细粒度的 VL 标注数据,并使用更大的输入分辨率和交替的图文数据。同时训练了 Qwen-VL 的 7 个任务。对于文本生成,我们使用内部收集的语料库来维持 LLM 的能力。

我们将视觉编码器的输入分辨率从 224×224 增加到 448×448,减少了图像降采样造成的信息损失。我们解锁了大型语言模型并训练了整个模型。训练目标与预训练阶段相同。

在监督微调阶段,我们通过指令微调来对 Qwen-VL 预训练模型进行微调,以增强其指令跟随和对话能力,从而得到交互式 Qwen-VL-Chat 模型。多模态指令调整数据主要来自通过 LLM 自我指导生成的字幕数据或对话数据,这些数据通常只涉及单图对话和推理,并且仅限于图像内容理解。

我们通过手动注释、模型生成和策略串联构建了一个额外的对话数据集,以将定位和多图理解能力引入 Qwen-VL 模型。我们确认模型有效地将这些能力转移到更广泛的语言和问题类型上。

此外,我们在训练过程中混合了多模态和纯文本对话数据,以确保模型在对话能力上的普遍性。指令调整数据量为 35 万。在这个阶段,我们冻结了视觉编码器,并优化了语言模型和适配器模块。我们在下面展示了该阶段的数据格式。

12 NExT-GPT: Any-to-Any Multimodal LLM

论文标题:

NExT-GPT: Any-to-Any Multimodal LLM

论文链接:

https://arxiv.org/abs/2309.05519

作者提出了一个端到端通用的任意对任意 MM-LLM(Multimodal-Large Language Model)系统。NExT-GPT 将 LLM 与多模态适配器和不同的扩散解码器连接起来,使 NExT-GPT 能够感知输入并以文本、图像、视频和音频的任意组合生成输出。

NExT-GPT 基本思想是利用编码器对各种模态的输入进行编码,将其投影为 LLM 可理解的类语言表示。ExT-GPT 利用现有的开源 LLM 作为核心,处理输入信息,进行语义理解和推理。

LLM 不仅直接生成文本标记,而且还产生独特的“模态信号”标记,这些标记作为指令来指示解码层是否要相应地输出什么模态内容。然后,生成带有特定指令的多模态信号,经过投影后传输到不同的编码器,最终生成相应模态的内容。

Multimodal Encoding Stage

首先,NExT-GPT 利用现有的完善模型对各种模式的输入进行编码。对于不同的模态,有一组替代编码器,例如 Q-Former、ViT、CLIP。在本文中,NExT-GPT 采用了 ImageBind,它是跨六种模式的统一高性能编码器。然后,通过线性投影层,不同的输入表示被映射为LLM可以理解的类似语言的表示。

LLM Understanding and Reasoning Stage

在 LLM 方面,NExT-GPT 采用的是 Vicuna2,它是一种基于开源文本的 LLM,广泛用于现有的 MM-LLM 中。LLM 将不同模态的表示作为输入,并对输入进行语义理解和推理。它输出两项内容:1)直接文本响应;2)每种模态的信号标记,用作指示解码层是否生成多模态内容以及如果生成则生成什么内容的指令。

Multimodal Generation Stage

从 LLM 接收到多模态信号之后,基于 Transformer 的输出投影层会将信号标记表示映射为后续多模态解码器可以理解的信号表示。

具体来说,NExT-GPT 采用当前现成的潜在条件扩散模型(conditioned diffusion models)用于生成不同模态结果,包括用于图像合成的 Stable Diffusion 模型、用于视频合成的 Zeroscope4 模型和用于音频合成的 AudioLDM5 模型。

Lightweight Multimodal Alignment Learning(轻量级多模态对齐学习)

为了完成编码器对齐,作者从现有语料库和基准中准备了 “X-caption” 对(“X” 代表图像、音频或视频,caption 代表文字)数据,然后强制 LLM 根据标注 caption 生成每个输入模态的 caption,学习过程如上图所示。

在解码端,NExT-GPT 集成了来自外部资源的预训练条件扩散模型,对齐的主要目的是将扩散模型与 LLM 的输出指令保持一致。然而,在每个扩散模型和 LLM 之间执行全面的对齐过程将带来巨大的计算负担。因此,我们在这里探索一种更有效的方法,即解码端指令跟随对齐,如上图所示。

具体来说,由于各种模态的扩散模型仅以文本标记输入为条件, 这种调节与 NExT-GPT 系统中 LLM 的模态信号标记不同,这导致扩散模型对 LLM 指令的准确解释存在差距。因此,作者考虑最小化 LLM 的模态信号标记表示与扩散模型的条件文本表示之间的距离。

由于仅使用文本条件编码器(扩散模型的 Text Encoder 冻结),因此学习仅基于纯粹的字幕文本,即没有任何视觉或音频资源,这也确保了高度轻量级的训练。

2.3 Modality-switching Instruction Tuning(模态转化指令调优)

尽管编码和解码端能够与 LLM 保持一致,但距离使整个系统能够忠实地遵循和理解用户的指令并生成所需的多模态输出的目标仍然存在差距。

为了增强 LLM 的能力和可控性,进一步的指令调整(Instruction Tuning,IT)被认为有必要的。IT 使用“(输入,输出)”对整体 MM-LLM 进行额外训练,其中“输入”代表用户的指令,“输出”表示符合给定指令的所需模型输出。

具体来说,作者利用 LoRA 使 NExT-GPT 中的一小部分参数能够在 IT 阶段与两层投影同时更新。如上图所示,当 IT 对话样本输入系统时,LLM 会重建并生成输入的文本内容(并使用多模态信号标记表示多模态内容),优化的目标是根据金标注和 LLM 的输出进行的。

除了 LLM 调优之外,作者还对 NExT-GPT 的解码端进行了微调,将输出投影编码的模态信号标记表示与扩散条件编码器编码的金多模态 caption 标注表示对齐。至此,全面的调优过程更加接近与用户忠实有效交互的目标。

为了更好地进行指令调优,作者还收集了几组数据集,其中的 “X” 可以是图像、视频、音频或其他模态的数据:

Text+X →Text Data:此类成熟的数据包括 LLaVA、miniGPT-4、VideoChat 等;Text →Text+X Data:基于现有语料库中丰富的 “X-caption” 对,通过一些模板,作者借用 GPT-4 来生成各种文本指令来产生数据。modality-switching instruction tuning(MosIT) Data:作者设计了一些“人”角色和“机器”角色之间的模板对话示例,在此基础上促使 GPT-4 在各种场景下生成更多具有 100 多个主题或关键词的对话。

13 InternLM-XComposer

论文标题:

InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition

论文链接:

https://arxiv.org/abs/2309.15112

InternLM-XComposer 的架构和训练方案。预训练阶段对齐了视觉和语言知识,SFT 阶段激发了不同的模型能力

模型由三个组件构成:

视觉编码器:EVA-CLIP (CLIP的一个改进变种,通过掩码图像建模能力增强,以有效捕捉输入图像的视觉细微差异)。输入 224x224,以 stride 14 分为小 patch 后输入 transformer感知采样器(Perceive Sampler):InternLM-XComposer 中的感知采样器作为一种专注的池化机制,旨在将初始的 257个 图像嵌入压缩为 64 个经过优化的嵌入。这些优化的嵌入随后会与大型语言模型理解的知识结构相匹配。与 BLIP2 类似,使用带有交叉注意力层的 BERTbase 作为感知采样器。LLM:InternLM-XComposer 以 InternLM 作为其基础的大型语言模型。值得注意的是,InternLM 是一款强大的语言模型,具备多语言能力,在英语和中文方面表现出色。使用公开可用的 InternLM-Chat-7B 作为大型语言模型。

14 CogVLM

论文标题:

CogVLM: Visual Expert for Pretrained Language Models

论文链接:

https://arxiv.org/abs/2311.03079

tl;nr: 使用已经训练好的 LLM,然后给它添加图像的功能。方法上,引入 vit 做图像的 encoder 和 MLP adapter,来将图像编码到和 text 一样的 embedding 空间中,然后是在 LLM 的各层添加 visual expert,它具有独立的 QKV 和 FFN 相关的参数,并使用 LLM 中的层来做初始化,训练的时候冻结已经训练好的 LLM 部分,训练图像相关的部分。

这就是作者探讨的 deep fusion 方法。最后的效果提升很大。除了很少的任务没有超过 Pali-x 之外,其他全部 sota。

浅层对齐的方法:blip-2 中,把已经训练好的 image encoder 冻结,然后加一个 Q-former 或者 linear layer,把 image feature 映射到语言模型的 input embedding space 中,BLIP-2 NoCaps CIDEr 121.6。收敛很快,但是结果没有联合训练的模型效果好,e.g., PaLI-X. 用浅层对齐的方法训练的 chat-style 模型,e.g., MiniGPT-4, LLAVA, and VisualGLM,视觉理解能力弱表现为幻觉。

作者认为核心问题是,浅层对齐缺少不同模态信息的 deep fusion,这个灵感来自 p-tuning 和 LoRA 的对比,p-tuning learns a task prefix embedding in the input while LoRA adapts the model weights in each layer via a low-rank matrix. LoRA 效果更好且更稳定。

in the shallow alignment methods, the image features act like the prefix embedding in p-tuning. 其他细节:

语言模型权重冻结,这些权重是为文本训练的,文本的输入空间,图像的 embedding 在这个空间里没有很好的对应关系,每一层的输入的分布也是不断变化的,当经过几层变换之后,图像的特征分布已经和比较深的层的权重所需要的输入特征的分布不再匹配了。在预训练过程中,图像字幕任务的先验,例如文字风格和字幕长度,只能在浅对齐方法中编码到视觉特征中。它削弱了视觉特征与内容之间的一致性。

CogVLM-17B包含:

LLM:Frozen Vicuna-7B-v1.5,此模型在所有的注意力操作中都应用了因果掩码(causal mask),包括图像特征之间的注意力。ViT encoder:EVA2-CLIP-E ,负责将图像转化为特征表示。在 CogVLM-17B 中,移除了 ViT 编码器的最后一层,因为该层专注于整合 [CLS] 特征以用于对比学习。MLP adapter:a two-layer SwiGLU MLP,用于将ViT的输出映射到与文本特征相同的空间。所有的图像特征在语言模型中共享相同的「位置编码 id」。Visual expert module:在 LLM 的每一层中引入可训练的 visual expert,其包含专门处理 image feature 的「QKV 矩阵」和「MLP 层」,以实现深度的视觉-语言特征对齐。QKV 矩阵和 MLP 的形状与预训练语言模型中的相同,并从中进行初始化。trainable visual expert 专门用于转换图像特征,功能上和 LLM QKV/MLP 一致,但是只针对 image feature,从而实现模态间的深度融合。

CogVLM 的架构。(a)关于输入的说明,其中图像由预训练的 ViT 处理,并映射到与文本特征相同的空间中。(b)语言模型中的 Transformer 块。图像特征具有不同的 QKV 矩阵和 FFN。只有紫色部分是可训练的

PRETRAINING:用了公开可用的图像文本对进行训练,为 LAION-2B 和 COYO-700M。

The first stage:Image captioning loss, next token prediction task on 1.5B image-text pairs。

The second stage:a mixture of image captioning and Referring Expression Comprehension(REC)。在答案的部分,只考虑了下一个标记的预测损失。REC 任务是根据 text description of an object 来预测图像中的 bounding box ,比如 “Question: Where is the [object]?” and “Answer: [x0, y0, x1, y1]” 。其中,x 和 y 坐标的取值范围从 000 到 999,表示在图像中的归一化位置。

15 OtterHD: A High-Resolution Multi-modality Model

论文标题:

OtterHD: A High-Resolution Multi-modality Model

论文链接:

https://arxiv.org/abs/2311.04219

在本文中,我们提出了 OtterHD-8B,这是一种创新的多模态模型,是从 Fuyu-8B 演变而来,专门设计用于以细粒度精度解释高分辨率视觉输入。与传统模型不同,传统模型受固定大小的视觉编码器限制,OtterHD-8B 具有处理灵活输入尺寸的能力,确保其在各种推理需求下的多功能性。

除了这个模型,我们还引入了 MagnifierBench,这是一个评估框架,旨在审查模型对微小物体的细节和空间关系的辨别能力。我们的比较分析显示,虽然目前领先的模型在这个基准测试中表现不佳,但特别是在直接处理高分辨率输入时,OtterHD-8B 的表现优于其竞争对手很大程度上。

这些发现揭示了不同模型在视觉信息处理中的结构差异,以及视觉编码器的预训练分辨率差异对模型在这些基准测试中有效性的影响。我们的研究突显了大型多模态模型中灵活性和高分辨率输入能力的关键作用,并且展示了 Fuyu 架构的简洁性在处理复杂视觉数据方面所具有的潜力。

16 Monkey

论文标题:

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

论文链接:

https://arxiv.org/abs/2311.06607

Monkey 模型提出了一种有效地提高输入分辨率的方法,最高可达 896 x 1344 像素,而无需从零开始进行预训练。针对复杂场景描述、问答和叙述,Monkey 模型采用了一种无需预训练即可提高输入分辨率的架构和一种多层级详细描述生成方法。这两个设计确保了模型能够从生成的数据中进行更有效的学习,更高的分辨率可以更详尽地捕捉视觉特征,这反过来又提高了详细描述的有效性。

1. 提高输入分辨率

Monkey 的整体架构允许通过从原始图像中捕获全局特征和从分割补丁中获取局部特征来实现高分辨率。所有补丁都通过共享的静态 ViT 编码器进行处理,例如具有 2b 参数的 ViT-BigG

给定一个 H x W 的图像,使用 x (和 LMM 分辨率一致)大小的滑动窗口将图像划分为更小的局部区域。Monkey 对于每个图片块的编码器都增加了独属它的 Lora [10] 来有效地识别和吸收每个图像区域的细节敏感特征,从而增强对空间和上下文关系的理解。训练时只训练 Lora 部分,因此无需大幅增加参数量和计算需求。原始图像大小也被调整为 x ,用于全局信息的提取。最后,通过视觉编码器和重采样器处理所有局部图像和全局图像,并将局部特征和全局特征送入 LLM。这种方法能够在不显着增加计算负载的情况下提高模型分辨率和性能。

2. 多级特征整合详细描述生成

之前的工作如 LLaVA [3]、Qwen-VL [4] 等依赖于互联网上爬取的大规模图文数据及进行模型的预训练。但这类数据标注比较简单,缺乏更丰富的图像细节。即使使用高分辨率图像进行训练, LMM 也无法在图像视觉特征和其中各个物体之间建立准确的关联,从而可能损害了视觉处理和语言理解之间的协同作用。

Monkey 使用了一种多级特征融合的详细描述生成方法(利用 BLIP-2 [5]、PP-OCR [6]、GRIT [7]、SAM [8] 和 ChatGPT [9] 等预训练系统),为 CC3M 中的 400k 图像提供更加细致的描述,来更好地将高分辨率的视觉模型和语言模型对齐。

关键发现

提高分辨率能提高模型性能(r3-r9),四个 LoRA 能够帮助模型获得图像中不同部分的独特特征(r7 vs. r9),并帮助模型建立对空间和上下文关系的理解。进一步提高输入分辨率能够提高模型在文档等更高分辨率的图像上的性能(r5,r6)。

同时,相比与直接插值扩大模型输入分辨率的方法相比(r1,r2 vs. r9),本文的方法在时间和性能上更具优势。表六中当把 llava1.5 的输入分辨率从 224 扩大为 448,性能得到显著提升,进一步展现了本文方法的有效性。

17 LLaMA-VID

论文标题:

LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models

论文链接:

https://arxiv.org/abs/2311.17043

当前的 VLMs 在诸如图像字幕和视觉问答等任务中表现出色,但在处理长视频时面临着计算负担,因为存在过多的视觉标记。LLaMA-VID 通过用两个不同的标记表示每个帧来解决这个问题,即上下文标记和内容标记。上下文标记基于用户输入编码整体图像背景,而内容标记则封装了每个帧中的视觉线索。这种双标记策略显著减少了长视频的负担,同时又保留了关键信息。

总的来说,LLaMA-VID 赋予现有框架支持长达一小时的视频,并通过额外的上下文标记推动了它们的上限。在大多数基于视频或图像的基准测试中,它被证明超越了先前的方法。

LLaMA-VID 的框架。在用户指令下,LLaMA-VID 通过接受单个图像或视频帧作为输入,并从 LLM 生成响应。该过程始于一个视觉编码器,将输入帧转换为视觉嵌入。然后,文本解码器根据用户输入生成文本查询。在上下文注意力中,文本查询从视觉嵌入中聚合与文本相关的视觉线索。为了提高效率,提供了将视觉嵌入降采样到各种令牌大小甚至单个令牌的选项。然后,使用线性投影器制定文本引导的上下文令牌和视觉丰富的内容令牌来表示每个时间 t 的每个帧。最后,LLM 接受用户指令和所有视觉令牌作为输入并给出响应。

18 MoE-LLaVA

论文标题:

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

论文链接:

https://arxiv.org/abs/2401.15947

最近的进展表明,扩展大型视觉语言模型(LVLMs)有效地提高了下游任务的性能。然而,现有的扩展方法使得所有模型参数在计算中对每个标记都是活跃的,这带来了巨大的训练和推理成本。

在这项工作中,我们提出了一种简单而有效的训练策略 MoE-Tuning 用于 LVLMs。这一策略创新地解决了多模态稀疏学习中的性能下降问题,从而构建了一个具有惊人参数数量但计算成本恒定的稀疏模型。

此外,我们提出了基于 MoE 的稀疏 LVLM 体系结构 MoE-LLaVA,它在部署过程中通过路由器唯一激活了仅排名靠前的 k 个专家,使其余的专家保持不活跃状态。

大量实验证明了 MoE-LLaVA 在各种视觉理解和物体幻觉基准测试中的显著性能。值得注意的是,仅有约 3B 个稀疏激活参数,MoE-LLaVA 在各种视觉理解数据集上表现出与 LLaVA-1.5-7B 相当的性能,甚至在物体幻觉基准测试中超过了 LLaVA-1.5-13B。通过 MoE-LLaVA,我们旨在建立稀疏 LVLMs 的基准,并为未来研究开发更高效、更有效的多模态学习系统提供宝贵的见解。

MoE-Tuning 的示意图。MoE-Tuning 包括三个阶段。在第一阶段,只有 MLP 被训练。在第二阶段,除了视觉编码器(VE)之外,所有参数都被训练。在第三阶段,FFN 被用来初始化 MoE 中的专家,只有 MoE 层被训练。对于每个 MoE 层,每个标记只激活两个专家,而其他专家保持沉默

阶段一:在这个阶段,我们的目标是使图像标记适应 LLM,使 LLM 能够理解图像中的实例。为了实现这一目标,我们使用 MLP 将图像标记投影到 LLM 的输入域中,将图像块视为伪文本标记。在这个阶段,LLM 被训练来描述图像。MoE 层在这个阶段不应用于 LLM。

阶段二:使用多模态指令数据进行调整是增强大型模型能力和可控性的关键技术。在这个阶段,LLM 被调整为具有多模态理解能力的 LVLM。我们使用更复杂的指令,包括图像逻辑推理和文本识别等任务,这些任务要求模型具有更强的多模态理解能力。

通常情况下,对于密集型模型,LVLM 训练在这个阶段被认为是完成的。然而,我们在同时将 LLM 转变为 LVLM 并稀疏化 LVLM 方面遇到了挑战。因此,MoE-LLaVA 利用第二阶段的权重作为第三阶段的初始化,以缓解稀疏模型的学习困难。

阶段三:作为初始化,我们多次复制 FFN 以初始化专家。当图像标记和文本标记被输入到 MoE 层时,路由器计算每个标记与专家之间的匹配权重。然后,每个标记都由前 k 个专家处理,并且根据路由器的权重进行加权求和。当激活前 k 个专家时,其余的专家保持沉默。这种建模方法形成了 MoE-LLaVA,具有无限可能的稀疏路径,提供了广泛的能力。

19 LLaVA-UHD

论文标题:

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

论文链接:

https://arxiv.org/abs/2403.11703

该文讨论了视觉编码在大型多模态模型(LMMs)中对理解视觉世界的基础作用。它突出了现有 LMMs 的局限性,如固定的图像大小和分辨率,以及最近对这一方向的探索在适应性、效率甚至正确性方面存在的不足。

为了解决这些挑战,该论文介绍了 LLaVA-UHD,一种大型多模态模型,旨在高效处理任何纵横比和高分辨率的图像。LLaVA-UHD 包括三个主要组成部分:

LLaVA-UHD 框架。左图:给定一个高分辨率图像,LLaVA-UHD 首先计算理想的切片数量,然后从可能的因式分解中选择最佳分区,将高分辨率图像分割成不同大小的切片。右图:切片通过在位置嵌入上进行 2D 插值以保持原始纵横比进行编码,然后压缩并按空间结构排列以供 LLM 处理。

图像模块化策略:该策略将原始分辨率的图像划分为较小的可变大小切片,以便进行高效和可扩展的编码。压缩模块:该模块进一步压缩由视觉编码器生成的图像标记,增强了效率。空间结构:一种用于组织切片标记以供 LLMs 理解空间关系的模式。

模块化视觉编码

针对具有不同纵横比的高分辨率图像,一个朴素的方法是将 ViT 的位置嵌入插值到目标形状,以整体编码。然而,这种方法由于二次计算成本和由于分布外问题导致的性能降低而不是最佳的。

为了解决这个挑战,我们提出了一种模块化的视觉编码策略。基本思想是将原始分辨率图像划分为较小的可变大小切片,其中每个切片的形状与 ViT 的标准预训练设置不会偏离太远。通过可变大小的切片,LLaVA-UHD 可以在不需要填充或形状扭曲的情况下实现对原始分辨率图像的完全适应性。

接下来,我们对 P 进行二维插值,以适应由分区策略给出的切片分辨率,用于视觉编码。在我们的实验中,我们表明,在预训练期间可以保持 ViT 和位置嵌入参数不变,并且在 instruction tuning 阶段更新这些参数就足以实现良好的性能。除了切片之外,我们还提供了一个以本机纵横比的低分辨率概览图像。概览图像可以提供图像的粗略信息和全局语义连接。

压缩层

高分辨率图像需要 LLMs 处理更多的视觉标记,这占据了大部分计算量。例如,一个 672×1008 的分辨率图像将为 LLaVA-1.5 生成 3456 个视觉标记。为了解决这个问题,我们使用一个共享的感知器重新采样器层来压缩每个图像切片的视觉标记。

具体来说,由视觉编码器输出的图像标记通过一组查询向量通过交叉注意力被重新采样为较少的数量(在我们的实验中从 576 个到 64 个)。与流行的基于 MLP 的视觉投影方法相比,感知器重新采样器不受图像分辨率的限制,始终保持固定且可负担得起的视觉标记数量,因此更适用于理解高分辨率图像。因此,LLaVA-UHD 可以使用比 LLaVA-1.5 在编码 336×336 分辨率图像时更低的计算成本来编码 672×1008 分辨率图像。

图像切片的空间结构

由于图像分区在不同图像之间是动态的,因此有必要向 LLM 提供图像切片的空间组织信息。受 FuYu 模型的启发,我们设计了一个空间模式来使用两个特殊标记指示图像切片的相对位置。具体地,我们使用“,”来分隔一行中的切片表示,并使用 “\n” 来分隔不同的行。在我们的实验中,我们发现这种简单的模式可以有效地向动态分区提供信息,从而产生良好的性能。

全面的实验证明,即使建立在分辨率为 336×336 的 LLaVA-1.5 架构上,LLaVA-UHD 支持高达 672×1088 的图像,并且在仅使用 94% 的推断计算量的情况下,在 TextVQA 上取得了 6.4% 的准确率提高。此外,该模型在学术环境中可以高效训练,在 8 个 A100 GPU 上仅需 23 小时,而 LLaVA-1.5 则需要 26 小时。

20 Yi-VL

论文标题:

Yi: Open Foundation Models by 01.AI

论文链接:

https://arxiv.org/abs/2403.04652

Yi-VL 采用了 LLaVA 架构,经过全面的三阶段训练过程,以将视觉信息与 Yi LLM 的语义空间良好对齐:

第 1 阶段:ViT 和投影模块的参数使用 224×224 的图像分辨率进行训练。LLM 的权重被冻结。训练利用包含来自 LAION-400M 的 1 亿个图像-文本对的图像标题数据集。主要目标是增强 ViT 在指定架构内的知识获取能力,并实现 ViT 和 LLM 之间更好的对齐。

第 2 阶段:ViT 的图像分辨率扩展到 448×448,并训练ViT和投影模块的参数。它旨在进一步提升模型对复杂视觉细节的识别能力。此阶段使用的数据集包括约 2500 万个图像-文本对,例如 LAION-400M、CLLaVA、LLaVAR、Flickr、VQAv2、RefCOCO、Visual7w 等。

第 3 阶段:训练整个模型的参数(即 ViT、投影模块和 LLM)。主要目标是增强模型在多模态对话交互中的熟练程度,从而赋予其无缝整合和解释视觉和语言输入的能力。为此,训练数据集涵盖了各种来源,总计约 100 万个图像-文本对,包括 GQA、VizWiz VQA、TextCaps、OCR-VQA、Visual Genome、LAION GPT4V 等。为确保数据平衡,我们对任何单个来源的最大数据贡献设定了上限,限制为不超过 5 万对。

0 阅读:0

前沿也要数据派

简介:感谢大家的关注