物料ID内容化 - 科技资讯(幸福双城)

项目背景

随着多模态预训练技术的发展，文本、图像和视频等模态的语义空间被打通，且由于预训练数据规模的不断扩大，相应的预训练模型只需要少量微调，即可在许多下游任务上取得不错的效果。当前，多模态表征最常见的是融合图像和文本两个模态的信息。如CLIP模型，通过将图像和文本在统一的语义空间进行对比学习，实现了对图像和文本两个模态的特征对齐及相对于单模态更好的语义理解能力，并能使得模型具备一定的零样本泛化性能。

在5G等移动通信技术及移动互联网迅猛发展的当下，互联网从文本为主的内容生态，逐步向包含图文、短视频、长视频等多种模态的富媒体化生态方向发展。相应地，互联网广告中的图片和视频等视觉元素的占比也越来越高。图片、视频形式的广告能够更加直观地传递更丰富的信息，从而激发用户的点击意愿，并最终形成转化。然而，原有的 CTR/CVR 模型只使用了 ID 类特征，忽略了创意本身的文本与图像等信息，不能很好表达或对齐用户的兴趣。

因此，依托富媒体数据和用户行为数据，我们尝试将多模态表征引入推荐系统，以期给业务带来增益。

思路设计

主要工作包括两部分：

（1）图文多模态创意内容的embedding表征；

（2）CTR/CVR 任务中多模态embedding表征和原始ID类特征的融合。

2.1 多模态内容向量的提取

为了提取出更好的文本、图像语义向量，我们先后尝试了多种方案。包括第一代基于 byol 对比学习的小模型图像特征提取方案，第二代基于 MAE 自回归编码的提取方案。最终，我们选用 CLIP 作为向量提取方案，具体采用达摩院的 Chinese-CLIP，其在中文场景下的图文语义对齐上有着较好的效果，可以有效表达图文内容的语义信息。

图2.1.1. Clip训练流程

Chinese-CLIP 是采用对比学习训练的图文双塔模型，其基于大规模图文对数据训练，相较于 CLIP 在中文原生的 MUGE 数据集上有较大的提升。Chinese-CLIP采用 LiT（锁定图像的文本调优）+常规finetuning的两阶段训练方法，其利用 CLIP 的image encoder 做图像塔初始化，利用中文 BERT 模型如 RoBERTa-wwm 做文本塔的初始化。LiT 会冻结图像塔，让文本塔的表征和原 CLIP 图像塔的表征进行对齐。但是只做 LiT 存在一些问题，由于图像塔没有经过学习，无法有效迁移到中文特色的图像数据域上来。所以第二阶段常规finetuning方法，让图像塔去拟合中文领域图像数据的分布。

为了验证内容向量对相似创意的识别能力，我们对相似创意进行随机拆分组合，再用提取的内容向量进行相似性召回，人工评估返回结果与原创意的相似性，均符合预期。

2.2 内容向量融入cvr模型

我们尝试将多模态信息嵌入 cvr 模型的训练中，一方面旨在丰富创意层面的表征信息，另一方面期望能提升相似内容的创意预估稳定性。

在具体的特征融合技术方案上，首先考虑了直接 concat 拼接的方式，将由 Chinese-CLIP 提取的高维向量进行降维，再拼接到 cvr 模型上，调整降维维度进行了多次实验，发现离线训练 auc 提升并不明显，可能的原因是原始特征和内容特征差距较大，且 Chinese-CLIP 模型并未直接参与 cvr 任务的训练，两者之间存在 gap。为了消除两者的 gap，我们采用了残差、瓶颈层等特殊网络结构，并进行了多轮对比实验，基本结论如下：

在高维度稀疏特征上直接拼接内容特征效果更佳，稀疏特征降维后再拼接内容特征，会使 auc 明显下降，原因是稀疏特征的维度占比被稀释

加入瓶颈层 + 残差连接，可以进一步提升模型效果，有效缓解内容特征冗余对原稀疏特征的扰乱

最终，我们采用“特征拼接 + 瓶颈层 + 残差连接”的方式，实现多模态内容特征和原始特征的融合。具体的子网络结构如下，对 clip 内容特征和原始特征先 concat，再通过瓶颈层融合，最后和原始特征进行残差形式的相加。

图2.2.1. 特征融合网络结构

同时，为了验证添加内容特征后，cvr 模型对相同内容的创意预估稳定性。我们在重复频率最高的 5 个创意簇中进行实验，每个创意的 cvr 在用户维度上取均值。由图 2.2.2 所求，custom模型在 cvr 预估方差指标上更低。

图2.2.2. 内容特征对cvr模型预测稳定性的影响

实验效果

上述的创意 ID 内容化策略，通过线上 AB-test 实验验证，并在超级汇川平台全流量上线。在 ocpc 广告上的效果如下图所求：

通过将内容特征加入到点击率（CTR）和转化率（CVR）的预估中，模型可以更准确地理解用户对内容的兴趣偏好。同时，我们发现模型在新用户、新物料以及新建相似物料等场景下，都表现出了较好的性能。这意味着模型能够有效地处理冷启动问题，为推广新产品、吸引新用户提供更有力的支持。

未来展望

虽然我们将内容向量融入到现有的预估模型中，但多模态语义的潜力仍未被有效挖掘：一方面ID特征对于头中部商品表现较好，另一方面向量之间在语义空间上不对齐，无法形成有效互信息，后续主要优化方向如下：

4.1 跨域特征生成

利用ad侧的稀疏特征和ad创意的内容特征，联合用户侧的特征生成一些交叉特征，实现跨域特征生成。

4.2 优化新创意冷启动

补充用户近期点击广告创意的内容特征，通过利用用户侧的内容特征，进一步优化新创意的冷启动问题。用户侧内容特征的加入，可以使ad 侧和用户侧在特征空间进行更好地对齐，进而优化模型效果。