广告账户ID内容化

阿里巴巴旗下超级汇川 2024-02-29 11:27:58
写在前面

ID做为唯一性标识,用来标记和区分商业系统中的各级主体。在系统中通常顺序地分配,或者是基于某种hash算法来计算得出。以客户投放体系为例,就包括帐户ID、推广组ID、推广计划ID、推广创意ID等等(如下图)。同样的,媒体会为用户分配 User ID,地域分配Region ID,广告位有Slot ID,Media ID……,可见,当前的业务系统中,各种ID被广泛使用,来区分与管理不同主体信息,明确数据计算口径,配置业务逻辑,以及,成为机器学习模型的重要信息。

图1. 商业系统的ID体系

广告系统的优化本质是匹配,即实现“主体”的最优连接。具体的说,当用户在媒体产生浏览行为时,为用户匹配最佳的商业结果。在个性化效果广告的今天,商业决策的细粒度越来越细,从而实现了商业结果的千人千面、千人亿面。比如,不同的时间、场景、用户、甚至信息上下文,都可能代表的不同的潜在需求,最优的商业结果也自然需要细分决策。为了实现细粒度的商业决策,做为标识的各种ID信息实际上广泛使用在数据回收、统计环节,以及算法设计环节。

在最初期的计算广告系统,我们一般基于账户ID,统计不同账户的后验表现指标来辅助商业决策;个性化广告的早期,大量的用户ID和物料ID开始做为特征引入线性模型,开启了“千亿”特征工程的时代;当前的广告推荐系统主要基于神经网络的深度学习模型作为核心算法部件,其中的特征工程通过对主体ID进行端到端训练,提取出ID之于目标任务的特征表达。但是我们发现,单纯以ID为基础的算法设计有非常明显的缺陷:

1. ID 本身无法直接体现主体间的业务关系。除非经过特别的 ID 化设计,通过 ID 无法计算出主体的层级、隶属、相近关系,自然无法继承、也无法参考其它主体的数据,限制数据泛化,给新主体的冷启动带来了困难。

2. ID 无法反映内容本身的特质。相似的人群、相似的物料,不一定能分配相近的ID,ID数据本身是没有计算特性的,丢失了内容信息。还容易造成系统内堆积大量重复内容,占用系统资源。

时间来到AI快速发展的今天,大模型、多模态相关技术快速地迭代,内容特征与知识提取能力不断增强;模型方面,端到端地进行特征输入,以模型网络代替逐个特征设计与组合已经非常成熟。所以,我们开始在3个方面尝试解决商业内容向量化问题,逐步优化ID特征的表达能力,称之为ID内容化三部曲。对应着一个广告系统中三个关键的信息维度:

1. 账户ID内容化

账户是在广告系统中有标的物推广需求的主体,通过各种设置定向条件,人群筛选条件来表达推广标的物想要触达的目标人群。

2. 物料ID内容化

客户投放广告的标题,描述,图片,视频等物料内容;好的物料内容能更好地吸引用户的注意力,提升点击率和转化效果。

3. 用户ID画像化

通过用户的历史行为数据和建模方法,可以挖掘出用户的兴趣标签、画像信息等用户维度的信息,从而可以帮助模型更好地匹配合适的广告。

在接下来的一段时间,我们会陆续分享这三方面的工作。作为第一篇的《帐户ID内容化》,应该是最有趣的一个挑战。帐户信息多样且部分信息不是结构化数据,比如投放设置、定向人群、出价等,如何将这些信息统一编码提取,同时又能保证维持信息之间的相似关系非常困难。不同于人群画像与物料标签,帐户信息编码可借鉴的工作非常少,我们的工作取得了一些进展,在这里分享给大家。

账户ID内容化

账户ID内容化重点要解决的问题是相似账户的特征表达具有相似性。这里我们借助文档相似计算的原理,引入稀疏向量特征的方法来解决账户相似性表达问题;在稀疏向量空间中,两个相似的向量往往具有几个相同的特征分量,相同的特征分量越多,向量越相似;而账户抽取稀疏向量的难点在于数据是多维度和非结构化的,因此需要根据这些数据特点设计合适的向量计算方案。

广告主进行商业广告投放时会有一个标的物主体,比如APP,小程序,落地页,商品页等等。广告主会在广告平台创建一个账户,然后根据标的物的目标受众进行定向条件、投放逻辑的选择。这些信息从一定程度上反映了广告主投放的标的物的内容属性、定向的人群类型、以及目标兴趣人群选择等信息,可以作为账户ID的内容特征表达输入。针对上面提出的账户ID特征的问题,我们从客户广告投放逻辑和标的物维度入手设计了一种新的账户内容表达向量,高维的向量表达使得特征之间有一定的泛化和借鉴作用,同时也大幅压缩了帐户ID的整体空间,其主要思路如下:

1)投放逻辑表达向量:基于客户在投放平台的投放设置信息,进行结构化信息组织-> 关键信息提取 -> 特征向量化表达计算;

2)投放标的物属性向量:基于客户投放的标的物进行泛化属性的表达,从而提取不同标的物之间的相似性。

2.1 账户投放逻辑向量特征

投放逻辑表达向量主要解决不同账户相似投放逻辑的泛化能力,其核心的能力包括向量稳定性,相似性表达能力,新账户冷启动效果。基于广告主在投放平台设置的定向条件,抽取出能够表达广告投放计划圈选的意愿人群标签、定向兴趣、定向关键词,以及人群年龄、性别、地域等基本属性信息。

如下图所示是投放逻辑向量表达的具体计算过程,通过上述广告主在平台设置的原始信息聚合成目标人群的属性集合,我们从这些大量的属性集合中提取核心的标签集合,然后通过模型特征的向量化将这些核心标签集合生成向量特征表达,最终加入到主模型输入层进行实际的预估任务。

图2. 客户表达向量抽取流程

下面是一个具体的数据举例:

原始人群包条件:

三国-L1,三国-L2,……,二次元-L1,二次元-L2,……,二次元-yk,仙侠-L1,仙侠-L2,仙侠-L3,仙侠-yk,休闲-yk,传奇-L1,传奇-L2,传奇-L3,传奇-yk,信息流偏好-PC游戏,信息流偏好-单机游戏,信息流偏好-游戏cosplay,信息流偏好-游戏主播,信息流偏好-游戏攻略,信息流偏好-游戏杂文,信息流偏好-游戏资讯,信息流偏好-游戏赛事,信息流偏好-电竞选手,信息流偏好-网页游戏,卡牌-L1,卡牌-L2,卡牌-L3,卡牌-yk,回合制-L1,回合制-L2,回合制-L3,回合制-yk,放置-L1,放置-L2,放置-L3,放置-yk,末日-yk,棋牌-yk,游戏核心意向人群,经营养成-L1,经营养成-L2,经营养成-L3,经营养成-yk,西游-L1,西游-L2,西游-L3,资深游戏玩家

计算出来的特征向量:

[游戏,二次元,仙侠,卡牌,回合制,放置,养成,西游,传奇,三国,经营,棋牌,PC,单机游戏,cosplay,主播,攻略]

可以看到计算出来的账户内容特征是广告主想要触达的目标人群的核心兴趣标签,这些内容特征和广告主想要推广的标的物有着内在的联系。同时,向量特征在三个方面的能力检验如下:

稳定性:广告主修改定向条件时特征不会发生突变,会根据实际修改后的数据变化而发生部分变化,具有很强的特征表达稳定性;

相似性:对于相似定向条件的计划,特征抽取后表达相似;

新账户冷启:对于新账户没有历史的定向匹配相关信息,会上溯到投放标的物维度的定向数据进行计算,和同标的物的老账户特征表达相似;

2.2账户标的物属性内容特征

标的物属性向量主要解决标的物的泛化问题,不同的账户可能会投放相同或相近的标的物,单纯帐户ID或者标的物ID特征不能体现这些能力。标的物内容向量特征主要通过提取广告投放标的物本身的属性,及其属性的扩展,该属性是不会根据广告主定向条件变化而发生变化。对于<用户-广告>pair对,我们期望相同的标的物类型、内容属性,对于同一用户模型预估值应该保持相近,目前主要抽取如下相关属性:

投放实体:投放具体包的信息,例如安卓激活的下载包名称,IOS激活的AppID等;

公司主体:投放包相关的具体公司主体CID,转化相关covert ID等泛化性属性;

实体标签:投放实体的主题、类型相关属性,例如:休闲益智类,魔幻主题,小程序类游戏等;

通过上述方法将每个账户都产出具体投放的核心标签和属性信息,然后如下图所示将提取到的核心信息向量输入到模型训练子网络中,再将子网络学习到的高维向量表达与原始模型用户内容侧、广告内容侧等特征拼接输入到主网络中学习,其中子网络的输出即为客户维度的投放表达向量,通过原始信息的抽取增强相似计划的表达和泛化性。

图3. 高维向量表达学习模型

另外,基于稳定性的考虑我们也进行了离线的稳定性测试,通过模拟广告主在平台进行定向人群包、兴趣关键词等条件的增删相关操作,测试在定向条件发生不同条件变化时对客户投放表达向量的影响。

如下表所示,通过增删广告主的相关定向投放条件,不同类型的预估值变化幅度在5%左右以内,总体预估值基本十分稳定的。表现稳定的原因是我们是通过最原始的账户投放条件大数据集合进行核心信息抽取,具备一定的稳定和泛化的能力,并且通过和标的物的固有属性的组合下进一步的提高了高维表达向量的稳定性和泛化性。

表1. 定向条件增删对不同类型预估值的影响

综上,基于投放逻辑和标的物属性构建的账户ID内容向量,提取了客户投放标的物的核心属性,和核心目标人群的标签属性,极大的压缩了账户ID空间规模(压缩到原来的40%),同时提升了特征表达的泛化能力和稳定性,也解决了客户在新增计划和账户时的效果冷启动后顾之忧。

实验效果

上述的账户ID内容化策略通过线上AB-test实验验证,效果如下表所示,大盘带来了消耗+6.7%,GMV+6.35%,效果提升得益于模型在使用新的向量特征之后,泛化能力更强,目前策略已完成全流量。

表2. 计划表达策略效果

未来展望

ID内容化是一个较大的研究课题,后续会从更多维度内容进行向量化的生成,例如从物料内容角度、用户兴趣角度等,从而提高模型对相似内容、相似人群的识别和泛化的能力。未来畅想,在用户内容化,账户内容化,物料内容化的基础上,再结合大模型的统一知识表征的能力,广告的系统的匹配能力将会得到更进一步的提升。

0 阅读:4

阿里巴巴旗下超级汇川

简介:阿里巴巴旗下超级汇川广告平台,全场景全链路智能获客