作为ID内容化三部曲系列内容,在上一篇《广告账户ID内容化》文章中,我们已经了解到,ID作为唯一性标识,用来标记和区分商业系统中的各级主体。当前的业务系统中,各种ID被广泛使用,来区分与管理不同主体信息,明确数据计算口径,配置业务逻辑,以及,成为机器学习模型的重要信息。但是,单纯以ID为基础的算法设计有非常明显的缺陷,一是ID本身无法直接体现主体业务关系,二是ID无法反映内容本身的特质。
ID内容化三部曲,对应在3个方面尝试解决商业内容向量化问题,逐步优化ID特征的表达能力。作为三部曲之一,本篇《用户ID画像化》,通过用户的历史数据和建模方法,挖掘用户的商业兴趣标签,构建用户统一化表征向量,提升用户识别与刻画能力,帮助模型更好地匹配合适的广告。下面就我们工作中取得的一些进展,在这里分享给大家。
用户ID画像化在超级汇川广告系统中,每个用户都会拥有一个ID,即DmpID,来进行唯一标识。以这种ID表达用户的方式在模型中应用时存在如下问题:
用户规模亿量级,ID空间较大,随着用户规模增加,ID空间将持续膨胀;
模型训练空间是整个推理空间的子集,由于用户ID空间较大,对于未出现在模型训练周期范围内的用户ID,在推理时,这些ID类特征将无法生效;
ID类特征缺乏泛化性,用户ID不同但商业兴趣相似的用户,ID类的表达方式将会隔裂这种相似关系,使模型缺少泛化能力;
为此,我们设计了一种用户统一化的表征向量,实现用户ID画像化,优化ID特征的表达能力。
2.1用户ID画像化方案
在商业场景下,一个好的用户统一化表征向量,需要能够表达用户的商业兴趣,应有尽有的覆盖用户的商业兴趣,并且,表达出来的用户商业兴趣是千人千面的。这里在构建用户统一化表征向量时,选择基于商业兴趣标签构建用户统一化表征向量。
商业兴趣标签,是以标签的形式表达用户指定商业行为兴趣的方式。这里的商业标签是指挂靠在超级汇川行业下面的主题类标签,每个主题标签,代表一类主题广告,如下图所示。
图1. 商业兴趣标签
商业兴趣标签集合为确定的封闭集合,覆盖了超级汇川各行业下的不同广告主题,用来表征用户商业兴趣时,具有较好的可解释性,表达了用户对不同主题广告的行为兴趣。
两个商业兴趣相似的用户,通过用户ID表达用户时,这种相似的兴趣关系无法体现出来,下游模型也无法感知用户间的相似兴趣关系。而基于商业兴趣标签构建用户统一化表征向量,实现用户ID画像化时,用户自身兴趣,以及用户间相似兴趣关系均被显式表达出来。
图2. 用户ID与用户商业兴趣标签
实现用户ID画像化时,我们是基于商业兴趣标签构建用户统一化表征向量表达用户ID。类似的过程,在NLP领域,word2vec是构建单词向量表达单词明文,该算法使得具有相似语义的单词明文表示为相互靠近的单词向量,同时,能让我们使用向量来处理类比,例如著名的等式:
king – man + woman≈queen
那么,基于商业兴趣标签构建用户统一化表征向量表达用户ID时,是否也具有上面的计算过程类比呢?
为了验证想法,我们选择2个用户,如下表所示,用户1可能是女性,用户2可能意向教育行业从业。2个用户“相加”,会得到什么兴趣的用户?
图3. 用户商业兴趣标签
验证过程中,首先,我们通过autoencoder算法将这2个用户的商业兴趣标签向量映射为数字向量,接着,再将这2个数字向量相加得到新的数字向量,最后,查找与新的数字向量距离最近的其他用户的商业兴趣标签向量映射为的数字向量,得到距离最近的用户如下:
图4. 相近用户的商业兴趣标签
从用户3的商业兴趣标签来看,用户3身份可能是一位女老师,比较关注教育问题,偏好购买个人护理等生活用品,以及出行/办公相关用品。通过上述验证过程,“小说女频”兴趣的用户(女性)与“教师资格考试”兴趣的用户(教育)“相加”,得到的是一位与“女老师”角色相关的兴趣的用户。即不同用户兴趣之间的“计算”结果,表达了不同兴趣之间隐含的相关关系。
图5. 用户ID画像化向量“计算”过程
在应用商业兴趣标签构建用户统一化表征向量,实现用户ID画像化时,每个商业兴趣标签作为表征向量的一维,画像化表征示例如下:
图6. 用户ID画像化
2.2 用户商业化兴趣标签生成
在了解商业兴趣标签内容及构建用户统一化表征向量过程后,如何识别用户的商业兴趣,给用户打上对应的商业兴趣标签,也就是商业兴趣标签生产流程。商业兴趣标签生产流程主要框架如下。
图7. 商业兴趣标签生产框架
如上面框架,通过多种生产模型,给用户打上商业兴趣标签,具体详情如下:
基于cvr预估模型
在商业化场景中,我们将用户对标签偏好,转化为对用户后续行为的预测问题,即结合用户DMP特征、行为类特征、预训练特征,理解用户在指定主题广告上兴趣偏好,将用户对商业标签偏好问题转化为用户在商业标签上的CVR预估问题,从而建模标签模型。
Lookalike模型
超级汇川广告系统能够收集到的用户主动行为(点击/转化)有限,用户可能会在其他场景发生行为(下载、激活、注册、付费等),通过客户上传或其他渠道收集到的转化用户,作为种子用户,通过lookalike模型寻找相似用户,给拓展出来的相似用户打上与种子用户相同的商业兴趣标签。
冷启动模型
针对历史行为数据稀缺的用户,通过冷启动模型理解用户商业兴趣,生产商业标签,主要思路如下:
图8. 用户冷启动商业兴趣思路
1. 将活跃用户与冷启动用户,投影在同一向量空间;
2. 向量空间中,每个冷启动用户,通过计算与活跃用户向量之间的距离,选择距离自己最近的n个活跃用户,将这n个活跃用户身上的top m个高频标签传递给自己,作为冷启动用户的商业兴趣标签。
每一种标签生产模型产出 <用户,标签,权重> 后,再经过离线评估选取置信的权重分值,最后再产出用户的商业标签
实验效果上述的用户ID画像化策略通过线上AB-test实验验证,效果如下表所示。效果提升来自于模型在使用基于商业兴趣标签构建的用户统一化表征向量之后,模型对用户识别与刻画能力提升,泛化能力增强,目前已完成了在超级汇川的全流量上线。
图9.用户ID画像化效
未来展望
综上,本文介绍了基于商业兴趣标签构建用户统一化表征向量的用户ID画像化策略,同时,验证了用户ID画像化策略能够有效提升用户的识别与刻画能力,帮助模型更好地匹配合适的广告。后续,用户ID画像化与账户ID内容化、物料ID内容化一起深度结合,将进一步提升广告系统的匹配能力。