ACL2024主会：无需训练的大模型推荐系统！

如今，各种推荐系统无时无刻不在包围着我们的生活，自大模型（Large Language Model, LLM）时代以来，得益于LLM的高自由度，传统推荐方法中常规项目库的限制被打破，更多全新的内容可以通过LLM直接生成并被推荐给用户，为用户提供了更多样化和个性化的选项。

当然，正如要求大家用一个字来形容LLM，大多数朋友都会用“好”；而如果要求用两个字的话，想必不少朋友就会在“好”字后面加上一个“贵”了。是的，无论是微调还是训练一个LLM，往往都意味着大量的计算资源和财务投入。此外，除了微调或训练需要时间，收集和标注数据同样需要大量的时间投入，而这就可能会延迟产品发布和迭代速度，使得推荐的内容出现滞后的现象。

正如文本和图像领域可以运用LLM的理解和泛化能力，在不经过额外训练的情况下，就让LLM实现特定领域很好的应用效果。那么对于AI三支柱的最后一支“推荐系统”来说，是否也同样可以做到呢？

论文标题:Generative Explore-Exploit: Training-free Optimization of Generative Recommender Systems using LLM Optimizers

论文链接:https://arxiv.org/pdf/2406.05255.pdf

3.5研究测试：hujiaoai.cn4研究测试：askmanyai.cn Claude-3研究测试：hiclaude3.com

推荐系统

传统推荐系统主要依赖于协同过滤、矩阵分解和强化学习等技术。这些方法在处理静态物品集时表现良好，但面对动态变化的内容或用户需求时，它们的效果往往受限。例如，当新产品或内容持续加入时，传统系统需要重新训练模型以包含这些新元素，这不仅耗时而且计算成本高。

随着LLM的发展，生成式推荐系统应运而生。这类系统利用LLM强大的生成能力，直接生成推荐项，如问题或查询建议。这种方法不受固定项目库的限制，能够根据用户的即时需求生成相关内容。生成式推荐系统的一个关键优势是其能够探索和发现用户潜在的偏好，从而提高推荐的个性化和精准度。

上图展示了一个基于LLM的生成式推荐系统，可见用户反馈是推荐系统优化的关键。通过监测如点击率（Click Through Rate, CTR，指用户点击某个特定链接或广告的次数与该链接或广告被展示次数的比率）等隐性反馈，系统可以了解到哪些推荐内容更受用户欢迎。

然而，持续地根据用户反馈调整LLM通常代价高昂，因为这需要频繁地对LLM进行微调。此外，随着用户与推荐系统的交互增多，推荐内容需要不断优化以匹配用户的显式或隐式偏好，这在没有足够数据的情况下，LLM很难做到持续理解和适应用户偏好。

因此，探索一种无需训练，基于LLM的生成式推荐系统迫在眉睫。

问题定义

本文定义了一个用户群体，每名用户可能会对多个主题（例如“生物学”，“智能手机”等）感兴趣。任务的目标是为每个主题生成一个固定数量的问题集合，称为项目池（Item Pool, IP），使得在中已经搜索过的尽可能多的用户对这些推荐问题感兴趣。

由于用户对特定主题的兴趣是隐藏的，只能通过与生成项目的交互（例如点击行为）来观察。本文使用具有足够强指令遵循能力的大参数量LLM，为目标主题生成项目池IP，这是一个包含个问题的列表，目的是最大化对主题感兴趣的所有用户的CTR。

方法

本文提出了一个基于迭代的方案，首先使用LLM生成初始候选项目，并基于这些项目的CTR来衡量用户参与度和偏好。然后，基于观察到的CTR构建提示（prompt），以便利用LLM优化器通过上下文学习（in-context learning）进行生成探索和利用。

具体来说，在每一轮迭代中，根据CTR信号更新项目池（IP），包括：

从IP中移除CTR最低的项目；生成新的项目并添加到IP中；通过交互反馈循环观察更新后的IP中项目的表现

由于在第一轮迭代中，只知道目标主题。因此，通过为该主题生成相关问题来初始化项目池IP。这些建议的问题随后被提供给用户，并使用户点击数据来细化后续迭代中的IP以提高CTR。

在迭代过程中，依赖了LLM作为优化器的能力，通过遵循指令来优化目标任务，从而无需进行微调。这里，提供了两种策略：

FULL-CTR：向LLM提供所有先前生成的问题，及其观察到的CTR分数作为提示的一部分，并指示LLM优化其生成的问题，以便IP中的问题能够获得高CTR。EXPLORE-EXPLOIT：为了避免LLM只利用观察到的用户偏好从而限制生成的多样性，本文还提出了探索-利用策略。在每一轮迭代中，移除最差的问题，并生成两组问题：首先，在探索阶段，只提供IP而不提供任何CTR值来生成一组问题。然后，在利用阶段，使用类似于FULL-CTR的提示，用于生成与IP中表现最佳的问题相同主题的问题。

EXPLORE-EXPLOIT指示LLM探索新的主题，为其生成新的问题，以增加整个IP集的多样性。

为了评估提出的方法，本文模拟了用户对建议问题的点击行为以作为用户反馈，通过LLM模拟用户偏好，这里分为两个步骤：

相关性评分：使用LLM为特定主题所生成问题与不同用户之间的相关性进行评分。行为模拟：基于先前计算的相关性评分，模拟用户交互以获得CTR值。

其中点击概率使用softmax函数来计算，公式如下：

其中，是问题对于用户的相关性得分，是温度参数，用于控制概率分布的平滑程度，是在模拟中展示给用户的问题集合，是其他问题对用户的相关性得分。

较低的温度参数会导致概率分布更加尖锐，即用户更可能点击得分最高的问题；而较高的会使分布更加平滑，增加点击其他问题的可能性。拒绝得分是一个固定的阈值，用于模拟用户在面对所有问题都不感兴趣的情况下选择不点击的概率。它作为softmax分母中的一个加项，影响点击概率的计算。

本文设置了特定的实验参数，如softmax温度设置为，拒绝得分设置为，以及每次模拟交互中展示的问题数量。在每次模拟交互中，随机选择一个用户角色和一组问题。然后，根据上述点击概率公式，计算每个问题被点击的概率。随后通过模拟足够数量的（例如，5000次）用户交互，为每个问题获得一个CTR值，这个值反映了问题在模拟用户群体中的受欢迎程度。

实验设置

本文选择了两个领域进行实验评估：电子商务（E-Commerce）和通用知识（General Knowledge）。这些领域提供了不同类型的输入和用户兴趣。在电子商务领域，输入数据是来自亚马逊评论数据集的50个随机产品类别；在通用知识领域，输入数据是维基百科文章标题。每个领域都列出了样本主题，并与相应的用户角色相关联。

为使得实验更加真实可靠，本文定义了不同用户角色，以模拟具有不同购物偏好或知识兴趣的用户行为。电子商务领域的用户角色包括价格关注型、质量关注型、品牌声誉关注型、特性与功能关注型和道德考虑关注型。通用知识领域的用户角色则基于他们对维基百科文章的特定兴趣点，例如事件关注型、历史关注型、人物关注型、地点关注型等。

本文设置IP集大小为5个问题，并在每次迭代中生成（并丢弃）1个问题，允许在15次迭代中细化IP。每次迭代中的点击模拟数量设置为5000次，每次模拟向用户展示3个问题。其中GPT-4被用于问题生成和用户模拟。

通过定义两个主要的评估指标用于效果评估：

项目相关性评分：通过人工标注判断哪一个问题对于特定角色更加相关，并计算LLM的准确度，即LLM是否为标注者认为更相关的问题分配了更高的分数。推荐性能：通过以下指标来评估整体性能，包括跨迭代的CTR值、N次迭代的平均CTR得分，以及通过比较和中的人工标注来评估问题的相关性实验结果

本文首先展示了问题相关性评分的结果，该表格统计了人类标注者之间达成一致的比例（AGREEMENT %），以及LLM预测与人类标注者判断一致的准确率（LLM ACC. %）。结果显示，在所有情况下，人类标注者在70.2%的情况下能够达成一致，而在这些达成一致的情况下，LLM的准确率达到了77.3%。

在电子商务领域，本文比较了不同的方法，包括EXPLORE-EXPLOIT、FULL-CTR、PARTIAL-CTR、NO-DROP和RANDOM-CTR。本文提出的EXPLORE-EXPLOIT方法在提高CTR方面表现显著优于其他方法，表明通过结合探索和利用策略，可以更有效地发现用户偏好并生成相关问题。下边左图显示了问题对具有1和3个偏好的角色的平均得分，而右图则显示了具有1和3个偏好的角色在电子商务领域的CTR得分。

在通用知识领域，以事件关注型和人物关注型偏好为例，EXPLORE-EXPLOIT方法也显著领先于其他策略。

尽管FULL-CTR方法优于PARTIAL-CTR和其他基线方法，但差距较小，这表明LLM能够使用上下文学习中的CTR信号，但缺乏明确的探索新问题和利用最佳表现问题的策略。

此外，EXPLORE-EXPLOIT方法显示出迭代方法对问题相关性评分的持续改进，从初始迭代到最终迭代，评分基本都提高了接近或超过2分。通过对EXPLORE-EXPLOIT的人工评价也表明，在25次配对比较中，有88%的情况下，标注者更倾向于最终迭代（）的问题集。

结论与展望

试想，如果有一种无需训练就能将LLM和推荐结合起来的系统，其潜力必然是非常大的，而本文正是提出了这样一种方法，通过利用LLM的高度理解能力以作为优化器，从而无需对模型进行昂贵的微调，这在资源有限的情况下尤其有价值。此外结合探索和利用策略的EXPLORE-EXPLOIT方法，显示出在多个迭代中持续提高推荐质量的能力，这有助于发现并适应用户偏好，尤其是在挖掘用户潜在偏好方面，将更具优势。

另一方面，本文的方法能够有效地使用隐式反馈（通过模拟用户点击行为）来优化推荐内容，这对于增强用户参与度至关重要。实验结果表明，该方法不仅在电子商务领域有效，在通用知识领域也同样适用，显示了良好的泛化能力，通过灵活地调整生成策略和反馈机制，这种系统能够为不同领域的用户提供更加个性化和精准的推荐。

除了本文的研究，在未来的工作中，还可以尝试探索如何将实时用户反馈集成到推荐过程中，以实现动态优化并快速地适应用户变化的偏好。同时，想想我们在面对铺天盖地推荐时一脸懵逼的状态，这些推荐到底是从哪里来的？（比如为什么淘宝老给我推一些宠物零食我就很不理解），如果能提高推荐系统的可解释性，让用户理解推荐背后的逻辑，就可以增强用户对系统的信任。此外，探索将强化学习与LLM结合的方法，或许也将有助于实现更高级的决策制定和推荐策略。

幸福双城资讯网

科技有夕小瑶