人民大学：下一轮先裁HR！基于大模型的面试官与人岗匹配

今年年初一部“年会不能停”演出了无数打工人的心声，不知大家可还记得一个场景，当电影中众人听到“大鹏”扮演的HR角色叫到自己名字时，都感到战战兢兢，唯恐避之不及，生怕自己成为下一个被HR约谈（裁员）的对象。

“凭什么每次都是他们来裁人！？我们做技术、业务的难道就只能被动？”

欸，您先别急，这次由人大主导的研究，可算为咱们技术人争取了一次主动，既然都说要提高人效比，那不如就大家一起吧（相爱相杀.jpg）～

基于大模型的模拟面试系统，您可愿了解一下？

3.5研究测试：hujiaoai.cn4研究测试：askmanyai.cnClaude-3研究测试：hiclaude3.com

论文标题:Facilitating Multi-Role and Multi-Behavior Collaboration of Large Language Models for Online Job Seeking and Recruiting

论文链接:https://arxiv.org/pdf/2405.18113.pdf

在线招聘革命

随着在线服务的兴起，求职和招聘的模式在就业市场上不断革新，地域的界限被打破，大量求职者和招聘者现在有更多的机会来获得合适的职位和候选人才。对于求职者来说，他们可以申请在各种招聘广告中的面试机会，寻找与他们的技能和偏好相符的职位。至于招聘者（或者说面试官），他们负责评估每位求职者的总体能力，并根据职位要求做出判断。在线招聘服务促进了真实世界面试数据的获取，并进一步增加了开发更高质量的行业应用程序以增强人岗匹配的需求。

然而，现有的角色扮演框架通常将每个LLM角色分配给专门的单一任务，从而优化其在这种特定方面的能力。对于在线招聘来说，面试交互和面试评估应由同一面试官角色进行，以保证标准的一致性，而同样的标准也适用于求职者角色。因此，两种角色都期望能够以多功能的方式表现出协作行为。

此外，模拟面试的质量至关重要，但深具挑战。进行模拟面试需要面试官具有高度的专业性，通过提问合适的问题并进行总体评估。同样，对于求职者来说，提供体面的答案和求职决策也是一项挑战。

下图展示了招聘过程中，面试官与候选人之间双向交互。

MockLLM框架问题定义和系统概述

在线招聘中，求职者和职位之间的互动呈现出双边多对多的结构。每个求职者通常申请多个职位，每个职位由面试官负责评估众多求职者。每个求职者和职位都附带描述性文本：简历记录求职者的工作技能和经验，职位描述概括相应职位的职责和要求。人岗匹配过程分为两个主要模块：

模拟面试生成：模拟面试官和求职者之间的多轮面试对话。双向评估握手协议：双方基于面试对话历史、简历和职位描述进行评估，并最终通过双向握手协议（双方都表示满意）做出匹配决定。

基于此，MockLLM框架定制了在线招聘数据中的不同角色。对于每个职位描述，LLM被指导理解职位要求，并扮演面试官角色与求职者沟通并评估他们的表现。同样，LLM也被提示基于简历中的关键信息（如技能和经验）扮演求职者角色，以回应面试官的问题。

模拟面试生成

在面试阶段，面试官和求职者进行多轮对话互动。双方的行为规范至关重要，因为面试官的问题质量和求职者的回答质量将直接影响模拟面试的可用性，并作为双方在评估阶段相互评估的基础。

面试官的行为包括在面试阶段提出面试问题，在评估阶段评估面试表现以及生成反思记忆。求职者的行为包括在面试阶段生成面试回答，在评估阶段评估职位以及生成反思记忆双向评估握手协议

面试结束后立即开始评估阶段。此阶段的主要目标是基于双方对彼此的评估来确定求职者和职位是否匹配。与传统的人岗匹配方法不同，MockLLM框架将面试对话历史与简历和职位描述结合进行双向评估。

面试表现评估：面试官对求职者的表现进行评分，包括基于简历和职位描述的基本适配分数以及面试对话历史中的表现评分。职位评估：求职者对自己的简历与职位描述要求的匹配程度进行评分，并评估获得职位的机会。

通过这种方式，只有当双方都表示接受时，才形成匹配。这种双向选择机制使得匹配结果更为精确，更能满足双方的需求。

反思记忆生成

面试阶段的互动为评估阶段提供了前向参考。为了使框架更好地模拟真实的求职和招聘场景，本文设计了反思行为，通过将面试官和求职者的提问和回答策略进行精炼，并存储在反思记忆中，使得面试官能够针对具有相似背景的新求职者提出更加精准的问题，求职者也能更好地准备面对相似职位的面试。

提示修改与反馈

提示修改技术是基于反思记忆生成的，它帮助面试官和求职者根据以往的成功经验来调整他们的行为。具体优化方法是通过修改面试问题和回答的提示，使它们更具针对性和有效性。面试官可以根据求职者的背景和以往的面试表现来定制化提问。同样，求职者也可以根据职位的具体要求来调整他们的回答，以更好地展示自己的能力和经验。这种技术的应用不仅提高了面试的质量，还增强了面试过程的个性化和精准度。

实验实验设置

本文使用了国内最大的在线招聘平台“Boss直聘”的在线招聘数据集进行实验。为了保护求职者的隐私，所有文本文件均经过匿名处理，删除了所有个人识别信息。数据集包含1,992份简历（求职者）和1,968份职位描述（面试官）。每个职位由一个面试官负责评估多个求职者，每个求职者通常申请多个职位。实验中，本文将人-职匹配过程划分为两个主要模块：模拟面试生成和双向评估。

数据统计信息如下：

为了测试人-职匹配的有效性，本文采用了四个广泛使用的top-k推荐指标：召回率（Recall, R@k）、精确度（Precision, P@k）、归一化折损累计增益（Normalized Discounted Cumulative Gain, NDCG@k）和平均倒数排名（Mean Reciprocal Rank, MRR@k）。

此外，为了进一步评估双向匹配性能，本文使用宏观精确度（Macro Precision）、召回率（Macro Recall）和F1分数（Macro F1）来计算双方成功匹配的准确性。为了评估模拟面试生成的质量，本文使用BLEU分数（B@n）来衡量生成语句与求职者简历之间的n-gram重叠。

除了这些自动化指标，本文还进行了人工评估，以更全面地评估模拟面试生成的质量，包括连贯性、相关性和多样性。

实验结果

如下表所示，MockLLM工作匹配准确性全线表现最佳，无论是对于职位、求职者还是双向匹配方面。MockLLM通过模拟面试对话来丰富评估阶段，此外其提出的握手协议也适配于双向匹配，支持将其部署到实际应用中，以帮助面试官有效地筛选合适的求职者，并助力求职者找到合适的职位。

作为框架的一个创新模块，模拟面试生成的质量直接影响匹配评估标准，因此也需要进行评估。

自动评估：通过与经过特别微调的对话模型进行比较，MockLLM在模拟面试生成方面表现更好，能够利用LLM的角色扮演能力实现面试官和求职者的协同，表明多角色和多行为协作框架确实可以提高模拟面试生成的质量。人工评估：通过三名受过良好教育的志愿者进行双盲评估，评估每个方法所生成的问题和回答的连贯性、相关性和多样性。MockLLM生成的问题和回答在与面试上下文对齐方面更加连贯，相关性得分的提高表明MockLLM提出的问题与求职者的简历更相关，多样性得分意味着MockLLM能够基于现有问题，提出更多不同方面的问题，从而减少问题的重复，确保模拟面试的质量。

此外，在提示修改过程中，需要从反思记忆中检索相关案例，并将其作为参考嵌入到提问/回答的提示中。实验让LLM检索反思记忆中排名靠前的相关案例（0, 1, 2, 3个），结果显示，纳入反思记忆中总结的历史经验确实有助于持续提高面试官和求职者的能力。然而，检索更多案例并不总是带来更好的结果，实际上，包含太多案例可能会引入噪声，影响面试质量。

案例分析

下图中展示了人岗匹配的一个例子。MockLLM模拟的面试官提出的问题不仅与求职者的背景匹配，而且还能够围绕他们的关键技能和经验进行有针对性的对话。相比之下，基线模型未能在多轮对话中提出与简历充分相关的有价值问题。

此外，本文也提供了提示修改前后的具体结果，以便进行定性比较分析。修改后的提示比初始策略更详细地展示了提问要求和见解，并结合了反思记忆中的相关案例，从而有助于提出新的有价值的问题。

总结

MockLLM通过模拟面试和双向评估的方式，创新地应用了LLM的角色扮演能力，以生成高质量的模拟面试，并作为评估人岗匹配的补充证据。这种方法不仅提高了面试的质量，还通过双向评估握手协议，有效地提升了人岗匹配的准确性。此外，通过反思记忆的生成和动态提示修改，MockLLM能够不断提炼面试官和求职者的行为，使得每一次的人岗匹配都更加精准。这种创新的应用展示了MockLLM在在线招聘领域的巨大潜力，预示着其在未来实际应用中的广泛前景。

幸福双城资讯网

人民大学：下一轮先裁HR！基于大模型的面试官与人岗匹配

科技有夕小瑶