生成式人工智能(GenAI)已成为金融、IT和医疗保健等各个领域的变革力量。虽然GenAI的好处是不可否认的,但它在选举领域的应用带来了巨大的风险和挑战。这包括通过深度人工智能伪造传播错误信息的威胁,以及操纵创造高度个性化的政治广告。
人工智能模型的好坏取决于它们接受训练的数据,如果数据包含偏见,它可能会产生意想不到的影响。
领先的人工智能安全和研究公司之一Anthropic分享了自去年夏天以来所做的工作,以测试其人工智能模型应对与选举相关的风险。该公司已经开发了深入的专家测试——“策略漏洞测试”(PVT)和大规模的自动化评估,以识别和减轻潜在的风险。
PVT方法旨在评估Anthropic AI模型对选举相关查询的响应。它通过严格测试模型的两个潜在问题来做到这一点。第一个问题是模型给出了过时的、不准确的或有害的信息来回答善意的问题;另一个问题是,这些模型的使用方式违反了Anthropic的用户政策。
作为PVT的一部分,Anthropic专注于选定的领域和潜在的误用应用,并在主题专家的帮助下,Anthropic构建和测试各种类型的提示,以监测人工智能模型的响应方式。
为了进行这项测试,Anthropic与该领域的一些主要研究人员和专家合作,其中包括战略对话研究所技术与社会主任Isabelle Frances-Wright。
PVT的输出被记录下来,并使用类似的模型与人为使用政策和行业基准进行比较。与合作伙伴一起审查结果,以确定政策和安全系统方面的差距,并确定减轻风险的最佳解决方案。作为一种迭代测试方法,PVT能在每一轮测试中变得更好。
Anthropic分享了一个案例研究,在该研究中,它使用PVT方法来测试其基于南非选举管理问题的模型的准确性。该方法成功地确定了10种补救措施,以减轻在响应与选举相关的查询时提供不正确、过时或不适当信息的风险。补救措施包括“增加模型回答的长度,以便为敏感问题提供适当的背景和细微差别”,以及“不对有争议的政治话题提供个人意见”。
Anthropic承认,虽然PVT提供了宝贵的定性见解,但它既耗时又耗费资源,很难规模化。这限制了可以有效测试的问题和行为的广度。为了克服这些挑战,Anthropic还进行了包括在更广泛的场景下测试人工智能行为的自动评估。
将PVT与自动评估相结合,可以在更全面的场景范围内评估模型的性能。它还允许同类过程和跨模型的问题集。
Anthropic使用自动化测试来审查与欧盟选举管理相关的随机问题样本,发现模型生成的问题中有89%是PVT结果的相关扩展。
结合PVT和自动评估形成了Anthropic风险缓解战略的核心。这些方法产生的见解使Anthropic能够完善其政策,微调其模型Claude,更新系统提示,并增强自动化执行工具。
此外,Anthropic模型得到了增强,现在可以自动检测和重定向与选举相关的查询到权威来源。这包括人工智能模型可能无法回答的有关选举的时间敏感问题。
在实施了PVT和自动化测试后,Anthropic使用相同的测试方案来衡量其干预措施是否成功。
重新运行的测试显示,参考模型的知识更新截止日期提高了47.2%,这是Anthropic的首要缓解措施之一。根据Anthropic的说法,其模型的微调影响用户被重定向或引导到权威来源以获得适当问题的频率提高了10.4%。
虽然不可能完全减轻人工智能技术对选举周期构成的威胁,但Anthropic在负责任的人工智能使用方面取得了重大进展。Anthropic采用多方面的方法来测试和减轻人工智能风险,确保了其人工智能模型在选举期间被滥用的可能性降到最低。