尽管人工智能正在迅速发展,并成为几乎每个行业的一部分,但人工智能产业仍在寻找一种标准化的方法来评估这些软件工具提供的功能和潜在风险。虽然现在有像Google-Proof问答这样的工具,为评估人工智能提供了基础的能力,但目前的评估通常过于简单。
因此,Anthropic最近宣布了一项新举措,旨在开发第三方的模型评估,以测试人工智能的能力和风险。该公司的一篇深度博客文章概述了Anthropic优先考虑的具体评估类型,并请求读者提交新的评估方法的建议。
Anthropic概述了他们将重点关注的评估发展的三个类似领域:
人工智能安全级别评估:评估旨在衡量人工智能安全级别(ASL),包括对网络安全的关注;化学、生物、放射和核(CBRN)风险、模型自治、国家安全风险、社会操纵、错位风险等等。
先进的能力和安全度量:测量先进的模型能力,如危害和拒绝、先进的科学、改进的多语言评估和社会影响。
用于开发评估的基础设施、工具和方法:Anthropic希望通过关注模板/无代码评估开发平台、模型分级评估、提升和提升试验来简化评估过程,使其更加高效和有效。
为了激发创造性的讨论,Anthropic还提供了一份公司认为有价值的评估工具应该具备的特征清单。虽然这个列表涵盖了各种各样的主题,但有一些特别的兴趣点。
首先,在Anthropic的责任扩展策略中,评估应该足够困难来衡量ASL-3或ASL-4级别的能力。同样,评估不应该包括训练数据。文章指出:“由于数据在训练集中,评估往往以测量模型记忆而告终。”“在可能和有效的情况下,确保模型没有受到评估影响。这有助于表明评估正在捕获超越训练数据的一般行为。”
此外,Anthropic指出,一个有意义的评估工具将包括多种模式。许多评估工具专门关注多项选择,Anthropic表示,其他形式,如基于任务的评估、模型分级评估,甚至是人工试验,将有助于真正评估人工智能模型的能力。
最后,也许也是最有趣的,Anthropic指出现实的、与安全相关的线程建模对于有用的评估至关重要。通常情况下,人类专家可能得出这样的结论:在安全评估中获得高分的模型可能导致重大事故。这不是正确的评估。
目前,Anthropic正在征求那些希望提交评估方法的人的建议。Anthropic小组将以滚动方式审查提交的材料,并跟进某些建议,以讨论下一步的步骤。