金融服务企业渴望采用生成式人工智能(GenAI)来降低成本、增加收入和提高客户满意度,许多组织也是如此。然而,与GenAI相关的风险并非微不足道,尤其是在金融服务领域。TCI Media最近接待了来自安永的专家,帮助FinServ的从业者开启负责任的人工智能之旅。
在9月中旬于纽约市举行的华尔街高性能计算+人工智能活动中,TCI Media迎来了来自安永美洲的两位人工智能专家,包括安永和安永美洲金融服务负责人Rani Bhuva,以及安永高级经理和安永美洲金融服务人工智能负责人Kiranjot Dhillon。
在题为“负责任的人工智能:人工智能从业者的监管合规趋势和关键考虑因素”的演讲中,Bhuva和Dhillon讨论了金融服务公司在尝试采用人工智能时面临的许多挑战,包括GenAI,以及公司可以采取的一些步骤。
FinServ公司对监管并不陌生,他们会在世界各地的GenAI中发现很多这样的事情。据Bhuva介绍,欧盟的《人工智能法案》在全球范围内引起了广泛关注,而在美国,大约有200个潜在的数据和人工智能法案正在州一级起草。
Bhuva说,在联邦一级,迄今为止的大部分行动都发生在2023年初的NIST人工智能框架和总统拜登2023年10月的行政命令中。联邦通信委员会(FCC)和美联储已指示金融公司将过去10年通过的关于模型风险管理和治理的法规应用于GenAI。
美国联邦监管机构在GenAI方面仍处于学习阶段。其中许多机构,如美国财政部和消费者金融保护委员会(CFPB),已经发布了信息请求(RFI),以获得该行业的反馈,而其他机构,如金融业监管局(FINR)和证券交易委员会(SEC),已经澄清了一些关于人工智能应用程序中客户数据的规定。
Bhuva说:“有一件事已经清楚地显现出来,那就是与NIST保持一致。”“当然,NIST面临的挑战是,它没有考虑到金融服务领域的所有其他监管问题。因此,如果你想想过去十年发生的事情,模型风险管理、TPRM(第三方风险管理)、网络安全——今天适用的金融服务监管中有很多细节。”
那么FinServ公司是如何起步的呢?安永建议企业退一步,看看他们已经拥有的工具。为了确保合规性,公司应该关注三个具体领域。
人工智能治理框架——一个涵盖模型风险管理、TPRM(第三方风险管理)和网络安全的总体框架;
AI清单——描述贵公司迄今为止开发的所有AI组件和资产的文件,包括机器学习模型和训练数据;
AI报告——一个监控和报告AI系统功能的系统,特别是高风险AI系统。
GenAI正在迅速变化,它所带来的风险也是如此。NIST最近发布了关于如何应对GenAI特定风险的指导。安永的Bhuva指出了其中一个风险:人工智能模型编造事物的趋势。
“每个人都在使用‘幻觉’一词,但NIST特别关注人工智能的拟人化,”她说。“所以人们的想法是,幻觉让人工智能看起来太人性化了。所以他们想出了“虚构”这个词来描述这一点。我实际上还没有听到有人使用虚构。我认为每个人都被幻觉所困,但这是存在的。”
负责任的人工智能开发有很多方面,将它们整合到一个具有有效控制和验证的连贯程序中并非易事。为了做到这一点,公司必须适应各种单独的计划,从模型风险管理和监管合规到数据安全和业务连续性。
她说:“你真的需要确保有合适的部分参加。”考虑到GenAI的复杂性,这变得相当复杂,因为需要拥有不同的专业领域。GenAI相关的所有控制问题包括隐私框,数据治理、模型风险管理框等等。
Bhuva指出,由于道德人工智能的规则通常在法律上是不可执行的,因此他们是否会避免使用在受版权保护的数据上训练过的大型语言模型(LLM)取决于单个公司。即使LLM提供商为你的公司赔偿版权诉讼,如果知道LLM是在受版权保护的数据上接受训练的,那么使用LLM仍然是合乎道德的吗?
Bhuva说:“另一个挑战是,如果你考虑一下全球层面的所有保证,他们都在谈论隐私、公平、可解释性、准确性、安全性——所有的原则。”“但这些原则中有很多是相互冲突的。因此,为了确保你的模型是准确的,你必然需要大量的数据,但为了获得所有这些数据,你可能会违反潜在的隐私要求。你也可能为了准确性而牺牲可解释性。因此,从监管或立法的角度来看,有很多问题是你无法解决的,这就是为什么我们对人工智能伦理有很多兴趣。”
安永的Kiranjot Dhillon是一位应用人工智能科学家,向华尔街的HPC+AI观众提供了从业者对负责任人工智能的看法。Dhillon说,GenAI从业者现在面临的一大挑战——也是许多GenAI应用程序尚未投入生产的一大原因——是很难准确了解GenAI系统在操作环境中的实际行为。“关键的根本原因之一是在解决方案构建生命周期结束时,通过负责任的人工智能和这些风险缓解实践进行思考。”“这更多的是对这些要求进行改装和叠加,以确保它们得到满足,而不是在一开始就考虑这些要求。”
Dhillon说:“负责任的需求需要在初始化阶段就考虑清楚。”“然后,需要在各个后续步骤中逐步设置适当的检查站,并一路通过这些步骤的操作和获得批准。”
随着GenAI系统的建立,开发人员和设计师必须考虑他们想要收集的指标和其他标准,以确保他们实现负责任的AI目标。作为一个系统,负责的人工智能团队成员——甚至可能是一个挑战团队,或者一个“红队”——应该介入并判断这些要求是否得到了满足。
Dhillon支持使用用户护栏来构建负责任的GenAI系统。这些系统,如Nvidia的Nemo,既可以处理LLM的输入,也可以处理输出。它们可以阻止某些请求到达LLM,并指示LLM不要以某些方式响应。
Dhillon说:“你可以考虑设置话题护栏,这样解决方案就不会偏离手头的话题。”“这可能是安全和安保护栏,比如当我们用NIST的术语说话时,试图减少幻觉或虚构,并试图越来越多地巩固解决方案。或者从源头上防止解决方案接触到外部潜在的不安全应用程序。因此,识别、捕获和解决这些情况才是护栏真正为我们提供的。”
有时,LLM的最佳护栏是第二个LLM,它将监督第一个LLM并关注逻辑正确性、答案相关性或上下文相关性等在RAG领域非常受欢迎的东西。
在以负责任的方式使用快速工程方面,也有一些最佳实践。Dhillon说,虽然传统机器学习依赖数据来训练模型,但在GenAI中,有时最好给计算机明确的指令。“这是在思考你想要LLM做什么,并准确地指导它你期望它做什么。”“就这么简单。要有描述性。详细说明你对LLM的期望,并指示它在被问到某些问题或以这种或那种方式回答时不要回答。”
根据使用的提示类型,如零样本提示或思考链提示,最终GenAI解决方案的稳健性会有所不同。
最后,有必要让一个人来监控GenAI系统,并确保它不会脱轨。在演讲中,Dhillon展示了拥有一个可以使用自动化统计技术对大量响应进行聚类的可视化工具如何帮助人类快速发现任何异常或异常值。“这里的想法是,人类评估人员可以快速查看它,发现落入更大、豆形集群中的东西非常接近知识库,所以它很可能是相关的查询。”“当你开始远离这个关键集群时,你会看到可能有切向关联的查询。一直到左下角的是一个集群,经过人工审查,它被证明是亵渎性的查询。这就是为什么在可视化维度空间中,它与你期望LLM得到回答的东西相去甚远。到那时,你可以创建正确类型的触发器来引入人工干预。”