高盛最近的一份报告称,除了聊天机器人和数字助理之外,缺乏生成式人工智能的“杀手级应用”,可能会阻碍其采用。分析师们写道,GenAI需要的是能够自行采取行动的人工智能应用程序。一种被称为大型动作模型(Large Action Model,简称LAM)的新型模型开始崭露头角。
LAM概念于2023年底开始出现,作为大型语言模型(LLM)的自然后续,LLM因其可以生成类似人类的文本响应而引起了全世界的关注。LAM通过在软件程序中实际执行一些操作,超越了LLM的文本生成功能。
位于美国弗吉尼亚的科技咨询公司3Pillar的首席创新官Pankaj Chawla接受媒体采访时表示:“LLM擅长于‘问题,回答’这样的单向交流。”“但在那之后我该怎么办呢?”这就是大型动作模型发挥魔力的地方。
Chawla表示,3Pillar正在为那些看到LLM价值的客户打造LLM,这些客户希望采取下一步行动,将重复性任务自动化,以获得更高的投资回报。LAM使用现有的编程路径(如API)执行操作,或者在某些情况下直接与应用程序的用户界面交互,这类似于机器人过程自动化(RPA)。
例如,如果一位高管要出差,LAM可以根据人工指令做出反应:“为我查找10月10日至17日飞往意大利米兰的经济舱+航班和四星级酒店。”LAM不仅可以用建议回应请求,还可以导航必要的系统并调用必要的数据来确保预订。
另一种看待LAMS的方式是,它是数字助理的延申。
Chawla表示:“在我看来,数字助理仍然是一种与人互动的东西,但你不会把多个事情拼凑在一起,共同实现一个结果,无论是商业结果还是个人结果。”“数字助理有点朝这个方向发展,但LAM是在创造一个自我学习的剧本,因为它不止一次地做这个动作,它会做得更好。”
并不是所有的公司都使用相同的术语。例如,Gartner将其称为神经符号人工智能(neurosymbolic AI),即神经网络和符号编程(即传统的确定性编程)的结合。
亚马逊及其AWS子公司在开发所谓的半自主人工智能代理(AI Agent)方面投入了大量资金,这种代理不仅可以编码数字助理,还可以处理基本的编码任务。两年前接替杰夫•贝佐斯(Jeff Bezos)掌管AWS的Andy Jassy最近表示,这些代理为公司节省了4500年的Java代码维护时间。
另一个LAM的例子是Rabbit r1,这是一个基于GPT -3.5的个人助理,实现了LAM风格的界面,可以与某些网站自动交互,包括Spotify, Apple Music, Midjourney, Suno, Uber和DoorDash。
苹果智能(Apple Intelligence)目前还处于预览阶段,是LAM类型系统的另一个例子,正如Salesforce正在开发的企业计算套件一样。Chawla说:“Salesforce一直在讨论使用LAM在幕后处理他们的Salesforce数据,以执行一系列行动,比如发起活动和实际跟踪输出。”
今年7月,麦肯锡发布了一份题为《为什么代理是生成式人工智能的下一个前沿》的报告,称赞了代理为下一代GenAI提供动力的潜力。
这家咨询巨头的分析师写道:“我们正在开始从以知识为基础、以人工智能为动力的工具(比如,回答问题和生成内容的聊天机器人)向以人工智能为动力的‘代理’的演变,后者使用基础模型在数字世界中执行复杂的多步骤工作流程。”“简而言之,这项技术正在从思想走向行动。”
麦肯锡表示,人工智能代理将能够自动化“复杂和开放式的用例”,这要归功于它们拥有的三个特征,包括:管理多样性的能力;受自然语言支配的能力;以及与现有软件工具和平台协同工作的能力。
麦肯锡称这些“超高效的虚拟同事”很快就会出现在贷款承销、代码文档和现代化以及在线营销活动创建等特定领域。该公司写道:“尽管代理技术还处于萌芽阶段,但增加对这些工具的投资可能会导致代理系统取得显著的里程碑,并在未来几年内大规模部署。”
Chawla承认,在这一点上,使用LAM架构构建自动化应用程序存在一些挑战。LLM是概率性的,有时可能会偏离轨道,因此通过将它们与使用确定性技术的经典编程相结合来保持它们在轨道上是很重要的。
例如,3Pillar目前正在开发一个LAM应用程序,它可以与人交互并向他们提问,但LLM有时会偏离或提出不合法的建议。
他说:“因此,正是确定性编程使它保持在轨道上,保持在护栏之内,但它仍然利用了LLM的力量。”“我们在幕后运行知识图谱,因此……答案更加集中、精确,不会产生幻觉,因为它与数据集相反。”
Chawla表示,后台应用程序可能是LLM最好的试验场,因为它们不会让公司因LLM脱轨而承担太多责任。大型软件公司的集成ERP套件可以访问大量跨行业数据和跨学科工作流程,这将为LAM和基于代理的人工智能提供信息和驱动。
LAM目前只是一个架构概念,但随着时间的推移,这个概念将得到充实,3Pillar可以使用基于软件的框架来加速LAM和人工智能代理系统的开发。
他说:“我认为将会有更多的框架允许您使用预定义的集成、调用或任何常用系统,就像您今天看到的企业服务总线的适配器一样。”“因此,可能会有一个针对Oracle的适配器,以及可用于执行操作的API,然后是通过配置和点击而不是代码来实际构建和创建这些操作的框架。”
Chawla表示,基于消费者的LAM和自主AI代理的潜在优势确实是巨大的,消费者开始看到这些新科技只是时间问题。
他表示:“我认为,未来两到五年,这种情况有望出现。”“你将开始看到这些真正的、人工智能驱动的解决方案,而聊天机器人和LLM只是构建模块,仍然有幻觉之类的问题。但我预计,在我们开始看到实际应用之前,还需要2到5年的时间。”