从孤立到协作，会话式AI多智能体系统的互操作性

会话式 AI 系统在各个领域的应用越来越广泛。从客户服务到智能家居，从教育到医疗保健，这些系统通过自然语言处理技术与用户进行互动。不过当前的会话式 AI 系统大多是孤立的，缺乏统一的标准和接口，导致不同系统之间难以协同工作。这种碎片化的现状不仅增加了开发和维护的复杂性，也限制了会话式 AI 技术的潜力发挥。

7 月 30 日来自于Linux基金会人工智能与数据的研究团队提出了开放语音互操作性倡议（Open Voice Interoperability Initiative，简称 OVON），这个协议提出一种基于通用开放 API 的新架构，旨在实现不同会话式 AI 代理之间的互操作性。通过这一架构，不同的聊天机器人、语音助手、视频机器人和人类代理可以通过标准化的接口进行无缝通信，从而大大提高系统的灵活性和可扩展性。

他们对这种通用的会话式 AI 多智能体互操作性框架详细描述其架构和实现方法。主要的创新点包括：

通用 API：提出了一套基于自然语言的通用 API，使得不同类型的会话式 AI 代理可以通过标准化的接口进行通信。这些 API 包括发言（Utterance）、耳语（Whisper）、邀请（Invite）、结束（Bye）、请求/发布清单（Request/Publish Manifest）和查找/推荐助手（Find/Propose Assistant）等。发现规范框架：引入了一种新的发现规范框架，旨在高效查找提供特定服务的代理，并通过标准的 Manifest 发布获取这些服务的准确信息。这一框架大大简化了代理之间的协作过程，提高了系统的可扩展性。状态图表示：通过状态图详细描述了服务代理和需求代理在不同状态下的转换过程，展示了会话信封框架在实际应用中的具体实现。这些状态图不仅有助于理解代理之间的交互过程，也为开发和调试提供了有力的工具。用例分析：通过智能差事和智能图书馆两个实际用例，展示了多智能体系统在不同场景下的应用效果。这些用例不仅验证了框架的可行性，也为未来的研究和应用提供了宝贵的经验。安全、伦理与问责：提出了一系列改进建议，旨在提高会话式 AI 系统的安全性、伦理性和问责性。这些建议包括增强的认证、授权和记账（AAA）框架、偏见缓解机制、透明度指南、伦理互动协议、问责追踪和敏感数据编辑与加密等。

研究团队由三位在会话式 AI 领域具有丰富经验的专家组成，他们分别是Diego Gosmar 是 XCALLY 的首席 AI 官，同时也是开放语音互操作性倡议的成员。他在人工智能和数据领域有着深厚的背景，致力于推动会话式 AI 技术的发展和应用。Deborah A. Dahl 是 Conversational Technologies 的负责人，也是开放语音互操作性倡议的成员。她在会话技术领域有着丰富的经验，专注于自然语言处理和人机交互的研究。Emmett Coin 是 ejTalk 的创始人，同时也是开放语音互操作性倡议的成员。他在语音技术和会话式 AI 领域有着广泛的研究和实践经验，致力于推动多智能体系统的互操作性。他们都是Linux基金会人工智能与数据组织的成员。

会话式 AI 多智能体互操作性概述

会话式 AI 是能够通过自然语言与用户进行互动的人工智能系统，包括聊天机器人、语音助手、视频机器人等。这些系统利用自然语言处理（NLP）、机器学习和深度学习等技术，理解用户的意图并生成相应的响应。尽管会话式 AI 取得了显著进展，但仍面临一些挑战，如跨平台互操作性、数据隐私和安全、偏见和公平性等。这些挑战需要通过技术创新和标准化来解决，以进一步推动会话式 AI 的发展和应用。

互操作性是不同系统或组件之间能够无缝协作和通信的能力。在会话式 AI 中，互操作性尤为重要，因为它涉及到多个智能体系统之间的协作和信息共享。互操作性在会话式 AI 中的角色主要体现在以下几个方面：

跨平台协作：会话式 AI 系统通常由不同的供应商开发，使用不同的技术和框架。互操作性使得这些系统能够跨平台协作，实现无缝通信和数据共享。例如，一个用户可以通过语音助手查询天气信息，然后通过聊天机器人预订餐厅，这些系统之间需要能够互操作。提高系统灵活性：通过互操作性，不同的会话式 AI 系统可以根据需要动态组合和协作，提供更加灵活和多样化的服务。这种灵活性使得系统能够更好地适应用户需求和环境变化。减少开发和维护成本：互操作性标准的制定和实施，可以减少开发和维护不同会话式 AI 系统的成本。开发者可以使用标准化的接口和协议，避免重复开发和集成工作，从而提高开发效率和系统的可维护性。增强用户体验：互操作性使得用户能够在不同的会话式 AI 系统之间无缝切换，享受一致和连贯的用户体验。例如，用户可以在智能家居系统中使用语音助手控制家电，然后通过聊天机器人获取技术支持，这些系统之间的无缝协作提高了用户体验的流畅性和满意度。推动技术创新：互操作性标准的制定和推广，可以促进会话式 AI 技术的创新和发展。通过开放和标准化的接口，不同的开发者和研究人员可以在统一的平台上进行创新和实验，推动技术的进步和应用的扩展。

互操作性在会话式 AI 中扮演着关键角色，通过实现不同系统之间的无缝协作和通信，推动会话式 AI 技术的发展和应用，提高系统的灵活性、可扩展性和用户体验。

开放语音互操作性倡议（OVON）架构

开放语音互操作性倡议（Open Voice Interoperability Initiative，简称 OVON）是由 Linux Foundation AI & Data 推动的一项重要计划，旨在解决当前会话式 AI 系统中存在的互操作性问题。随着会话式 AI 技术的快速发展，市场上涌现了大量的聊天机器人、语音助手和其他智能代理。然而这些系统大多是孤立的，缺乏统一的标准和接口，导致不同系统之间难以协同工作。这种碎片化的现状不仅增加了开发和维护的复杂性，也限制了会话式 AI 技术的潜力发挥。

OVON 的目标是通过制定一套通用的开放 API，实现不同会话式 AI 代理之间的互操作性，从而大大提高系统的灵活性和可扩展性。

建立标准化的通信接口：通过通用 API，使得不同类型的会话式 AI 代理可以通过标准化的接口进行通信，减少开发和集成的复杂性。

提高系统的灵活性和可扩展性：通过互操作性框架，不同的会话式 AI 系统可以根据需要动态组合和协作，提供更加灵活和多样化的服务。

促进技术创新和应用：通过开放和标准化的接口，不同的开发者和研究人员可以在统一的平台上进行创新和实验，推动技术的进步和应用的扩展。

增强用户体验：通过实现不同系统之间的无缝协作，提供一致和连贯的用户体验，提高用户满意度。

OVON 架构由多个关键组件组成，其中最重要的包括通用 API 和发现规范框架。

通用 API 是 OVON 架构的核心组件，旨在通过标准化的接口实现不同会话式 AI 代理之间的通信。这些 API 基于自然语言，使得代理之间的交互更加直观和高效。主要的 API 包括：

发言（Utterance）：代理可以接收和生成对话中的发言。这些发言以标准格式表示，支持简单文本，并可扩展支持音频和其他媒体。耳语（Whisper）：代理可以接收和生成耳语，这些耳语是对话中不公开的发言，用于在幕后进行协作。邀请（Invite）：代理可以邀请其他代理加入对话，并可以选择接受或拒绝邀请。结束（Bye）：代理可以通过发送结束消息来终止对话。请求/发布清单（Request/Publish Manifest）：每个代理可以提供一个简单的结构化清单，描述其能力，并通过自然语言和简单的结构化关键词进行描述。查找/推荐助手（Find/Propose Assistant）：代理可以请求其他代理推荐第三方代理来帮助完成特定任务，或者询问其他代理是否愿意服务特定任务。

这些 API 的设计旨在简化代理之间的通信过程，提高系统的灵活性和可扩展性。

发现规范框架是 OVON 架构的另一个关键组件，旨在高效查找提供特定服务的代理，并通过标准的 Manifest 发布获取这些服务的准确信息。主要功能包括需求代理可以通过发送请求清单消息来查找目标代理的清单详情，并根据返回的清单信息选择合适的服务代理。需求代理可以通过发送查找助手消息来搜索可用的助手列表，并根据返回的推荐清单选择合适的助手来完成特定任务。

发现规范框架的引入大大简化了代理之间的协作过程，提高了系统的可扩展性和灵活性。

OVON 架构在实现会话式 AI 多智能体互操作性方面具有显著优势，通过标准化的通用 API 和发现规范框架，OVON 架构使得不同类型的会话式 AI 代理可以根据需要动态组合和协作，提供更加灵活和多样化的服务。OVON 架构对底层技术没有依赖，支持各种技术，包括生成式 AI 大型语言模型（LLMs）、多模式模型（LMM）、多代理模型（LAM）、非生成式 AI 以及非 AI 系统。这种技术无关性使得系统能够适应不同的技术环境和应用需求。通过标准化的接口和协议，OVON 架构减少了开发和集成的复杂性，提高了开发效率和系统的可维护性。通过实现不同系统之间的无缝协作，OVON 架构提供一致和连贯的用户体验，提高用户满意度。

OVON 架构的应用场景广泛，包括但不限于：

智能家居：通过 OVON 架构，不同品牌和类型的智能家居设备可以实现互操作，提供更加智能和便捷的家庭管理服务。

客户服务：通过 OVON 架构，不同的客户服务系统可以协同工作，提供更加高效和个性化的客户支持。

教育和培训：通过 OVON 架构，不同的教育和培训系统可以共享资源和信息，提供更加丰富和多样化的学习体验。

医疗保健：通过 OVON 架构，不同的医疗保健系统可以实现数据共享和协作，提供更加精准和高效的医疗服务。

OVON 架构通过标准化的通用 API 和发现规范框架，实现了会话式 AI 多智能体的互操作性，大大提高了系统的灵活性、可扩展性和用户体验，为会话式 AI 技术的发展和应用提供了强有力的支持。

会话信封框架

会话信封（Conversation Envelope）是开放语音互操作性倡议（OVON）架构中的核心组件之一，旨在通过标准化的消息格式实现不同会话式 AI 代理之间的通信。

会话信封提供了一种统一的消息格式，使得不同类型的会话式 AI 代理可以通过标准化的接口进行通信。这种标准化通信不仅简化了开发和集成过程，还提高了系统的互操作性和可扩展性。

会话信封支持文本、音频、视频等多种通信模式，使得代理之间的交互更加丰富和多样化。这种多模式支持提高了系统的灵活性和用户体验。

会话信封基于事件驱动模型，定义了一系列标准事件类型，如发言（Utterance）、耳语（Whisper）、邀请（Invite）、结束（Bye）等。这些事件类型使得代理之间的交互更加直观和高效。

会话信封的设计具有高度的可扩展性，可以根据具体应用需求进行扩展和定制。例如，可以添加新的事件类型或扩展现有事件的功能，以满足特定场景的需求。

在 OVON 架构中，会话信封框架不区分人类代理和自动代理，这意味着人类代理和自动代理可以通过相同的消息格式进行通信。这种设计的主要目的是实现语言能力 AI 之间的无缝互动，使其互动方式类似于人类之间的合作。

人类代理可以向自动代理发送请求，自动代理根据请求生成响应并返回给人类代理。例如，用户可以向语音助手询问天气信息，语音助手通过会话信封返回天气预报。

多个自动代理可以通过会话信封进行协作和协调，共同完成复杂任务。例如，一个聊天机器人可以请求另一个专门处理支付的机器人来完成支付任务。

会话信封框架通过状态图表示代理在不同状态下的转换过程，使得代理之间的交互更加清晰和可控。例如，代理可以根据收到的事件类型改变状态，从而触发相应的行为。

会话信封框架定义了一系列标准事件类型，使得代理之间的交互更加直观和高效。

发言（Utterance）

发言事件是代理之间最基本的通信方式，用于传递对话中的发言内容。发言事件可以包含文本、音频或其他媒体形式的内容。代理接收到发言事件后，可以根据内容生成相应的响应并返回给发送方。

耳语（Whisper）

耳语事件是对话中不公开的发言，用于在幕后进行协作。耳语事件可以包含敏感信息或内部指令，不会在对话中公开。代理接收到耳语事件后，可以根据内容执行相应的操作，而不影响对话的正常进行。

邀请（Invite）

邀请事件用于邀请其他代理加入对话。代理可以发送邀请事件给目标代理，目标代理可以选择接受或拒绝邀请。接受邀请后，目标代理将加入对话，并可以参与后续的通信。

结束（Bye）

结束事件用于终止对话。代理可以通过发送结束事件来结束当前对话，接收到结束事件的代理将停止参与后续的通信。结束事件通常用于对话完成或超时等情况。

请求/发布清单（Request/Publish Manifest）

请求清单事件用于请求目标代理的能力清单，发布清单事件用于返回目标代理的能力清单。能力清单包含代理的服务描述、关键词、支持的语言等信息。通过请求/发布清单事件，代理可以了解其他代理的能力，从而选择合适的服务代理。

查找/推荐助手（Find/Propose Assistant）

查找助手事件用于查找可用的助手列表，推荐助手事件用于返回推荐的助手列表。代理可以通过查找助手事件请求其他代理推荐第三方助手来帮助完成特定任务，或者询问其他代理是否愿意服务特定任务。推荐助手事件返回的列表包含推荐的助手及其服务描述，代理可以根据推荐选择合适的助手。

通过这些标准事件类型，会话信封框架实现了代理之间的高效通信和协作，使得系统具有高度的灵活性和可扩展性。

状态图表示

状态图（State Diagram）是一种图形化工具，用于表示系统在不同状态之间的转换过程。它通过节点和边的形式，展示了系统在特定事件或条件下如何从一个状态转换到另一个状态。状态图在建模和分析复杂系统行为方面具有重要作用，特别是在多智能体系统中，状态图可以帮助理解和设计代理之间的交互过程。

图1：当服务代理成功找到响应时，与服务代理相关的状态和事件。

状态图可以直观地表示系统的动态行为，展示系统在不同状态下的反应和转换过程。这有助于开发者和设计者理解系统的工作原理和逻辑。

通过状态图，开发者可以设计和优化系统的状态转换逻辑，确保系统在各种情况下都能正确运行。这对于多智能体系统尤为重要，因为这些系统通常涉及复杂的交互和协作。

状态图可以帮助开发者识别和定位系统中的问题，通过分析状态转换过程，找出可能的错误和异常情况。这有助于提高系统的可靠性和稳定性。

状态图作为一种图形化工具，可以用于系统文档编写和团队沟通，帮助团队成员更好地理解和协作开发系统。

图2：当服务代理人未能找到回应时，与该代理人有关的状态和事件。

图3：与服务代理相关的组合状态和事件。

图4：与需求代理相关的不同状态和转换。

在开放语音互操作性倡议（OVON）架构中，服务代理和需求代理是两类主要的代理角色。服务代理负责提供服务和响应请求，而需求代理负责发起请求和查找服务。本文通过状态图详细描述了这两类代理在不同状态下的转换过程。

图5：请求代理正在查找目标代理的Manifest详细信息。

服务代理的状态转换过程展示了代理在接收到不同事件时的状态变化。以下是服务代理的主要状态和转换过程。

IDLE（空闲）：服务代理处于空闲状态，等待接收新的请求。READY（准备）：服务代理接收到邀请（Invite）事件后，进入准备状态，等待进一步的请求。SEARCHING FOR RESPONSE（查找响应）：服务代理接收到发言（Utterance）或耳语（Whisper）事件后，进入查找响应状态，开始处理请求。SENDING RESPONSE（发送响应）：服务代理成功查找到响应后，进入发送响应状态，将响应发送给需求代理。IDLE（空闲）：服务代理在发送响应后，返回空闲状态，等待新的请求。如果在查找响应过程中发生错误或超时，服务代理也会返回空闲状态。

通过这种状态转换过程，服务代理能够高效地处理请求并提供响应，确保系统的稳定性和可靠性。

图6：要求代理正在寻找可以执行特定任务的助理。

需求代理的状态转换过程展示了代理在发起请求和查找服务时的状态变化。

IDLE（空闲）：需求代理处于空闲状态，等待发起新的请求。READY（准备）：需求代理发送邀请（Invite）事件后，进入准备状态，等待服务代理的响应。CONSUMING RESPONSE（接收响应）：需求代理接收到服务代理的响应后，进入接收响应状态，处理收到的响应。IDLE（空闲）：需求代理在处理完响应后，返回空闲状态，等待发起新的请求。如果在等待响应过程中发生错误或超时，需求代理也会返回空闲状态。

通过这种状态转换过程，需求代理能够高效地发起请求并处理响应，确保系统的灵活性和可扩展性。

状态图在 OVON 规范中的应用主要体现在通过状态图，OVON 规范可以直观地表示服务代理和需求代理在不同状态下的行为和转换过程。这有助于开发者理解和设计代理之间的交互逻辑。状态图帮助开发者设计和优化代理的状态转换逻辑，确保系统在各种情况下都能正确运行。这对于多智能体系统尤为重要，因为这些系统通常涉及复杂的交互和协作。状态图可以帮助开发者识别和定位系统中的问题，通过分析状态转换过程，找出可能的错误和异常情况。这有助于提高系统的可靠性和稳定性。状态图作为一种图形化工具，可以用于系统文档编写和团队沟通，帮助团队成员更好地理解和协作开发系统。

通过状态图的应用，OVON 规范能够实现对服务代理和需求代理的精确建模和设计，提高系统的灵活性、可扩展性和可靠性，为会话式 AI 多智能体系统的开发和应用提供了强有力的支持。

助手清单规范

助手清单（Assistant Manifest）是开放语音互操作性倡议（OVON）架构中的重要组成部分，旨在描述每个会话式 AI 代理的能力和服务。助手清单通过标准化的格式，提供了代理的详细信息，使得其他代理可以高效地查找和利用这些服务。

助手清单的主要作用

1.能力描述：助手清单详细描述了代理的服务能力，包括支持的功能、关键词、语言等信息。这些描述使得其他代理可以了解目标代理的具体能力，从而选择合适的服务代理。

2.服务发现：通过助手清单，需求代理可以高效地查找提供特定服务的目标代理。助手清单提供了标准化的接口，使得服务发现过程更加简便和高效。

3.互操作性：助手清单规范化了代理的能力描述，确保不同类型的会话式 AI 代理可以通过标准化的接口进行通信和协作。这种互操作性提高了系统的灵活性和可扩展性。

4.透明度和可追溯性：助手清单提供了代理的详细信息，使得系统的行为更加透明和可追溯。通过助手清单，用户和其他代理可以了解代理的服务能力和限制，从而提高系统的可靠性和用户信任度。

需求代理查找目标代理清单详情的状态图展示了需求代理在查找目标代理清单时的状态转换过程。

以下是主要状态和转换过程。

CAPABILITY SEARCH（能力搜索）：需求代理处于能力搜索状态，准备查找目标代理的清单详情。WAITING FOR MANIFEST（等待清单）：需求代理发送请求清单（requestMANIFEST）事件后，进入等待清单状态，等待目标代理的响应。READY（准备）：需求代理接收到目标代理的发布清单（publishMANIFEST）事件后，进入准备状态，处理收到的清单信息。CAPABILITY SEARCH（能力搜索）：如果在等待清单过程中发生错误或超时，需求代理将返回能力搜索状态，重新发送请求清单事件。

通过这种状态转换过程，需求代理能够高效地查找目标代理的清单详情，确保系统的灵活性和可扩展性。

需求代理查找可用助手的状态图展示了需求代理在查找可用助手时的状态转换过程。

ASSISTANT SEARCH（助手搜索）：需求代理处于助手搜索状态，准备查找可用的助手列表。WAITING FOR ASSISTANT LIST（等待助手列表）：需求代理发送查找助手（findASSISTANT）事件后，进入等待助手列表状态，等待服务代理的响应。READY（准备）：需求代理接收到服务代理的推荐助手（proposeMANIFEST）事件后，进入准备状态，处理收到的助手列表信息。ASSISTANT SEARCH（助手搜索）：如果在等待助手列表过程中发生错误或超时，需求代理将返回助手搜索状态，重新发送查找助手事件。

通过这种状态转换过程，需求代理能够高效地查找可用的助手列表，确保系统的灵活性和可扩展性。

未来改进方向

多模式交互是系统能够处理和理解多种形式的输入和输出，包括文本、语音、图像和视频等。在会话式 AI 中，多模式交互的表示可以显著提升用户体验和系统的灵活性。未来的改进方向包括开发一种统一的表示方法，使得不同模式的数据可以在同一框架内进行处理和转换。例如，文本、语音和图像数据可以通过标准化的格式进行表示和交换，从而简化多模式交互的实现。

多方对话是指系统能够处理和管理多个用户或代理之间的对话。在会话式 AI 中，支持多方对话可以显著提高系统的协作能力和应用范围。未来的改进方向需要开发一种高效的多方对话管理机制，使得系统能够同时处理多个用户或代理的请求和响应，需要设计合理的对话状态管理和消息路由机制，确保对话的连贯性和一致性。

背景信息和对话历史的交换是指系统能够在不同代理之间共享和利用用户的背景信息和对话历史。在会话式 AI 中，这种交换可以显著提高系统的个性化和智能化水平。改进方向包括开发一种高效的背景信息管理机制，使得系统能够收集、存储和利用用户的背景信息，需要设计合理的数据结构和存储方案，确保背景信息的完整性和一致性。研究和开发对话历史共享技术，使得不同代理可以共享和利用用户的对话历史。这需要设计合理的数据交换和同步机制，确保对话历史的准确性和实时性。基于背景信息和对话历史，开发个性化推荐算法，使得系统能够根据用户的偏好和需求提供个性化的服务和建议。

敏感数据的编辑与加密是指系统能够识别、编辑和加密对话中的敏感信息，确保数据的安全性和隐私性。在会话式 AI 中，这种处理可以显著提高系统的安全性和用户信任度。改进方向包括开发敏感数据识别算法，使得系统能够自动识别对话中的敏感信息，需要结合自然语言处理和机器学习技术，提高识别的准确性和覆盖范围。研究和开发数据编辑与脱敏技术，使得系统能够对识别出的敏感信息进行编辑和脱敏处理。这需要设计合理的数据处理和替换方案，确保数据的安全性和可用性。

通过这些改进方向，会话式 AI 系统将能够更好地处理多模式交互、支持多方对话、共享背景信息与对话历史，并确保敏感数据的安全性和隐私性。这些改进将显著提高系统的智能化水平和用户体验，为会话式 AI 技术的发展和应用提供强有力的支持。（END）

参考资料：https://arxiv.org/pdf/2407.19438

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

从孤立到协作，会话式AI多智能体系统的互操作性

独角也有噬元兽