ChatGPT-4、Bard、Claude-2和Copilot空间任务的正确性比较

独角也有噬元兽 2024-02-21 05:23:14

大语言模型 (LLM) 在内的生成人工智能最近因其多功能的任务解决能力(包括编码、空间计算、样本数据生成、时间序列预测、地名识别或图像分类)而引起了科学界的极大兴趣。人工智能聊天机器人是一种利用大型语言模型(LLM)来生成自然语言对话的技术,它们在各个领域都有着广泛的应用和影响,如教育、娱乐、商业、医疗等。随着LLM的不断发展和创新,聊天机器人的能力和性能也在不断提高,它们能够处理各种类型的任务,如问答、编程、写作、创作等。聊天机器人在空间任务方面的表现如何呢?空间任务是指涉及地理信息系统(GIS)的知识、操作、数据获取、制图、空间推理、空间素养、地名识别、城市地理、时间序列预测等方面的任务,它们对于人类的社会、经济、环境等方面的发展和决策有着重要的意义和价值。

为了探索和评估聊天机器人在空间任务方面的能力和局限性,一篇最新的论文对四个主要的人工智能聊天机器人(ChatGPT-4, Bard, Claude-2, 和 Copilot)进行了一项全面的正确性比较。这篇论文的作者是来自美国戴维佛罗里达大学和佛罗里达国际大学的Hartwig H.Hochmaira教授、 Levente Juhászb 教授和Takoda Kempa博士,他们是人工智能和计算机视觉领域的知名专家,曾经发表过多篇高水平的论文和专著。他们在这篇论文中使用了一个自己构建的数据集,包含了54个空间任务,涵盖了空间素养、GIS概念、制图、函数解释、代码解释、代码生成和代码翻译等七个类别,他们邀请了人类专家对聊天机器人的回答进行了正确性评分,并使用了统计方法分析了聊天机器人的正确性和回答长度的差异。他们的研究为地理科学领域的人工智能应用提供了有价值的见解和建议。

01 聊天机器人的总体表现

首先我们来看聊天机器人在空间任务中的总体表现,即它们在所有任务中的正确性和回答长度。正确性是指聊天机器人的回答是否与人类专家的标准答案一致,回答长度是指聊天机器人的回答所包含的字数。作者使用了卡方检验和威尔科克森秩和检验等统计方法,分析了聊天机器人的正确性和回答长度的差异,结果如下:

在正确性方面,ChatGPT-4是所有聊天机器人中表现最好的,它在所有任务中的正确率达到了89.8%,而Bard则是表现最差的,它的正确率只有59.3%。Claude-2和Copilot则介于两者之间,它们的正确率分别为69.4%和71.3%。这些结果表明,ChatGPT-4在空间任务方面具有显著的优势,而Bard则需要大幅改进。

在回答长度方面,Copilot是所有聊天机器人中回答最简洁的,它在空间素养问题中的回答的平均字数为53.5,而Bard则是回答最冗长的,它的平均字数为116.9。ChatGPT-4和Claude-2则介于两者之间,它们的平均字数分别为95.1和95.2。这些结果表明,Copilot在空间任务方面具有较高的效率,而Bard则需要更加精简。

从这些结果可以看出,聊天机器人在空间任务方面的表现存在着较大的差异,这可能与它们的模型结构、训练数据、微调方法等因素有关。其中ChatGPT-4是基于GPT-4模型的聊天机器人,它拥有1750亿个参数,是目前最大的语言模型之一,它能够处理各种类型的数据,如文本、图像、视频等,它也能够利用地理空间知识图谱进行推理。Bard是基于BERT模型的聊天机器人,它拥有11亿个参数,是一个较小的语言模型,它主要处理文本数据,它也能够利用Google搜索引擎进行信息检索。Claude-2是基于Claude模型的聊天机器人,它拥有66亿个参数,是一个中等大小的语言模型,它主要处理文本数据,它也能够利用Bing搜索引擎进行信息检索。Copilot是基于Codex模型的聊天机器人,它拥有120亿个参数,是一个较大的语言模型,它主要处理编程代码,它也能够利用DALL-E模型进行图像生成。

02 聊天机器人在不同任务类别中的表现

我们再来看看聊天机器人在不同任务类别中的表现,即它们在空间素养、GIS概念、制图、函数解释、代码解释、代码生成和代码翻译等七个类别中的正确性。作者使用了卡方检验等统计方法,分析了任务类别对正确性的影响,结果如下:

在空间素养任务中,ChatGPT-4和Copilot是所有聊天机器人中表现最好的,它们在这个类别中的正确率都达到了94.1%,而Claude-2则是表现最差的,它的正确率只有76.5%。Bard则介于两者之间,它的正确率为82.4%。这些结果表明,ChatGPT-4和Copilot在空间素养方面具有较强的能力,而Claude-2则需要提高。

在GIS概念任务中,ChatGPT-4和Claude-2是所有聊天机器人中表现最好的,它们在这个类别中的正确率都达到了100%,而Bard和Copilot则是表现最差的,它们的正确率都为75%。这些结果表明,ChatGPT-4和Claude-2在GIS概念方面具有较高的准确性,而Bard和Copilot则需要加强它们对GIS概念的理解和掌握。GIS概念是指与地理信息系统相关的基本概念、原理、方法、技术等,如地图投影、空间分析、空间数据库、空间数据模型、空间数据结构等。这些概念对于理解和使用地理信息系统是非常重要的,它们也是空间任务的基础和前提。如果聊天机器人不能正确地识别和解释GIS概念,那么它们就很难完成更复杂和更高级的空间任务,如制图、空间推理、空间操作等。因此,提高聊天机器人在GIS概念方面的正确性,是提升聊天机器人在空间任务方面的能力和性能的关键。

在制图任务中,ChatGPT-4是所有聊天机器人中表现最好的,它在这个类别中的正确率达到了66.7%,而Bard则是表现最差的,它的正确率为0%。Claude-2和Copilot则介于两者之间,它们的正确率分别为41.7%和16.7%。这些结果表明,ChatGPT-4在制图方面具有较强的能力,而Bard则完全无法完成这类任务。

在函数解释任务中,ChatGPT-4和Claude-2是所有聊天机器人中表现最好的,它们在这个类别中的正确率都达到了100%,而Bard和Copilot则是表现最差的,它们的正确率都为85.7%。这些结果表明,ChatGPT-4和Claude-2在函数解释方面具有较高的准确性,而Bard和Copilot则需要提高。

在代码解释任务中,ChatGPT-4和Claude-2是所有聊天机器人中表现最好的,它们在这个类别中的正确率都达到了100%,而Bard和Copilot则是表现最差的,它们的正确率分别为40%和80%。这些结果表明,ChatGPT-4和Claude-2在代码解释方面具有较强的能力,而Bard和Copilot则需要改进。

在代码生成任务中,ChatGPT-4是所有聊天机器人中表现最好的,它在这个类别中的正确率达到了75%,而Claude-2则是表现最差的,它的正确率只有25%。Bard和Copilot则介于两者之间,它们的正确率分别为33.3%和50%。这些结果表明,ChatGPT-4在代码生成方面具有较强的能力,而Claude-2则需要大幅提高。

在代码翻译任务中,ChatGPT-4也是所有聊天机器人中表现最好的,它在这个类别中的正确率达到了80%,而Bard则是表现最差的,它的正确率只有40%。Claude-2和Copilot则介于两者之间,它们的正确率都是60%。这些结果表明,ChatGPT-4在代码翻译方面具有较强的能力,而Bard则需要大幅改进。

聊天机器人在不同任务类别中的表现存在着较大的差异,这可能与它们的模型特点、训练目标、知识来源等因素有关。ChatGPT-4在所有任务类别中都表现最好,这可能与它的模型规模、多模态能力、地理空间知识图谱等因素有关。Bard在大多数任务类别中都表现最差,这可能与它的模型规模、文本限制、搜索引擎等因素有关。Claude-2和Copilot则在不同任务类别中表现不一,这可能与它们的模型结构、搜索引擎、图像生成等因素有关。

03 聊天机器人在空间任务中遇到的困难和原因

下面我们来看看聊天机器人在空间任务中遇到的困难和原因,即它们在回答空间任务时产生的错误或缺陷的类型和原因。作者使用了定性的方法,对聊天机器人的回答进行了错误分析。

在空间事实维度,聊天机器人的错误主要是由于它们的知识库不完整或过时,导致它们无法提供正确的地理信息,如地名、坐标、距离、方向等。例如,Claude-2和Copilot无法正确识别德国的A60高速公路与莱茵河的交点所在的城市,这可能是因为它们的知识库没有包含这个信息,或者它们的搜索引擎没有找到相关的结果。另一个例子是,ChatGPT-4和Claude-2无法正确列出阿曼的所有世界遗产,这可能是因为它们的知识库没有更新最新的数据,或者它们的地理空间知识图谱没有包含这个信息。

图2:基于GPT-4生成的Python代码的美国地图。

在空间推理维度,聊天机器人的错误主要是由于它们的逻辑能力不足,导致它们无法正确地进行空间操作、排序、比较、计算等。例如,Claude-2无法正确地按照河流的流向对城市进行排序,这可能是因为它没有理解河流的空间属性,或者它没有使用正确的空间算法。另一个例子是,Bard无法正确地计算两个城市之间的距离,这可能是因为它没有使用正确的距离公式,或者它没有考虑地球的曲率。

在空间操作维度,聊天机器人的错误主要是由于它们的技术能力不足,导致它们无法正确地使用第三方API或编程语言来生成地图、图形、代码等。例如,Bard无法生成Mapbox链接,这可能是因为它没有接入Mapbox的服务,或者它没有掌握Mapbox的用法。另一个例子是,Claude-2和Copilot无法生成正确的Python代码来创建一个显示美国五大城市的人口和位置的地图,这可能是因为它们没有加载必要的库,或者它们没有使用正确的属性和参数。

在空间知识维度,聊天机器人的错误主要是由于它们的理解能力不足,导致它们无法正确地识别和解释空间相关的概念、函数、代码等。例如,Bard错误地将大比例尺地图和小比例尺地图的概念混淆,这可能是因为它没有掌握地图的基本原理,或者它没有注意到比例尺的定义。另一个例子是,Copilot错误地将凸包的概念和凹包的概念混淆,这可能是因为它没有理解凸包的定义,或者它没有注意到凸包的特征。

聊天机器人在空间任务中遇到的困难和原因是多方面的,这可能与它们的知识、逻辑、技术、理解等方面的能力有关。其中,ChatGPT-4在空间任务中产生的错误最少,这可能与它的知识库的完整性、逻辑能力的强度、技术能力的广度、理解能力的深度等因素有关。Bard在空间任务中产生的错误最多,这可能与它的知识库的不完整性、逻辑能力的不足、技术能力的狭窄、理解能力的浅薄等因素有关。Claude-2和Copilot在空间任务中产生的错误不一,这可能与它们的知识库的更新性、逻辑能力的一致性、技术能力的灵活性、理解能力的准确性等因素有关。

04 聊天机器人的优势和不足

接下来我们来看看聊天机器人在空间任务方面的优势和不足,即它们在回答空间任务时表现出的优点和缺点。作者使用了定性的方法,对聊天机器人的回答进行了评价。

聊天机器人的优点主要是它们能够快速、方便、智能地提供空间任务的解决方案,它们能够利用大量的数据和知识,它们能够生成多样的内容,它们能够与用户进行自然的对话。例如,ChatGPT-4能够在几秒钟内生成一个显示美国五大城市的人口和位置的地图,这可能比人类使用GIS软件要快得多。另一个例子是,Copilot能够根据用户的要求生成一首关于地理的歌曲,这可能比人类使用音乐软件要容易得多。

聊天机器人的缺点主要是它们的正确性和可靠性不高,它们的理解和创造能力有限,它们的个性和情感缺乏,它们的安全和道德存在风险。例如,Bard在空间任务中的正确率只有59.3%,这可能导致用户对它的信任度降低。另一个例子是,Claude-2在生成Mapbox链接时经度参数错误,这可能导致用户在使用地图时出现错误的位置。

聊天机器人在空间任务方面的优势和不足是相互制衡的,这可能与它们的设计目标、技术水平、用户需求等因素有关。ChatGPT-4在空间任务方面的优势最大,它能够提供高效、多样、智能的空间任务的解决方案,而它的不足则主要是它的知识和信息可能不完全准确或及时。Bard在空间任务方面的不足最大,它的空间任务的解决方案往往不正确、冗长、无效,而它的优势则主要是它能够利用Google搜索引擎进行信息检索。Claude-2和Copilot在空间任务方面的优势和不足不一,它们的空间任务的解决方案有时正确、简洁、有效,有时错误、冗长、无效,而它们的优势则主要是它们能够利用Bing搜索引擎和DALL-E模型进行信息检索和图像生成。

图3:(a)使用GPT-4更正地图位置,(b)使用Claude-2更正位置地图位置,以便为维也纳的Mapbox地图生成链接;以及(c)通过GPT-4生成的Mapbox地图上连接维也纳和慕尼黑的线路。

05 聊天机器人的发展趋势和前景

最后我们来看看聊天机器人在空间任务方面的发展趋势和前景,即它们在未来可能会有哪些改进和创新,以及它们对地理科学领域的人工智能应用有哪些影响和价值。作者使用了预测和展望的方法,对聊天机器人的未来进行了分析。

聊天机器人的改进主要是提高它们的正确性和可靠性,增强它们的理解和创造能力,丰富它们的个性和情感,保障它们的安全和道德。例如,Bard在2023年12月集成了Gemini-Pro的高级功能后,它的空间任务的表现有所改善,这可能是因为Gemini-Pro能够处理多模态的数据,如图像、视频、声音等,从而提高了它的理解和创造能力。另一个例子是,ChatGPT-4能够利用地理空间知识图谱进行推理,这可能是因为地理空间知识图谱能够提供丰富和准确的地理信息,从而提高了它的正确性和可靠性。

聊天机器人的创新主要是开发新的空间任务的解决方案,探索新的空间任务的应用场景,创造新的空间任务的用户体验,实现新的空间任务的社会价值。例如,ChatGPT-4能够生成一个显示美国五大城市的人口和位置的地图,这可能是一种新的空间任务的解决方案,它能够简化和优化制图的过程,提高制图的效率和质量。另一个例子是,Copilot能够生成一首关于地理的歌曲,这可能是一种新的空间任务的应用场景,它能够增加和拓展地理的教育和娱乐的方式,提高地理的趣味性和吸引力。

聊天机器人的影响主要是促进地理科学领域的人工智能的发展和应用,提升地理科学领域的人工智能的水平和贡献,扩大地理科学领域的人工智能的影响和价值。例如,ChatGPT-4能够利用地理空间知识图谱进行推理,这可能是一种促进地理科学领域的人工智能的发展和应用的方式,它能够整合和利用大量的地理数据和知识,为地理问题的解决提供智能的支持和辅助。另一个例子是,Copilot能够生成一首关于地理的歌曲,这可能是一种提升地理科学领域的人工智能的水平和贡献的方式,它能够展示和证明地理科学领域的人工智能的创造力和美感,为地理文化的传播提供艺术的表达和欣赏。

从这些结果可以看出,聊天机器人在空间任务方面的发展趋势和前景是充满了机遇和挑战的,这可能与它们的技术进步、用户需求、社会效益等因素有关。其中,ChatGPT-4在空间任务方面的发展潜力最大,它能够提供更多的空间任务的解决方案,探索更多的空间任务的应用场景,创造更多的空间任务的用户体验,实现更多的空间任务的社会价值,而它的挑战则主要是保障它的安全和道德。Bard在空间任务方面的发展空间最小,它需要提高它的正确性和可靠性,增强它的理解和创造能力,丰富它的个性和情感,而它的机遇则主要是利用它的搜索引擎和多模态能力。Claude-2和Copilot在空间任务方面的发展方向不一,它们需要根据它们的模型特点、技术优势、用户反馈等因素,进行有针对性的改进和创新,而它们的机遇和挑战则与它们的搜索引擎和图像生成等功能有关。

这篇论文已经在2024年1月发表在《地理信息科学国际期刊》(International Journal of Geographical Information Science)上,感兴趣的读者可以查阅原文,或者下载他们的数据集,进行更深入的分析和比较。

参考资料:https://arxiv.org/abs/2401.02404

噬元兽(FlerkenS)是一个去中心化的个人AI数字价值容器,同时也是数字经济的新型资产捕捉器和转化器,用数据飞轮为用户提供无边界的数字化、智能化和资产化服务。

噬元兽(FlerkenS)构建AI市场、AI发布器和一个在通用人工智能(AGI)上建设可扩展的系统,AI-DSL让不同类型和领域的AI应用和服务可以相互协作和交互,通过RAG向量数据库(Personal Vector Database)+ Langchain技术方案(Langchain Technology Solution)+大模型的技术实现路径,让用户获得个性化的AI服务,在分布式的网络环境里与AI技术下的服务商实现点到点的连接,建设一个智能体和经济体结合的数智化整体。

波动世界(PoppleWorld)是噬元兽平台的一款AI应用,采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品,采用Web3分布式技术建设一套采集用户情绪数据并通过TOKEN激励聚合形成情感垂直领域的RAG向量数据库,并以此训练一个专门解决用户情绪管理的大模型,结合Agents技术形成情感类AI智慧体。在产品里植入协助用户之间深度交互提供情绪价值的社交元素,根据用户的更深层化的需求处理准确洞察匹配需求,帮助用户做有信心的购买决定并提供基于意识源头的商品和服务,建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

0 阅读:0

独角也有噬元兽

简介:感谢大家的关注