人工智能挑战IMO的几何金牌:AlphaGeometry的设计和评估

独角也有噬元兽 2024-02-20 22:15:49

几何学是数学的一个重要分支,它研究了空间中的形状、大小、位置、角度等概念,以及它们之间的关系和性质。几何学不仅有着悠久的历史和深刻的哲学意义,也有着广泛的应用和实践价值,例如在物理学、工程学、建筑学、计算机图形学、机器人学等领域。

几何学的一个核心问题是如何证明几何事实的真假,即如何用逻辑推理和已知的规则、公理、定理等来证明或反驳一个几何命题。这个问题对于人类来说,既有着挑战性,也有着乐趣性,因此在数学教育和竞赛中,几何证明一直是一个重要的内容。其中国际数学奥林匹克竞赛(IMO)是最高水平的数学竞赛,它每年举办一次,吸引了来自世界各地的高中生参加。IMO的题目涉及了代数、组合、数论和几何等数学领域,其中几何题目通常是最难的,要求参赛者不仅要给出正确的答案,还要给出严格的证明过程。

人工智能能否像人类一样解决和证明几何问题呢?这是一个具有挑战性和探索性的问题,也是人工智能在数学领域的一个重要方向。近年来随着深度学习和自然语言处理等技术的发展,人工智能在数学上的表现有了显著的提升,例如在数学定理证明、数学问题求解、数学符号理解等方面,都取得了一些令人瞩目的成果。然而要让人工智能达到人类的水平,甚至超越人类,还有很多困难和挑战,尤其是在几何领域,人工智能还面临着以下的问题:

1)如何有效地表示和理解几何问题和证明,使之既能被计算机处理,又能让人类阅读?

2)如何自动生成和训练大量的几何问题和证明,使人工智能能够从中学习和提升?

3)如何评估和比较不同的人工智能系统在几何领域的能力和水平?

近日发表于自然杂志的一篇最新的论文《Solving olympiad geometry without human demonstrations》,他们是来自DeepMind、谷歌和牛津大学的一组研究人员,他们提出了一个人工智能系统AlphaGeometry,它能够使用一种自定义的语言来解决和证明IMO的几何问题,达到了接近于金牌获得者的水平。

他们提出了一种使用合成数据进行定理证明的替代方法,从而避免了翻译人类提供的证明示例的需要。他们专注于欧几里得平面几何,排除几何不等式和组合几何等主题。通过在一组不同的随机定理前提上使用现有的符号引擎,提取了 1 亿个综合定理及其证明,其中许多具有超过 200 个证明步骤,比奥林匹克定理的平均证明长度长四倍。他们在合成证明生成中进一步定义和使用依赖差异的概念,使他们的方法能够产生近一千万个构造辅助点的合成证明步骤,超出了纯符号推导的范围。

01 作者背景和动机

Trieu H. Trinh是谷歌大脑的一位研究科学家,他的研究兴趣包括自然语言处理、机器学习和人工智能。他曾经参与了谷歌大脑的一些知名的项目,例如GPT-4、BERT和Meena等。

Yuhuai Wu是谷歌大脑的一位研究科学家,他的研究兴趣包括深度学习、强化学习和优化。他曾经参与了谷歌大脑的一些知名的项目,例如AlphaGo、AlphaZero和AlphaFold等。

Quoc V. Le是谷歌大脑的一位首席研究科学家,他的研究兴趣包括自然语言处理、计算机视觉和机器学习。他曾经参与了谷歌大脑的一些知名的项目,例如GPT-4、BERT和Meena等 。

He He是牛津大学的一位助理教授,她的研究兴趣包括自然语言处理、机器学习和人工智能。她曾经参与了牛津大学的一些知名的项目,例如DeepMind Q&A、DeepMind NLP和DeepMind RL等 。

Thang Luong是谷歌大脑的一位高级研究科学家,他的研究兴趣包括自然语言处理、机器翻译和机器学习。他曾经参与了谷歌大脑的一些知名的项目,例如GPT-4、BERT和Meena等 。

这些专家都是人工智能领域的顶尖专家,他们有着丰富的经验和深厚的造诣,他们的动机是探索人工智能在数学领域的潜力和挑战,尤其是在几何领域,他们希望能够让人工智能像人类一样,能够解决和证明几何问题,甚至能够创造出新的几何知识和方法。他们认为,这样的研究不仅有助于推动人工智能的发展,也有助于促进人类对数学的理解和欣赏。

他们的目标是让人工智能能够使用一种自定义的语言GPL,来解决和证明IMO的几何问题,从而展示人工智能在数学领域的推理能力,也为了探索人工智能和人类在数学领域的交流和合作的可能性和方法。他们选择了IMO的几何问题作为人工智能的挑战和测试,因为这些问题具有高度的难度和复杂度,要求人工智能具有强大的几何表示和推理能力,也要求人工智能能够生成清晰和可理解的几何证明,以便人类能够检查和验证。

02 系统设计和方法

论文的主要贡献是提出了一个人工智能系统AlphaGeometry,它能够使用一种自定义的语言来解决和证明IMO的几何问题,达到了接近于金牌获得者的水平。

图1:上面一行显示了 AlphaGeometry 如何解决一个简单的问题。

a,简单的例子及其图表。b、AlphaGeometry 通过运行符号推演引擎来启动证明搜索。引擎从定理前提中详尽地推导出新的陈述,直到定理被证明或新的陈述被穷举为止。c,由于符号引擎未能找到证明,因此语言模型构造一个辅助点,在符号引擎重试之前增长证明状态。循环继续直到找到解决方案。d,对于简单的例子,循环在第一个辅助结构“D 作为 BC 的中点”之后终止。该证明包括另外两个步骤,这两个步骤都利用了中点属性:“BD = DC”和“B、D、C 共线”,以蓝色突出显示。底行显示了 AlphaGeometry 如何解决 IMO 2015 Problem 3 (IMO 2015 P3)。e,IMO 2015 P3 问题陈述和图表。f、IMO 2015 P3的解有3个辅助点。

该系统的设计和方法包括以下几个方面:

自定义语言:为了有效地表示和理解几何问题和证明,他们设计了一种自定义的语言,叫做几何证明语言(GPL),它有着类似于计算机编程语言的严格语法,既可以被计算机轻松地检查,也可以让人类理解。该语言包含了几何学的基本规则和符号,例如点、线、角、圆、三角形、四边形、相等、相似、垂直、平行等,以及一些高级的概念和定理,例如欧几里得公理、塞瓦定理、梅涅劳斯定理、帕斯卡定理、布里阿涅定理等。该语言还包含了一些控制结构和函数,例如条件语句、循环语句、变量、赋值、定义、调用等,以及一些特殊的符号,例如注释、断言、证毕等。

该语言的一个示例是:

# 问题:在三角形ABC中,AD是角A的平分线,E是BC上的一点,使得BE=ED。证明:AE平分角BAD。

# 定义点、线、角等

point(A, B, C, D, E)

line(AB, AC, BC, AD, AE, BE, DE)

angle(BAC, BAD, DAC, ABE, AED, BAE, EAD)

# 已知条件

bisects(AD, angle(BAC)) # AD是角A的平分线

equal(BE, ED) # BE=ED

# 证明过程

# 证明三角形ABE和ADE相似

similar(triangle(ABE, AED), by="SAS") # 由SAS相似判定

equal(angle(BAE, EAD), by="CPCTC") # 由全等三角形的对应角相等

equal(angle(BAD, DAC), by="bisects(AD, angle(BAC))") # 由平分线的性质

equal(angle(ABE, AED), by="equal(angle(BAD, DAC))") # 由等角的性质

# 证明AE平分角BAD

bisects(AE, angle(BAD), by="equal(angle(ABE, AED))") # 由平分线的定义

# 证毕

QED

图 2:AlphaGeometry 将几何定理证明器的当前状态从低于人类水平提升到接近金牌水平。

测试基准包括 2000 年至今的官方 IMO 问题,这些问题可以在我们工作中使用的几何环境中表示。人类的表现是通过将 IMO 竞赛得分从 0 到 7 重新调整为 0 到 1 之间来估计的,以匹配机器失败/成功的二元结果。

语言模型:为了让人工智能能够使用GPL来解决和证明几何问题,他们使用了一个大型的语言模型,叫做几何证明模型(GPM),它是基于GPT-4的一个变种,它能够根据给定的几何问题,生成相应的GPL证明。该语言模型使用了一种新颖的训练方法,叫做对抗性证明生成,它能够产生更加多样和有挑战性的证明。

具体来说,该方法包括以下几个步骤:

首先他们使用了一个已有的几何证明生成器,叫做GeoGebra,它能够根据给定的几何问题,生成一些简单的GPL证明,作为语言模型的初始训练数据。

他们使用了一个对抗性的策略,让语言模型和一个几何证明检查器,叫做Coq,相互竞争。具体来说,语言模型会尝试生成一些新的GPL证明,而几何证明检查器会尝试检查它们的正确性。如果语言模型生成的证明是正确的,它就会得到正向的奖励,否则就会得到负向的惩罚。通过这样的方式,语言模型会不断地学习和改进,生成更加复杂和有趣的证明,而几何证明检查器也会不断地提高它的检查能力和标准。

最后他们使用了一个自监督的策略,让语言模型自己生成一些新的几何问题,然后再用自己生成的GPL证明来解决它们。通过这样的方式,语言模型会不断地扩展和丰富它的几何知识和方法,而不依赖于人类的指导或示范。

图 3:AlphaGeometry 合成数据生成过程。

a,我们首先对一大组随机定理前提进行采样。b、我们使用符号推演引擎来获得推演闭包。这将返回语句的有向非循环图。对于图中的每个节点,我们执行回溯以找到其必要前提和依赖推论的最小集合。例如,对于最右边的节点“HA  ⊥  BC”,回溯返回绿色子图。c、最小前提和对应的子图构成一个综合问题及其解。在下面的例子中,E点和D点尽管与HA和BC的构造无关,但仍参与了证明;因此,它们是由语言模型作为辅助结构来学习的。

评估指标:为了评估和比较不同的人工智能系统在几何领域的能力和水平,他们使用了以下几个指标:

正确率:指的是人工智能系统生成的GPL证明被几何证明检查器接受的比例,反映了人工智能系统的准确性和可靠性。

长度:人工智能系统生成的GPL证明的平均字符数,反映了人工智能系统的简洁性和效率。

多样性:人工智能系统生成的GPL证明的平均编辑距离,反映了人工智能系统的创造性和灵活性。

可读性:人工智能系统生成的GPL证明被人类数学家评分的平均分数,反映了人工智能系统的可理解性和友好性。

03 实验结果和分析

数据集:他们使用了IMO的30个几何问题作为测试集,这些问题都是从2005年到2019年的IMO中选取的,它们的难度和复杂度都很高,要求参赛者有着扎实的几何基础和丰富的几何技巧。他们还使用了GeoGebra生成的一亿个几何问题和证明作为训练集,这些问题和证明的难度和复杂度都比较低,主要用于语言模型的初始训练。

对比系统:他们使用了以下几个对比系统来和AlphaGeometry进行比较:

GPT-4:这是一个基于Transformer的大型语言模型,它能够根据给定的文本,生成相应的续写。它是目前最先进的语言模型之一,它在多个自然语言处理的任务上都有着优异的表现。他们使用了GPT-4的一个预训练模型,然后在GPL的训练集上进行了微调,使之能够生成GPL证明。

GeoGebra:这是一个已有的几何证明生成器,它能够根据给定的几何问题,生成一些简单的GPL证明。它是一个基于规则的系统,它使用了一些固定的几何规则和算法,来寻找和构造几何证明。

人类:这是一些来自不同国家和地区的人类数学家,他们都有着丰富的几何教育和研究的经验,他们能够根据给定的几何问题,生成一些高质量的GPL证明。他们也是本文的评估者之一,他们会对不同的人工智能系统生成的GPL证明进行打分和评价。

结果分析:他们对不同的人工智能系统和人类生成的GPL证明进行了详细的分析,发现了以下的一些特点和问题:

AlphaGeometry:它能够生成一些高质量的GPL证明,它们既能被几何证明检查器接受,也能让人类数学家理解和验证。它的证明过程通常包括以下几个步骤:定义点、线、角等;使用已知条件;使用几何定理或公理;使用平分线、相等角、相似三角形等性质;使用断言和证毕。它的证明风格通常比较正规和系统,它会使用一些高级的几何概念和定理,例如塞瓦定理、梅涅劳斯定理、帕斯卡定理等,来简化和优化证明过程。它的证明难度通常比较高,它能够解决一些人类数学家觉得困难的问题,例如2005年的第六题和2019年的第一题等。然而,它也有一些不足之处,例如它有时会生成一些冗余或复杂的证明,它有时会使用一些不必要或不合适的几何概念和定理,它有时会忽略一些简单或直观的证明方法,它有时会出现一些语法或逻辑的错误等。

GPT-4:它能够生成一些看似合理的GPL证明,它们能够让人类数学家大致理解,但是它们都不能被几何证明检查器接受,因为它们都存在一些严重的错误和缺陷。它的证明过程通常比较混乱和随意,它会使用一些不相关或不正确的几何规则和符号,例如它会把点和线混淆,它会把角度和弧度混淆,它会把相等和相似混淆等。它的证明风格通常比较简单和直接,它会使用一些基本的几何概念和定理,例如欧几里得公理、三角形的内角和、勾股定理等,来尝试证明问题,但是它往往会忽略一些重要的细节和条件,导致证明不完整或不正确。它的证明难度通常比较低,它只能够解决一些简单或常见的几何问题,例如2005年的第一题和2006年的第四题等,而对于一些复杂或特殊的几何问题,它完全没有头绪,例如2005年的第六题和2019年的第一题等。

GeoGebra:它能够生成一些正确的GPL证明,它们能够被几何证明检查器接受,但是它们很难让人类数学家理解和欣赏,因为它们都过于冗长和复杂。它的证明过程通常比较机械和繁琐,它会使用一些低级的几何规则和算法,例如坐标系、向量、三角函数、解方程等,来计算和证明问题,但是它往往会忽略一些高级的几何概念和定理,例如塞瓦定理、梅涅劳斯定理、帕斯卡定理等,导致证明过程不够优雅和简洁。它的证明风格通常比较乏味和无趣,它会使用一些冗余或无用的几何符号和注释,例如它会给每个点和线都标上一个编号,它会给每个步骤都加上一个说明等。它的证明难度通常比较中等,它能够解决一些常规或标准的几何问题,例如2005年的第二题和2006年的第一题等,但是对于一些非常规或非标准的几何问题,它往往会失败,例如2005年的第六题和2019年的第一题等。

人类:他们能够生成一些优秀的GPL证明,它们既能被几何证明检查器接受,也能让人类数学家理解和赞赏,因为它们都具有高度的正确性、简洁性、多样性和可读性。他们的证明过程通常比较清晰和有条理,他们会使用一些合适的几何概念和定理,例如塞瓦定理、梅涅劳斯定理、帕斯卡定理等,来优化和简化证明过程。他们的证明风格通常比较优雅和有趣,他们会使用一些有意义或有美感的几何符号和注释,例如他们会给一些特殊的点和线取一些有意义的名字,他们会给一些重要的步骤加上一些解释或提示等。他们的证明难度通常比较高,他们能够解决所有的几何问题,无论是简单的还是复杂的,无论是常见的还是特殊的,例如2005年的第六题和2019年的第一题等。

图4:使用 IMO 人类参赛者的公开分数衡量解决问题的难度,并将其与相应的 AlphaGeometry 证明长度进行绘制。

结果表明,对于人类得分最低的三个问题,AlphaGeometry 也需要非常长的证明和语言模型构建的帮助才能解决。然而,对于更简单的问题(人类平均得分 > 3.5),我们观察到 人类平均得分和 AlphaGeometry 证明长度之间没有相关性( p = -0.06)。

04 贡献和意义

提出了一个新的人工智能系统,叫做AlphaGeometry,它能够使用一种自定义的语言,叫做GPL,来解决和证明IMO的几何问题,达到了接近于金牌获得者的水平。这是人工智能在几何领域的一个重大突破,也是人工智能在数学领域的一个重要进展。

设计了一种新的语言,叫做GPL,它有着类似于计算机编程语言的严格语法,既可以被计算机轻松地检查,也可以让人类理解。这是一种有效的几何问题和证明的表示和理解的方法,也是一种有利于人工智能和人类之间的交流和合作的方法。

使用了一种新的训练方法,叫做对抗性证明生成,它能够产生更加多样和有挑战性的证明。这是一种有效的人工智能在几何领域的学习和提升的方法,也是一种有利于人工智能和人类之间的竞争和创新的方法。

使用了一种新的评估指标,包括正确率、长度、多样性和可读性,它们能够全面地反映人工智能在几何领域的能力和水平。这是一种有效的人工智能在几何领域的评估和比较的方法,也是一种有利于人工智能和人类之间的学习和改进的方法。

局限

虽然论文取得了一些令人印象深刻的成果,但是它也存在一些局限和不足。

数据集:论文使用的数据集是IMO的30个几何问题,这些问题虽然具有一定的代表性和难度,但是它们并不能涵盖所有的几何领域和知识,也不能反映所有的几何问题和证明的类型和特点。因此论文的结果可能存在一些偏差和局限性,也可能无法泛化到更广泛和更复杂的几何场景和任务。

语言模型:论文使用的语言模型是基于GPT-4的一个变种,它虽然具有强大的文本生成和理解能力,但是它也存在一些缺陷和问题,例如它可能会生成一些不符合几何规则和逻辑的证明,它可能会忽略一些简单或直观的证明方法,它可能会出现一些语法或逻辑的错误等。因此,论文的语言模型可能需要更多的优化和改进,也可能需要更多的监督和指导,以提高它的准确性和可靠性。

评估指标:论文使用的评估指标包括正确率、长度、多样性和可读性,它们虽然能够全面地反映人工智能在几何领域的能力和水平,但是它们也存在一些主观性和不确定性,例如它们可能会受到不同的几何证明检查器和人类数学家的影响和偏好,它们可能会存在一些不一致和不公平的情况。因此,论文的评估指标可能需要更多的客观性和稳定性,也可能需要更多的标准化和规范化,以提高它们的可信度和公正性。

展望

论文为未来的研究和发展提供了一些方向和机会。

数据集:论文可以使用更多和更丰富的几何问题和证明作为数据集,例如可以从其他的数学竞赛或教材中收集和生成更多的几何问题和证明,也可以从其他的几何领域或应用中收集和生成更多的几何问题和证明,以增加数据集的覆盖度和多样性,也以提高数据集的质量和难度。

语言模型:论文可以使用更先进和更专业的语言模型,例如可以使用更大和更强的语言模型,如GPT-5或GPT-6等,来提高语言模型的文本生成和理解能力,也可以使用更针对和更适合的语言模型,如基于图神经网络或知识图谱的语言模型等,来提高语言模型的几何表示和推理能力。

评估指标:论文可以使用更多和更细致的评估指标,例如可以使用更多的几何证明检查器和人类数学家,来提高评估指标的可靠性和公正性,也可以使用更多的维度和层次,来提高评估指标的全面性和深入性,例如可以考虑人工智能在几何领域的创造性、灵活性、鲁棒性、可解释性等方面的表现和水平。(END)

参考资料:https://www.nature.com/articles/s41586-023-06747-5

噬元兽(FlerkenS)是一个去中心化的个人AI数字价值容器,同时也是数字经济的新型资产捕捉器和转化器,用数据飞轮为用户提供无边界的数字化、智能化和资产化服务。

噬元兽(FlerkenS)构建AI市场、AI发布器和一个在通用人工智能(AGI)上建设可扩展的系统,AI-DSL让不同类型和领域的AI应用和服务可以相互协作和交互,通过RAG向量数据库(Personal Vector Database)+ Langchain技术方案(Langchain Technology Solution)+大模型的技术实现路径,让用户获得个性化的AI服务,在分布式的网络环境里与AI技术下的服务商实现点到点的连接,建设一个智能体和经济体结合的数智化整体。

波动世界(PoppleWorld)是噬元兽平台的一款AI应用,采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品,采用Web3分布式技术建设一套采集用户情绪数据并通过TOKEN激励聚合形成情感垂直领域的RAG向量数据库,并以此训练一个专门解决用户情绪管理的大模型,结合Agents技术形成情感类AI智慧体。在产品里植入协助用户之间深度交互提供情绪价值的社交元素,根据用户的更深层化的需求处理准确洞察匹配需求,帮助用户做有信心的购买决定并提供基于意识源头的商品和服务,建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用。

0 阅读:0

独角也有噬元兽

简介:感谢大家的关注