谷歌展示了其 Big Sleep 大型语言模型(LLM)智能体的能力,该智能体在 SQLite 中发现了一个此前未知的可利用内存安全问题。
谷歌表示,一个大型语言模型项目能够发现 SQLite 中的一个漏洞,而其研究人员使用传统的模糊测试却未能发现同样的漏洞。
这家科技巨头在 6 月份分享了 “小憩计划”(Project Naptime)的相关细节,该计划旨在评估大型语言模型的攻击性安全能力。此后,“小憩计划” 演变成了一个名为 “大睡”(Big Sleep)的项目,它是谷歌 “零计划”(Project Zero)团队和 DeepMind 团队合作开展的。
上周五,谷歌宣布仍处于研究阶段的 Big Sleep 大型语言模型智能体成功识别出了其首个现实世界中的漏洞,即 SQLite 开源数据库引擎中一个可利用的基于栈的缓冲区溢出漏洞。
该问题于 10 月初被发现,SQLite 开发人员在漏洞披露后的数小时内就对其进行了修补。用户并未面临风险,因为该漏洞是在尚未正式发布的代码中发现的。
然而,据谷歌称,这是一个值得关注的发现,可能是人工智能智能体在现实世界软件中发现可利用内存安全问题的首个实例。
发现 SQLite 漏洞的过程是让 Big Sleep 智能体审查代码的近期提交内容,并尝试找到一个与作为起始点提供给该智能体的一个近期已修补漏洞相似的安全问题。
谷歌发布的博客文章描述了人工智能在发现 SQLite 漏洞之前所采取的步骤。
随后,谷歌的研究人员试图使用模糊测试来识别同样的漏洞,但经过 150 个 CPU 小时的模糊测试后仍未发现该缺陷。该公司指出,几年前其美国模糊测试实验室(AFL)模糊测试器在发现 SQLite 漏洞方面相当有效,但现在 “似乎该工具已经达到了自然饱和点”。
谷歌表示:“在配备合适工具的情况下,当前的大型语言模型能够进行漏洞研究。然而,我们想再次强调,这些都是高度实验性的结果。Big Sleep 团队的立场是,目前,针对特定目标的模糊测试器在(发现漏洞方面)很可能至少同样有效。”
人工智能在网络安全行业的应用日益广泛,包括用于软件漏洞研究。上周,威胁情报公司 GreyNoise 将发现广泛部署的物联网摄像头中利用关键漏洞企图的功劳归于一个由人工智能驱动的工具。
谷歌并非唯一一家利用大型语言模型来发现漏洞的公司。人工智能安全公司 Protect AI 已经开发出一种静态代码分析器,它利用大型语言模型来检测并解释复杂的多步骤漏洞。
其他公司也一直在研究大型语言模型智能体如何利用已知和未知的漏洞。
关注【黑客联盟】带你走进神秘的黑客世界