在当前的人工智能爆炸时代,我们面临的主要挑战之一是人工智能有时会犯错误。更重要的是,许多人工智能工具的黑箱特性意味着捕捉这些错误并理解它们发生的原因可能非常困难。
OpenAI最近在一篇基于该公司一篇研究论文的博客文章中讨论了这个问题——以及一个潜在的解决方案。在这里,该公司发布了CriticGPT——这是一个基于GPT-4架构的模型,可以识别和突出ChatGPT生成响应中的不准确性,特别是在编程任务中。
OpenAI的研究人员发现,当人类审核员使用CriticGPT来评估ChatGPT的代码输出时,他们的表现在60%的情况下超过了没有CriticGPT帮助的人。这项工作的意义远远超出了单纯的错误检测,它可以重塑我们如何进行人工智能训练、评估和部署。
深入研究细节,使用人类反馈强化学习(RLHF)对CriticGPT进行了训练。这是一种类似于ChatGPT本身使用的方法。该方法涉及人工智能训练师手动将错误插入到ChatGPT生成的代码中,然后对这些插入的错误提供反馈。这个过程中OpenAI发现,在63%的自然发生的bug中,培训师更喜欢使用CriticGPT而不是ChatGPT。这是由于CriticGPT产生更少的小的抱怨,以及CriticGPT不经常产生幻觉的事实。
研究发现,与其他属性(细节或全面性)相比,识别特定的、预定义的bug比评估代码质量或有效性的其他方面更直观。
论文讨论了两种类型的评估数据:人为插入的错误和人为检测到的错误。这种双重方法提供了对不同场景下的CriticGPT性能的更全面的理解,包括人为引入的错误和自然发生的错误。但是,当分析包含参考错误描述的人为插入错误的数据时,一致性大大提高了。
这种一致的模式表明,清楚地识别错误为评估提供了更具体的环境,允许开发者做出更一致的判断。但还引起了对人工智能生成的意见进行一致评估的困难,特别是在处理代码质量的其他方面时。
此外,OpenAI指出CriticGPT并没有完成所有的工作。他们观察到,人类开发者经常保留或修改人工智能生成的意见,这表明人类专业知识和人工智能援助之间存在协同关系。
显然,这里还有更多的工作要做,但OpenAI的CriticGPT朝着减少ChatGPT等模型产生的错误率迈出的一大步。