实测近5000篇论文！3位中国博士生发现惊喜结果

文 | 《中国科学报》见习记者王兆昱

谷歌DeepMind创始人之一沙恩·莱格（Shane Legg）认为，超越人类水平的人工智能将在2025年左右出现。

而有3位华人博士生，在让GPT-4充当“审稿人”，审阅3000多篇Nature论文和1700多篇顶会论文后，惊喜地发现，在提供论文评审意见这件事上，AI有望达到类似人类审稿人的水平。

这是梁伟欣、张钰晖和曹瀚成花了5个月完成的研究。作为美国斯坦福大学计算机科学系的博士生，他们切身感受到计算机领域论文“井喷式增长”带来的审稿压力，于是踏出了GPT-4在“审稿”方面尝试的“第一步”。

10月初，这项研究以论文的形式公布在arXiv平台上，目前处于“顶刊在投”阶段。论文共同第一作者之一曹瀚成告诉《中国科学报》，他希望未来有更多同方向的研究，进一步解决AI审稿的局限性。

曹瀚成受访者供图

论文“井喷式增长”，审稿压力“太难顶”

“我们的初心非常简单，就是看看大家玩了很久的ChatGPT、大模型在提供论文评审意见上有没有一些用处，是否能够缓解人工审稿的压力。”曹瀚成回忆道。

近年来，随着科学的发展、各国对科研投入力度的加大，科研论文的数量也快速增长，世界仿佛进入了一个“增量式科学时代”。随之而来的是与日俱增的审稿压力——许多论文压根儿找不到人来审，还有许多论文无法及时获得有价值的评审意见。

而在计算机科学这种最“年轻”、迭代最快的领域中，这一现象更为突出。

各种数据都显示，计算机科学论文的增长正呈现“井喷式”的态势。如ICLR是深度学习的顶尖会议，在2018年时投稿量为960篇，而到了2023年，投稿量已经涨到了4966篇。而CVPR是计算机视觉方面的顶级会议，今年收到9155篇论文投稿，相比于去年有12%的增长。

不同于生物、物理等需要长时间积累才“够格”当审稿人的学科，计算机科学尤其是人工智能方向云集着年轻的审稿人：十几年前，博士生审稿已经成为常态；而近几年，本科生也逐渐加入这一队伍。这些“资历尚浅”的学生对新兴领域的了解，甚至比老派的学者教授更为深入，给学科的发展注入了新鲜血液。

对于年轻的博士生梁伟欣、张钰晖和曹瀚成而言，参与顶级会议论文审稿已经成为他们的“家常便饭”。据曹瀚成描述，在许多AI会议上，只要你投一篇论文，就意味着要签署“同意书”，志愿成为审稿人中的一员。一场会议下来，除了操心自己的论文，还要审七八篇乃至别人更多的论文，这让所有参与者感受到压力不小。

“在我们的经历中，包括身边的导师、朋友，大家都在抱怨，为什么要审的论文这么多？”曹瀚成告诉《中国科学报》。

另一方面，许多论文的作者早已开始对收到的审稿意见“心有不满”。明眼人都看得出来，这是因为有些审稿意见太不走心了。

有学者在社交平台上吐槽：很多审稿意见在否定论文时，仅仅给出简单的一句“我不相信”或“我不认为”，却没有提出具体的论据或参考。

学者在社交平台上吐槽

这位学者还举出例子，以反映评审有多不走心：“这篇论文的优势是X，Y，Z；另外，它也有一些缺陷，分别是X，Y，Z……”

也有学者在知乎上吐槽：

学者在知乎上吐槽

“有时能明显感觉到审稿人没有认真读我们的文章，并且，最后论文的收录与否好像很随机。” 曹瀚成说。他将审稿质量下滑的原因再次归结于论文数量的“井喷式增长”，致使审稿人应接不暇。

一次闲聊中，梁伟欣、张钰晖和曹瀚成三人不约而同地想到：或许最新的AI技术，可以帮助打通审稿难问题的“任督二脉”。

就这样，三人开始着手验证这个“很容易被想到”的想法。

梁伟欣图源梁伟欣个人网站

“AI在主要审稿意见上与人类保持一致”

他们进行的第一项大规模验证是：使用GPT-4对3096篇Nature期刊论文与1709篇ICLR机器学习会议论文进行“AI审稿”。

这是一项“宏大”的工程，但操作的思路却很清晰：首先设计一个自动化的框架，将一篇篇论文的PDF版本输入其中，然后为GPT-4构建特定的提示，让它生成对每篇论文的反馈。

“在对比GPT-4与人类给出的审稿意见后，我们得到了一些有趣的结论。”曹瀚成说。

首先，GPT-4给出的审稿意见与人类的意见高度重合；其次，GPT-4可以成功识别出论文中比较重大的问题，并在重大意见上与人类审稿人保持一致。以上两点表明，AI已经具有一定的准确性和潜在的实用性。

除此之外，GPT-4可以产生“非一般反馈”，也就是说，它不再局限于“走马观花”地产生通用于大批论文的反馈意见，而是针对每篇论文有了个性化的反馈。或许，未来的AI真的可以像人类一样实现“个性化思考”。

研究人员还发现了AI与人类的“互补性”——AI与人类给出审稿意见时的侧重点有所不同，如，在论文的研究意义与新颖性方面，AI发表评论的概率是人类的7-10倍。这种差异凸显了未来AI与人类合作的潜在优势。

就像深度学习“三巨头”之一，图灵奖得主、美国纽约大学终身教授杨立昆（Yann LeCun）所说的那样：“人工智能不是消灭人类创造力的力量，而是增强人类创造力的力量。”

学科交叉，助力5个月“又快又好”完成研究

除了直接使用技术化手段将论文“喂给”GPT-4，这些年轻人还进行了另外一项非常重要的研究：对308名学者进行了用户调查，看看这些学者如何看待AI给出的反馈。

张钰晖图源张钰晖个人网站

这第二项研究，离不开团队中偏文科、社会学领域人员的灵感与努力，而学科交叉的助力，也是整篇论文能在5个月之内“又快又好”完成的秘诀。

“我们研究的问题本身是一个交叉性非常强的问题，团队中各位作者拥有文理的不同学科背景，大家各有分工。这第二项研究是用户测试，就是收集使用者的主观感受，包括AI审稿是否会对用户产生行为上的影响、情感上的影响，或数据隐私等伦理范畴的担忧。”曹瀚成如是说。

曹瀚成表示，用机器解决问题，最终真正的落脚点还是在“人”，与“人”打交道的质性研究法是社会学家的强项。通过问卷的设计和发放，研究团队能真正了解，未来的使用者对AI审稿有何见解。

调查发现，无论是经验丰富的研究人员还是新手，均对GPT-4生成的审稿意见有相似的满意度。有41.9%的被调查者认为GPT-4比许多人类的审稿意见更有帮助，50.5%的被调查者表示愿意重复使用该评估系统。

有被调查者认为，比起所谓的“领域权威”和人类审稿人，他们更能从AI给出的意见中获益。对于一些来自传统贫困地区的研究人员，他们的论文更可能被期刊退稿，得不到同行评审的资源与机会，AI审稿对他们尤其有帮助。

还有被调查者评价道：“AI强调了一些人类审稿人没有指出的局限性，作为作者，我们意识到了这一点，并对此有所期待，但最后将其指出来的不是人类，而是AI，所以这很有趣。”“GPT建议我进行可视化，还要求解决数据隐私问题。这两点都很重要，人类审稿人却忽略了。”

这些被调查者还发现了AI审稿存在的局限性。最主要的局限性有二：产生的反馈有时模糊、不具体，以及无法提供“可操作”的改进建议。目前来看，人类专家的反馈仍然是严格评审的基石。

“我们的研究并非要用AI取代人类审稿人，而是希望对论文作者能有所帮助，毕竟AI永远也不会取代人类的高质量审稿意见。”曹瀚成笑着说，“距离电影中真正的‘通用型人工智能’，我们还有很长的路要走。谁也无法预测《西部世界》是否会变成现实。”

幸福双城资讯网

实测近5000篇论文！3位中国博士生发现惊喜结果

依白评教育