ArXiv:AAAI-26对22,977篇论文进行AI审稿——审稿人评价优于人工审稿
为什么重要
AAAI-26进行了首次会议规模的AI辅助审稿实验——所有22,977篇投稿都在人工审稿的基础上获得了一份明确标注的AI生成审稿意见。程序委员会成员对AI审稿在技术准确性和研究建议方面的评分高于人工审稿。
AAAI-26究竟发生了什么?
AAAI-26(人工智能促进协会)——全球最重要的人工智能会议之一——进行了一项前所未有的实验。主要赛道的所有22,977篇投稿,在标准人工审稿的基础上都获得了一份AI生成的审稿意见。AI审稿意见有明确标注,以便审稿人和作者知道它们来自机器。
该系统使用了配备工具集成和安全措施的先进语言模型(LLM),所有审稿意见在一天内生成完毕——比通常需要数周的人工流程快得多。
令人惊讶的结果:AI超越了人类
根据程序委员会成员和论文作者的调查,AI审稿意见在两个关键类别中获得了比人工审稿更高的评分:技术准确性和研究建议质量。
这并不意味着AI审稿是完美的,或者可以取代人工审稿人。该实验被设计为补充,而非替代——每篇论文仍然经历标准的人工审稿流程。然而,参与者认为AI反馈比普通人工审稿更有用这一事实,为学术出版的未来开启了重要问题。
研究人员还开发了一个新的评估基准,显示该系统在识别科学弱点方面显著优于基本LLM方法——这表明配备工具的专业化方法比简单地将论文发送给语言模型能给出更好的结果。
为什么这对学术界很重要?
学术出版面临一个日益严重的问题:会议投稿数量呈指数级增长,而合格审稿人的数量跟不上节奏。结果是审稿意见肤浅、等待时间漫长、标准不一致。
AI审稿不能完全解决这个问题,但可以作为第一道过滤器,在作者等待人工审稿的同时为其提供快速的技术反馈。对于程序委员会而言,AI可以识别论文中的明显问题——从数学错误到缺失引用——将人工审稿人从例行工作中解放出来,专注于更深入的分析任务。
论文作者Joydeep Biswas、Sheila Schoepp和Gautham Vasan得出结论,「最先进的AI方法现在已经可以在会议规模上对科学审稿做出重大贡献」,并将未来研究方向指向改善人类与AI在研究评估中的协作。
本文由人工智能基于一手来源生成。