国际学习表征会议(ICLR)2026届大会的同行评审系统正遭遇大型语言模型(LLM)的广泛渗透。第三方机构的分析显示,在约7.6万份评审意见中,有21%被发现完全由AI生成,另有35%的意见在不同程度上获得了AI工具的辅助润色,而纯粹由人类撰写的评审意见仅占43%。这些由机器辅助或生成的评审意见往往篇幅较长且评分偏高,但频繁出现“幻觉引用”或指出论文中实际不存在的数值错误,引发了投稿作者在社交媒体上的集体不满.
为应对日益严峻的信任危机,ICLR组委会已发布了被形容为“史上最严”的系列管理规定。针对投稿作者,政策明确要求,若论文大量使用LLM但未进行声明,将面临直接的桌面拒稿(desk reject)。对于评审人员,虽然允许利用AI工具辅助工作,但强调评审人必须对其提交内容的真实性和准确性负全责,一旦发现虚假引用或无意义的“AI废话”,其本人投稿的论文也可能被拒绝。此外,大会还设立了举报通道,作者可以通过私信方式标记疑似AI生成的评审,程序主席将在未来两周内集中进行排查并公布处理结果.
会议主席坦承,当前人工智能领域呈指数级扩张,导致每位评审人员在两周内需审阅多达5篇论文,评审负荷远超以往,这是导致AI辅助写作在评审环节泛滥的结构性原因. ICLR 2026面临的这场“AI评审危机”凸显出,在大型语言模型成为评审过程一部分的背景下,学术界必须先行构建有效的规则和检测机制,以防止“幽灵评审”对同行评审制度的完整性和责任性构成挑战.