
11 月中旬,一条最初只是零星流传在技术社区的消息,逐渐演变成 AI 学界的一场集体震荡:用于全球大量计算机科学会议的同行评审平台 OpenReview,被发现存在一个漏洞,可以绕过匿名机制,直接查询到评审人的真实身份。
真正让事件引发广泛关注的,并不是漏洞本身,而是它所波及的规模——数以万计的论文评审数据被抓取、传播,其中包括即将在 2026 年于里约热内卢举行的国际学习表征会议(ICLR 2026)。对于一个长期以“双盲评审”为核心制度的顶级 AI 会议而言,这无异于触及了同行评审最根本的信任基石。
匿名制度被突破
在 OpenReview 的设计中,论文作者和评审人彼此匿名,评审意见公开但身份隐藏,这是为了确保评审者可以不受职业关系、学术地位和潜在报复的影响,给出坦率评价。正因如此,匿名性被视为计算机科学会议评审制度的“基础设施”。
但这一次,漏洞让任何人都可以通过一个简单的查询,直接揭示评审人的身份。尽管 OpenReview 在 ICLR 组委会于 11 月 27 日发现问题并通报后,于一小时内完成了修复,但为时已晚——约 1 万篇论文相关的作者和评审信息已经被系统性抓取并在网络上传播。
随之而来的,不只是制度层面的尴尬,更是对个人研究者的直接冲击。多位研究者在社交媒体和接受 Science 采访时表示,有评审人收到了威胁信息,要求其修改原有评审意见,甚至伴随恐吓和敲诈行为。ICLR 随后确认确实存在对评审人的威胁,但强调这些行为并非来自论文作者本人,而是来自冒充作者的第三方。
这一细节耐人寻味:它说明匿名性一旦被打破,评审体系暴露给的并不仅是“当事学者”,而是整个更复杂、更不可控的外部环境。
这不是一次孤立的安全事故
如果仅将这次事件理解为一次“技术漏洞”,可能会低估它的意义。多位受访学者指出,真正的问题在于,这起事件发生在 AI 研究高速膨胀、同行评审已接近承载极限的背景下。
ICLR 的投稿数量变化极具象征意义:2024 年约 7000 篇,2025 年约 1.2 万篇,而到 2026 年,几乎达到 2 万篇。用加州大学伯克利分校计算机科学家 Hany Farid 的话说,这种增长“几乎是指数级的”,而同行评审系统并没有相应完成结构性升级。
为了应对投稿洪流,ICLR 2026 大幅扩展了评审池,将大量投稿作者——包括资深研究者、博士生,甚至本科生——纳入评审体系。每位评审人需在约两周时间内完成 5 篇论文的评审任务,这在以往几乎难以想象。
结果并不令人意外。ICLR 公布的 75,800 份评审显示,论文整体评分较往年明显下降,反映出投稿质量的下滑。同时,越来越多迹象表明,评审本身的质量也在下降。
当评审开始“像 AI 写的”
或许最具争议性的发现来自第三方分析。AI 检测公司 Pangram 在 11 月估计,ICLR 2026 约 21% 的评审意见可能由大型语言模型(LLMs)生成。
其中一份引发广泛讨论的评审长达 3000 多字,罗列了 40 个所谓“弱点”,并向作者提出了 40 个问题——形式上详尽,内容却缺乏真正的判断与重点。这类评审恰恰暴露了当前评审体系的一个悖论:在工作量被极度压缩的情况下,评审者反而更容易依赖 AI 工具来“完成任务”,而非进行真正的学术评估。
从这个角度看,评审身份泄露事件并非孤立,而是与评审质量下降、制度超负荷运转、AI 工具滥用等问题深度交织。
“透明”的诱惑与制度边界
泄露的数据也引发了另一种声音:既然数据已经外泄,是否可以借此分析评审中的潜在不正当行为?例如学术圈长期被质疑的“互评小圈子”或利益交换。
有学者认为这次事件提供了一个“罕见的机会”,让人们看到真实的评审行为模式。
但这种想法也遭到反对。有学者对此指出,这类调查应由会议程序主席或通过正当渠道获取数据的人来完成,而不是建立在对隐私和制度破坏的基础之上。ICLR 方面也明确表示,将对任何试图串通评审的作者或评审采取拒稿甚至纪律处分。
这场争论本身,恰恰揭示了同行评审制度的两难:透明度与匿名性之间,并不存在简单的平衡点。
信任是否还能被修复?
作为回应,OpenReview 表示其团队对事件“深感不安”,并强调信任和匿名性是平台存在的根本。值得注意的是,在 3200 多个使用 OpenReview 的会议中,约 97% 未受此次漏洞影响。
更重要的是,学界并未因此集体“弃用”这一平台。相反,NeurIPS 会议背后的非营利组织公开宣布向 OpenReview 提供 50 万美元支持,用于提升其基础设施和系统韧性。OpenReview 主任 Andrew McCallum 将其形容为“对同行评审未来的投资”。
或许,这正是事件中最值得注意的一点:尽管问题严重,但研究共同体并未选择放弃制度,而是试图修补它。
一个不那么悲观的结尾
尽管事件暴露了诸多结构性问题,但也有学者注意到一个被忽略的事实:在身份泄露之后,绝大多数作者和评审并没有陷入公开冲突。大多数讨论仍然是在善意框架下进行,骚扰行为主要来自会议体系之外的第三方。
或许,这次漏洞事件的真正意义,不在于它揭示了谁的身份,而在于它迫使整个 AI 研究社区重新思考:在一个被 AI 技术本身重塑的时代,我们究竟要用什么方式,来守护科学评审的可信度。
