公布 NeurIPS 2025 最佳论文奖
Announcing the NeurIPS 2025 Best Paper Awards
1. 简介
最佳论文奖委员会成员由程序主席(Program Chairs)以及数据集与基准赛道主席(Database and Benchmark track chairs)提名;他们从机器学习各研究方向遴选出杰出的研究者。上述提名随后经大会总主席(General Chairs)以及下一代与无障碍主席(Next Generation and Accessibility Chairs)批准。
最佳论文奖委员会的任务,是从大会主赛道(Main Track)与数据集与基准赛道(Datasets & Benchmark Track)中选出少数影响力突出的论文。
在此,我们很高兴宣布:今年的最佳论文与入围论文奖共授予 7 篇开创性论文,其中包括 4 篇最佳论文(其中 1 篇来自数据集与基准赛道)以及 3 篇入围论文。这 7 篇论文展示了在扩散模型理论、自监督强化学习、大语言模型注意力机制、LLM 推理能力、在线学习理论、神经缩放律,以及语言模型多样性评测方法等方向的最新进展。
获奖论文在下文按标题的字母顺序排列。
1.1 获奖概览
| 奖项 | 论文 | 外链 |
|---|---|---|
| 最佳论文 |
2.1 人工蜂巢思维:语言模型(及其扩展)的开放式同质化
Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
|
OpenReview |
| 最佳论文 |
2.2 用于大语言模型的门控注意力:非线性、稀疏性与摆脱 Attention Sink
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
|
OpenReview |
| 最佳论文 |
2.3 用于自监督强化学习的 1000 层网络:扩展深度可启用新的达成目标能力
1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
|
OpenReview |
| 最佳论文 |
2.4 扩散模型为何不记忆:训练中的隐式动态正则化作用
Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training
|
OpenReview |
| 入围论文 |
3.1 强化学习真的能让 LLM 的推理能力超越基础模型吗?
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
|
OpenReview |
| 入围论文 |
3.2 传导式在线学习的最优犯错界
Optimal Mistake Bounds for Transductive Online Learning
|
OpenReview |
| 入围论文 |
3.3 叠加带来稳健的神经缩放
Superposition Yields Robust Neural Scaling
|
OpenReview |
2. 最佳论文(Best Papers)
最佳论文2.1 人工蜂巢思维:语言模型(及其扩展)的开放式同质化
Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
摘要
大语言模型(LM)在生成多样化、类人的创意内容方面往往表现不足,这引发了一个担忧:如果人们反复接触到相似的模型输出,人类思维可能会在长期内趋于同质化。然而,可扩展的评测方法仍然有限,尤其是当我们希望评估的不仅是随机数、姓名生成等狭窄任务,或不仅是对单一模型反复采样时。为弥补这一缺口,我们提出 Infinity-Chat:一个包含 2.6 万条多样、真实世界、开放式用户查询的大规模数据集。这类问题往往有大量合理答案,并不存在唯一的“标准答案”。我们进一步提出了首个用于刻画语言模型开放式提示(prompt)全谱系的系统性分类法:包含 6 个顶层类别(例如创意内容生成、头脑风暴与构思),并细分为 17 个子类别。基于 Infinity-Chat,我们开展了对语言模型“模式崩塌”(mode collapse)的大规模研究,揭示开放式生成中显著的“人工蜂巢思维”(Artificial Hivemind)效应: (1) 模型内重复,即同一模型会持续生成相似回应;更明显的是 (2) 模型间同质化,即不同模型却产出惊人相似的输出。Infinity-Chat 还包含 31,250 条人类标注,覆盖绝对评分与成对偏好;每个样例都有 25 次独立的人类标注,使我们得以研究人群的集体偏好与个体化偏好在开放式查询上的差异。我们的发现表明:尽管当前最先进的语言模型、奖励模型以及基于语言模型的自动评审(LM judges)在整体质量上相当,但在面对会引发标注者“个体化偏好差异”的生成结果时,它们与人类评分的校准程度较差。总体而言,INFINITY-CHAT 提供了首个用于系统性研究真实世界开放式查询的大规模资源,揭示了可为缓解“人工蜂巢思维”带来的长期 AI 安全风险提供指导的关键洞见。
遴选委员会评语
本文为理解现代语言模型中的多样性、多元主义与社会影响作出了重要且及时的贡献。作者提出 Infinity-Chat:一个经过严格构建的基准,包含 2.6 万条真实世界开放式查询,并配有 3.1 万条密集的人类标注,使我们能够系统性评估创意生成、构思(ideation)以及主观偏好对齐等长期在 AI 评测中被忽视的维度。除发布珍贵数据集外,论文还通过首个全面的开放式提示分类法,以及覆盖 70 余个模型的大规模实证研究,给出了深入的分析洞见,揭示“人工蜂巢思维”效应:显著的模型内与模型间同质化,这对人类创造力、价值多元与独立思考带来长期风险并令人担忧。研究结果进一步暴露了当前奖励模型、自动化评审与多样化人类偏好之间关键的校准失配,凸显对齐与多样性之间的张力,并为未来在 AI 系统中保持异质性(heterogeneity)的研究奠定基础。总体而言,该工作为“以推动科学理解、应对紧迫社会挑战”为目标的数据集与基准树立了新的标杆,而不仅仅是提升技术指标。
最佳论文2.2 用于大语言模型的门控注意力:非线性、稀疏性与摆脱 Attention Sink
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
摘要
门控(gating)机制被广泛用于各类模型:从早期的 LSTM、Highway Networks,到近期的状态空间模型、线性注意力,乃至 softmax 注意力。然而,现有文献很少系统考察“门控”本身的具体作用。在本文中,我们通过全面实验系统性研究了“加入门控的 softmax 注意力”多种变体。具体而言,我们在一个包含 3.5 万亿 token 的数据集上训练了 15B 参数的专家混合(MoE)模型与 1.7B 参数的稠密模型,并对其中 30 种变体进行全面比较。我们的核心发现是:一个极其简单的改动——在缩放点积注意力(Scaled Dot-Product Attention, SDPA)之后引入“按头(head)区分”的 sigmoid 门控——能够稳定地提升性能。该改动还可增强训练稳定性、容忍更大的学习率,并改善缩放特性。通过比较不同的门控插入位置与计算变体,我们将其有效性归因于两点关键因素:(1) 在 softmax 注意力的低秩映射上引入非线性;(2) 施加依赖查询(query-dependent)的稀疏门控分数来调制 SDPA 输出。值得注意的是,我们发现这种稀疏门控可缓解 massive activation 与 attention sink,并提升长上下文外推性能。我们同时开源了相关代码(https://github.com/qiuzh20/gated_attention)与模型(https://huggingface.co/QwQZh/gated_attention)以促进后续研究。此外,最有效的 SDPA 输出门控已被用于 Qwen3-Next 模型(https://huggingface.co/collections/Qwen/qwen3-next)。
遴选委员会评语
本文的主要发现是:在稠密 Transformer 模型与专家混合(MoE)Transformer 模型中,只要在缩放点积注意力操作之后加入“按头区分”的 sigmoid 门控,就能持续提升采用 softmax 注意力的大语言模型性能。该结论得到 30 余次实验的支持——这些实验覆盖多种门控 softmax 注意力变体,并在使用 400B、1T 或 3.5T token 的大规模数据集上训练的 15B MoE 模型与 1.7B 稠密模型上进行验证。论文还包含细致的分析,表明作者推荐的门控形式能够提升大语言模型训练稳定性、降低注意力模型中广泛报告的“attention sink(注意力汇)”现象,并增强扩展上下文长度后的性能。该论文的主要建议易于实现;鉴于论文为这一架构改动提供了充分证据,我们预计这一想法会被广泛采用。本文工作量巨大,只有具备工业级计算资源才能完成;作者仍选择公开分享研究结果,这将推进社区对大语言模型注意力机制的理解——尤其在近年 LLM 相关科学成果开源分享趋于减少的大环境下,这一点尤为难能可贵。
最佳论文2.3 用于自监督强化学习的 1000 层网络:扩展深度可启用新的达成目标能力
1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
摘要
自监督学习的规模扩展推动了语言与视觉领域的重大突破,但在强化学习(RL)中,类似进展仍然难以复现。本文研究了一些能够显著提升自监督 RL 可扩展性的关键“构建模块”(building blocks),其中网络深度被证明是至关重要的因素。与近年来大多数 RL 论文仍依赖较浅架构(约 2–5 层)不同,我们展示了:将网络深度提升至最多 1024 层可以显著增强性能。我们的实验设定为无监督的目标条件(goal-conditioned)环境:既没有示范也没有奖励,智能体必须从零开始探索并学习如何最大化“到达指令目标”的概率。在模拟的运动控制与操作任务上评测,我们的方法让自监督的对比式 RL 算法性能提升了 $2\times$–$50\times$,并超过其他目标条件基线。加深模型深度不仅提高成功率,也在质上改变了学习到的行为模式。
遴选委员会评语
本文挑战了一项传统假设:强化学习(RL)所提供的信息不足以有效指导深度神经网络的海量参数,因此大型 AI 系统应主要依靠自监督训练,而 RL 仅用于微调。该工作提出了一个新颖且易于实现的 RL 范式,通过自监督与对比式 RL 来有效训练极深的神经网络。配套分析表明,RL 可以随着网络深度的增加高效扩展,从而涌现更复杂的能力。除展示令人信服的结果外,研究还提供了多项有用分析,例如强调在对比式 RL 中,对更深网络进行批量大小(batch size)扩展的重要作用。
最佳论文2.4 扩散模型为何不记忆:训练中的隐式动态正则化作用
Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training
摘要
扩散模型在各种生成任务上取得了显著成功。一个关键挑战是理解其避免记忆训练数据、实现泛化的机制。我们研究训练动态在从泛化到记忆的转变中所起的作用。通过大量实验与理论分析,我们识别出两个不同时间尺度:早期时间 $\tau_\mathrm{gen}$,此时模型开始生成高质量样本;以及更晚的时间 $\tau_\mathrm{mem}$,超过该时间后会出现记忆。关键的是,我们发现 $\tau_\mathrm{mem}$ 随训练集大小 $n$ 线性增长,而 $\tau_\mathrm{gen}$ 保持不变。这使得随着 $n$ 增大,存在一个不断扩大的训练时间窗口,模型在其中能够有效泛化——即使若训练继续超过该窗口,模型会表现出强记忆。只有当 $n$ 大到超过某个依赖于模型的阈值时,在无限训练时间下过拟合才会消失。这些发现揭示了一种训练动态中的隐式动态正则化,它使得即便在高度过参数化设置下也能避免记忆。我们的结论得到在真实与合成数据集上使用标准 U-Net 架构的数值实验,以及在高维极限下对可处理的随机特征模型的理论分析支持。
遴选委员会评语
本文对扩散模型训练中的隐式正则化动态给出了奠基性研究,通过将经验观察与形式化理论统一,得到一个有力结论。其关键发现是:定量识别出两个彼此区分且可预测的时间尺度——一个与数据集大小无关的早期泛化阶段(对应 $\tau_\mathrm{gen}$),以及一个随数据集规模线性增长、与记忆/过拟合相关的后期阶段(对应 $\tau_\mathrm{mem}$)。论文证明“有效泛化的训练时间窗口会随着数据集变大而扩大”并非仅是经验现象,而是可以通过随机矩阵理论推导随机特征模型的谱性质来严格解释。通过将扩散模型在实践中的成功直接关联到一个可证明的动态性质(对过拟合的隐式延后),该工作为理解现代生成式 AI 的关键机制提供了基础且可操作的洞见,并为研究泛化问题的分析深度树立了新的标杆。
3. 入围论文(Runners Up)
入围论文3.1 强化学习真的能让 LLM 的推理能力超越基础模型吗?
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
摘要
可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)最近在提升大语言模型(LLM)的推理表现方面取得了显著成效,尤其是在数学与编程任务上。人们普遍认为:类比传统 RL 通过探索帮助智能体学习新策略,RLVR 也能让 LLM 持续自我改进,从而获得超越相应基础模型能力的新型推理技能。在本文中,我们对 RLVR 的现状进行批判性审视:在不同模型家族、不同 RL 算法,以及数学/编程/视觉推理等多类基准上,系统性探测 RLVR 训练后的 LLM 的“推理能力边界”,并以较大 $k$ 值下的 pass@$k$ 作为评估指标。虽然 RLVR 提升了朝向正确解路径的采样效率,我们却惊讶地发现:现有训练并不会激发出根本性的新推理模式。我们观察到:当 $k$ 较小时(例如 $k=1$),RLVR 训练模型优于其基础模型;但当 $k$ 很大时,基础模型反而能获得更高的 pass@$k$ 得分。此外,随着 RLVR 训练推进,LLM 的推理能力边界往往会收窄。进一步的覆盖率与困惑度(perplexity)分析表明:RLVR 模型生成的推理路径,其实已经包含在基础模型的采样分布之中,这意味着其推理能力源自基础模型,并受其所界定。由此出发,将基础模型视为上界,我们的定量分析显示:6 种常见的 RLVR 算法表现相近,但距离“充分挖掘基础模型潜力”的最优状态仍相当遥远。对比之下,我们发现蒸馏(distillation)能够从教师模型引入新的推理模式,从而真正扩展模型的推理能力。综上,我们的发现表明:当前 RLVR 方法尚未充分释放 RL 在 LLM 中激发真正新颖推理能力的潜力。这也凸显了对更优 RL 范式的需求——例如持续规模扩展(continual scaling)以及多轮的智能体—环境交互——以解锁这一潜力。
遴选委员会评语
本文以极其扎实的实验与分析,给出了一个在大语言模型(LLM)研究中至关重要的“负结果”:它挑战了一个被广泛接受的基础假设——可验证奖励强化学习(RLVR)能够激发真正新的推理能力。论文表明,无论在何种模型家族、任务与算法设置下,RLVR 训练都主要是提升采样效率,而并未扩大基础模型本已具备的推理容量。RL 会收窄探索范围,被奖励的轨迹被放大,但更广阔的解空间反而缩小,这揭示 RLVR 是在基础分布之内进行优化,而非超越基础分布。这一发现意义重大,也希望能促使社区探索更根本的新 RL 范式,使其能够在巨大的行动空间中有效导航,并真正扩展 LLM 的推理能力。
入围论文3.2 传导式在线学习的最优犯错界
Optimal Mistake Bounds for Transductive Online Learning
摘要
我们通过严格量化传导式在线学习与标准在线学习之间的差距,解决了一个关于在线学习中无标签数据作用的 30 年开放问题。我们证明:对于任何 Littlestone 维度为 $d$ 的概念类 $\mathcal{H}$,传导式犯错界至少为 $\Omega(\sqrt{d})$。这相较于 Ben-David、Kushilevitz 与 Mansour(1995、1997)以及 Hanneke、Moran 与 Shafer(2023)给出的此前下界 $\Omega(\log \log d)$、$\Omega(\sqrt{\log d})$、$\Omega(\log d)$,实现了指数级改进。我们还证明该界是紧的:对任意 $d$,存在一个 Littlestone 维度为 $d$ 的概念类,其传导式犯错界为 $O(\sqrt{d})$。我们的上界也改进了 Ben-David 等(1997)此前最好的上界 $(2/3)\cdot d$。这些结果表明,传导式与标准在线学习之间存在平方级差距,从而凸显“提前获得无标签实例序列”的收益。这与 PAC 设置形成鲜明对比:在 PAC 中,传导式与标准学习具有相似的样本复杂度。
遴选委员会评语
本文在学习理论方面取得突破,凭借对一个 30 年开放问题的优雅、全面且决定性的解决,值得获得 NeurIPS 最佳论文入围奖。作者不仅精确给出了传导式在线学习的最优犯错界下界 $\Omega(\sqrt{d})$,还给出了与之紧匹配的上界 $O(\sqrt{d})$。由此建立了传导式与标准在线学习之间的平方级差距:这一结果相较所有此前的对数级下界实现了指数级跃迁,并鲜明地揭示了在该设置下无标签数据的理论价值——这一洞见与其在 PAC 学习中相对有限的作用形成对比。
其证明技术的新颖性与巧妙性同样令人印象深刻。为了构造下界,对手(adversary)采用了一种精心设计的策略:在“迫使学习者犯错”和“谨慎控制版本空间(version space)的收缩”之间保持平衡,并利用“树中的路径(paths in trees)”这一基础结构。上界部分(证明可以在 $O(\sqrt{d})$ 次错误内学得)则提出了一个创新的假设类构造,为非路径节点嵌入了“稀疏编码(sparse encoding)”:一种概率性设计,使得大多数非路径标签为 0,但极少数非零标签携带巨量信息。学习者利用该假设类的策略同样出色,它将多种非标准的复杂技术融为一体:通过“危险区最小化(Danger Zone Minimization)”来约束对手可呈现的实例序列;通过乘法权重方法(multiplicative weights)实施“拆分专家(Splitting Experts)”,处理某节点是否在路径上的不确定性;以及在从稀疏编码的非路径标签中获取足够信息后,策略性地“过渡到二分(Transition to Halving)”。这种由巧妙构造的假设类与高度自适应学习算法共同构成的精密互动,堪称理论分析与设计的典范。
入围论文3.3 叠加带来稳健的神经缩放
Superposition Yields Robust Neural Scaling
摘要
当今大语言模型(LLM)的成功依赖于“模型越大越强”的经验观察。然而,损失随模型规模按幂律下降的神经缩放律(neural scaling law)的起源仍不清楚。我们提出:表征叠加(representation superposition)——即 LLM 表征的特征数量多于其维度——可能是损失的关键贡献因素,并导致神经缩放。基于 Anthropic 的玩具模型,我们用权重衰减控制叠加程度,从而系统研究损失如何随模型规模缩放。当叠加较弱时,只有当数据特征频率服从幂律分布,损失才呈幂律下降;相反,在强叠加条件下,由于表征向量之间的几何重叠,在广泛的频率分布族上,损失通常会随模型维度的倒数缩放。我们验证了开源 LLM 运行在强叠加区间,且其损失按模型维度倒数缩放;Chinchilla 缩放律也与这一行为一致。我们的结果表明:表征叠加是神经缩放律的核心驱动因素,并为“何时可改进缩放律、何时会失效”等问题提供洞见。
遴选委员会评语
本文超越了对神经缩放律的经验观察——即随着模型规模、数据规模或计算资源增加,模型损失呈幂律下降——进一步证明表征叠加是支配这些规律的主要机制。作者引入一个受控的“玩具模型”,用以考察叠加与数据结构如何影响损失随模型规模的缩放,并表明在特征高度重叠的强叠加条件下,损失会稳定地随模型维度按倒幂律缩放。核心结论由一系列精心设计的实验支撑,并为这一重要研究方向提供了新的启发。
4. 结语与委员会
对这些论文的遴选体现了 NeurIPS 2025 所呈现的研究广度:覆盖生成式建模、强化学习、自然语言处理、学习理论、神经缩放,以及基准与评测方法。获奖论文主题的多样性展示了机器学习研究的活力与多面性。
我们向所有获奖者表示祝贺,并期待这些工作在今年 12 月的会议上展示!请注意,奖状将由分会场主席在论文对应的口头报告(oral)环节颁发。
我们也要向以下列出的最佳论文奖委员会成员致以感谢与敬意。
4.1 主赛道与数据集与基准赛道最佳论文奖委员会
- Jacob Andreas(MIT,美国)
- Sander Dieleman(Google DeepMind,英国)
- Dilek Hakkani-Tur(University of Illinois Urbana-Champaign,美国)
- Brian Kingsbury(IBM,美国)
- Mirella Lapata(University of Edinburgh,苏格兰)
- Vincent Lepetit(Ecole des Ponts ParisTech,法国)
- Ulrich Paquet(AIMES & Google DeepMind,非洲)
- Violet Peng(UCLA,美国)
- Doina Precup(McGill University,加拿大)
- Masashi Sugiyama(RIKEN & University of Tokyo,日本)
- Vincent Tan(National University of Singapore,新加坡)
- Yee Whye Teh(University of Oxford,英国)
- Xing Xie(Microsoft,中国)
- Luke Zettlemoyer(University of Washington/Meta,美国)