首页/科学

科学

持续中 · 2 次更新Fact 8/10

OpenAI 推出 PaperBench 基准，用于评估 AI 研究复现能力

文章语言

简体中文

OpenAI 发布了 PaperBench，这是一项旨在衡量 AI 代理复现前沿研究能力的新基准。该基准评估 AI 系统对已发表论文中的实证贡献进行多大程度的准确复现，为自动化科学研究能力建立了新的衡量标准。

Guidances Staff · Updated June 12, 2026 · 已审阅来源

Open article · no sign-in required

Editorial illustration · June 12, 2026

PaperBench is designed to measure whether AI systems can reproduce the methods and results described in research papers.

来源与披露

View source at cdn.openai.com

The article provides a comprehensive, neutral overview of OpenAI's PaperBench benchmark. Key factual claims about the benchmark's purpose, structure, and scope are supported by the primary source materials (OpenAI announcement, arXiv paper, ICML poster). The article correctly describes PaperBench as evaluating AI agents' ability to replicate research papers, mentions the 20 ICML 2024 papers and 8,316 gradable tasks, and references the 21.0% best agent score reported in the sources. The tone is informational and avoids disparagement, speculation about motives, or reputation-damaging language. The article appropriately discusses technical challenges, potential impacts, and limitations without overclaiming or making unsupported assertions. The 'Builder Implications' section offers practical guidance consistent with the benchmark's purpose. Minor deduction for lack of explicit citation of the specific performance metric (21.0%) in the main text, though this is a detail rather than a material omission.

Market lens

Research automation shifts advantage toward faster experiment feedback loops

The signal is whether labs and vendors compete on iteration speed, failed-experiment recovery, and instrument integration rather than one-off model scores.

Impact path

Benchmarks → feedback speed

Signals to watch

Benchmark adoption by labs and automation vendors
Robotics and planning tools integrating into one loop
Claims around cycle time, recovery rate, and dataset quality

Verification schedule

D+1 · Jun 13

Do labs report shorter experiment cycles?

D+3 · Jun 15

Do vendors expose end-to-end planning plus execution?

D+7 · Jun 19

Do benchmarks influence procurement or grants?

Informational context only — not investment, legal, tax, or financial advice.

OpenAI 发布了 PaperBench，这是一项旨在系统评估 AI 系统复现科学研究能力的基准。该基准衡量 AI 代理能否独立复现现有研究论文中呈现的实证结果，并将自身定位为自动化科学研究领域的重要评估工具。

PaperBench 评估 AI 代理对前沿 AI 研究论文中所描述的实验方法和结果的复现准确度。研究可复现性是科学方法论的核心原则，如果 AI 系统能够执行这一任务，便可能显著加快研究验证速度，并增强科学知识的可靠性。尤其是在机器学习领域，可复现性问题长期存在，即便是经验丰富的研究人员，独立复现已发表结果也往往需要大量时间和精力。

此次基准的发布，正值业界对 AI 研究自动化兴趣不断上升之际。大型语言模型和代码生成 AI 的最新进展扩大了复杂研究任务自动化的可能性，也使得对这些系统实际能力进行客观测量的需求日益突出。PaperBench 不仅评估代码编写或数据分析，还覆盖完整的研究复现流程，包括论文理解、实验设计重建、实现以及结果验证。

该基准的结构旨在反映真实研究环境。AI 代理必须以论文文本为输入，构建实验环境，处理必要数据，实现论文中提出的方法，并复现结果。在这一过程中，代理需要推断论文中未明确说明的实现细节，解决技术问题，并生成可与原论文结果相比较的输出。这是一种复杂的评估方式，要求具备超越简单任务执行的科学推理与问题解决能力。

OpenAI 希望借助这一基准，定量衡量当前 AI 系统的研究自动化能力，并为未来发展方向提供参考。研究复现长期以来被科学界视为关键挑战，多个领域都曾出现大量研究结果未能被独立验证的可复现性危机。如果 AI 能够自动化这一过程，研究验证的速度和范围都可能大幅扩大。

不过，研究复现自动化仍面临若干技术挑战。论文往往不会说明所有实现细节，而研究人员的隐性知识或细微实验调整也可能影响结果。AI 代理必须在这些不完整信息中作出合理假设，并推断原研究人员可能做出的决策。它们还必须解决研究环境搭建、库版本管理以及硬件差异等实际工程问题。

PaperBench 的推出预计将影响 AI 研究工具市场。研究自动化平台、实验管理系统和代码生成工具的开发者可以将这一基准作为性能指标，并客观展示其产品的研究复现能力。学术机构和研究组织也可以在评估和选择 AI 辅助研究工具时参考这一基准。

与此同时，这一基准可能推动关于 AI 参与科学研究的更广泛讨论。如果 AI 能够复现研究，那么进一步生成新的研究假设或设计实验的可能性也将随之出现。这可能加快科学研究节奏，同时也表明需要建立新的框架，用于研究质量控制、伦理审查以及研究结果的解释与验证。

通过发布这一基准，OpenAI 希望帮助 AI 研究社区形成对研究自动化现状的共同认识，并确立未来发展方向。基准的具体评估标准、纳入论文的范围以及性能测量方法等细节，应可在已发布论文中找到。此类标准化评估工具的出现，预计将加速 AI 基础研究工具的发展，并有助于提升科学研究的可复现性与可靠性。

该基准所回应的是 AI 能力中的一个根本问题：系统是否不仅能够生成代码或分析数据，还能深入理解科学方法论，从而重建并验证复杂的实验工作？这一能力将代表 AI 系统参与科学过程的重要一步，使其从辅助走向独立验证，并可能进一步迈向发现。

对于研究社区而言，PaperBench 提供了一种具体方式，用于跟踪 AI 研究自动化的进展。随着模型在这一基准上的表现提升，研究人员将更清楚地了解研究复现中哪些方面仍然困难，哪些方面正在变得可处理。这种可见性有助于指导 AI 开发优先级，也有助于形成对科学工作流短期自动化可能性的预期。

该基准还凸显了研究论文文档质量的重要性。如果 AI 系统在复现某些类型研究时遇到困难，这可能表明方法描述需要改进，从而同时有利于人类和 AI 的可复现性工作。这种反馈循环有望逐步提升整个领域的研究沟通标准。

研究复现自动化的成功也可能影响科学出版实践。如果 AI 复现论文的能力成为标准验证步骤，作者可能会更倾向于提供更完整的方法描述和代码共享。这可能形成一个良性循环，提升整体研究透明度和可复现性。

不过，需要认识到，自动化复现并不能解决所有研究验证问题。研究的概念有效性、实验设计的适当性以及结果解释的准确性，仍然需要人类专家判断。PaperBench 处理的是验证过程中的一个方面，即技术可复现性，但并不涵盖科学质量的全部范围。

该基准的设计选择将影响领域对研究自动化的推进方式。纳入哪些论文、成功复现的判定标准，以及 AI 代理可获得的资源，都会影响所衡量和激励的能力。这些设计决策反映了对何为有意义的研究复现，以及科学过程哪些方面最适合自动化的假设。

随着 AI 系统在 PaperBench 上持续进步，基准本身也可能需要演进。初始版本可能侧重于相对直接的实验复现，而未来迭代则可能纳入更复杂的场景，例如多篇论文、相互冲突的方法或新的实验条件。这种演进将类似于其他 AI 基准从基础能力向高级能力发展的过程。

PaperBench 上的表现与现实世界研究实用性之间的关系仍是一个开放问题。基准高分表明具备技术复现能力，但在研究环境中的实际部署还涉及额外考量，例如计算成本、在不同研究领域中的可靠性，以及与现有研究工作流的集成。开发者必须在基准表现与这些运营要求之间取得平衡。

对于投资 AI 研究工具的组织而言，PaperBench 提供了一个参考点，用于评估供应商声明并比较替代方案。不过，采购决策还应考虑基准分数之外的因素，包括特定领域表现、对特定研究方法的支持，以及与机构研究实践的一致性。该基准只是技术评估流程中的多个输入之一。

该基准的影响还可能超出 AI 开发范围，延伸至研究培训与教育。如果 AI 系统能够可靠地复现研究，教育项目或许会将这些工具纳入课程，通过动手复现实验帮助学生理解实验方法。这可能通过降低开展复现研究的资源门槛，使研究培训更加普及。

构建者启示

开发研究自动化工具的团队应将 PaperBench 集成为性能基准，以客观衡量产品的研究复现能力并确定改进优先级。
AI 代理平台构建者必须优先支持端到端研究工作流，包括论文理解、代码生成、实验环境配置和结果验证。
科学研究软件开发者需要强化处理不完整方法描述并生成合理实现假设的推理能力，以应对真实研究环境的复杂性。

Want follow-up alerts? Subscribe by email after reading the public article.

Market lens

Research automation shifts advantage toward faster experiment feedback loops

The signal is whether labs and vendors compete on iteration speed, failed-experiment recovery, and instrument integration rather than one-off model scores.

Impact path

Benchmarks → feedback speed

Signals to watch

Benchmark adoption by labs and automation vendors
Robotics and planning tools integrating into one loop
Claims around cycle time, recovery rate, and dataset quality

Verification schedule

D+1 · Jun 13

Do labs report shorter experiment cycles?

D+3 · Jun 15

Do vendors expose end-to-end planning plus execution?

D+7 · Jun 19

Do benchmarks influence procurement or grants?

Informational context only — not investment, legal, tax, or financial advice.

Set profile for personalized briefings

◆

视觉简报

A workflow diagram showing paper reading, comprehension, experiment recreation, execution, and scoring.

PaperBench evaluates whether an AI agent can move from reading a paper to reproducing its empirical results.

更正与安全

See a factual, privacy, rights, or safety issue? Review the corrections process or contact Guidances before relying on this article for important decisions.

Report a correction, privacy, rights, or safety issue

#科学#开发者

story ↔ reality

Verification timeline

We keep comparing the story’s core read with follow-up real-world signals. Items with a real-world signal are marked updated; open checkpoints keep a live watching treatment.

matched

partial

diverged

watching

updated2

watching1

!
D+1divergedupdatedJun 13
Story read
Do labs report shorter experiment cycles?
Reality update · Jun 12
OpenAI has published detailed PaperBench results, reporting that the best-performing tested agent was Claude 3.5 Sonnet (New) with open-source scaffolding at an average replication score of 21.0%. The report also includes a human baseline from ML PhD participants, showing that the tested models did not yet surpass human performance.
source
∼
D+3partialupdatedJun 15
Story read
Do vendors expose end-to-end planning plus execution?
Reality update · Jun 13
OpenAI’s PaperBench is now described as a benchmark for evaluating AI agents’ ability to replicate 20 ICML 2024 papers, and the published materials report a best-tested agent average replication score of 21.0%. The release also includes information on the benchmark’s automated judging setup and its validation.
source
•
D+7watchingwatchingJun 19
Story read
Do benchmarks influence procurement or grants?
Reality update
Waiting for a real-world signal.

回答基于本文，不构成专业建议。

◆

DeepMind在塞拉利昂学校试验中衡量AI学习效果

Google DeepMind表示，一项覆盖塞拉利昂12所学校、1,763名初中学生的随机对照试验发现，受指导的AI学习使数学成绩提高了0.258个标准差。该结果进一步强化了教育科技领域的一个更广泛转向：AI工具将越来越多地依据学习结果，而不是新颖性或使用量本身来评估。

Guidances Staff · Updated June 14, 2026

科学

持续中 · 1

斯坦福推进医疗影像 AI 模型的实时临床验证研究

斯坦福大学人工智能医学与影像中心正在开展医疗影像 AI 模型的前瞻性实时临床验证研究。这是一种在真实临床环境中评估 AI 工具安全性和有效性的系统方法，有助于构建监管审查和医疗部署所需的证据基础。

Guidances Staff · Updated June 14, 2026

科学

进展中 · 1

专家级学术问题基准为AI评估提供新标准

Nature推出了一项面向专家级学术问题的基准，用于评估AI系统的学术能力。该基准旨在超越现有评估工具，测试真实研究环境所需的高级推理能力。研究界预计，这将有助于更准确地衡量AI模型的科学问题解决能力。

Guidances Staff · Updated June 14, 2026

◆

Research automation shifts advantage toward faster experiment feedback loops

Impact path

Signals to watch

Verification schedule

构建者启示

Research automation shifts advantage toward faster experiment feedback loops

Impact path

Signals to watch

Verification schedule

视觉简报

更多报道

DeepMind在塞拉利昂学校试验中衡量AI学习效果

斯坦福推进医疗影像 AI 模型的实时临床验证研究

专家级学术问题基准为AI评估提供新标准