Nature重磅:全球首个!AI 靠自己发论文上了 Nature ,比人类还牛

研发家 | 2026-04-02 0

2024 年 8 月,Sakana AI 公司、不列颠哥伦比亚大学、牛津大学的研究人员组成的研究团队在预印本平台 arXiv 推出首个旨在全面自动化科学流程的人工智能工具——“AI 科学家”(AI scientist),其能够完成科学发现的整个周期——从提出想法到验证想法再到撰写科学论文。

如今,一年多过去了,可供研究人员使用的 AI 研究助手种类繁多,其中一些也能够像“AI 科学家”那样进行自主研究甚至撰写科学论文。

而现在,“AI 科学家”再次完成了一个新壮举——其完成了首个通过人类专家同行评审的完全 AI 生成论文,从研究想法、编写代码、运行实验、绘制和分析数据,到撰写完整的科学论文,均由“AI 科学家”自主完成。

 

2026 年 3 月 25 日,研究团队在国际顶尖学术期刊 Nature 上发表了题为:Towards end-to-end automation of AI research 的研究论文,更新了 2024 年的这篇描述“AI 科学家”的预印本论文,对其能力进行了适度调整,进一步展示了“AI 科学家”将生成的三篇原创研究论文提交给了一个顶级机器学习会议——国际学习表征会议(ICLR),其中一篇论文通过人类专家同行评审后被接收,且评分超过了该会议接收论文的平均值。

这一成就展示了 AI 在科学贡献方面日益增强的能力,并预示着科学研究方式可能发生的范式转变。研究团队表示,如果负责任地开发,“AI 科学家”等自主系统能够极大地加速科学发现。

什么是“AI 科学家”?

“AI 科学家”是一个端到端自动化科学研究全过程的 AI 系统,由一系列“智能体”(Agent)构成,这些智能体建立在现有的大语言模型(LLM)之上(例如 GPT-4o 或 Claude Sonnet 4)。

它能够自主完成从研究构思到论文发表的整个科研生命周期,包括——

1、生成研究想法:在用户指定的机器学习研究子领域中,迭代生成高水平的研究方向和假设;

2、执行实验:编写代码、运行实验、可视化结果;

3、撰写论文:按照标准机器学习会议论文格式,使用 LaTeX 模板逐节撰写完整论文;

4、进行同行评审:通过自动评审系统评估论文的科学质量。

这个“AI 科学家”有两种工作模式:基于模板的模(使用人类提供的代码模板作为起点)和模板自由的模式(完全自主生成代码并进行更广泛的科学探索)。

突破:AI 论文通过同行评审

 

为了验证“AI 科学家”的实际能力,研究团队进行了一项大胆的实验:将完全由“AI 科学家”生成的研究论文提交给国际学习表征会议(ICLR)的一个研讨会进行同行评审。ICLR 是由图灵奖得主 Yoshua Bengio 和杨立昆于 2013 年创立的深度学习领域学术会议,其与 NeurIPS、ICML 并称为机器学习领域主要会议,在谷歌学术会议期刊排名中位列全球前十。

 

整个实验过程完全透明且符合伦理规范:

  • 会议组织者事先知情并同意;

  • 人类评审专家被告知有部分论文是 AI 生成的,但不知道具体是哪几篇;

  • 所有 AI 生成的论文在评审后都会被撤回,避免在科学界建立明确标准前设定先例。

 

结果令人震惊:“AI 科学家”提交的三篇 AI 生成论文中,有一篇获得了人类评审专家的平均分 6.33 分(个人评分分别为 6、7、6),成为第一篇完全由 AI 生成并通过了标准的科学同行评审流程的研究论文,这一分数超过了该研讨会接收论文的平均分数。这篇题为:Compositional regularization: Unexpected obstacles in enhancing neural network generalization(组合正则化:增强神经网络泛化能力中的意外障)的论文报告了一个负面结果,与研讨会关注“有趣负面结果”的主题高度契合。

自动评审系统:与人类评审者媲美

 

“AI 科学家”不仅能够生成论文,还配备了“自动评审器”来评估论文质量。这个自动评审系统的表现如何?

根据论文中的对比数据,自动评审器在关键指标上与人类评审者表现相当甚至更优:

  • 平衡准确率:自动评审器 69% vs 人类评审者 66%;

  • F1 分数:自动评审器 0.62 vs 人类评审者 0.49;

  • 曲线下面积(AUC):自动评审器 0.69 vs 人类评审者 0.65。

     

即使在训练数据截止日期后的 2025 年的新论文上,自动评审器仍保持 66% 的平衡准确率,与人类评审者水平相当。

系统工作原理:四阶段科研流程

“AI 科学家”按照四个主要阶段顺序工作——

第一阶段:想法生成与筛选,系统迭代生成研究想法档案,为每个方向生成描述性标题、研究理由和实验计划。然后通过连接语义学者API和网络访问工具,筛选掉与现有文献过于相似的想法。

第二阶段:实验执行与可视化,系统执行提出的实验计划,可视化结果,并为后续写作做好笔记记录。在模板自由模式下,系统会从零开始生成代码,并通过树搜索优化实验执行。

第三阶段:论文撰写,系统使用笔记和图表,按照会议论文模板逐节填充内容,通过查询获取相关文献,并在 20 轮比较中为论文添加适当引用。

第四阶段:自动评审,生成的论文由自动评审系统评估,提供数值评分、优缺点列表和接受/拒绝的二元决策。

意义与局限:科学研究的范式转变

这项研究的成功标志着 AI 在科学贡献能力上的重大进步,可能预示着科学研究方式的范式转变。如果负责任地开发,这种自主系统可以极大地加速科学发现。

当然,研究团队也坦诚指出了当前系统的局限性:三篇提交论文中只有一篇被接受,且研讨会接受率(70%)远高于主会议(32%);提交的论文尚不能达到顶尖论文的标准;常见失败模式包括想法幼稚、实现错误、方法严谨性不足、实验错误和多种类型的幻觉。

未来展望与伦理考量

随着 AI 系统能力的指数级增长和成本的指数级下降,“AI 科学家”的性能有望大幅提升。未来,同样的方法可以应用于其他科学领域,例如自动化化学实验室。

然而,自动化论文生成能力也带来了重要的伦理和社会关切——可能压垮同行评审系统、人为夸大研究资历、未经适当认可地挪用他人想法、消除科学家工作岗位、进行不道德或危险的实验等等。

研究团队强调,在科学界建立明确的披露和评估标准前,需要谨慎推进这类 AI 系统的应用,确保它们被用于促进而非破坏科学诚信。

“AI 科学家”生成并通过同行评审的论文,是 AI 发展史上的一个重要里程碑。它不仅是技术能力的展示,更是对传统科研模式的深刻挑战。当 AI 开始涉足人类智慧的最高殿堂——科学发现时,我们既看到了加速进步的巨大潜力,也面临着重新定义科研伦理边界的紧迫任务。

论文链接:

https://www.nature.com/articles/s41586-026-10265-5

 

赞一个

分享:
打开微信扫一扫
0
版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
更多服务
招商合作
请您完善以下信息,我们会尽快与您联系!
论文投稿
参加会议
合作办会
期刊合作
论文辅导
科研绘图
论文翻译润色
论文查重
其他
提交
专家招募
个人信息
联系信息
提交
在线客服
商务合作
专家招募
常见问题
手机端
扫描二维码
与学术大咖共探知识边界
出版无忧
投稿无忧
翻译服务
润色服务
自助查重
排版校对
科研绘图