首页学术会议论文辅导出版无忧

自助查重科研资讯期刊大数据

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

研发家 | 2026-01-12 0

2025年9月17日，DeepSeek-R1论文以封面文章形式登上Nature杂志，这是全球首个通过顶级期刊独立同行评审的主流大语言模型。

这篇论文从2月14日投稿到正式发表，足足经历了8位外部专家5个月的严格审查。

今天咱们就来好好聊聊这篇论文第二版里藏着的技术干货，看看大模型研发到底有哪些新突破。

说到大模型训练，业内一直头疼PPO算法的局限，传统PPO在处理大规模数据时，价值模型经常跑偏，就像用指南针在磁场紊乱区导航，走着走着就偏了方向。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

DeepSeek团队另辟蹊径搞出的GRPO算法，直接把价值模型给"咔嚓"掉了。

GRPO最绝的是用组内排名思路做优势估计，简单说，就是把模型生成的答案分组打分，通过比较同一组内不同答案的好坏来调整参数。

打个比方，以前老师改作业是挨个给分，现在是把作业分成小组，先比出组内优劣再给分，效率和准确性都提升不少，在MATH任务测试里，GRPO直接实现"开箱即用"。

传统PPO得反复调参才能勉强出结果，GRPO第一次跑就达到了相当不错的水平，这波操作确实让不少同行眼前一亮，原来强化学习还能这么玩。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

光有好算法还不够，DeepSeek-R1的训练基础设施也下了功夫，整个架构拆成四大模块：Rollout负责生成样本，Inference处理推理请求，Rule-basedReward专门打分，Training模块管参数更新，四个模块各司其职，又能协同工作。

他们搞的异步调度和显存动态卸载策略，简直是为大模型训练量身定做，就像搬家时合理规划车辆和路线，既不浪费空间又不耽误时间。

还有那个Multi-TokenPrediction组件，能一次性预测多个token，相当于原本一次搬一块砖，现在能一次搬一摞，效率自然上去了，最让人意外的是训练成本。

增量训练总花费约29.4万美元，这在大模型领域算是相当克制了，其中RL阶段占了大头，但相比其他动辄上千万美元的项目，这笔钱花得确实精明。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

说到训练过程，DeepSeek-R1的四阶段流水线堪称教科书级别的操作，第一阶段纯RL训练就搞出了"AhaMoment"现象，模型突然像打通任督二脉，数学能力飙升。

但问题也来了，生成内容可读性差，还经常混杂多种语言，活像个刚学说话的孩子，无奈之下团队启动第二阶段，先搞冷启动SFT再上RL。

这步相当于给模型请了个语文老师，把表达能力提上来了，到第三阶段又玩起拒绝采样，专门过滤差答案，同时扩大SFT规模，让模型既能解题又会聊天。

最后全场景RL阶段，把各种奖励机制揉到一起，才算大功告成，中间检查点的性能变化也挺有意思。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

Dev1版本指令遵循能力上去了，AIME竞赛分数却掉了，典型的顾此失彼，Dev2版本把推理性能拉了回来，甚至超过最初的R1-Zero。

到Dev3版本才算摸到天花板，各方面性能都达到最佳状态，做研究哪有一帆风顺的，DeepSeek团队也踩了不少坑。

他们对比蒸馏和强化学习发现，中小规模模型用蒸馏性价比更高，就像小店面没必要搞连锁管理系统。

关于模型规模和推理能力的关系，他们发现推理能力涌现确实有门槛，但不是规模越大就一定越好，本来想靠PRM和MCTS提升复杂推理能力，后来发现效果有限。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

这告诉我们，AI研发不是堆技术就能成，还得讲究适配性，这些经验教训，比单纯的技术突破更有价值。

安全问题始终是大模型绕不开的坎，DeepSeek-R1从训练到部署搞了套组合拳。

训练时用SafetyRewardModel盯着，就像给模型装了个道德指南针，部署层面又加了外部风险控制系统，相当于给模型配了个安检员。

多维度安全测试结果显示，模型在大部分场景表现不错，但在对抗性攻击面前还是有点脆，这也正常，AI安全本就是场持久战。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

团队坦诚承认，模型在结构化输出和工具调用方面还有短板，纯RL方法对奖励信号的依赖也让人头疼，如此看来，大模型未来发展得在几个方向使劲。

技术上要继续琢磨怎么提升性能同时降成本，毕竟不是谁都烧得起钱，透明度和安全性的平衡也得把握好，藏着掖着不行，全裸奔也危险。

对付复杂任务，可能得给纯RL找个好搭档，比如结合外部工具或者知识图谱，DeepSeek-R1这篇论文最难得的是透明度。

把训练细节、成本构成、甚至失败经验都抖了出来，这在大模型领域可不多见，这种开放态度，比技术突破本身更有示范意义。

DeepSeek突然更新R1论文，暴增64页，能公开的全公开了

毫无疑问，大模型研发就像在迷雾中前行，每一步都得摸着石头过河，DeepSeek-R1的探索告诉我们，既要敢于颠覆传统，又得保持务实态度。

未来的路还长，技术创新、安全保障、应用拓展，哪样都不能偏废，咱们就等着看，下一个登上Nature封面的AI模型，又能玩出什么新花样。

赞一个

分享:

打开微信扫一扫

0

版权及免责声明：本网站所有文章除标明原创外，均来自网络。登载本文的目的为传播行业信息，内容仅供参考，如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权

< 上一篇：旗下30种医学期刊遭仿冒，知名出版单位敦促假网站向受骗者退钱下一篇：突击办会，“消化经费”——高校年底“会海”调查 >

更多服务

推荐会议

热门标签

#高校动态 #学术不端与撤稿观察 #科研萌新 #学术会议 #EI会议论文 #SCI #文献综述 #论文开题 #论文写作 #学术交流

最新文章

NEW

马龙，拟录取为211博士！

院士发布声明：均为不实信息

里程碑突破！南医大团队重磅《NEJM》IF=78.5：全球首个乙肝功能性治愈药物诞生！乙肝治疗进入“治愈时代”

奥运会冠军王柳懿入职深圳大学，职称为副教授

“536分捡漏进北大的河南考生”近日已在北大顺利硕士毕业！

青年基金C类扩容50%！“青椒”的春天来了？

教育部通知！首提“避免行政化倾向”

北大医学部：媒体曝光的“五个女博士”5位创始人是北大毕业博士，但品牌与学校无关

热点资讯

HOT

巨星陨落，两位院士逝世！

2025年中科院分区表发布：学术期刊格局生变

马龙，拟录取为211博士！

院士发布声明：均为不实信息

里程碑突破！南医大团队重磅《NEJM》IF=78.5：全球首个乙肝功能性治愈药物诞生！乙肝治疗进入“治愈时代”

奥运会冠军王柳懿入职深圳大学，职称为副教授

学术资源免费领取

加微信领取20G科研大礼包！
更有众多热门

关于我们

公司简介

关于我们

商务合作

会议合作

期刊合作

研享客-校园大使

帮助与支持

常见问题

在线客服

服务邮箱：customer_service@yanfajia.com

公众号二维码

服务号二维码

RDLINK研发家版权所有 Copyright©2023 All rights reserved

增值电信业务许可证：鄂B2-20251209 鄂ICP备2023022199号

粤公网安备44010502003623号

请您完善以下信息，我们会尽快与您联系！

姓名 *

手机号码 *

工作单位

职称

意向 *

论文投稿

参加会议

合作办会

期刊合作

论文辅导

科研绘图

论文翻译润色

论文查重

其他

备注信息

提交

您可以同时加入 *

个人信息

姓名 *

工作单位

学历

最后毕业院校

专业方向

专业领域关键词

是否硕博生导师

学术经历及成果
（多选） *

联系信息

邮箱 *

手机号码 *

微信号

ORCID

ResearcherID

已发表论文DOI号

个人主页网址

提交

在线客服

商务合作

专家招募

常见问题

手机端

出版无忧