DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

研发家 | 2026-01-12 0

2025年9月17日,DeepSeek-R1论文以封面文章形式登上Nature杂志,这是全球首个通过顶级期刊独立同行评审的主流大语言模型。

这篇论文从2月14日投稿到正式发表,足足经历了8位外部专家5个月的严格审查。

今天咱们就来好好聊聊这篇论文第二版里藏着的技术干货,看看大模型研发到底有哪些新突破。

说到大模型训练,业内一直头疼PPO算法的局限,传统PPO在处理大规模数据时,价值模型经常跑偏,就像用指南针在磁场紊乱区导航,走着走着就偏了方向。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

DeepSeek团队另辟蹊径搞出的GRPO算法,直接把价值模型给"咔嚓"掉了。

GRPO最绝的是用组内排名思路做优势估计,简单说,就是把模型生成的答案分组打分,通过比较同一组内不同答案的好坏来调整参数。

打个比方,以前老师改作业是挨个给分,现在是把作业分成小组,先比出组内优劣再给分,效率和准确性都提升不少,在MATH任务测试里,GRPO直接实现"开箱即用"。

传统PPO得反复调参才能勉强出结果,GRPO第一次跑就达到了相当不错的水平,这波操作确实让不少同行眼前一亮,原来强化学习还能这么玩。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

光有好算法还不够,DeepSeek-R1的训练基础设施也下了功夫,整个架构拆成四大模块:Rollout负责生成样本,Inference处理推理请求,Rule-basedReward专门打分,Training模块管参数更新,四个模块各司其职,又能协同工作。

他们搞的异步调度和显存动态卸载策略,简直是为大模型训练量身定做,就像搬家时合理规划车辆和路线,既不浪费空间又不耽误时间。

还有那个Multi-TokenPrediction组件,能一次性预测多个token,相当于原本一次搬一块砖,现在能一次搬一摞,效率自然上去了,最让人意外的是训练成本。

增量训练总花费约29.4万美元,这在大模型领域算是相当克制了,其中RL阶段占了大头,但相比其他动辄上千万美元的项目,这笔钱花得确实精明。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

说到训练过程,DeepSeek-R1的四阶段流水线堪称教科书级别的操作,第一阶段纯RL训练就搞出了"AhaMoment"现象,模型突然像打通任督二脉,数学能力飙升。

但问题也来了,生成内容可读性差,还经常混杂多种语言,活像个刚学说话的孩子,无奈之下团队启动第二阶段,先搞冷启动SFT再上RL。

这步相当于给模型请了个语文老师,把表达能力提上来了,到第三阶段又玩起拒绝采样,专门过滤差答案,同时扩大SFT规模,让模型既能解题又会聊天。

最后全场景RL阶段,把各种奖励机制揉到一起,才算大功告成,中间检查点的性能变化也挺有意思。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

Dev1版本指令遵循能力上去了,AIME竞赛分数却掉了,典型的顾此失彼,Dev2版本把推理性能拉了回来,甚至超过最初的R1-Zero。

到Dev3版本才算摸到天花板,各方面性能都达到最佳状态,做研究哪有一帆风顺的,DeepSeek团队也踩了不少坑。

他们对比蒸馏和强化学习发现,中小规模模型用蒸馏性价比更高,就像小店面没必要搞连锁管理系统。

关于模型规模和推理能力的关系,他们发现推理能力涌现确实有门槛,但不是规模越大就一定越好,本来想靠PRM和MCTS提升复杂推理能力,后来发现效果有限。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

这告诉我们,AI研发不是堆技术就能成,还得讲究适配性,这些经验教训,比单纯的技术突破更有价值。

安全问题始终是大模型绕不开的坎,DeepSeek-R1从训练到部署搞了套组合拳。

训练时用SafetyRewardModel盯着,就像给模型装了个道德指南针,部署层面又加了外部风险控制系统,相当于给模型配了个安检员。

多维度安全测试结果显示,模型在大部分场景表现不错,但在对抗性攻击面前还是有点脆,这也正常,AI安全本就是场持久战。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

团队坦诚承认,模型在结构化输出和工具调用方面还有短板,纯RL方法对奖励信号的依赖也让人头疼,如此看来,大模型未来发展得在几个方向使劲。

技术上要继续琢磨怎么提升性能同时降成本,毕竟不是谁都烧得起钱,透明度和安全性的平衡也得把握好,藏着掖着不行,全裸奔也危险。

对付复杂任务,可能得给纯RL找个好搭档,比如结合外部工具或者知识图谱,DeepSeek-R1这篇论文最难得的是透明度。

把训练细节、成本构成、甚至失败经验都抖了出来,这在大模型领域可不多见,这种开放态度,比技术突破本身更有示范意义。

 
DeepSeek突然更新R1论文,暴增64页,能公开的全公开了

毫无疑问,大模型研发就像在迷雾中前行,每一步都得摸着石头过河,DeepSeek-R1的探索告诉我们,既要敢于颠覆传统,又得保持务实态度。

未来的路还长,技术创新、安全保障、应用拓展,哪样都不能偏废,咱们就等着看,下一个登上Nature封面的AI模型,又能玩出什么新花样。

赞一个

分享:
打开微信扫一扫
0
版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
更多服务
招商合作
请您完善以下信息,我们会尽快与您联系!
论文投稿
参加会议
合作办会
期刊合作
论文辅导
科研绘图
论文翻译润色
论文查重
其他
提交
专家招募
个人信息
联系信息
提交
在线客服
商务合作
专家招募
常见问题
手机端
扫描二维码
与学术大咖共探知识边界
出版无忧
投稿无忧
翻译服务
润色服务
自助查重
排版校对
科研绘图