梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”

研发家 | 2026-01-04 0

2026年的第一天,DeepSeek 在 arXiv 上发布了一篇新论文《mHC: Manifold-Constrained Hyper-Connections》,提出了名为 mHC(流形约束超连接) 的宏观架构的创新。

听名字就很抽象,但若简单总结,这是 Transformer最底层组件残差连接(Residual Connection)的一次重要改进。

这不只是一个技术细节的优化,如果把它放到更大的背景下,事情会更有意思,残差连接是2015年何恺明提出的,此后十年间几乎没有根本性的改动。DeepSeek这次动的,是Transformer架构中最古老、也最基础的那块砖。

另外值得注意的是,DeepSeek创始人梁文锋也出现在论文的19位作者名单中。

1

十年接力:从何恺明到DeepSeek

要理解mHC的价值,需要先回顾一段技术演进史。

2015年,何恺明等人在微软亚洲研究院提出ResNet(残差网络)。 在此之前,神经网络越深、训练越困难,梯度消失问题几乎无解。残差连接的核心思想很简单:让信息可以"跳过"某些层直接传递,用公式表达就是y = x + F(x)。这个设计使训练上百层甚至上千层的网络成为可能,何恺明因此拿下CVPR 2016最佳论文奖。

2017年,Transformer 问世,残差连接成为标配。从 GPT 系列到 Claude,从 Llama 到 DeepSeek,几乎所有主流大模型都建立在这个基础之上。

图片
ResNet、Hyper-Connections(无约束)和 mHC(流形约束)的架构对比图。

2024年9月,字节跳动发表Hyper-Connections(超连接)论文。 研究者发现,传统残差连接虽然稳定,但信息通道的宽度受限,就像一条单车道公路,路面再平整,通行能力终究有限。他们提出将单一残差流扩展为多流并行架构,让不同深度的特征通过多条通道交换信息。实验显示,这能显著提升模型性能,在MoE模型上甚至实现了1.8倍的收敛加速。但问题随之而来,训练变得不稳定了。

而DeepSeek最新发布的mHC这篇论文要解决的,正是Hyper-Connections带来的稳定性问题。

从何恺明到字节再到DeepSeek,这是一场跨越十年的接力。

在Reddit上,有网友用一个比喻来解释这段演进:

就像织毛衣。以前我们只用单股线,容易打结也容易断。现在改用多股线一起织,毛衣更结实、花纹更漂亮。但问题是线太多容易乱成一团。所以我们发明了一个智能理线器,让多股线排列整齐,既保留了多股线的优点,又像单股线一样顺滑好织。

翻译一下就是,ResNet是单股线(稳定但通道有限),Hyper-Connections是多股线(性能更强但容易“乱”),mHC就是那个智能理线器。

1

Hyper-Connections为什么会“翻车”?

原始残差连接之所以稳定,核心在于保持了“恒等映射”属性,信号通过连接后,能量不会被放大。你输入多少,输出就是多少,像一个能量守恒系统。

但Hyper-Connections为了增强表达能力,引入了可学习的连接权重矩阵。这些矩阵打破了恒等映射的约束,导致几个严重问题:

· 信号爆炸:权重矩阵可能让信号每经过一层就被放大,几十上百层累积下来呈指数级增长

· Loss尖峰:训练过程中损失函数突然暴涨,甚至导致训练崩溃

· 规模受限:模型越大、层数越多,问题越严重

图片
mHC 在不牺牲训练目标的前提下,比 HC 显著更稳定。

这是一个“富人的问题”,只有在训练超大规模模型(比如270亿参数以上)时才会显现。普通研究者可能永远不会遇到,但对DeepSeek这种体量的玩家来说,这是必须解决的工程难题。

mHC的核心创新:给连接矩阵加“数学护栏”

DeepSeek的解决方案是将连接权重矩阵约束在一个特定的数学空间上,双随机矩阵(Doubly Stochastic Matrix)。

它核心是这样:所有元素非负,每一行的元素加起来等于1,每一列的元素加起来也等于1。

为什么这个约束有效?因为当信号通过这样的矩阵变换时,输出实际上是输入各分量的凸组合,可以理解为一种“加权平均”。根据数学性质,凸组合的结果不会超过输入的最大值。换句话说,信号不会被无限放大,能量守恒得到保证。

从数学角度看,双随机矩阵的谱范数恒小于等于1,这意味着对应的线性变换是"非扩张的"——无论前向传播还是反向传播,信号都不会被无限放大。

具体实现上,DeepSeek采用了经典的Sinkhorn-Knopp算法:对矩阵交替进行行归一化和列归一化,迭代几次就能收敛到双随机矩阵。论文实验表明,仅需3次迭代就能达到足够精度,而且整个过程可微分,支持端到端训练。

太艰深了?

没关系,重点是,这个方案的优雅之处在于,它没有引入任何新的超参数需要调节,也没有改变模型的表达能力,只是给原本的权重矩阵套上了一个数学上可证明的安全边界。

实验结果验证了这一设计的有效性:在 7B 规模的 Dense 模型训练中,mHC 模型全程没有出现任何 Loss 尖峰。在 MoE 模型上,收敛速度提升了约 1.8 倍。

1

DeepSeek“秀肌肉”的一种方式

把mHC放到DeepSeek近两年的发展脉络中看,会发现一条主线,在有限资源下,通过架构创新最大化效率。mHC可以说是对此的延续,用数学约束解决工程问题,用架构创新突破资源瓶颈。

值得一提的是,Twitter用户@nathancgy4(Kimi研究员)表示,一位DeepSeek研究员在和他的交流中认为2025年最值得关注的两大架构创新是muon和hyper-connections。前者已被Kimi深度探索,而后者正是mHC的技术根基。这意味着mHC可能只是DeepSeek在这条路上的第一步。

如果mHC被整合进下一代模型,再结合此前的一系列技术和工程创新,我们可能会看到一个在效率、性能和稳定性上全面升级的架构。

法国 AI 研究实验室 Pleias 联合创始人 Alexander Doria 在读完论文后给出了一个评价,这表面上是一篇架构论文,实际上是一篇“秀肌肉”的硬核工程论文。

因为理论上完美的数学方案(Sinkhorn-Knopp 迭代),如果直接跑在现有的训练框架上,会带来巨大的计算延迟和显存开销。

为了让这个“数学护栏”真正落地,DeepSeek 并没有调用现成的库,而是直接手写了底层的 CUDA 内核代码,利用算子融合(Operator Fusion)技术,把复杂的数学计算硬生生塞进了毫秒级的训练循环里。同时,他们采用了激进的“选择性重计算”策略,并在多卡训练中开辟专用计算流来掩盖通信延迟。

这才是前沿实验室(Frontier Lab)的标志——不仅要有算法灵感,还得有能力为了验证这个灵感,把整个训练环境的内核、内存管理、节点通信全部重写一遍。

这种把想法稳定、高效地落地到算力体系中的工程能力,可能就是DeepSeek最大的优势。

赞一个

分享:
打开微信扫一扫
0
版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
更多服务
招商合作
请您完善以下信息,我们会尽快与您联系!
论文投稿
参加会议
合作办会
期刊合作
论文辅导
科研绘图
论文翻译润色
论文查重
其他
提交
专家招募
个人信息
联系信息
提交
在线客服
商务合作
专家招募
常见问题
手机端
扫描二维码
与学术大咖共探知识边界
出版无忧
投稿无忧
翻译服务
润色服务
自助查重
排版校对
科研绘图