DeepSeek 于 2026 年 1 月 1 日发布新论文《mHC: Manifold-Constrained Hyper-Connections》,提出了一种名为 mHC(流形约束超连接)的宏观架构创新。该创新是 Transformer 中最底层的组件——残差连接的一次重要改进,旨在解决字节跳动 Hyper-Connections 架构在提升模型性能时面临的训练稳定性问题。mHC 通过将连接权重矩阵约束到双随机矩阵,有效防止了信号爆炸和 Loss 尖峰,并在不引入新超参数的情况下提升了模型的收敛速度和稳定性。文章回顾了从何恺明 ResNet 到字节跳动 Hyper-Connections 再到 DeepSeek mHC 的十年技术演进,强调了 mHC 在优化超大规模模型训练效率方面的价值,并指出 DeepSeek 在底层工程实现上的“秀肌肉”能力,即通过手写 CUDA 内核代码等方式将理论方案高效落地。