DeepSeek 团队发布了一篇名为《mHC: Manifold-Constrained Hyper-Connections》的论文,提出了一种对 Transformer 残差结构进行根本性修复的新架构 mHC(流形约束超连接)。文章指出,现有大模型的残差连接虽然通过恒等映射保证信号稳定传播,但存在残差通道宽度被固定的瓶颈。为此,早期的 Hyper-Connections(HC)尝试“加宽残差”但因破坏恒等映射导致在大规模模型上训练崩溃。mHC 的核心思想是通过将残差混合矩阵强制投影到“双随机矩阵流形”上,实现“受约束的混合”,从而确保信号的非扩张性和跨层复合的稳定性,同时保持强大的表达能力。DeepSeek 通过工程优化,验证了 mHC 在 27B 模型上能够稳定训练,且相比基线和传统 HC 在性能和推理任务上均有显著提升。文章强调了这项工作的在架构、方法论(加约束而非单纯叠加)和未来趋势(拓扑结构与几何约束将成为新主战场)上的重要意义。