同一天开源新模型,一推理一编程,MiniMax 和月之暗面开卷了 | 机器之心

文章报道了国内 AI 领域两大厂商 MiniMax 和月之暗面在同一天分别开源了各自的新模型。MiniMax 开源了长上下文推理 LLM MiniMax-M1,该模型支持全球最长的 100 万 token 上下文输入和 8 万 token 输出,并声称具有开源模型中最强的智能体工具使用能力。文章详细介绍了其基于 MoE 与闪电注意力机制的架构、创新的 CISPO 强化学习算法及在编程、长上下文等基准测试中的优异表现。月之暗面则发布了专注于编程的开源大模型 Kimi-Dev-72B,该模型在代码生成基准 SWE-bench Verified 上刷新了开源模型的 SOTA 记录。文章阐述了其 BugFixer 与 TestWriter 协作机制、中期训练及基于结果的强化学习、测试时自博弈等技术细节。文末通过一个代码实测案例对比了两模型的初步表现,并提供了各自的开源地址及未来计划。