文章介绍了普林斯顿大学等机构提出的多智能体推理框架 LatentMAS,旨在解决传统基于文本交流的多智能体系统效率低、信息易丢失的问题。LatentMAS 创新性地让智能体在潜在空间中直接协作,通过交换隐藏层表示和 KV-cache 工作记忆,而非依赖文本沟通。实验证明,LatentMAS 在数学、科学推理和代码生成等九个基准任务上,相比单模型和传统文本 MAS,准确率最高提升 14.6%,输出 token 使用量减少 70.8%-83.7%,端到端推理速度加快 4-4.3 倍。该框架无需额外训练,具有通用性,兼容任意 HuggingFace 模型,并揭示了潜在思维比离散 token 更丰富、更具表现力的语义能力。



