Argos 是一种新型的智能体验证框架,旨在解决多模态 AI 智能体的可靠性差距。传统模型通常会产生看似合理但缺乏依据的输出,导致在物理或虚拟环境中出现“幻觉”。Argos 通过在强化学习(RL)过程中充当验证层来解决这一问题。它利用一套专门的工具(如 Grounding DINO、SAM-2)和教师模型来评估的不仅是最终答案,还包括智能体的推理是否与图像中的特定空间坐标和视频中的时间戳保持一致。通过使用门控聚合函数提供稳定的奖励信号,Argos 确保智能体学会将决策锚定在实际观察中。实验结果表明,与标准 RL 基准相比,经过 Argos 训练的模型在机器人技术和现实世界任务规划中表现出卓越的空间推理能力、显著减少的幻觉以及更高的数据效率。

