文章深入介绍了阿里巴巴团队开源的 ROCK 和 ROLL 双框架,旨在推动 Agentic 强化学习(RL)的规模化应用。ROLL 作为面向大模型的 RL 训练框架,提供了完整的训练链路,但其在环境服务层的缺失限制了训练规模和使用门槛。为解决此痛点,团队推出了 ROCK 框架,一个强大的 Env 沙箱,提供标准化的环境接口、开箱即用的安全执行环境、高性能服务支撑和任务多样性支持。文章详细阐述了 Agentic 模型从文本输出到智能体交互的演化,并强调了高效稳定环境服务对 Agentic 模型训练的关键作用。ROCK 基于 Ray 构建,具备极致的规模化能力、强大的 Bash 交互能力、灵活的部署方式和企业级的稳定性。尤其值得关注的是,ROCK 引入了 ModelService 组件,通过“提问-拦截-回答”机制,革命性地解耦了 Agent 业务逻辑与训练框架,显著提升了资源效率和训练控制力。ROCK 与 ROLL 的协同,为 Agentic AI 训练提供了从引擎到燃料的完整解决方案,极大地降低了开发复杂度,加速了 Agentic AI 技术的落地与普及。
软件编程
中文
Agentic AI
强化学习
大语言模型