本文介绍了 AprielGuard,一个由 ServiceNow AI 开发的 80 亿参数安全保障模型。AprielGuard 专为现代大型语言模型系统,特别是智能体化的系统设计,提供了一种统一的方法来检测 16 类安全风险(例如,毒性、错误信息、非法活动),以及广泛的对抗性攻击(例如,提示注入、越狱、记忆投毒)。它支持多样的输入格式,包括单独提示、多轮对话和复杂的智能体化工作流(工具调用、推理轨迹)。该模型可以在推理模式(提供可解释的分类)和非推理模式(用于低延迟生产管道)下运行。AprielGuard 通过合成生成的数据集进行训练,该数据集包含数据增强、智能体化工作流模拟和长上下文用例,并通过各种公共和内部基准进行了评估,在安全性、对抗性检测、长上下文鲁棒性和多语言能力方面表现出强大性能。
人工智能
英文
大型语言模型
安全护栏
对抗鲁棒性
