meng shao
@shao__meng · 2d ago[Anthropic Engineering]
AI Agents 评估方法论:从混沌到清晰的工程实践
anthropic.com/engineering/de…
核心问题与背景
Anthropic 指出了 AI Agents 评估的本质矛盾:使 Agents 有用的那些能力(自主性、智能性和灵活性),恰恰是让其难以评估的根源。 与传统的单轮对话不同,Agents 系统需要跨多轮交互、调用工具、修改状态并基于中间结果进行动态调整,这使得评估复杂度呈指数级增长。
评估的结构化框架
一套清晰的术语体系对于标准化评估实践至关重要:
· 任务层面(Task):单个测试案例包含明确的输入和成功标准。由于模型输出的非确定性,需要多次试验来获得稳定结果。
· 评分层面(Grader):通过“评分器”来检验 Agents 性能的各个方面。一个任务可以有多个评分器,每个评分器包含多项断言检查。
· 记录层面(Transcript):“转录本”记录完整的试验过程,包括所有工具调用、推理步骤和中间结果。这与最终的“结果”不同—— Agents 可能声称完成了任务,但环境中的实际状态才是真正的验证标准。
· 基础设施层面(Harness):“评估框架”负责端到端运行评估,而“Agents 工具”则是使模型能够作为 Agents 运行的系统。评估的实际对象是两者的组合。
为什么要构建评估系统
评估系统的价值是复合的,它不仅能防止回归,还能建立基准、加速新模型的采用。演进路径如下:
· 早期阶段:依赖手动测试和直觉。
· 崩溃点:当系统规模化后,用户反馈“系统变差了”,团队却无法验证,只能盲目猜测。
· 成熟阶段:如 Claude Code 案例,从针对简洁性、文件编辑等具体行为构建评估,到结合生产监控和 A/B 测试,形成完整的质量保障体系。
针对不同类型 Agents 的评估策略(类型、核心评估方法和关键指标/工具)
· 编程 Agents:确定性评分器(代码能否运行、测试能否通过),SWE-bench Verified, Terminal-Bench
· 对话 Agents:多维度评估(问题解决、转录约束、语气恰当),通常需要另一个 LLM 模拟用户交互
· 研究 Agents:组合评分器(事实性、覆盖率、来源质量),专家人工判断校准 LLM 评分
· 计算机使用 Agents:真实/沙箱环境交互(截图、点击、输入),平衡 Token 效率(DOM)与视觉准确度(截图)
应对非确定性的度量方法
文章引入了两个关键指标来捕捉 Agents 行为的随机性:
· pass@k:衡量在 k 次尝试中至少获得一次正确解的可能性。适用于提出多个方案只要有一个有效即可的场景。
· pass^k:衡量所有 k 次试验都成功的概率。对于面向客户、要求高可靠性的 Agents,这个指标尤为重要。
· 洞察:在 k=1 时两者相同,但随着试验次数增加,它们讲述的是截然相反的故事——这正是选择正确指标的关键所在。
从零到一的实践路线图(8 步走)
· 尽早开始:20-50 个来自真实失败的简单任务就是很好的起点。
· 从手动测试开始:将开发中已经运行的手动检查转化为测试用例。
· 编写明确的任务和参考方案:确保两位领域专家能独立达成相同的通过/失败判断。
· 构建平衡的问题集:测试行为“应该发生”和“不应该发生”的情况,避免单侧优化。
· 构建稳定的评估工具:确保环境不引入额外噪声,每次试验都从干净状态开始。
· 深思熟虑地设计评分器:优先选择确定性评分器,必要时使用 LLM 评分,谨慎使用人工评分。
· 检查转录本:阅读试验记录是验证评分器是否正常工作的唯一方法。
· 监控能力评估饱和度:当评估达到 100% 时,它只能跟踪回归而无法提供改进信号。
评估在整体理解中的定位
自动化评估并非万能,文章采用了“瑞士奶酪模型”作为类比:没有单一的评估层能捕获所有问题,但通过组合多种方法,漏洞会被不同层级拦截。
· 发布前/CI-CD:自动化评估。
· 发布后:生产监控(检测分布漂移)。
· 重大变更:A/B 测试。
· 持续性实践:用户反馈与转录审查。
· 校准:系统性人工研究。
Anthropic
@AnthropicAI · 4d agoNew on the Anthropic Engineering Blog: Demystifying evals for AI agents.
The capabilities that make agents useful also make them more difficult to evaluate. Here are evaluation strategies that have worked across real-world deployments.
anthropic.com/engineering/de…
84
375
2,693
298.8K
1
9
41
32
12





