推文

meng shao

4天前

[Engineering at Anthropic] 揭秘 AI Agent 的评估：好的评估是 Agent 走向生产力的唯一途径，建立一套自动化的、覆盖“过程”与“结果”的评估闭环至关重要 ⚠️
anthropic.com/engineering/de…

核心挑战：为什么 Agent 的评估很难？
Agent 的强大源于其“灵活性”，但这恰恰是评估的噩梦：
· 多轮耦合：一个错误可能会在多轮对话中累积，导致最终失败。
· 非确定性：即使输入相同，Agent 的路径也可能不同。
· “创意型”成功：有时 Agent 发现了一个人类未预料的捷径（比如通过政策漏洞解决问题），虽不符合预期路径，但实际上完成了任务。
· 环境依赖：Agent 需要操作数据库、文件系统或浏览器，评估需要一个受控的沙盒环境。

评估体系的“四梁八柱”
Anthropic 提出了一个标准的 Agent 评估术语库：
· 任务：单个测试用例。
· 评判器：评分逻辑（包括代码判定、LLM 判定和人工判定）。
· 轨迹/轨迹追踪：Agent 执行过程的完整记录，包括思考过程和工具调用。
· 结果：任务结束后的最终环境状态（例如：数据库里是否真的存入了订单，而不仅仅是 Agent 说“订好了”）。
· Agent 脚手架：运行 Agent 的系统框架（如 Claude Code）。

三种评判器的优劣对比（建议组合使用）
· 基于代码：最快、最便宜、最客观。适用于判断代码是否跑通、单元测试是否通过、字符串是否匹配。缺点是死板。
· 基于模型：灵活、能捕捉细微差别。通过定义好的 Rubric（评分量表）让更高级的模型给 Agent 打分。缺点是存在非确定性。
· 人工评判：黄金标准。用于校准模型评判器，但成本高、速度慢。

关键评估指标：pass@k vs pass^k
这是衡量 Agent 稳定性的两个核心维度：
· pass@k（k 次尝试中至少成功一次）：衡量 Agent 的“天花板”能力。只要能做出来就算赢。适用于代码生成等场景。
· pass^k（k 次尝试全部成功）：衡量 Agent 的“可靠性”。适用于客服、金融等对一致性要求极高的场景。

三类典型 Agent 的评估策略
· Coding Agent：核心在于“运行结果是否正确”。使用单元测试、Lint 检查和静态分析。
· Conversational Agent：侧重于流程遵循。使用 LLM 评判器检查是否遵守了“不要给折扣”等业务规范。
· Computer Use/Browser Agent：侧重于环境变更。检查执行后的系统状态（如 DOM 元素变化、API 返回值）。

实操建议：如何从零构建？
不要等 Agent 完美了才做评估，而是应该：
· 早期（0->1）：从 20-50 个真实失败案例开始，建立初始测试集。
· 中期（迭代）：同时运行能力评估（挑战更难的任务）和回归评估（确保旧功能不退化）。
· 后期（规模化）：将高通过率的能力测试“提拔”为回归测试，并持续通过 A/B 测试对比线上表现。

Sundar Pichai

3天前

在不远的将来，AI 智能体将成为我们购物方式中不可或缺的一部分。

为此，我们与 Shopify、Etsy、Wayfair、Target 和 Walmart 携手，共同创建了通用商务协议。这是一个全新的开放标准，旨在让智能体与系统能够在购物旅程的每一步进行顺畅交互。

此外，UCP 即将支持原生结账功能，未来您将能直接在 AI 模式和 @Geminiapp 上完成购买。

1,058

1,955

1.6万

6,154

404.7万

3,415

OpenAI

5天前

医师的 AI 使用率在一年内几乎翻倍。

今天我们正式推出 OpenAI for Healthcare，这是一个符合 HIPAA 标准的解决方案，旨在帮助医疗机构为患者提供更一致、更高质量的照护。

该方案现已在 AdventHealth、Baylor Scott & White、UCSF、Cedars-Sinai、HCA、Memorial Sloan Kettering 等众多机构上线。 openai.com/index/openai-f…

306

449

3,455

770

51万

698

Justine Moore

3天前

现在，你可以将 Claude 用作长视频生成的编排代理了。

只需一个文本提示，它就能调度各类工具并整合输出——例如，调用 Nano Banana Pro 生成图像，使用海螺 2 生成视频，再通过 ffmpeg 进行拼接。

来看看它如何为我打造这个书店 x 咖啡店的场景吧 👇

00:35

101

1,827

2,730

20.5万

666

elvis

4天前

Anthropic 又发了一篇干货满满的博文！

核心主题是如何通过评估来提升你的智能体性能。

以下是我从博客中提炼的快速要点：

智能体之所以强大，在于其自主性、智能和灵活性；但正是这些特性，也让评估它们变得异常困难。你不能指望像跑单元测试那样，简单验证智能体应用是否正常工作。

这份指南系统梳理了 Anthropic 开发者用于评估智能体的实用框架。

他们提到了三种评分器，各有取舍：

- **基于代码的评分器**：速度快、成本低、可复现，但对输入的有效变化缺乏鲁棒性。
- **基于模型的评分器**：能理解细微差别、处理开放式任务，但结果具有非确定性，且需要人工校准。
- **人工评分器**：质量最高，堪称黄金标准，但昂贵且耗时。

此外，还有服务于不同目标的两种评估类型：
1) **能力评估**：旨在回答“这个智能体擅长做什么？”，初始通过率通常较低。
2) **回归评估**：旨在确认“它是否还能处理以前的任务？”，通过率应始终接近 100%。当一项任务从能力评估“毕业”进入回归评估范畴时，才标志着真正的进展。

对于非确定性的任务，有两个关键指标：
- **pass@k**：衡量在 k 次尝试中至少成功一次的概率。
- **pass^k**：衡量所有 k 次尝试全部成功的概率。
两者差异巨大。例如当 k=10 时，pass@k 可能接近 100%，而 pass^k 却可能趋近于零。

博客中一个非常实用的建议是：与其等待完美的评估集，不如先从实际失败案例中提炼出 20 到 50 个简单任务开始。将你日常的手动检查转化为自动化测试用例。评估应聚焦于最终输出结果，而非智能体内部的实现路径。对于复杂任务，应设立部分得分机制。

常见的评估陷阱包括：评分标准过于僵化，惩罚了那些答案等效但表述不同的情况；任务描述本身模糊不清；以及任务本身具有随机性，导致无法复现相同结果。

我强烈推荐大家阅读这篇博文。

博客原文：anthropic.com/engineering/de…

在我们的学院学习构建高效的 AI 智能体：dair-ai.thinkific.com

876

1,281

6.3万

314

Sundar Pichai

14小时前

Veo 3.1 ‘Ingredients to Video’ 迎来重大更新，表现力更强，并新增大家期待已久的‘人像模式’（你们的反馈我们收到啦！）

现在，你可以直接在 @Geminiapp、@YouTube 和 Google Vids 中，轻松制作动态更鲜活、操控更精准的竖屏短片。

不仅如此，顶级的 1080p 和 4K 画质提升功能，也将很快登陆 @flowbygoogle、Gemini API 和 Vertex AI。

114

211

1,759

325

12.3万

298

Anthropic

4天前

Anthropic 最新研究：新一代宪法分类器，防范越狱攻击。

我们运用了创新方法，包括将可解释性研究成果投入实践，从而使越狱防护变得比以往更加有效，同时计算开销也更低。
anthropic.com/research/next-…

135

1,063

430

18.1万

261

Logan Kilpatrick

2天前

今天我们为 Gemini API 推出了扩展的 URL 支持 🔗！现在，你可以直接向 Gemini 传入签名或公开 URL，API 将自动读取链接指向的图像或 PDF 文件。同时，我们还新增了与 Google Cloud Storage 的集成，让你能够将所有数据集中存储在一处！

1,379

264

7.5万

238

Martin Fowler

6天前

本期《技术札记》要点：AI 如何改变 Anthropic 的内部开发；使用 LLM 构建知识管理工具的详细实践；界面设计的“明显-容易-可能”分类法；规格说明永远无法完备；以及与 LLM 协作的轻量级工具。

martinfowler.com/fragments/2026…

618

841

8.1万

211

Cognition

7天前

Cognition 宣布与全球数字服务和咨询领导者 Infosys 达成合作。双方将把 AI 软件工程师 Devin 部署至 Infosys 的工程组织及其全球客户群中。

早期应用已带来显著的生产力提升，例如，一些复杂的 COBOL 迁移项目得以在创纪录的时间内完成。

804

186

42.1万

182

订阅源

[Engineering at Anthropic] 揭秘 AI Agent 的评估：好的评估是 Agent 走向生产力的唯一途径，建立一套自动化的、覆盖“过程”与“结果”的评估闭环至关重要 ⚠️
anthropic.com/engineering/de…

核心挑战：为什么 Agent 的评估很难？
Agent 的强大源于其“灵活性”，但这恰恰是评估的噩梦：
· 多轮耦合：一个错误可能会在多轮对话中累积，导致最终失败。
· 非确定性：即使输入相同，Agent 的路径也可能不同。
· “创意型”成功：有时 Agent 发现了一个人类未预料的捷径（比如通过政策漏洞解决问题），虽不符合预期路径，但实际上完成了任务。
· 环境依赖：Agent 需要操作数据库、文件系统或浏览器，评估需要一个受控的沙盒环境。

评估体系的“四梁八柱”
Anthropic 提出了一个标准的 Agent 评估术语库：
· 任务：单个测试用例。
· 评判器：评分逻辑（包括代码判定、LLM 判定和人工判定）。
· 轨迹/轨迹追踪：Agent 执行过程的完整记录，包括思考过程和工具调用。
· 结果：任务结束后的最终环境状态（例如：数据库里是否真的存入了订单，而不仅仅是 Agent 说“订好了”）。
· Agent 脚手架：运行 Agent 的系统框架（如 Claude Code）。

三种评判器的优劣对比（建议组合使用）
· 基于代码：最快、最便宜、最客观。适用于判断代码是否跑通、单元测试是否通过、字符串是否匹配。缺点是死板。
· 基于模型：灵活、能捕捉细微差别。通过定义好的 Rubric（评分量表）让更高级的模型给 Agent 打分。缺点是存在非确定性。
· 人工评判：黄金标准。用于校准模型评判器，但成本高、速度慢。

关键评估指标：pass@k vs pass^k
这是衡量 Agent 稳定性的两个核心维度：
· pass@k（k 次尝试中至少成功一次）：衡量 Agent 的“天花板”能力。只要能做出来就算赢。适用于代码生成等场景。
· pass^k（k 次尝试全部成功）：衡量 Agent 的“可靠性”。适用于客服、金融等对一致性要求极高的场景。

三类典型 Agent 的评估策略
· Coding Agent：核心在于“运行结果是否正确”。使用单元测试、Lint 检查和静态分析。
· Conversational Agent：侧重于流程遵循。使用 LLM 评判器检查是否遵守了“不要给折扣”等业务规范。
· Computer Use/Browser Agent：侧重于环境变更。检查执行后的系统状态（如 DOM 元素变化、API 返回值）。

实操建议：如何从零构建？
不要等 Agent 完美了才做评估，而是应该：
· 早期（0->1）：从 20-50 个真实失败案例开始，建立初始测试集。
· 中期（迭代）：同时运行能力评估（挑战更难的任务）和回归评估（确保旧功能不退化）。
· 后期（规模化）：将高通过率的能力测试“提拔”为回归测试，并持续通过 A/B 测试对比线上表现。

在不远的将来，AI 智能体将成为我们购物方式中不可或缺的一部分。

为此，我们与 Shopify、Etsy、Wayfair、Target 和 Walmart 携手，共同创建了通用商务协议。这是一个全新的开放标准，旨在让智能体与系统能够在购物旅程的每一步进行顺畅交互。

此外，UCP 即将支持原生结账功能，未来您将能直接在 AI 模式和 @Geminiapp 上完成购买。

医师的 AI 使用率在一年内几乎翻倍。

今天我们正式推出 OpenAI for Healthcare，这是一个符合 HIPAA 标准的解决方案，旨在帮助医疗机构为患者提供更一致、更高质量的照护。

该方案现已在 AdventHealth、Baylor Scott & White、UCSF、Cedars-Sinai、HCA、Memorial Sloan Kettering 等众多机构上线。 openai.com/index/openai-f…

现在，你可以将 Claude 用作长视频生成的编排代理了。

只需一个文本提示，它就能调度各类工具并整合输出——例如，调用 Nano Banana Pro 生成图像，使用海螺 2 生成视频，再通过 ffmpeg 进行拼接。

来看看它如何为我打造这个书店 x 咖啡店的场景吧 👇

Anthropic 又发了一篇干货满满的博文！

核心主题是如何通过评估来提升你的智能体性能。

以下是我从博客中提炼的快速要点：

智能体之所以强大，在于其自主性、智能和灵活性；但正是这些特性，也让评估它们变得异常困难。你不能指望像跑单元测试那样，简单验证智能体应用是否正常工作。

这份指南系统梳理了 Anthropic 开发者用于评估智能体的实用框架。

他们提到了三种评分器，各有取舍：

- **基于代码的评分器**：速度快、成本低、可复现，但对输入的有效变化缺乏鲁棒性。
- **基于模型的评分器**：能理解细微差别、处理开放式任务，但结果具有非确定性，且需要人工校准。
- **人工评分器**：质量最高，堪称黄金标准，但昂贵且耗时。

此外，还有服务于不同目标的两种评估类型：
1) **能力评估**：旨在回答“这个智能体擅长做什么？”，初始通过率通常较低。
2) **回归评估**：旨在确认“它是否还能处理以前的任务？”，通过率应始终接近 100%。当一项任务从能力评估“毕业”进入回归评估范畴时，才标志着真正的进展。

对于非确定性的任务，有两个关键指标：
- **pass@k**：衡量在 k 次尝试中至少成功一次的概率。
- **pass^k**：衡量所有 k 次尝试全部成功的概率。
两者差异巨大。例如当 k=10 时，pass@k 可能接近 100%，而 pass^k 却可能趋近于零。

博客中一个非常实用的建议是：与其等待完美的评估集，不如先从实际失败案例中提炼出 20 到 50 个简单任务开始。将你日常的手动检查转化为自动化测试用例。评估应聚焦于最终输出结果，而非智能体内部的实现路径。对于复杂任务，应设立部分得分机制。

常见的评估陷阱包括：评分标准过于僵化，惩罚了那些答案等效但表述不同的情况；任务描述本身模糊不清；以及任务本身具有随机性，导致无法复现相同结果。

我强烈推荐大家阅读这篇博文。

博客原文：anthropic.com/engineering/de…

在我们的学院学习构建高效的 AI 智能体：dair-ai.thinkific.com

Veo 3.1 ‘Ingredients to Video’ 迎来重大更新，表现力更强，并新增大家期待已久的‘人像模式’（你们的反馈我们收到啦！）

现在，你可以直接在 @Geminiapp、@YouTube 和 Google Vids 中，轻松制作动态更鲜活、操控更精准的竖屏短片。

不仅如此，顶级的 1080p 和 4K 画质提升功能，也将很快登陆 @flowbygoogle、Gemini API 和 Vertex AI。

Anthropic 最新研究：新一代宪法分类器，防范越狱攻击。

我们运用了创新方法，包括将可解释性研究成果投入实践，从而使越狱防护变得比以往更加有效，同时计算开销也更低。
anthropic.com/research/next-…

今天我们为 Gemini API 推出了扩展的 URL 支持 🔗！现在，你可以直接向 Gemini 传入签名或公开 URL，API 将自动读取链接指向的图像或 PDF 文件。同时，我们还新增了与 Google Cloud Storage 的集成，让你能够将所有数据集中存储在一处！

本期《技术札记》要点：AI 如何改变 Anthropic 的内部开发；使用 LLM 构建知识管理工具的详细实践；界面设计的“明显-容易-可能”分类法；规格说明永远无法完备；以及与 LLM 协作的轻量级工具。

martinfowler.com/fragments/2026…

Cognition 宣布与全球数字服务和咨询领导者 Infosys 达成合作。双方将把 AI 软件工程师 Devin 部署至 Infosys 的工程组织及其全球客户群中。

早期应用已带来显著的生产力提升，例如，一些复杂的 COBOL 迁移项目得以在创纪录的时间内完成。