推文

Lenny Rachitsky

1天前

正在体验全新的 Claude Cowork。

我让它通读了 Lenny's Podcast 的所有单集，并为产品构建者提炼出 10 个最重要的主题与经验教训。接着，又让它找出 10 个最反直觉的真理。我授予了它访问一个包含 320 份转录稿文件夹的权限。

一开始，它就说：“这任务可不轻——要分析 320 份播客转录稿！”

15 分钟后...

Lenny's Podcast 的 10 个最重要主题

1.  激活就是一切 —— Slack 的 “2000 条消息” 时刻，Gamma 的 30 秒魔法。关键在于让用户快速获得价值感。

2.  讲故事作为超能力 —— 引人入胜的叙事比文档更能凝聚组织。

3.  定位是战略，而非营销 —— April Dunford 的五步框架，其起点是分析竞争替代品，而非拟定宣传信息。

4.  产品发现先于交付 —— Teresa Torres 的 “机会解决方案树” 和 Marty Cagan 的 “四风险框架”。应每周而非每季度与客户交流。

5.  无情优先级排序 —— Shreyas Doshi 的 LNO 框架（杠杆/中性/开销），着眼于机会成本而非单纯的投资回报率。

6.  AI 正在重塑产品开发 —— 模型最大化理念，评估能力成为产品经理的核心技能，首席执行官们再次回归为个人贡献者。

7.  赋能团队 vs. 功能工厂 —— Marty Cagan 的核心理念：给团队需要解决的问题，而非待实现的功能清单。

8.  构建你的操作系统 —— Claire Hughes Johnson 关于创始文件、运营节奏和决策框架的体系。

9.  事前剖析与风险预期 —— Shreyas Doshi 提出的方法，用于在问题发生前，主动揭示潜在的失败模式。

10. 小团队，巨大影响 —— Jason Fried 的 “2 人/6 周” 约束原则，以及 Shopify 的结对编程文化。

10 个最反直觉的真理：

1.  恐惧给出的是坏建议——反其道而行之 —— 无论你害怕做什么（艰难对话、向董事会汇报坏消息），那恰恰是你应该做的事。

2.  增加摩擦反而能 提高 转化率 —— 在注册流程中添加个性化问题，使 Amplitude 的转化率提升了 5%。

3.  功能越少 = 价值越高 —— Walkman 的成功是因为索尼 移除了 录音功能。QuickBooks 则以一半的功能、双倍的价格取胜。

4.  增加人员会让你更慢（绝对如此） —— 公司在裁员后整体产出更多。协调开销是隐形的效率杀手。

5.  客户口头表达的需求往往没有意义 —— 93% 的人声称想要节能住宅，却无人购买。正所谓“嘴上说说不算数”。

6.  目标不是战略——它们恰恰相反 —— Richard Rumelt 指出，将目标误认为战略是最常见的战略错误。OKR 常常只是一份愿望清单。

7.  不要对你的重大赌注进行 A/B 测试 —— Instagram 和 Airbnb 都明确拒绝为变革性创新做测试。伟大的产品不是 A/B 测试出来的。

8.  你的直觉 就是 数据 —— 直觉是尚未达到统计显著性的、压缩后的经验学习。不要轻视它。

9.  当你开始考虑放弃时，往往为时已晚 —— Stewart Butterfield 在 Glitch 仍保持每周 6-7% 增长时就果断关停了它。这正是他后来能创立 Slack 的原因。

10. 大多数产品经理薪酬过高且并非必需 —— Marty Cagan 本人就认为功能团队不需要产品经理。Nikita Bier 更是直言产品经理这个角色“不真实”。

干得漂亮 @claudeai

1,322

1,558

20.6万

438

Lenny Rachitsky

1天前

我请 Claude Cowork 基于我 320 期播客的对话内容，识别出在 AI 时代蓬勃发展的 10 项最重要技能。

结果令人印象深刻。

第一部分：永恒技能（价值倍增）

1. 品味与判断力 —— 当 AI 能生成无限选项时，这将成为瓶颈。需要通过大量“接触”和积累经验来培养。—— @rauchg

2. 好奇心 —— 这是一种能够驱动所有其他学习的元技能。@mikeyk 表示，在 AI 时代，他会优先培养孩子的这项能力。

3. 成为跨职能的“构建者” —— “打破角色边界，我们都应称自己为构建者。” —— @joulee

4. 清晰的沟通与叙事能力 —— 当执行逐渐自动化，清晰阐述观点将成为你的主要产出。

5. 战略思维 —— “当执行成本下降时，正确的战略所能带来的杠杆效应就会显著增大。”

第二部分：AI 原生技能（必须掌握）

1. 编写评估 —— “AI 的能力上限，几乎取决于我们进行评估的水平。” —— @kevinweil

2. 提示工程与上下文设计 —— “优秀的提示者，本身就是优秀的写作者。”

3. 通过持续使用培养 AI 熟练度 —— 仅靠阅读无法真正理解 AI。不妨取消一些会议，亲自去试用每一款 AI 产品。

4. 理解底层系统原理 —— 矛盾却关键的是，当 AI 将复杂操作抽象化后，对基础知识的理解反而变得更有价值。

5. 将 AI 智能体视为队友协作 —— 与之协作的管理技能可以直接迁移应用。“过去管理的是人，而现在基本上是 AI 模型。” —— @joulee

Lenny Rachitsky

1天前

正在体验全新的 Claude Cowork。

我让它通读了 Lenny's Podcast 的所有单集，并为产品构建者提炼出 10 个最重要的主题与经验教训。接着，又让它找出 10 个最反直觉的真理。我授予了它访问一个包含 320 份转录稿文件夹的权限。

一开始，它就说：“这任务可不轻——要分析 320 份播客转录稿！”

15 分钟后...

Lenny's Podcast 的 10 个最重要主题

1.  激活就是一切 —— Slack 的 “2000 条消息” 时刻，Gamma 的 30 秒魔法。关键在于让用户快速获得价值感。

2.  讲故事作为超能力 —— 引人入胜的叙事比文档更能凝聚组织。

3.  定位是战略，而非营销 —— April Dunford 的五步框架，其起点是分析竞争替代品，而非拟定宣传信息。

4.  产品发现先于交付 —— Teresa Torres 的 “机会解决方案树” 和 Marty Cagan 的 “四风险框架”。应每周而非每季度与客户交流。

5.  无情优先级排序 —— Shreyas Doshi 的 LNO 框架（杠杆/中性/开销），着眼于机会成本而非单纯的投资回报率。

6.  AI 正在重塑产品开发 —— 模型最大化理念，评估能力成为产品经理的核心技能，首席执行官们再次回归为个人贡献者。

7.  赋能团队 vs. 功能工厂 —— Marty Cagan 的核心理念：给团队需要解决的问题，而非待实现的功能清单。

8.  构建你的操作系统 —— Claire Hughes Johnson 关于创始文件、运营节奏和决策框架的体系。

9.  事前剖析与风险预期 —— Shreyas Doshi 提出的方法，用于在问题发生前，主动揭示潜在的失败模式。

10. 小团队，巨大影响 —— Jason Fried 的 “2 人/6 周” 约束原则，以及 Shopify 的结对编程文化。

10 个最反直觉的真理：

1.  恐惧给出的是坏建议——反其道而行之 —— 无论你害怕做什么（艰难对话、向董事会汇报坏消息），那恰恰是你应该做的事。

2.  增加摩擦反而能 提高 转化率 —— 在注册流程中添加个性化问题，使 Amplitude 的转化率提升了 5%。

3.  功能越少 = 价值越高 —— Walkman 的成功是因为索尼 移除了 录音功能。QuickBooks 则以一半的功能、双倍的价格取胜。

4.  增加人员会让你更慢（绝对如此） —— 公司在裁员后整体产出更多。协调开销是隐形的效率杀手。

5.  客户口头表达的需求往往没有意义 —— 93% 的人声称想要节能住宅，却无人购买。正所谓“嘴上说说不算数”。

6.  目标不是战略——它们恰恰相反 —— Richard Rumelt 指出，将目标误认为战略是最常见的战略错误。OKR 常常只是一份愿望清单。

7.  不要对你的重大赌注进行 A/B 测试 —— Instagram 和 Airbnb 都明确拒绝为变革性创新做测试。伟大的产品不是 A/B 测试出来的。

8.  你的直觉 就是 数据 —— 直觉是尚未达到统计显著性的、压缩后的经验学习。不要轻视它。

9.  当你开始考虑放弃时，往往为时已晚 —— Stewart Butterfield 在 Glitch 仍保持每周 6-7% 增长时就果断关停了它。这正是他后来能创立 Slack 的原因。

10. 大多数产品经理薪酬过高且并非必需 —— Marty Cagan 本人就认为功能团队不需要产品经理。Nikita Bier 更是直言产品经理这个角色“不真实”。

干得漂亮 @claudeai

1,322

20.6万

560

838

8万

176

宝玉

4天前

“你们应该多用 Bash。”

过去几周，Anthropic 的 Thariq 和几十家做通用智能体的公司开了电话会议。邮件助手、客服机器人、日程管理——各种产品形态都有。聊完一圈，他发现自己反复在说同一句话。

Bash？那不是程序员用的命令行工具吗，和这些产品有什么关系？

先看一个具体场景。

假设你有一个邮件 Agent，你问它：“这周我在打车上花了多少钱？”

传统做法是这样的：Agent 调用 API 拉取邮件，可能一次性取回 100 封，然后让模型从里面找 Uber、Lyft 的收据，加总金额。

问题在于 100 封邮件塞进上下文，模型要同时记住这些内容，从中筛选、计算。这对大语言模型来说并不轻松。容易漏，容易错，而且你没法验证它到底看了哪些邮件。

这就是典型的模型舒适区问题：数据量不算大到需要专门写程序处理，但又超出了模型一次性硬算的能力范围。夹在中间，很尴尬。

Thariq 的方案是：给 Agent 一个 Bash 工具，让它把中间结果存成文件。

听起来很简单，但背后的逻辑很有意思。

传统的工具调用是这样的流程：

工具 → 模型处理 → 输出结果

所有中间状态都在模型的“脑子”里，你看不见，也没法检查。

换成 Bash 之后，流程变了：

工具 → 存文件 → 搜索/过滤 → 模型处理 → 输出结果

模型可以先把 100 封邮件存到一个文件里，然后用 grep 搜“Uber”，再 grep“Lyft”，分别统计。每一步都有迹可查，最后加总的时候，它还能回头检查自己的中间结果。

这带来三个能力升级：

可复现。同样的命令再跑一遍，结果一样。你可以调试，可以排查问题。

可验证。模型不是凭“记忆”给你答案，而是基于实际文件里的数据。你信不过的话，自己也能打开文件看一眼。

可组合。一个命令的输出可以作为下一个命令的输入，管道一接，复杂任务就能拆成简单步骤。

Bash 让 Agent 从“脑算”变成了“打草稿”。草稿可以留痕，可以检查，可以改。这对需要准确性的任务来说太重要了。

邮件搜索只是最直观的例子。Bash 的能力边界其实很宽。

链式 API 调用是个常见需求。比如“把这周我发过邮件的联系人都找出来”，这需要先拉邮件列表，提取收件人，去重，再逐个查询联系人详情。一连串操作用 Tool calls 来做，调用次数多，中间状态难管理。用 Bash 脚本串起来，逻辑清晰得多。

视频和文件处理也是 Bash 的强项。ffmpeg 这个命令行工具，模型用起来得心应手。找视频里某个片段、裁剪、转码，一行命令搞定。

还有定时任务。在 Agent 运行的容器里，用 cronjob 或 at 命令就能创建定时执行的任务。用户说“每天早上 8 点给我发一份新闻摘要”，Agent 可以自己设好闹钟。

这些场景有个共同点：都需要多步骤操作，都需要保存中间状态，都超出了单次工具调用的能力范围。

但 Bash 是把双刃剑。

能执行命令意味着能做很多事，也意味着能做很多危险的事。rm -rf 一不小心就能删光整个目录。如果 Agent 被恶意提示词攻击，后果可能很严重。

Anthropic 显然考虑到了这一点。他们在 Claude Agent SDK 里做了一套权限系统，包括 Bash 命令解析器和分级权限控制。哪些命令可以直接执行，哪些需要用户确认，哪些完全禁止，都可以配置。

我用 Claude Code 的体会是，这套权限系统确实降低了心理负担。它会在执行敏感操作前询问你，而不是闷头就干。但安全护栏不是万能药。权限系统本身也可能有漏洞，Bash 解析器也可能被绕过。

安全护栏是必需品，但不能因此就觉得万事大吉。

强调 Bash 的好处，也得说清楚它的边界。

如果任务足够简单，别用。“今天天气怎么样”这种一次性查询，直接调 API 返回结果就行，没必要存文件再处理。杀鸡用牛刀反而更慢。

如果环境是 Serverless 的，用不了。很多云函数运行时没有可持久化的文件系统，Bash 的“存中间结果”优势就没了。

如果对安全要求极高，谨慎使用。命令注入的风险无法百分之百消除，金融、医疗这类场景可能更适合用白名单式的专用工具，而非通用的 Bash。

工具的选择取决于场景，而不是工具本身的强弱。Bash 很强，但不是所有场合都该用。

回过头看，Thariq 这条建议的真正价值不是“Bash 很强”这个结论，而是背后的思维方式：

让 Agent 的思考过程“落地”到可检查的中间产物。

传统的 Agent 设计把所有东西都塞进模型的上下文，一锤子买卖。Bash 提供了另一种路径：把复杂任务拆开，每一步都留下痕迹，可以验证，可以回溯。

想想看，这和人类处理复杂问题的方式多像。我们做复杂计算时会列竖式，写长文章时会先拟提纲，处理大量信息时会做笔记。不是因为脑子记不住，而是因为落到纸上更可靠、更容易检查。

Agent 也一样。不是说模型处理不了，而是有中间产物的流程更值得信任。我自己用 Agent 辅助写作，所有中间产物都会存成文件：网络检索资料、提纲、不同版本的草稿、画图的提示词。这些存下来后续就可以灵活组合。

Bash 不只是程序员的工具，更是让 Agent 具备可验证、可复现、可审计能力的关键一环。

Thariq

3个月前

Why even non-coding agents need bash  

I've done dozens of calls with companies making general agents over the past few weeks and my advice generally boils down to: "use the bash tool more"   

Here's a concrete example from my email agent:

923

23.1万

368

413

5.7万

117

宝玉

5天前

我觉得你是没发挥 claude code 的潜力，所有能用 dify 这类工作流完成的 AI 任务，几乎都可以用 skills + subagent 完成，除了一些特别要求在云端完成你又没有 API 的。

skill 你不能只当作单一技能，还要把它们组合起来用，先把工作流中需要的能力都拆分成单一的 skill 或者 subagent，然后由一到多个 skills 把这些 skill 用自然语言编排起来，换句话说就是用自然语言去描述你的工作流。

所有的中间结果都保存成本地文件，多用 subagent 去分摊上下文，subagent 只传入文件路径返回文件路径。

其他的都交给 Claude

pippingg

5天前

@dotey 通用agent这个说法棒极了，我的cc已经取代了一多半 @dify_ai 的任务了，尽管Dify依然是超复杂任务的不二之选，但cc可以使用claude subscription的额度，一些简单任务完全可以做到平替

4.1万

176

184

4.1万

Lenny Rachitsky

2天前

我从 @Aish_Reganti 和 @KiritiBadam 关于构建成功企业级 AI 产品的讨论中，总结出的九大核心洞见：

1.  AI 产品在两大根本特性上不同于传统软件：它们是非确定性的，并且你需要在自主性与控制力之间持续权衡。当你的产品对相同输入给出不同答案，并能自行执行操作时，传统的产品开发流程就会失效。

2.  自主性 vs. 控制力的权衡，是每个 AI 产品最核心的设计决策。Aish 和 Kiriti 将其描述为一个光谱：一端是 AI 在最小护栏下自主行动；另一端是系统被明确的规则和人工介入节点严格约束。大多数成功的企业级 AI 产品处于两者之间的某个平衡点，根据置信度分数、上下文和风险动态调整控制力度。

3.  大多数 AI 产品的失败源于执行失误，而非模型本身的限制。Aish 和 Kiriti 发现，团队常在真正问题（如模糊的产品范围、缺失的护栏或糟糕的用户上手流程）出现时，却归咎于底层的大语言模型 (LLM)。一个即使有 5% 幻觉率的模型，只要你能通过 UX 设计来展示置信度分数、允许用户验证输出并约束任务范围，就依然可以支撑一款优秀的产品。具体建议是：在要求更好的模型之前，先审视你的产品设计、评估覆盖度和用户流程。在多数情况下，严格的执行纪律比单纯的模型性能更重要。

4.  你的 V1 版 AI 产品应聚焦于一个狭窄、高价值的问题，并设置严格的护栏。团队的常见失败原因是试图在首次尝试中就构建一个通用助手或智能体。正确的做法是：选择一个具体的工作流，自动化一项重复性任务，或者出色地回答某一类问题。聚焦的范围让你能收集到集中的反馈、更快地调优模型，并在扩展前证明其价值。广度是之后的事，前提是你已经跑通了核心闭环。

5.  对于 AI 产品，可观测性和日志记录比传统软件更为关键，因为 AI 行为是非确定性的，也更难调试。你不仅需要记录错误，还应记录模型的置信度分数、输入特征、用户修正以及延迟指标。当线上环境出现问题时，这些日志是唯一能还原模型“所见”及其决策原因的依据。务必在危机发生前，尽早投资于日志记录基础设施。

6.  模型评估 (evals) 是必要的，但并不足够。评估能帮你衡量模型在已知测试用例上的性能，但无法捕捉完整的产品体验、生产中的边缘情况或用户满意度。仅依赖评估的团队，其产品可能在测试中表现优异，却在真实场景中失败。应将评估与持续监控、用户反馈循环和可观测性工具结合，以捕捉自动化测试遗漏的问题。

7.  “持续校准”取代了传统的迭代产品开发周期。由于 AI 模型会漂移，用户期望也会变化，团队必须持续衡量实际性能，并相应调整提示词、护栏或模型版本。Aish 和 Kiriti 建议，从产品上线第一天起就植入数据采集能力，以捕获用户反馈和模型输出，并每周审查这些数据。没有持续校准，你的 AI 产品性能将悄然下降，用户会在你察觉之前流失。

8.  AI 的持续部署意味着将模型更新和提示词变更像代码一样交付，而非手动干预。传统软件部署代码；AI 产品则部署代码加上模型权重、提示词和检索逻辑。Aish 和 Kiriti 主张将提示词和模型配置作为受版本控制的制品纳入 CI/CD 流水线，并通过评估进行自动化回归测试。这能防止产品经理在 UI 中随意调整提示词而破坏生产环境的常见反模式。这样做的好处是：你可以安全地迭代模型行为，并能立即回滚不良变更。

9.  AI 产品失败，往往是因为团队低估了数据质量的重要性。Aish 和 Kiriti 看到许多团队急于微调模型或添加功能，却没有先审计其训练和评估数据是否真实反映了实际使用场景。“垃圾进，垃圾出”的法则对 AI 加倍适用：如果你的数据过时、有偏见或与用户需求脱节，那么再多的提示工程或模型调优都无济于事。首要任务是把你的数据治理好。

Lenny Rachitsky

3天前

为什么大多数 AI 产品失败：来自 OpenAI、Google 和 Amazon 的 50+ 次 AI 部署的经验教训

@Aish_Reganti 和 @KiritiBadam 在 @OpenAI、@Google、@Amazon 和 @Databricks 等公司构建了超过 50 个企业级 AI 产品。基于这些经验，他们总结出了一套用于构建和规模化成功 AI 产品的最佳实践。我们这次对话的目标，是帮助您和您的团队在构建 AI 产品时，避免许多弯路和困扰。

我们讨论了：
&#128312; AI 产品与传统软件的两大关键区别
&#128312; 构建成功 AI 产品时的常见模式与反模式
&#128312; 他们迭代式构建 AI 产品的框架
&#128312; 为什么模型评估 (evals) 并非万能灵药
&#128312; 为何对客户信任与可靠性的极致追求，是成功 AI 产品一个被低估的推动力
&#128312; AI 时代对构建者最重要的技能

立即收听 &#128071;
• YouTube: youtube.com/watch?v=z7T1pC…
• Spotify: open.spotify.com/episode/5KABq3…
• Apple: podcasts.apple.com/us/podcast/wha…

感谢以下优秀赞助商对本期播客的支持：
&#127942; @merge_api — 快速集成 220+ 种服务的最优方案：merge.dev/lenny
&#127942; @strella_io — 由 AI 驱动的智能客户研究平台：strella.io/lenny
&#127942; @brexHQ — 专为初创公司打造的银行解决方案：brex.com/product/busine…

01:32

198

6.3万

108

166

2.2万

向阳乔木

6天前

用三个指标给 LLM 评测基准打分

现在评测 LLM 的基准测试多得数不过来，数学的、推理的、知识理解的，各种各样。

我们用这些基准来判断模型好不好，但谁来判断这些基准本身质量如何？

复旦和小红书的研究团队最近发了一个论文有点意思。

提出了一个叫 BENCHMARK² 的框架，专门用来给这些评测基准"打分"。

（看这些评测题目到底质量如何）

三个维度看基准质量

思路很直接：一个好的基准测试，应该具备三个特质。

第一个是排名一致性（Cross-Benchmark Ranking Consistency）。

简单说就是，如果你的基准测试说模型 A 比模型 B 强，那最好其他类似的基准测试也这么说。

要是你的测试结果跟大家都不一样，那可能不是别人错了，而是你的测试有问题。

他们用 Kendall's τ 相关系数来衡量，分数大于 0.7 算高度一致，0.4 到 0.7 算中等，低于 0.4 就得小心了。

第二个是区分度（Discriminability Score）。

一个好的测试应该能把不同水平的模型区分开。

如果所有模型在你的测试上得分都差不多，那这个测试就没什么意义了。

就像考试，如果大家都考 90 分，你根本看不出谁学得更好。

他们的计算方法考虑了两点：一是分数的分布范围，二是模型之间差异是否显著。

分数大于 0.4 说明区分度不错，小于 0.2 基本就是"大家都差不多"。

第三个是能力对齐偏差（Capability Alignment Deviation）。

这个指标最有意思。

它关注的是单个测试题目的质量。

逻辑很简单：在同一个模型家族里（比如 Qwen 的 1.5B、7B、72B 版本），参数更多的模型理论上应该更强。

如果一道题上，小模型答对了但大模型答错了，这道题可能就有问题。

他们统计这种"反转"现象的比例，然后用指数函数转换成 0 到 1 的分数。

分数越高，说明测试题目越符合能力层级的预期。

实测结果有点意外

研究团队测试了 15 个主流基准，涵盖数学、推理、知识理解三大领域，用了 11 个模型（来自 DeepSeek、Llama、Qwen 四个家族）。

数学领域的差异最大。

AIME 2024 表现优秀，区分度达到 0.74，能力对齐度 0.85。

但 MATH-500 的区分度只有 0.16，可能是因为题目对现在的模型来说太简单了，出现了"天花板效应"。

推理领域有个有趣的权衡。

ARC 的能力对齐度最高（0.87），但区分度很低（0.11）。

BBH 正好相反，区分度不错（0.25），但能力对齐度一般（0.66）。

很难找到两者兼顾的基准。

知识理解领域最稳定，各个基准的综合质量分都在 0.51 到 0.58 之间。

还有个发现：

那些有客观评判标准的基准（比如数学题有明确答案），能力对齐度普遍更高。

实际应用：精简版基准

这套评分体系还能帮做一件实用的事：

筛选出高质量的测试题，构建精简版基准。

他们的方法是：选择能力对齐度高、区分度强的题目。

结果发现，只用原来 35% 的题目，就能达到跟完整基准差不多的评测效果。

具体来说，精简版基准的排名一致性达到 0.93（满分 1.0），稳定性 0.69，区分度 0.47。

这比随机选题、选简单题或选难题的效果都要好。

更重要的是，他们还用没参与指标计算的模型（Qwen2.5-Base 系列）做了验证，结果依然靠谱。

这说明这套方法的泛化能力不错。

基于这些发现，研究团队给基准开发者提了几条建议：

1. 设定最低标准：区分度至少要大于 0.2，能力对齐度至少要大于 0.6

2. 优先客观评判：有明确答案的题目质量更稳定

3. 考虑精简构建：用他们的指标筛选题目，可以在保证质量的同时提高效率

4. 关注家族差异：如果不同模型家族在你的基准上表现差异很大，可能存在偏向性

一个疑问：我们对 AI 能力的评估，本质上受限于我们设计评估方法的能力。

就像用 CBRC 指标时，他们用其他基准来评判一个基准，这会不会有循环论证的嫌疑？

研究团队也意识到这个问题，所以他们用了三个互补的指标，而且 CAD 和 DS 都不依赖外部基准。

另一个有意思的点是，他们发现高区分度和高能力对齐很难同时达到。

这反映了一个矛盾：

要区分模型，你需要有挑战性的题目；

但太难的题目，可能会让大小模型都答不上来，反而看不出差异。

最后说个局限：

这套方法目前只适用于有明确答案的测试。

对于开放式生成任务（比如写作、对话），怎么评估基准质量，还是个开放问题。

不过话说回来，能把"评估评估本身"这件事做得这么系统，已经很有价值了。

2,300

Boris Cherny

1天前

自 Claude Code 推出以来，我们看到人们将它用于各种非编码工作：进行假期规划、制作幻灯片、整理电子邮件、取消订阅、从硬盘恢复婚礼照片、监测植物生长，甚至控制烤箱。

这些用例既多样又令人惊喜——其根本原因在于，底层的 Claude Agent 是最出色的智能体，而 Opus 4.5 是最优秀的模型。

今天，我们怀着无比兴奋的心情向大家介绍 Cowork，这是我们迈向让 Claude Code 处理你所有非编码工作的第一步。这款产品尚处早期，比较原始，感觉就像 Claude Code 刚问世时一样。

Cowork 包含多项新颖的 UX 与安全功能，我们相信这些功能让它与众不同：内置虚拟机以实现隔离、开箱即用的浏览器自动化支持、兼容你所有的 claude.ai 数据连接器，以及在不确定时会向你请求澄清。我们迫不及待想看看大家会如何用它。

Cowork 现已作为研究预览版，向 macOS 应用中的 Claude Max 订阅者开放。点击侧边栏中的 “Cowork”：claude.com/download

Claude

1天前

隆重介绍 Cowork：专为你日常工作打造的 Claude Code。

Cowork 能帮你高效完成非技术任务，其体验类似于开发者使用 Claude Code 进行编程。

01:08

1,627

5,001

5.5万

2006.6万

330

561

7,399

3,267

79.1万

1,240

Paul Graham

6天前

公司之间最重要的区别，在于那些创造自己都为之钦佩之物的公司，与那些视客户为傻瓜、并愤世嫉俗地投其所好的公司之间。公司有时会从前一种转变为后一种，但绝不会发生反向的转变。

110

1,391

348

8.5万

231

lmarena.ai

1周前

今天，我们非常高兴地宣布完成 1.5 亿美元的 A 轮融资，公司估值达 17 亿美元，这几乎是我们去年五月种子轮估值的 3 倍。自九月启动评估服务以来，我们的年化消费额运行率已超过 3000 万美元。

我们的使命清晰明确：衡量并推动 AI 前沿发展，确保其在实际应用中的表现，让开发者、研究人员、企业和普通用户都能了解 AI 在最关键领域如何运作。

本轮融资由 @Felicis 和加州大学投资部（@UofCalifornia）领投，@a16z、@TheHouseFund、LDVP、@kleinerperkins、@lightspeedvp 和 @LaudeVentures 共同参与。这一里程碑反映了行业日益增长的共识：若没有独立、透明和持续的评估，AI 无法以负责任的方式实现规模化发展。

过去一年，LMArena 已发展成为全球最值得信赖的社区平台，用于理解 AI 模型在真实世界条件下的表现。随着 AI 触达全球数十亿人，对基于实际经验（而不仅仅是基准测试结果）的衡量需求变得前所未有的迫切。

目前，我们为全球 150 多个国家/地区的超过 500 万月活跃用户提供服务。我们的社区每月共同产生超过 6000 万次对话，评估 AI 模型在文本、代码、图像、视频和搜索方面的能力与可靠性。我们将以更快的速度构建新功能并改进产品体验，从而帮助社区更好地评估 AI 的前沿技术。

这种前所未有的参与度预示着人们期望的根本性转变：世界现在要求 AI 做到可衡量、可比较、可追责。

这笔新资金将使我们能够显著扩大工程、研究、平台运营和社区倡议，以满足全球不断增长的需求。在我们的团队、合作伙伴和全球社区的支持下，我们将继续重新定义 AI 前沿的衡量与推进方式，坚定不移地朝着构建全球最值得信赖的评估平台的目标迈进。

643

153

19.5万

158

meng shao

5天前

10 个真正改变我工作方式的 Claude Skills

Reddit/ClaudeAI 中看到的帖子，作者总结了自己持续测试后真正觉得有价值的 10 个 Skills，聚焦于提升生产力、自动化和专业输出，涵盖开发、文档、设计、测试等场景。

1. Rube MCP Connector
通过一个统一的 MCP 服务器，将Claude一次性连接到 500+ 应用（Slack、GitHub、Notion 等），无需为每个应用单独配置认证。适合需要大量自动化集成的用户，大幅节省时间。

2. Superpowers（obra 开发的开发者工具包）
提供 /brainstorm、/write-plan、/execute-plan 等专用命令，将 Claude 从普通聊天机器人转变为完整的开发工作流辅助工具。对严肃编码的人来说是重大提升。

3. Document Suite（Anthropic 官方 Skills）
让 Claude 真正擅长处理和创建 Word、Excel、PowerPoint、PDF 文件，支持正确格式、公式等，而不仅仅是读取。处理客户发来的复杂文件时特别实用。

4. Theme Factory
一次性上传品牌指南（颜色、字体等），之后 Claude 生成的所有 Artifacts 都会自动遵循该风格。非常适合营销团队保持品牌一致性。

5. Algorithmic Art
基于 p5.js 的生成艺术工具，只需文字描述（如“蓝紫渐变流场，5000 个粒子，种子 42”），即可生成可复现的艺术作品。适合创意编码者。

6. Slack GIF Creator
直接根据描述生成专为 Slack 优化的自定义动画 GIF，无需再去 Giphy 搜索。实用且有趣的小工具。

7. Webapp Testing
使用 Playwright 自动化框架，描述测试需求（如“测试登录流程”），Claude 就能编写并运行测试脚本。QA 工程师和开发者会觉得特别好用。

8. MCP Builder
快速生成自定义 MCP 服务器的样板代码，将搭建集成的时间缩短约80%。适合自己开发 Skills 或复杂集成的用户。

9. Brand Guidelines
与 Theme Factory 类似，但支持同时管理多个品牌风格，并轻松切换。适合需要处理不同品牌项目的团队。

10. Systematic Debugging
让 Claude 按资深工程师的思路系统化调试：找出根本原因 → 提出假设 → 提供修复方案 → 编写文档。避免了以往“瞎猜式”调试。

上面这 10 个 Skills 的资源地址：
github.com/anthropics/ski…
github.com/obra/superpowe…
github.com/ComposioHQ/awe…
rube.app

323

468

4.3万

158

订阅源

正在体验全新的 Claude Cowork。

我让它通读了 Lenny's Podcast 的所有单集，并为产品构建者提炼出 10 个最重要的主题与经验教训。接着，又让它找出 10 个最反直觉的真理。我授予了它访问一个包含 320 份转录稿文件夹的权限。

一开始，它就说：“这任务可不轻——要分析 320 份播客转录稿！”

15 分钟后...

Lenny's Podcast 的 10 个最重要主题

1. 激活就是一切 —— Slack 的 “2000 条消息” 时刻，Gamma 的 30 秒魔法。关键在于让用户快速获得价值感。

2. 讲故事作为超能力 —— 引人入胜的叙事比文档更能凝聚组织。

3. 定位是战略，而非营销 —— April Dunford 的五步框架，其起点是分析竞争替代品，而非拟定宣传信息。

4. 产品发现先于交付 —— Teresa Torres 的 “机会解决方案树” 和 Marty Cagan 的 “四风险框架”。应每周而非每季度与客户交流。

5. 无情优先级排序 —— Shreyas Doshi 的 LNO 框架（杠杆/中性/开销），着眼于机会成本而非单纯的投资回报率。

6. AI 正在重塑产品开发 —— 模型最大化理念，评估能力成为产品经理的核心技能，首席执行官们再次回归为个人贡献者。

7. 赋能团队 vs. 功能工厂 —— Marty Cagan 的核心理念：给团队需要解决的问题，而非待实现的功能清单。

8. 构建你的操作系统 —— Claire Hughes Johnson 关于创始文件、运营节奏和决策框架的体系。

9. 事前剖析与风险预期 —— Shreyas Doshi 提出的方法，用于在问题发生前，主动揭示潜在的失败模式。

10. 小团队，巨大影响 —— Jason Fried 的 “2 人/6 周” 约束原则，以及 Shopify 的结对编程文化。

10 个最反直觉的真理：

1. 恐惧给出的是坏建议——反其道而行之 —— 无论你害怕做什么（艰难对话、向董事会汇报坏消息），那恰恰是你应该做的事。

2. 增加摩擦反而能提高转化率 —— 在注册流程中添加个性化问题，使 Amplitude 的转化率提升了 5%。

3. 功能越少 = 价值越高 —— Walkman 的成功是因为索尼移除了录音功能。QuickBooks 则以一半的功能、双倍的价格取胜。

4. 增加人员会让你更慢（绝对如此） —— 公司在裁员后整体产出更多。协调开销是隐形的效率杀手。

5. 客户口头表达的需求往往没有意义 —— 93% 的人声称想要节能住宅，却无人购买。正所谓“嘴上说说不算数”。

6. 目标不是战略——它们恰恰相反 —— Richard Rumelt 指出，将目标误认为战略是最常见的战略错误。OKR 常常只是一份愿望清单。

7. 不要对你的重大赌注进行 A/B 测试 —— Instagram 和 Airbnb 都明确拒绝为变革性创新做测试。伟大的产品不是 A/B 测试出来的。

8. 你的直觉就是数据 —— 直觉是尚未达到统计显著性的、压缩后的经验学习。不要轻视它。

9. 当你开始考虑放弃时，往往为时已晚 —— Stewart Butterfield 在 Glitch 仍保持每周 6-7% 增长时就果断关停了它。这正是他后来能创立 Slack 的原因。

10. 大多数产品经理薪酬过高且并非必需 —— Marty Cagan 本人就认为功能团队不需要产品经理。Nikita Bier 更是直言产品经理这个角色“不真实”。

干得漂亮 @claudeai

我请 Claude Cowork 基于我 320 期播客的对话内容，识别出在 AI 时代蓬勃发展的 10 项最重要技能。

结果令人印象深刻。

第一部分：永恒技能（价值倍增）

1. 品味与判断力 —— 当 AI 能生成无限选项时，这将成为瓶颈。需要通过大量“接触”和积累经验来培养。—— @rauchg

2. 好奇心 —— 这是一种能够驱动所有其他学习的元技能。@mikeyk 表示，在 AI 时代，他会优先培养孩子的这项能力。

3. 成为跨职能的“构建者” —— “打破角色边界，我们都应称自己为构建者。” —— @joulee

4. 清晰的沟通与叙事能力 —— 当执行逐渐自动化，清晰阐述观点将成为你的主要产出。

5. 战略思维 —— “当执行成本下降时，正确的战略所能带来的杠杆效应就会显著增大。”

第二部分：AI 原生技能（必须掌握）

1. 编写评估 —— “AI 的能力上限，几乎取决于我们进行评估的水平。” —— @kevinweil

2. 提示工程与上下文设计 —— “优秀的提示者，本身就是优秀的写作者。”

3. 通过持续使用培养 AI 熟练度 —— 仅靠阅读无法真正理解 AI。不妨取消一些会议，亲自去试用每一款 AI 产品。

4. 理解底层系统原理 —— 矛盾却关键的是，当 AI 将复杂操作抽象化后，对基础知识的理解反而变得更有价值。

5. 将 AI 智能体视为队友协作 —— 与之协作的管理技能可以直接迁移应用。“过去管理的是人，而现在基本上是 AI 模型。” —— @joulee

“你们应该多用 Bash。”

过去几周，Anthropic 的 Thariq 和几十家做通用智能体的公司开了电话会议。邮件助手、客服机器人、日程管理——各种产品形态都有。聊完一圈，他发现自己反复在说同一句话。

Bash？那不是程序员用的命令行工具吗，和这些产品有什么关系？

先看一个具体场景。

假设你有一个邮件 Agent，你问它：“这周我在打车上花了多少钱？”

传统做法是这样的：Agent 调用 API 拉取邮件，可能一次性取回 100 封，然后让模型从里面找 Uber、Lyft 的收据，加总金额。

问题在于 100 封邮件塞进上下文，模型要同时记住这些内容，从中筛选、计算。这对大语言模型来说并不轻松。容易漏，容易错，而且你没法验证它到底看了哪些邮件。

这就是典型的模型舒适区问题：数据量不算大到需要专门写程序处理，但又超出了模型一次性硬算的能力范围。夹在中间，很尴尬。

Thariq 的方案是：给 Agent 一个 Bash 工具，让它把中间结果存成文件。

听起来很简单，但背后的逻辑很有意思。

传统的工具调用是这样的流程：

工具 → 模型处理 → 输出结果

所有中间状态都在模型的“脑子”里，你看不见，也没法检查。

换成 Bash 之后，流程变了：

工具 → 存文件 → 搜索/过滤 → 模型处理 → 输出结果

模型可以先把 100 封邮件存到一个文件里，然后用 grep 搜“Uber”，再 grep“Lyft”，分别统计。每一步都有迹可查，最后加总的时候，它还能回头检查自己的中间结果。

这带来三个能力升级：

可复现。同样的命令再跑一遍，结果一样。你可以调试，可以排查问题。

可验证。模型不是凭“记忆”给你答案，而是基于实际文件里的数据。你信不过的话，自己也能打开文件看一眼。

可组合。一个命令的输出可以作为下一个命令的输入，管道一接，复杂任务就能拆成简单步骤。

Bash 让 Agent 从“脑算”变成了“打草稿”。草稿可以留痕，可以检查，可以改。这对需要准确性的任务来说太重要了。

邮件搜索只是最直观的例子。Bash 的能力边界其实很宽。

链式 API 调用是个常见需求。比如“把这周我发过邮件的联系人都找出来”，这需要先拉邮件列表，提取收件人，去重，再逐个查询联系人详情。一连串操作用 Tool calls 来做，调用次数多，中间状态难管理。用 Bash 脚本串起来，逻辑清晰得多。

视频和文件处理也是 Bash 的强项。ffmpeg 这个命令行工具，模型用起来得心应手。找视频里某个片段、裁剪、转码，一行命令搞定。

还有定时任务。在 Agent 运行的容器里，用 cronjob 或 at 命令就能创建定时执行的任务。用户说“每天早上 8 点给我发一份新闻摘要”，Agent 可以自己设好闹钟。

这些场景有个共同点：都需要多步骤操作，都需要保存中间状态，都超出了单次工具调用的能力范围。

但 Bash 是把双刃剑。

能执行命令意味着能做很多事，也意味着能做很多危险的事。rm -rf 一不小心就能删光整个目录。如果 Agent 被恶意提示词攻击，后果可能很严重。

Anthropic 显然考虑到了这一点。他们在 Claude Agent SDK 里做了一套权限系统，包括 Bash 命令解析器和分级权限控制。哪些命令可以直接执行，哪些需要用户确认，哪些完全禁止，都可以配置。

我用 Claude Code 的体会是，这套权限系统确实降低了心理负担。它会在执行敏感操作前询问你，而不是闷头就干。但安全护栏不是万能药。权限系统本身也可能有漏洞，Bash 解析器也可能被绕过。

安全护栏是必需品，但不能因此就觉得万事大吉。

强调 Bash 的好处，也得说清楚它的边界。

如果任务足够简单，别用。“今天天气怎么样”这种一次性查询，直接调 API 返回结果就行，没必要存文件再处理。杀鸡用牛刀反而更慢。

如果环境是 Serverless 的，用不了。很多云函数运行时没有可持久化的文件系统，Bash 的“存中间结果”优势就没了。

如果对安全要求极高，谨慎使用。命令注入的风险无法百分之百消除，金融、医疗这类场景可能更适合用白名单式的专用工具，而非通用的 Bash。

工具的选择取决于场景，而不是工具本身的强弱。Bash 很强，但不是所有场合都该用。

回过头看，Thariq 这条建议的真正价值不是“Bash 很强”这个结论，而是背后的思维方式：

让 Agent 的思考过程“落地”到可检查的中间产物。

传统的 Agent 设计把所有东西都塞进模型的上下文，一锤子买卖。Bash 提供了另一种路径：把复杂任务拆开，每一步都留下痕迹，可以验证，可以回溯。

想想看，这和人类处理复杂问题的方式多像。我们做复杂计算时会列竖式，写长文章时会先拟提纲，处理大量信息时会做笔记。不是因为脑子记不住，而是因为落到纸上更可靠、更容易检查。

Agent 也一样。不是说模型处理不了，而是有中间产物的流程更值得信任。我自己用 Agent 辅助写作，所有中间产物都会存成文件：网络检索资料、提纲、不同版本的草稿、画图的提示词。这些存下来后续就可以灵活组合。

Bash 不只是程序员的工具，更是让 Agent 具备可验证、可复现、可审计能力的关键一环。

Why even non-coding agents need bash

I've done dozens of calls with companies making general agents over the past few weeks and my advice generally boils down to: "use the bash tool more"

Here's a concrete example from my email agent:

我觉得你是没发挥 claude code 的潜力，所有能用 dify 这类工作流完成的 AI 任务，几乎都可以用 skills + subagent 完成，除了一些特别要求在云端完成你又没有 API 的。

skill 你不能只当作单一技能，还要把它们组合起来用，先把工作流中需要的能力都拆分成单一的 skill 或者 subagent，然后由一到多个 skills 把这些 skill 用自然语言编排起来，换句话说就是用自然语言去描述你的工作流。

所有的中间结果都保存成本地文件，多用 subagent 去分摊上下文，subagent 只传入文件路径返回文件路径。

其他的都交给 Claude

@dotey 通用agent这个说法棒极了，我的cc已经取代了一多半 @dify_ai 的任务了，尽管Dify依然是超复杂任务的不二之选，但cc可以使用claude subscription的额度，一些简单任务完全可以做到平替

我从 @Aish_Reganti 和 @KiritiBadam 关于构建成功企业级 AI 产品的讨论中，总结出的九大核心洞见：

1. AI 产品在两大根本特性上不同于传统软件：它们是非确定性的，并且你需要在自主性与控制力之间持续权衡。当你的产品对相同输入给出不同答案，并能自行执行操作时，传统的产品开发流程就会失效。

2. 自主性 vs. 控制力的权衡，是每个 AI 产品最核心的设计决策。Aish 和 Kiriti 将其描述为一个光谱：一端是 AI 在最小护栏下自主行动；另一端是系统被明确的规则和人工介入节点严格约束。大多数成功的企业级 AI 产品处于两者之间的某个平衡点，根据置信度分数、上下文和风险动态调整控制力度。

3. 大多数 AI 产品的失败源于执行失误，而非模型本身的限制。Aish 和 Kiriti 发现，团队常在真正问题（如模糊的产品范围、缺失的护栏或糟糕的用户上手流程）出现时，却归咎于底层的大语言模型 (LLM)。一个即使有 5% 幻觉率的模型，只要你能通过 UX 设计来展示置信度分数、允许用户验证输出并约束任务范围，就依然可以支撑一款优秀的产品。具体建议是：在要求更好的模型之前，先审视你的产品设计、评估覆盖度和用户流程。在多数情况下，严格的执行纪律比单纯的模型性能更重要。

4. 你的 V1 版 AI 产品应聚焦于一个狭窄、高价值的问题，并设置严格的护栏。团队的常见失败原因是试图在首次尝试中就构建一个通用助手或智能体。正确的做法是：选择一个具体的工作流，自动化一项重复性任务，或者出色地回答某一类问题。聚焦的范围让你能收集到集中的反馈、更快地调优模型，并在扩展前证明其价值。广度是之后的事，前提是你已经跑通了核心闭环。

5. 对于 AI 产品，可观测性和日志记录比传统软件更为关键，因为 AI 行为是非确定性的，也更难调试。你不仅需要记录错误，还应记录模型的置信度分数、输入特征、用户修正以及延迟指标。当线上环境出现问题时，这些日志是唯一能还原模型“所见”及其决策原因的依据。务必在危机发生前，尽早投资于日志记录基础设施。

6. 模型评估 (evals) 是必要的，但并不足够。评估能帮你衡量模型在已知测试用例上的性能，但无法捕捉完整的产品体验、生产中的边缘情况或用户满意度。仅依赖评估的团队，其产品可能在测试中表现优异，却在真实场景中失败。应将评估与持续监控、用户反馈循环和可观测性工具结合，以捕捉自动化测试遗漏的问题。

7. “持续校准”取代了传统的迭代产品开发周期。由于 AI 模型会漂移，用户期望也会变化，团队必须持续衡量实际性能，并相应调整提示词、护栏或模型版本。Aish 和 Kiriti 建议，从产品上线第一天起就植入数据采集能力，以捕获用户反馈和模型输出，并每周审查这些数据。没有持续校准，你的 AI 产品性能将悄然下降，用户会在你察觉之前流失。

8. AI 的持续部署意味着将模型更新和提示词变更像代码一样交付，而非手动干预。传统软件部署代码；AI 产品则部署代码加上模型权重、提示词和检索逻辑。Aish 和 Kiriti 主张将提示词和模型配置作为受版本控制的制品纳入 CI/CD 流水线，并通过评估进行自动化回归测试。这能防止产品经理在 UI 中随意调整提示词而破坏生产环境的常见反模式。这样做的好处是：你可以安全地迭代模型行为，并能立即回滚不良变更。

9. AI 产品失败，往往是因为团队低估了数据质量的重要性。Aish 和 Kiriti 看到许多团队急于微调模型或添加功能，却没有先审计其训练和评估数据是否真实反映了实际使用场景。“垃圾进，垃圾出”的法则对 AI 加倍适用：如果你的数据过时、有偏见或与用户需求脱节，那么再多的提示工程或模型调优都无济于事。首要任务是把你的数据治理好。

为什么大多数 AI 产品失败：来自 OpenAI、Google 和 Amazon 的 50+ 次 AI 部署的经验教训

@Aish_Reganti 和 @KiritiBadam 在 @OpenAI、@Google、@Amazon 和 @Databricks 等公司构建了超过 50 个企业级 AI 产品。基于这些经验，他们总结出了一套用于构建和规模化成功 AI 产品的最佳实践。我们这次对话的目标，是帮助您和您的团队在构建 AI 产品时，避免许多弯路和困扰。

我们讨论了：
🔸 AI 产品与传统软件的两大关键区别
🔸 构建成功 AI 产品时的常见模式与反模式
🔸 他们迭代式构建 AI 产品的框架
🔸 为什么模型评估 (evals) 并非万能灵药
🔸 为何对客户信任与可靠性的极致追求，是成功 AI 产品一个被低估的推动力
🔸 AI 时代对构建者最重要的技能

立即收听 👇
• YouTube: youtube.com/watch?v=z7T1pC…
• Spotify: open.spotify.com/episode/5KABq3…
• Apple: podcasts.apple.com/us/podcast/wha…

感谢以下优秀赞助商对本期播客的支持：
🏆 @merge_api — 快速集成 220+ 种服务的最优方案：merge.dev/lenny
🏆 @strella_io — 由 AI 驱动的智能客户研究平台：strella.io/lenny
🏆 @brexHQ — 专为初创公司打造的银行解决方案：brex.com/product/busine…

用三个指标给 LLM 评测基准打分

现在评测 LLM 的基准测试多得数不过来，数学的、推理的、知识理解的，各种各样。

我们用这些基准来判断模型好不好，但谁来判断这些基准本身质量如何？

复旦和小红书的研究团队最近发了一个论文有点意思。

提出了一个叫 BENCHMARK² 的框架，专门用来给这些评测基准"打分"。

（看这些评测题目到底质量如何）

三个维度看基准质量

思路很直接：一个好的基准测试，应该具备三个特质。

第一个是排名一致性（Cross-Benchmark Ranking Consistency）。

简单说就是，如果你的基准测试说模型 A 比模型 B 强，那最好其他类似的基准测试也这么说。

要是你的测试结果跟大家都不一样，那可能不是别人错了，而是你的测试有问题。

他们用 Kendall's τ 相关系数来衡量，分数大于 0.7 算高度一致，0.4 到 0.7 算中等，低于 0.4 就得小心了。

第二个是区分度（Discriminability Score）。

一个好的测试应该能把不同水平的模型区分开。

如果所有模型在你的测试上得分都差不多，那这个测试就没什么意义了。

就像考试，如果大家都考 90 分，你根本看不出谁学得更好。

他们的计算方法考虑了两点：一是分数的分布范围，二是模型之间差异是否显著。

分数大于 0.4 说明区分度不错，小于 0.2 基本就是"大家都差不多"。

第三个是能力对齐偏差（Capability Alignment Deviation）。

这个指标最有意思。

它关注的是单个测试题目的质量。

逻辑很简单：在同一个模型家族里（比如 Qwen 的 1.5B、7B、72B 版本），参数更多的模型理论上应该更强。

如果一道题上，小模型答对了但大模型答错了，这道题可能就有问题。

他们统计这种"反转"现象的比例，然后用指数函数转换成 0 到 1 的分数。

分数越高，说明测试题目越符合能力层级的预期。

实测结果有点意外

研究团队测试了 15 个主流基准，涵盖数学、推理、知识理解三大领域，用了 11 个模型（来自 DeepSeek、Llama、Qwen 四个家族）。

数学领域的差异最大。

AIME 2024 表现优秀，区分度达到 0.74，能力对齐度 0.85。

但 MATH-500 的区分度只有 0.16，可能是因为题目对现在的模型来说太简单了，出现了"天花板效应"。

推理领域有个有趣的权衡。

ARC 的能力对齐度最高（0.87），但区分度很低（0.11）。

BBH 正好相反，区分度不错（0.25），但能力对齐度一般（0.66）。

很难找到两者兼顾的基准。

知识理解领域最稳定，各个基准的综合质量分都在 0.51 到 0.58 之间。

还有个发现：

那些有客观评判标准的基准（比如数学题有明确答案），能力对齐度普遍更高。

实际应用：精简版基准

这套评分体系还能帮做一件实用的事：

筛选出高质量的测试题，构建精简版基准。

他们的方法是：选择能力对齐度高、区分度强的题目。

结果发现，只用原来 35% 的题目，就能达到跟完整基准差不多的评测效果。

具体来说，精简版基准的排名一致性达到 0.93（满分 1.0），稳定性 0.69，区分度 0.47。

这比随机选题、选简单题或选难题的效果都要好。

更重要的是，他们还用没参与指标计算的模型（Qwen2.5-Base 系列）做了验证，结果依然靠谱。

这说明这套方法的泛化能力不错。

基于这些发现，研究团队给基准开发者提了几条建议：

1. 设定最低标准：区分度至少要大于 0.2，能力对齐度至少要大于 0.6

2. 优先客观评判：有明确答案的题目质量更稳定

3. 考虑精简构建：用他们的指标筛选题目，可以在保证质量的同时提高效率

4. 关注家族差异：如果不同模型家族在你的基准上表现差异很大，可能存在偏向性

一个疑问：我们对 AI 能力的评估，本质上受限于我们设计评估方法的能力。

就像用 CBRC 指标时，他们用其他基准来评判一个基准，这会不会有循环论证的嫌疑？

研究团队也意识到这个问题，所以他们用了三个互补的指标，而且 CAD 和 DS 都不依赖外部基准。

另一个有意思的点是，他们发现高区分度和高能力对齐很难同时达到。

这反映了一个矛盾：

要区分模型，你需要有挑战性的题目；

但太难的题目，可能会让大小模型都答不上来，反而看不出差异。

最后说个局限：

这套方法目前只适用于有明确答案的测试。

对于开放式生成任务（比如写作、对话），怎么评估基准质量，还是个开放问题。

不过话说回来，能把"评估评估本身"这件事做得这么系统，已经很有价值了。

自 Claude Code 推出以来，我们看到人们将它用于各种非编码工作：进行假期规划、制作幻灯片、整理电子邮件、取消订阅、从硬盘恢复婚礼照片、监测植物生长，甚至控制烤箱。

这些用例既多样又令人惊喜——其根本原因在于，底层的 Claude Agent 是最出色的智能体，而 Opus 4.5 是最优秀的模型。

今天，我们怀着无比兴奋的心情向大家介绍 Cowork，这是我们迈向让 Claude Code 处理你所有非编码工作的第一步。这款产品尚处早期，比较原始，感觉就像 Claude Code 刚问世时一样。

Cowork 包含多项新颖的 UX 与安全功能，我们相信这些功能让它与众不同：内置虚拟机以实现隔离、开箱即用的浏览器自动化支持、兼容你所有的 claude.ai 数据连接器，以及在不确定时会向你请求澄清。我们迫不及待想看看大家会如何用它。

Cowork 现已作为研究预览版，向 macOS 应用中的 Claude Max 订阅者开放。点击侧边栏中的 “Cowork”：claude.com/download

公司之间最重要的区别，在于那些创造自己都为之钦佩之物的公司，与那些视客户为傻瓜、并愤世嫉俗地投其所好的公司之间。公司有时会从前一种转变为后一种，但绝不会发生反向的转变。

今天，我们非常高兴地宣布完成 1.5 亿美元的 A 轮融资，公司估值达 17 亿美元，这几乎是我们去年五月种子轮估值的 3 倍。自九月启动评估服务以来，我们的年化消费额运行率已超过 3000 万美元。

我们的使命清晰明确：衡量并推动 AI 前沿发展，确保其在实际应用中的表现，让开发者、研究人员、企业和普通用户都能了解 AI 在最关键领域如何运作。

本轮融资由 @Felicis 和加州大学投资部（@UofCalifornia）领投，@a16z、@TheHouseFund、LDVP、@kleinerperkins、@lightspeedvp 和 @LaudeVentures 共同参与。这一里程碑反映了行业日益增长的共识：若没有独立、透明和持续的评估，AI 无法以负责任的方式实现规模化发展。

过去一年，LMArena 已发展成为全球最值得信赖的社区平台，用于理解 AI 模型在真实世界条件下的表现。随着 AI 触达全球数十亿人，对基于实际经验（而不仅仅是基准测试结果）的衡量需求变得前所未有的迫切。

目前，我们为全球 150 多个国家/地区的超过 500 万月活跃用户提供服务。我们的社区每月共同产生超过 6000 万次对话，评估 AI 模型在文本、代码、图像、视频和搜索方面的能力与可靠性。我们将以更快的速度构建新功能并改进产品体验，从而帮助社区更好地评估 AI 的前沿技术。

这种前所未有的参与度预示着人们期望的根本性转变：世界现在要求 AI 做到可衡量、可比较、可追责。

这笔新资金将使我们能够显著扩大工程、研究、平台运营和社区倡议，以满足全球不断增长的需求。在我们的团队、合作伙伴和全球社区的支持下，我们将继续重新定义 AI 前沿的衡量与推进方式，坚定不移地朝着构建全球最值得信赖的评估平台的目标迈进。

10 个真正改变我工作方式的 Claude Skills

Reddit/ClaudeAI 中看到的帖子，作者总结了自己持续测试后真正觉得有价值的 10 个 Skills，聚焦于提升生产力、自动化和专业输出，涵盖开发、文档、设计、测试等场景。

1. Rube MCP Connector
通过一个统一的 MCP 服务器，将Claude一次性连接到 500+ 应用（Slack、GitHub、Notion 等），无需为每个应用单独配置认证。适合需要大量自动化集成的用户，大幅节省时间。

2. Superpowers（obra 开发的开发者工具包）
提供 /brainstorm、/write-plan、/execute-plan 等专用命令，将 Claude 从普通聊天机器人转变为完整的开发工作流辅助工具。对严肃编码的人来说是重大提升。

3. Document Suite（Anthropic 官方 Skills）
让 Claude 真正擅长处理和创建 Word、Excel、PowerPoint、PDF 文件，支持正确格式、公式等，而不仅仅是读取。处理客户发来的复杂文件时特别实用。

4. Theme Factory
一次性上传品牌指南（颜色、字体等），之后 Claude 生成的所有 Artifacts 都会自动遵循该风格。非常适合营销团队保持品牌一致性。

5. Algorithmic Art
基于 p5.js 的生成艺术工具，只需文字描述（如“蓝紫渐变流场，5000 个粒子，种子 42”），即可生成可复现的艺术作品。适合创意编码者。

6. Slack GIF Creator
直接根据描述生成专为 Slack 优化的自定义动画 GIF，无需再去 Giphy 搜索。实用且有趣的小工具。

7. Webapp Testing
使用 Playwright 自动化框架，描述测试需求（如“测试登录流程”），Claude 就能编写并运行测试脚本。QA 工程师和开发者会觉得特别好用。

8. MCP Builder
快速生成自定义 MCP 服务器的样板代码，将搭建集成的时间缩短约80%。适合自己开发 Skills 或复杂集成的用户。

9. Brand Guidelines
与 Theme Factory 类似，但支持同时管理多个品牌风格，并轻松切换。适合需要处理不同品牌项目的团队。

10. Systematic Debugging
让 Claude 按资深工程师的思路系统化调试：找出根本原因 → 提出假设 → 提供修复方案 → 编写文档。避免了以往“瞎猜式”调试。

上面这 10 个 Skills 的资源地址：
github.com/anthropics/ski…
github.com/obra/superpowe…
github.com/ComposioHQ/awe…
rube.app