推文

Boris Cherny

5天前

我们刚刚开源了 Claude Code 团队内部使用的代码简化器代理。

安装命令：claude plugin install code-simplifier

或者在 Claude 会话中直接运行：
  /plugin marketplace update claude-plugins-official
  /plugin install code-simplifier

你可以在一次漫长的编码会话后，让 Claude 使用这个代码简化器代理来整理代码；或者用它来简化复杂的拉取请求（PR）。欢迎告诉我们你的使用体验！

341

1,080

1.3万

1.6万

171.1万

4,192

Jeff Dean

2天前

我很兴奋地宣布，我们与 Apple 达成合作，将 Gemini 模型带给 Apple 用户，并为 Apple Intelligence 功能提供支持！

News from Google

2天前

Joint Statement: Apple and Google have entered into a multi-year collaboration under which the next generation of Apple Foundation Models will be based on Google's Gemini models and cloud technology. These models will help power future Apple Intelligence features, including a more personalized Siri coming this year.

After careful evaluation, Apple determined that Google's Al technology provides the most capable foundation for Apple Foundation Models and is excited about the innovative new experiences it will unlock for Apple users. Apple Intelligence will continue to run on Apple devices and Private Cloud Compute, while maintaining Apple's industry-leading privacy standards.

1,599

6,502

5.2万

1013.3万

139

247

5,205

262

41.3万

509

Lenny Rachitsky

5天前

当今 AI 初创公司的最大机遇

我们调查了我的读者，了解他们目前如何使用 AI，更重要的是，他们希望如何应用 AI。

对于产品经理，最大的机会在于研究。用户研究在所有任务中显示出最大的需求缺口。目前仅有 4.7% 的人将其作为主要 AI 用例，但近三分之一的人希望如此。产品经理们已经学会用 AI 处理诸如编写产品需求文档和起草文稿等输出型任务，但他们更渴望将其用于上游环节——即用于厘清“到底该构建什么”这项复杂工作。

原型设计是一个跨职能的突破性领域，无论现在还是未来都是如此。对产品经理而言，“创建线框图/原型”的使用率从当前的 19.8% 跃升至期望的 44.4%，高达 24.6 个百分点的增幅，使其成为未来最受期待的用例。

对于设计师，原型设计和交互设计也呈现出类似的增长势头（+27.8pp）。这正好对应了 Lovable、v0、Replit 和 Figma Make 等工具的兴起。

工程师们正将 AI 的应用转向代码编写之后的工作。编写代码目前仍是他们最主流的用例（占 51%），但其需求缺口仅为 +5.6pp。然而，文档编写（+25.8pp）、代码审查（+24.5pp）和编写测试（+23.5pp）都显示出工程 AI 工具领域的巨大增长机会。

创始人正大力将 AI 视为“思考伙伴”。产品构思的需求激增，从当前的 19.6% 跃升至期望的 48.6%，缺口高达 29.0pp。增长策略与市场进入规划（+24.7pp）以及市场分析（+24.0pp）紧随其后。

创始人虽已大量使用 AI 提升个人生产力（当前占 32.9%），但他们希望更进一步。他们寻求用 AI 来验证想法、探索市场并规划上市策略。AI 是联合创始人，而不仅仅是助手。

@noamseg 的完整报告： lennysnewsletter.com/p/ai-tools-are…

116

984

1,409

10.1万

410

OpenAI

6天前

隆重推出 ChatGPT Health —— 这是 ChatGPT 中专为健康对话打造的独立空间。您可以安全地连接医疗记录和健康应用，从而让回复能基于您个人的健康信息。

它的目标是协助您管理健康，而非替代专业医疗。

立即加入预约名单，抢先体验。

openai.com/index/introduc…

1,302

2,196

1.6万

6,147

744万

3,884

Boris Cherny

6天前

Claude Code 2.1.0 正式发布了！运行 claude update 来获取它。

我们带来了以下更新：

- **Shift+Enter 换行**：无需任何设置即可使用。
- **钩子直接集成**：现在可以直接将钩子添加到代理和技能的前置元数据（frontmatter）中。
- **技能增强**：支持分叉上下文、热重载、自定义代理，并可使用 `/` 前缀调用。
- **代理行为优化**：即使你拒绝了某项工具使用请求，代理也不会停止运行。
- **多语言响应**：可配置模型，使其使用你指定的语言（如日语、西班牙语）进行响应。
- **通配符工具权限**：例如，支持 Bash(*-h*) 这样的模式。
- **会话传送**：使用 `/teleport` 命令可将你的会话传送到 https://t.co/pEWPQoSq5t。
- **总计**：本次更新包含了 1096 次提交。

更新日志详情：github.com/anthropics/cla…

如果你还没有尝试过 Claude claude.ai/codecode.claude.com/docs/en/setup

欢迎分享你的使用体验！

680

798

1.1万

2,968

84.5万

2,138

Lenny Rachitsky

1天前

正在体验全新的 Claude Cowork。

我让它通读了 Lenny's Podcast 的所有单集，并为产品构建者提炼出 10 个最重要的主题与经验教训。接着，又让它找出 10 个最反直觉的真理。我授予了它访问一个包含 320 份转录稿文件夹的权限。

一开始，它就说：“这任务可不轻——要分析 320 份播客转录稿！”

15 分钟后...

Lenny's Podcast 的 10 个最重要主题

1.  激活就是一切 —— Slack 的 “2000 条消息” 时刻，Gamma 的 30 秒魔法。关键在于让用户快速获得价值感。

2.  讲故事作为超能力 —— 引人入胜的叙事比文档更能凝聚组织。

3.  定位是战略，而非营销 —— April Dunford 的五步框架，其起点是分析竞争替代品，而非拟定宣传信息。

4.  产品发现先于交付 —— Teresa Torres 的 “机会解决方案树” 和 Marty Cagan 的 “四风险框架”。应每周而非每季度与客户交流。

5.  无情优先级排序 —— Shreyas Doshi 的 LNO 框架（杠杆/中性/开销），着眼于机会成本而非单纯的投资回报率。

6.  AI 正在重塑产品开发 —— 模型最大化理念，评估能力成为产品经理的核心技能，首席执行官们再次回归为个人贡献者。

7.  赋能团队 vs. 功能工厂 —— Marty Cagan 的核心理念：给团队需要解决的问题，而非待实现的功能清单。

8.  构建你的操作系统 —— Claire Hughes Johnson 关于创始文件、运营节奏和决策框架的体系。

9.  事前剖析与风险预期 —— Shreyas Doshi 提出的方法，用于在问题发生前，主动揭示潜在的失败模式。

10. 小团队，巨大影响 —— Jason Fried 的 “2 人/6 周” 约束原则，以及 Shopify 的结对编程文化。

10 个最反直觉的真理：

1.  恐惧给出的是坏建议——反其道而行之 —— 无论你害怕做什么（艰难对话、向董事会汇报坏消息），那恰恰是你应该做的事。

2.  增加摩擦反而能 提高 转化率 —— 在注册流程中添加个性化问题，使 Amplitude 的转化率提升了 5%。

3.  功能越少 = 价值越高 —— Walkman 的成功是因为索尼 移除了 录音功能。QuickBooks 则以一半的功能、双倍的价格取胜。

4.  增加人员会让你更慢（绝对如此） —— 公司在裁员后整体产出更多。协调开销是隐形的效率杀手。

5.  客户口头表达的需求往往没有意义 —— 93% 的人声称想要节能住宅，却无人购买。正所谓“嘴上说说不算数”。

6.  目标不是战略——它们恰恰相反 —— Richard Rumelt 指出，将目标误认为战略是最常见的战略错误。OKR 常常只是一份愿望清单。

7.  不要对你的重大赌注进行 A/B 测试 —— Instagram 和 Airbnb 都明确拒绝为变革性创新做测试。伟大的产品不是 A/B 测试出来的。

8.  你的直觉 就是 数据 —— 直觉是尚未达到统计显著性的、压缩后的经验学习。不要轻视它。

9.  当你开始考虑放弃时，往往为时已晚 —— Stewart Butterfield 在 Glitch 仍保持每周 6-7% 增长时就果断关停了它。这正是他后来能创立 Slack 的原因。

10. 大多数产品经理薪酬过高且并非必需 —— Marty Cagan 本人就认为功能团队不需要产品经理。Nikita Bier 更是直言产品经理这个角色“不真实”。

干得漂亮 @claudeai

140

1,937

2,305

34.1万

643

ElevenLabs

5天前

今天我们正式发布 Scribe v2：这是迄今为止最准确的转录模型。

Scribe v2 Realtime 专为超低延迟和智能体用例优化，而 Scribe v2 则专为大规模的批量转录、字幕生成和说明文字生成而设计。

00:51

261

1,905

1,044

51.6万

476

Qwen

6天前

🚀 隆重推出 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker —— 推动多模态检索与跨模态理解的技术前沿！
✨ 核心亮点：
✅ 基于强大的 Qwen3-VL 基础模型构建
✅ 可处理文本、图像、截图、视频及混合模态输入
✅ 支持 30 多种语言
✅ 在多模态检索基准测试中达到最先进性能
✅ 完全开源，现已在 Hugging Face、GitHub 和 ModelScope 上可用
✅ 阿里云 API 部署即将上线！

➡️ 两阶段检索架构：
📊 嵌入模型 – 在统一的嵌入空间中生成语义丰富的向量表示
➡️ 重排序模型 – 计算细粒度的相关性分数，以提升检索准确率

🔍 关键应用场景：
图文检索、视频搜索、多模态 RAG、视觉问答、多模态内容聚类、多语言视觉搜索等！

🌟 开发者友好特性：
• 可配置的嵌入维度
• 支持任务特定的指令定制
• 提供嵌入量化支持，助力高效、高性价比的下游部署
Hugging Face：
huggingface.co/collections/Qw…
huggingface.co/collections/Qw…
ModelScope：
modelscope.cn/collections/Qw…
modelscope.cn/collections/Qw…
Github: github.com/QwenLM/Qwen3-V…
Blog: qwen.ai/blog?id=qwen3-…
Tech Report: github.com/QwenLM/Qwen3-V…

300

1,865

896

19.2万

417

Lenny Rachitsky

1天前

我请 Claude Cowork 基于我 320 期播客的对话内容，识别出在 AI 时代蓬勃发展的 10 项最重要技能。

结果令人印象深刻。

第一部分：永恒技能（价值倍增）

1. 品味与判断力 —— 当 AI 能生成无限选项时，这将成为瓶颈。需要通过大量“接触”和积累经验来培养。—— @rauchg

2. 好奇心 —— 这是一种能够驱动所有其他学习的元技能。@mikeyk 表示，在 AI 时代，他会优先培养孩子的这项能力。

3. 成为跨职能的“构建者” —— “打破角色边界，我们都应称自己为构建者。” —— @joulee

4. 清晰的沟通与叙事能力 —— 当执行逐渐自动化，清晰阐述观点将成为你的主要产出。

5. 战略思维 —— “当执行成本下降时，正确的战略所能带来的杠杆效应就会显著增大。”

第二部分：AI 原生技能（必须掌握）

1. 编写评估 —— “AI 的能力上限，几乎取决于我们进行评估的水平。” —— @kevinweil

2. 提示工程与上下文设计 —— “优秀的提示者，本身就是优秀的写作者。”

3. 通过持续使用培养 AI 熟练度 —— 仅靠阅读无法真正理解 AI。不妨取消一些会议，亲自去试用每一款 AI 产品。

4. 理解底层系统原理 —— 矛盾却关键的是，当 AI 将复杂操作抽象化后，对基础知识的理解反而变得更有价值。

5. 将 AI 智能体视为队友协作 —— 与之协作的管理技能可以直接迁移应用。“过去管理的是人，而现在基本上是 AI 模型。” —— @joulee

Lenny Rachitsky

1天前

正在体验全新的 Claude Cowork。

我让它通读了 Lenny's Podcast 的所有单集，并为产品构建者提炼出 10 个最重要的主题与经验教训。接着，又让它找出 10 个最反直觉的真理。我授予了它访问一个包含 320 份转录稿文件夹的权限。

一开始，它就说：“这任务可不轻——要分析 320 份播客转录稿！”

15 分钟后...

Lenny's Podcast 的 10 个最重要主题

1.  激活就是一切 —— Slack 的 “2000 条消息” 时刻，Gamma 的 30 秒魔法。关键在于让用户快速获得价值感。

2.  讲故事作为超能力 —— 引人入胜的叙事比文档更能凝聚组织。

3.  定位是战略，而非营销 —— April Dunford 的五步框架，其起点是分析竞争替代品，而非拟定宣传信息。

4.  产品发现先于交付 —— Teresa Torres 的 “机会解决方案树” 和 Marty Cagan 的 “四风险框架”。应每周而非每季度与客户交流。

5.  无情优先级排序 —— Shreyas Doshi 的 LNO 框架（杠杆/中性/开销），着眼于机会成本而非单纯的投资回报率。

6.  AI 正在重塑产品开发 —— 模型最大化理念，评估能力成为产品经理的核心技能，首席执行官们再次回归为个人贡献者。

7.  赋能团队 vs. 功能工厂 —— Marty Cagan 的核心理念：给团队需要解决的问题，而非待实现的功能清单。

8.  构建你的操作系统 —— Claire Hughes Johnson 关于创始文件、运营节奏和决策框架的体系。

9.  事前剖析与风险预期 —— Shreyas Doshi 提出的方法，用于在问题发生前，主动揭示潜在的失败模式。

10. 小团队，巨大影响 —— Jason Fried 的 “2 人/6 周” 约束原则，以及 Shopify 的结对编程文化。

10 个最反直觉的真理：

1.  恐惧给出的是坏建议——反其道而行之 —— 无论你害怕做什么（艰难对话、向董事会汇报坏消息），那恰恰是你应该做的事。

2.  增加摩擦反而能 提高 转化率 —— 在注册流程中添加个性化问题，使 Amplitude 的转化率提升了 5%。

3.  功能越少 = 价值越高 —— Walkman 的成功是因为索尼 移除了 录音功能。QuickBooks 则以一半的功能、双倍的价格取胜。

4.  增加人员会让你更慢（绝对如此） —— 公司在裁员后整体产出更多。协调开销是隐形的效率杀手。

5.  客户口头表达的需求往往没有意义 —— 93% 的人声称想要节能住宅，却无人购买。正所谓“嘴上说说不算数”。

6.  目标不是战略——它们恰恰相反 —— Richard Rumelt 指出，将目标误认为战略是最常见的战略错误。OKR 常常只是一份愿望清单。

7.  不要对你的重大赌注进行 A/B 测试 —— Instagram 和 Airbnb 都明确拒绝为变革性创新做测试。伟大的产品不是 A/B 测试出来的。

8.  你的直觉 就是 数据 —— 直觉是尚未达到统计显著性的、压缩后的经验学习。不要轻视它。

9.  当你开始考虑放弃时，往往为时已晚 —— Stewart Butterfield 在 Glitch 仍保持每周 6-7% 增长时就果断关停了它。这正是他后来能创立 Slack 的原因。

10. 大多数产品经理薪酬过高且并非必需 —— Marty Cagan 本人就认为功能团队不需要产品经理。Nikita Bier 更是直言产品经理这个角色“不真实”。

干得漂亮 @claudeai

140

1,937

34.1万

123

1,081

1,592

15.5万

330

宝玉

4天前

“你们应该多用 Bash。”

过去几周，Anthropic 的 Thariq 和几十家做通用智能体的公司开了电话会议。邮件助手、客服机器人、日程管理——各种产品形态都有。聊完一圈，他发现自己反复在说同一句话。

Bash？那不是程序员用的命令行工具吗，和这些产品有什么关系？

先看一个具体场景。

假设你有一个邮件 Agent，你问它：“这周我在打车上花了多少钱？”

传统做法是这样的：Agent 调用 API 拉取邮件，可能一次性取回 100 封，然后让模型从里面找 Uber、Lyft 的收据，加总金额。

问题在于 100 封邮件塞进上下文，模型要同时记住这些内容，从中筛选、计算。这对大语言模型来说并不轻松。容易漏，容易错，而且你没法验证它到底看了哪些邮件。

这就是典型的模型舒适区问题：数据量不算大到需要专门写程序处理，但又超出了模型一次性硬算的能力范围。夹在中间，很尴尬。

Thariq 的方案是：给 Agent 一个 Bash 工具，让它把中间结果存成文件。

听起来很简单，但背后的逻辑很有意思。

传统的工具调用是这样的流程：

工具 → 模型处理 → 输出结果

所有中间状态都在模型的“脑子”里，你看不见，也没法检查。

换成 Bash 之后，流程变了：

工具 → 存文件 → 搜索/过滤 → 模型处理 → 输出结果

模型可以先把 100 封邮件存到一个文件里，然后用 grep 搜“Uber”，再 grep“Lyft”，分别统计。每一步都有迹可查，最后加总的时候，它还能回头检查自己的中间结果。

这带来三个能力升级：

可复现。同样的命令再跑一遍，结果一样。你可以调试，可以排查问题。

可验证。模型不是凭“记忆”给你答案，而是基于实际文件里的数据。你信不过的话，自己也能打开文件看一眼。

可组合。一个命令的输出可以作为下一个命令的输入，管道一接，复杂任务就能拆成简单步骤。

Bash 让 Agent 从“脑算”变成了“打草稿”。草稿可以留痕，可以检查，可以改。这对需要准确性的任务来说太重要了。

邮件搜索只是最直观的例子。Bash 的能力边界其实很宽。

链式 API 调用是个常见需求。比如“把这周我发过邮件的联系人都找出来”，这需要先拉邮件列表，提取收件人，去重，再逐个查询联系人详情。一连串操作用 Tool calls 来做，调用次数多，中间状态难管理。用 Bash 脚本串起来，逻辑清晰得多。

视频和文件处理也是 Bash 的强项。ffmpeg 这个命令行工具，模型用起来得心应手。找视频里某个片段、裁剪、转码，一行命令搞定。

还有定时任务。在 Agent 运行的容器里，用 cronjob 或 at 命令就能创建定时执行的任务。用户说“每天早上 8 点给我发一份新闻摘要”，Agent 可以自己设好闹钟。

这些场景有个共同点：都需要多步骤操作，都需要保存中间状态，都超出了单次工具调用的能力范围。

但 Bash 是把双刃剑。

能执行命令意味着能做很多事，也意味着能做很多危险的事。rm -rf 一不小心就能删光整个目录。如果 Agent 被恶意提示词攻击，后果可能很严重。

Anthropic 显然考虑到了这一点。他们在 Claude Agent SDK 里做了一套权限系统，包括 Bash 命令解析器和分级权限控制。哪些命令可以直接执行，哪些需要用户确认，哪些完全禁止，都可以配置。

我用 Claude Code 的体会是，这套权限系统确实降低了心理负担。它会在执行敏感操作前询问你，而不是闷头就干。但安全护栏不是万能药。权限系统本身也可能有漏洞，Bash 解析器也可能被绕过。

安全护栏是必需品，但不能因此就觉得万事大吉。

强调 Bash 的好处，也得说清楚它的边界。

如果任务足够简单，别用。“今天天气怎么样”这种一次性查询，直接调 API 返回结果就行，没必要存文件再处理。杀鸡用牛刀反而更慢。

如果环境是 Serverless 的，用不了。很多云函数运行时没有可持久化的文件系统，Bash 的“存中间结果”优势就没了。

如果对安全要求极高，谨慎使用。命令注入的风险无法百分之百消除，金融、医疗这类场景可能更适合用白名单式的专用工具，而非通用的 Bash。

工具的选择取决于场景，而不是工具本身的强弱。Bash 很强，但不是所有场合都该用。

回过头看，Thariq 这条建议的真正价值不是“Bash 很强”这个结论，而是背后的思维方式：

让 Agent 的思考过程“落地”到可检查的中间产物。

传统的 Agent 设计把所有东西都塞进模型的上下文，一锤子买卖。Bash 提供了另一种路径：把复杂任务拆开，每一步都留下痕迹，可以验证，可以回溯。

想想看，这和人类处理复杂问题的方式多像。我们做复杂计算时会列竖式，写长文章时会先拟提纲，处理大量信息时会做笔记。不是因为脑子记不住，而是因为落到纸上更可靠、更容易检查。

Agent 也一样。不是说模型处理不了，而是有中间产物的流程更值得信任。我自己用 Agent 辅助写作，所有中间产物都会存成文件：网络检索资料、提纲、不同版本的草稿、画图的提示词。这些存下来后续就可以灵活组合。

Bash 不只是程序员的工具，更是让 Agent 具备可验证、可复现、可审计能力的关键一环。

Thariq

3个月前

Why even non-coding agents need bash  

I've done dozens of calls with companies making general agents over the past few weeks and my advice generally boils down to: "use the bash tool more"   

Here's a concrete example from my email agent:

923

23.1万

368

413

5.7万

117

订阅源

我们刚刚开源了 Claude Code 团队内部使用的代码简化器代理。

安装命令：claude plugin install code-simplifier

或者在 Claude 会话中直接运行：
/plugin marketplace update claude-plugins-official
/plugin install code-simplifier

你可以在一次漫长的编码会话后，让 Claude 使用这个代码简化器代理来整理代码；或者用它来简化复杂的拉取请求（PR）。欢迎告诉我们你的使用体验！

Joint Statement: Apple and Google have entered into a multi-year collaboration under which the next generation of Apple Foundation Models will be based on Google's Gemini models and cloud technology. These models will help power future Apple Intelligence features, including a more personalized Siri coming this year.

After careful evaluation, Apple determined that Google's Al technology provides the most capable foundation for Apple Foundation Models and is excited about the innovative new experiences it will unlock for Apple users. Apple Intelligence will continue to run on Apple devices and Private Cloud Compute, while maintaining Apple's industry-leading privacy standards.

当今 AI 初创公司的最大机遇

我们调查了我的读者，了解他们目前如何使用 AI，更重要的是，他们希望如何应用 AI。

对于产品经理，最大的机会在于研究。用户研究在所有任务中显示出最大的需求缺口。目前仅有 4.7% 的人将其作为主要 AI 用例，但近三分之一的人希望如此。产品经理们已经学会用 AI 处理诸如编写产品需求文档和起草文稿等输出型任务，但他们更渴望将其用于上游环节——即用于厘清“到底该构建什么”这项复杂工作。

原型设计是一个跨职能的突破性领域，无论现在还是未来都是如此。对产品经理而言，“创建线框图/原型”的使用率从当前的 19.8% 跃升至期望的 44.4%，高达 24.6 个百分点的增幅，使其成为未来最受期待的用例。

对于设计师，原型设计和交互设计也呈现出类似的增长势头（+27.8pp）。这正好对应了 Lovable、v0、Replit 和 Figma Make 等工具的兴起。

工程师们正将 AI 的应用转向代码编写之后的工作。编写代码目前仍是他们最主流的用例（占 51%），但其需求缺口仅为 +5.6pp。然而，文档编写（+25.8pp）、代码审查（+24.5pp）和编写测试（+23.5pp）都显示出工程 AI 工具领域的巨大增长机会。

创始人正大力将 AI 视为“思考伙伴”。产品构思的需求激增，从当前的 19.6% 跃升至期望的 48.6%，缺口高达 29.0pp。增长策略与市场进入规划（+24.7pp）以及市场分析（+24.0pp）紧随其后。

创始人虽已大量使用 AI 提升个人生产力（当前占 32.9%），但他们希望更进一步。他们寻求用 AI 来验证想法、探索市场并规划上市策略。AI 是联合创始人，而不仅仅是助手。

@noamseg 的完整报告： lennysnewsletter.com/p/ai-tools-are…

隆重推出 ChatGPT Health —— 这是 ChatGPT 中专为健康对话打造的独立空间。您可以安全地连接医疗记录和健康应用，从而让回复能基于您个人的健康信息。

它的目标是协助您管理健康，而非替代专业医疗。

立即加入预约名单，抢先体验。

openai.com/index/introduc…

Claude Code 2.1.0 正式发布了！运行 claude update 来获取它。

我们带来了以下更新：

- **Shift+Enter 换行**：无需任何设置即可使用。
- **钩子直接集成**：现在可以直接将钩子添加到代理和技能的前置元数据（frontmatter）中。
- **技能增强**：支持分叉上下文、热重载、自定义代理，并可使用 `/` 前缀调用。
- **代理行为优化**：即使你拒绝了某项工具使用请求，代理也不会停止运行。
- **多语言响应**：可配置模型，使其使用你指定的语言（如日语、西班牙语）进行响应。
- **通配符工具权限**：例如，支持 Bash(*-h*) 这样的模式。
- **会话传送**：使用 `/teleport` 命令可将你的会话传送到 https://t.co/pEWPQoSq5t。
- **总计**：本次更新包含了 1096 次提交。

更新日志详情：github.com/anthropics/cla…

如果你还没有尝试过 Claude claude.ai/code code.claude.com/docs/en/setup

欢迎分享你的使用体验！

正在体验全新的 Claude Cowork。

我让它通读了 Lenny's Podcast 的所有单集，并为产品构建者提炼出 10 个最重要的主题与经验教训。接着，又让它找出 10 个最反直觉的真理。我授予了它访问一个包含 320 份转录稿文件夹的权限。

一开始，它就说：“这任务可不轻——要分析 320 份播客转录稿！”

15 分钟后...

Lenny's Podcast 的 10 个最重要主题

1. 激活就是一切 —— Slack 的 “2000 条消息” 时刻，Gamma 的 30 秒魔法。关键在于让用户快速获得价值感。

2. 讲故事作为超能力 —— 引人入胜的叙事比文档更能凝聚组织。

3. 定位是战略，而非营销 —— April Dunford 的五步框架，其起点是分析竞争替代品，而非拟定宣传信息。

4. 产品发现先于交付 —— Teresa Torres 的 “机会解决方案树” 和 Marty Cagan 的 “四风险框架”。应每周而非每季度与客户交流。

5. 无情优先级排序 —— Shreyas Doshi 的 LNO 框架（杠杆/中性/开销），着眼于机会成本而非单纯的投资回报率。

6. AI 正在重塑产品开发 —— 模型最大化理念，评估能力成为产品经理的核心技能，首席执行官们再次回归为个人贡献者。

7. 赋能团队 vs. 功能工厂 —— Marty Cagan 的核心理念：给团队需要解决的问题，而非待实现的功能清单。

8. 构建你的操作系统 —— Claire Hughes Johnson 关于创始文件、运营节奏和决策框架的体系。

9. 事前剖析与风险预期 —— Shreyas Doshi 提出的方法，用于在问题发生前，主动揭示潜在的失败模式。

10. 小团队，巨大影响 —— Jason Fried 的 “2 人/6 周” 约束原则，以及 Shopify 的结对编程文化。

10 个最反直觉的真理：

1. 恐惧给出的是坏建议——反其道而行之 —— 无论你害怕做什么（艰难对话、向董事会汇报坏消息），那恰恰是你应该做的事。

2. 增加摩擦反而能提高转化率 —— 在注册流程中添加个性化问题，使 Amplitude 的转化率提升了 5%。

3. 功能越少 = 价值越高 —— Walkman 的成功是因为索尼移除了录音功能。QuickBooks 则以一半的功能、双倍的价格取胜。

4. 增加人员会让你更慢（绝对如此） —— 公司在裁员后整体产出更多。协调开销是隐形的效率杀手。

5. 客户口头表达的需求往往没有意义 —— 93% 的人声称想要节能住宅，却无人购买。正所谓“嘴上说说不算数”。

6. 目标不是战略——它们恰恰相反 —— Richard Rumelt 指出，将目标误认为战略是最常见的战略错误。OKR 常常只是一份愿望清单。

7. 不要对你的重大赌注进行 A/B 测试 —— Instagram 和 Airbnb 都明确拒绝为变革性创新做测试。伟大的产品不是 A/B 测试出来的。

8. 你的直觉就是数据 —— 直觉是尚未达到统计显著性的、压缩后的经验学习。不要轻视它。

9. 当你开始考虑放弃时，往往为时已晚 —— Stewart Butterfield 在 Glitch 仍保持每周 6-7% 增长时就果断关停了它。这正是他后来能创立 Slack 的原因。

10. 大多数产品经理薪酬过高且并非必需 —— Marty Cagan 本人就认为功能团队不需要产品经理。Nikita Bier 更是直言产品经理这个角色“不真实”。

干得漂亮 @claudeai

今天我们正式发布 Scribe v2：这是迄今为止最准确的转录模型。

Scribe v2 Realtime 专为超低延迟和智能体用例优化，而 Scribe v2 则专为大规模的批量转录、字幕生成和说明文字生成而设计。

🚀 隆重推出 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker —— 推动多模态检索与跨模态理解的技术前沿！
✨ 核心亮点：
✅ 基于强大的 Qwen3-VL 基础模型构建
✅ 可处理文本、图像、截图、视频及混合模态输入
✅ 支持 30 多种语言
✅ 在多模态检索基准测试中达到最先进性能
✅ 完全开源，现已在 Hugging Face、GitHub 和 ModelScope 上可用
✅ 阿里云 API 部署即将上线！

➡️ 两阶段检索架构：
📊 嵌入模型 – 在统一的嵌入空间中生成语义丰富的向量表示
➡️ 重排序模型 – 计算细粒度的相关性分数，以提升检索准确率

🔍 关键应用场景：
图文检索、视频搜索、多模态 RAG、视觉问答、多模态内容聚类、多语言视觉搜索等！

🌟 开发者友好特性：
• 可配置的嵌入维度
• 支持任务特定的指令定制
• 提供嵌入量化支持，助力高效、高性价比的下游部署
Hugging Face：
huggingface.co/collections/Qw…
huggingface.co/collections/Qw…
ModelScope：
modelscope.cn/collections/Qw…
modelscope.cn/collections/Qw…
Github: github.com/QwenLM/Qwen3-V…
Blog: qwen.ai/blog?id=qwen3-…
Tech Report: github.com/QwenLM/Qwen3-V…

我请 Claude Cowork 基于我 320 期播客的对话内容，识别出在 AI 时代蓬勃发展的 10 项最重要技能。

结果令人印象深刻。

第一部分：永恒技能（价值倍增）

1. 品味与判断力 —— 当 AI 能生成无限选项时，这将成为瓶颈。需要通过大量“接触”和积累经验来培养。—— @rauchg

2. 好奇心 —— 这是一种能够驱动所有其他学习的元技能。@mikeyk 表示，在 AI 时代，他会优先培养孩子的这项能力。

3. 成为跨职能的“构建者” —— “打破角色边界，我们都应称自己为构建者。” —— @joulee

4. 清晰的沟通与叙事能力 —— 当执行逐渐自动化，清晰阐述观点将成为你的主要产出。

5. 战略思维 —— “当执行成本下降时，正确的战略所能带来的杠杆效应就会显著增大。”

第二部分：AI 原生技能（必须掌握）

1. 编写评估 —— “AI 的能力上限，几乎取决于我们进行评估的水平。” —— @kevinweil

2. 提示工程与上下文设计 —— “优秀的提示者，本身就是优秀的写作者。”

3. 通过持续使用培养 AI 熟练度 —— 仅靠阅读无法真正理解 AI。不妨取消一些会议，亲自去试用每一款 AI 产品。

4. 理解底层系统原理 —— 矛盾却关键的是，当 AI 将复杂操作抽象化后，对基础知识的理解反而变得更有价值。

5. 将 AI 智能体视为队友协作 —— 与之协作的管理技能可以直接迁移应用。“过去管理的是人，而现在基本上是 AI 模型。” —— @joulee

“你们应该多用 Bash。”

过去几周，Anthropic 的 Thariq 和几十家做通用智能体的公司开了电话会议。邮件助手、客服机器人、日程管理——各种产品形态都有。聊完一圈，他发现自己反复在说同一句话。

Bash？那不是程序员用的命令行工具吗，和这些产品有什么关系？

先看一个具体场景。

假设你有一个邮件 Agent，你问它：“这周我在打车上花了多少钱？”

传统做法是这样的：Agent 调用 API 拉取邮件，可能一次性取回 100 封，然后让模型从里面找 Uber、Lyft 的收据，加总金额。

问题在于 100 封邮件塞进上下文，模型要同时记住这些内容，从中筛选、计算。这对大语言模型来说并不轻松。容易漏，容易错，而且你没法验证它到底看了哪些邮件。

这就是典型的模型舒适区问题：数据量不算大到需要专门写程序处理，但又超出了模型一次性硬算的能力范围。夹在中间，很尴尬。

Thariq 的方案是：给 Agent 一个 Bash 工具，让它把中间结果存成文件。

听起来很简单，但背后的逻辑很有意思。

传统的工具调用是这样的流程：

工具 → 模型处理 → 输出结果

所有中间状态都在模型的“脑子”里，你看不见，也没法检查。

换成 Bash 之后，流程变了：

工具 → 存文件 → 搜索/过滤 → 模型处理 → 输出结果

模型可以先把 100 封邮件存到一个文件里，然后用 grep 搜“Uber”，再 grep“Lyft”，分别统计。每一步都有迹可查，最后加总的时候，它还能回头检查自己的中间结果。

这带来三个能力升级：

可复现。同样的命令再跑一遍，结果一样。你可以调试，可以排查问题。

可验证。模型不是凭“记忆”给你答案，而是基于实际文件里的数据。你信不过的话，自己也能打开文件看一眼。

可组合。一个命令的输出可以作为下一个命令的输入，管道一接，复杂任务就能拆成简单步骤。

Bash 让 Agent 从“脑算”变成了“打草稿”。草稿可以留痕，可以检查，可以改。这对需要准确性的任务来说太重要了。

邮件搜索只是最直观的例子。Bash 的能力边界其实很宽。

链式 API 调用是个常见需求。比如“把这周我发过邮件的联系人都找出来”，这需要先拉邮件列表，提取收件人，去重，再逐个查询联系人详情。一连串操作用 Tool calls 来做，调用次数多，中间状态难管理。用 Bash 脚本串起来，逻辑清晰得多。

视频和文件处理也是 Bash 的强项。ffmpeg 这个命令行工具，模型用起来得心应手。找视频里某个片段、裁剪、转码，一行命令搞定。

还有定时任务。在 Agent 运行的容器里，用 cronjob 或 at 命令就能创建定时执行的任务。用户说“每天早上 8 点给我发一份新闻摘要”，Agent 可以自己设好闹钟。

这些场景有个共同点：都需要多步骤操作，都需要保存中间状态，都超出了单次工具调用的能力范围。

但 Bash 是把双刃剑。

能执行命令意味着能做很多事，也意味着能做很多危险的事。rm -rf 一不小心就能删光整个目录。如果 Agent 被恶意提示词攻击，后果可能很严重。

Anthropic 显然考虑到了这一点。他们在 Claude Agent SDK 里做了一套权限系统，包括 Bash 命令解析器和分级权限控制。哪些命令可以直接执行，哪些需要用户确认，哪些完全禁止，都可以配置。

我用 Claude Code 的体会是，这套权限系统确实降低了心理负担。它会在执行敏感操作前询问你，而不是闷头就干。但安全护栏不是万能药。权限系统本身也可能有漏洞，Bash 解析器也可能被绕过。

安全护栏是必需品，但不能因此就觉得万事大吉。

强调 Bash 的好处，也得说清楚它的边界。

如果任务足够简单，别用。“今天天气怎么样”这种一次性查询，直接调 API 返回结果就行，没必要存文件再处理。杀鸡用牛刀反而更慢。

如果环境是 Serverless 的，用不了。很多云函数运行时没有可持久化的文件系统，Bash 的“存中间结果”优势就没了。

如果对安全要求极高，谨慎使用。命令注入的风险无法百分之百消除，金融、医疗这类场景可能更适合用白名单式的专用工具，而非通用的 Bash。

工具的选择取决于场景，而不是工具本身的强弱。Bash 很强，但不是所有场合都该用。

回过头看，Thariq 这条建议的真正价值不是“Bash 很强”这个结论，而是背后的思维方式：

让 Agent 的思考过程“落地”到可检查的中间产物。

传统的 Agent 设计把所有东西都塞进模型的上下文，一锤子买卖。Bash 提供了另一种路径：把复杂任务拆开，每一步都留下痕迹，可以验证，可以回溯。

想想看，这和人类处理复杂问题的方式多像。我们做复杂计算时会列竖式，写长文章时会先拟提纲，处理大量信息时会做笔记。不是因为脑子记不住，而是因为落到纸上更可靠、更容易检查。

Agent 也一样。不是说模型处理不了，而是有中间产物的流程更值得信任。我自己用 Agent 辅助写作，所有中间产物都会存成文件：网络检索资料、提纲、不同版本的草稿、画图的提示词。这些存下来后续就可以灵活组合。

Bash 不只是程序员的工具，更是让 Agent 具备可验证、可复现、可审计能力的关键一环。

Why even non-coding agents need bash

I've done dozens of calls with companies making general agents over the past few weeks and my advice generally boils down to: "use the bash tool more"

Here's a concrete example from my email agent: