Lenny Rachitsky
@lennysan · 5d agoHow cool is this
Stripe
@stripe · 5d agoFor Black Friday and Cyber Monday weekend, we created a miniature city with real-time data to celebrate businesses building on Stripe.

00:30
113
110
1,481
1.9M
9
1
148
10
17
How cool is this
For Black Friday and Cyber Monday weekend, we created a miniature city with real-time data to celebrate businesses building on Stripe.

AI systems are becoming more capable, and we want to understand them as deeply as possible—including how and why they arrive at an answer.
Sometimes a model takes a shortcut or optimizes for the wrong objective, but its final output still looks correct.
If we can surface when that happens, we can better monitor deployed systems, improve training, and increase trust in the outputs.
赛博名片
---- 提示词 ----
一张逼真的赛博美学未来名片照片:一只手拿着一张名片大小(3.5" × 2" 比例)的横版亚克力无边框卡片,占据了大部分画面。上面显示着一张个人名片,但没有任何横幅或背景图片。卡片有平滑的圆润边缘,闪烁着柔和的霓虹灯光,呈现出蓝色、粉色和紫色的渐变。背景黑暗而模糊,以突出发光的边缘,握住卡片的手指上的灯光反射看起来富有电影感和氛围感,营造出一种高科技的全息氛围。卡片表面如水晶般清澈,名片上的文字细节仿佛雕刻。
若提供 Logo,请整合进设计;若未提供,则以公司名称设计一款简洁的文字标识性 Logo。
若有字段留空,则根据上下文自动补充合理、美观的设计元素。
最终生成的名片需 布局平衡、线条干净、视觉层次明确,适合专业印刷。
姓名:[填入姓名]
职位:[填入职位]
公司名称:[填入公司名称]
Logo:[查看附件 / 根据公司名称直接绘制 / 留空]
联系方式:
- 电话(icon):[电话号码]
- 邮箱(icon):[邮箱地址]
- 官网(icon): [官网 URL]
- X (X logo): [X 帐号 / 留空]
- 微博 (微博 logo): [微博帐号 / 留空]
额外元素:[社交媒体 / 二维码 / 标语 / 留空]
----
姓名:宝玉
职位:CEO
公司名称:红楼梦
Logo:[根据公司名称随机绘制]
联系方式:
- 电话(icon):+1(312)000-0000
- 邮箱(icon):baoyu@example
- 官网(icon):baoyu.io
- X (X logo): @dotey
- 微博 (微博 logo): @宝玉xp
额外元素:“我不是花花公子,我只是天性如此”
LLM已死?强化学习教父认为大语言模型是条死路。
说这个暴论的人叫理查德·萨顿(Richard Sutton),强化学习创始人之一。
他的观点很直接:LLM不是基础人工智能,它只是AI领域的一阵潮流。
真正的基础AI应该是强化学习。
观点很激进,但他给出的理由值得认真想。
第一个致命问题:没有目标的"智能"
萨顿抛出了一个质问:没有目标,还能叫智能吗?
他引用约翰·麦卡锡定义,智能的本质是 "实现目标能力的计算部分"。
按这个标准,LLM有什么问题呢?
LLM的所谓"目标"只是预测下一个词。
你给它一段文字,它告诉你接下来最可能出现什么词。
但这算目标吗?
萨顿说得很直白:Token 自己跑到你面前,你预测Token,但你根本影响不了它们。
这不是关于外部世界的目标,这仅仅是文字接龙游戏。
没有目标,就没有"正确"的定义。
什么叫做对的事情?
在强化学习里,答案很清楚:能给你带来奖励的事情。
但LLM呢?它连对错的标准都是模糊的。
第二个硬伤:没有真实的世界模型
LLM擅长什么?模仿人类。
它能模仿人怎么说话,怎么写作,甚至怎么思考。
但萨顿说:模仿语言,不等于理解世界。
LLM能预测一个人会说什么,但它预测不了将会发生什么。
这个区别太重要了。
真正的世界模型应该让你能够预测行为的后果。
比如,我把杯子推下桌子,它会掉到地上摔碎。
这是对物理世界的理解。
但LLM呢?它只知道"人们通常会说杯子会摔碎",这是两码事。
更关键的是,LLM不会从意外中学习。
假设你预测某件事会发生A,结果发生了B。
一个真正理解世界的系统会说:"咦,我错了,我需要调整我的模型。"但LLM不会。
它没有这种"意外"的概念,因为模型从来不是在预测真实世界,它只是在预测训练数据里人们会怎么说。
萨顿的总结很犀利:LLM从训练数据中学习,不是从经验中学习。
经验是什么?是你做了某件事,然后看到实际发生了什么。
这种第一手的互动,才是真正学习的来源。
第三个悖论:可扩展性的陷阱
萨顿写过一篇著名的文章叫《苦涩的教训》(The Bitter Lesson)。
核心思想:历史反复证明,依赖人类知识的方法最终都会输给纯粹依靠计算和学习的方法。
很多人觉得LLM正是这个教训的最新例证。
你看,用海量数据和算力训练出来的模型,不就超越了传统的规则系统吗?
但萨顿说:等着瞧,LLM最终会成为这个教训的反面教材。
为什么?因为LLM本质上还是在依赖人类知识。
它学的是人类写的文字,说的话,做的事。
这些都是人类知识的结晶。
萨顿认为,真正具有可扩展性的方法是什么?
是系统自己去尝试,自己去观察什么有效,什么无效。
不需要任何人告诉它对错,它通过与世界的互动自己学会。
这就是强化学习的核心:主体有目标,主体采取行动,主体观察结果,主体调整策略。
这个循环可以无限持续,不断进化。
而LLM呢?它的学习在训练结束那一刻就停止了。
它没法在真实世界里持续学习,因为它根本不知道怎么与世界互动。
LLM就像一个语言模仿大师。
它能完美背诵人类所有的剧本和对话,你问它什么,它都能给你一个听起来很像样的回答。
但它缺少什么?缺少行动者的能力。
它不知道自己想要什么(没有目标)。
也不知道说这些话在真实世界里会产生什么后果(没有世界模型)。
它只是一个超级复杂的文字接龙机器。
真正的智能应该是什么样?
应该是一个主体,它有自己的目标,它能与世界互动,它从每次互动中学习,它不断调整自己的策略去更好地实现目标。
这才是萨顿眼中的"基础AI"。
萨顿的观点不一定全对,但他提的问题值得思考。
也许LLM不会"死",它们在很多应用场景下依然有价值。
但如果我们的目标是实现真正的通用人工智能AGI。
萨顿的警告值得认真对待:
光会说话,不等于会思考。光会模仿,不等于会学习。
真正的智能,可能需要目标、需要行动、需要与世界真实的互动。
这条路,我们才刚刚开始走。
---
以上由AI生成,人工编辑排版。
视频见评论区
voice stuff in the langchain ecosystem!
🎙️ Building voice agents is hard.
Provider lock-in. Latency hell. Barge-in nightmares.
I built a harness on @LangChainAI that solves all of it.
Switch between @AssemblyAI, @OpenAI, @elevenlabsio, @hume_ai with a DROPDOWN 🤯
Try it livecreate-voice-agent.fly.devmP
Thread 🧵👇
Spotify 后台编程智能体落地实践(已成功合并超过 1,500 个 AI 生成的 PR)
核心问题与解决方案
@Spotify 的 Fleet Management 系统虽然在自动化简单任务方面表现出色,但复杂代码变更一直是个挑战。传统方法需要操作抽象语法树或正则表达式,需要高度专业知识。例如,他们的 Maven 依赖更新脚本就超过 20,000 行代码。
团队的核心思路是:用自然语言定义的智能体替代确定性迁移脚本,同时保留 Fleet Management 的所有基础设施——目标仓库选择、PR 开启、审查和合并流程完全不变。
技术演进路径
第一阶段:开源工具探索
团队尝试了 Goose 和 Aider 等开源工具,但在大规模迁移场景下难以可靠生成可合并的 PR。
第二阶段:自研循环
他们构建了基于 LLM API 的"智能体循环",包含用户提供提示、智能体编辑文件并整合构建反馈、测试通过或达到限制后完成三个步骤。这适合小改动,但复杂多文件变更时经常耗尽回合数或丢失上下文。
第三阶段:Claude Code
Claude Code 成为表现最佳的智能体,已应用于约 50 次迁移和大部分生产 PR。它支持更自然的任务导向提示,能管理待办列表和高效派生子智能体。
提示工程的关键原则
1. 针对智能体特性调整 - 自研智能体适合严格的逐步指令,Claude Code 则更适合描述最终状态并留出自主空间
2. 明确前置条件 - 智能体往往过于急切地执行,需明确说明何时不采取行动
3. 使用具体示例 - 少量具体代码示例能极大影响结果
4. 定义可验证的目标 - 最好以测试形式呈现,避免模糊指令
5. 一次一个变更 - 组合多个变更容易耗尽上下文或产生部分结果
6. 向智能体征求反馈 - 会话结束后,智能体能指出提示中的不足
工具与上下文管理
Spotify 采用保守的工具策略来保持可预测性。他们的智能体只能访问:
· 验证工具:运行格式化、静态检查和测试
· 受限的 Git 工具:标准化 Git 操作,禁止推送或更改远程仓库
· 白名单 Bash 命令:如 ripgrep
他们没有暴露代码搜索或文档工具,而是要求用户预先将相关上下文浓缩到提示中。这种设计理念是:更多工具意味着更多不可预测维度。
实际应用成果
系统已处理复杂迁移任务,包括:
· 语言现代化(如 Java 值类型迁移到 records)
· 带有破坏性变更的升级
· UI 组件迁移
· 配置文件更新
这些迁移节省了 60-90% 的时间。更重要的是,2024 年中以来,Spotify 约一半的 PR 都由此系统自动化生成。
超越迁移的应用
团队通过 MCP 协议将智能体集成到 Slack 和 GitHub Enterprise。工作流程是:交互式智能体先收集任务信息,生成提示后交给编码智能体执行并创建 PR。这让工程师能从 Slack 线程捕获架构决策记录,或让产品经理无需在本地构建即可提出简单变更。
待解决的挑战
Spotify 团队坦诚地指出当前局限:
· 性能和可预测性问题
· 缺乏结构化的提示/模型评估方法
· 难以验证 PR 是否真正解决原始问题
· 仍主要依靠直觉和试错来演进提示
Part1:engineering.atspotify.com/2025/11/spotif…
Part2:
engineering.atspotify.com/2025/11/contex…
AI 工程应该有两个核心工作流
0% -> 80%:构建演示原型
80% -> 100%:交付生产级智能体
演示原型阶段:通常使用 Python 或 TypeScript 等语言快速搭建原型,包括预设的聊天界面。这种方式适合快速验证想法,但往往是“一次性”代码,忽略了实际部署的复杂性。
· 生产智能体阶段:涉及更复杂的元素,如增强型前端界面、安全性强的工具集成、上下文管理、可观测性系统,以及 Java 或 Golang 等企业级语言。这个阶段常因性能瓶颈或需融入现有代码库而导致重构。
演示原型仍有重要作用,能帮助早期验证。但在 ChatGPT + MCP 或 Claude Code + 文件 或 Lovable、v0 等工具的助力下,团队无需花费数月时间构建抛弃式代码。这能节省工程资源,将精力转向真正推动产品的生产级智能体开发。
在 AI 快速发展、高效迭代的状态下:用低成本工具加速原型,专注核心工程,显得更加重要了。
There are two distinct AI eng work streams:
Build a demo (0→80%)
Ship a production agent (80→100%)
They're basically different disciplines. Demos are Py/TS prototypes and canned chat UIs. Production agents need richer frontends, tools w/ gnarly security & context eng challenges, o11y (traces, evals, annotations), and often java/golang. Many teams end up rewriting everything from scratch…
Demos are still valuable! But nowadays w/ ChatGPT+MCP or Claude Code+files, you can create great demos without sinking months into throwaway code. This lets you validate quickly and save eng cycles for real agent engineering that actually moves the product forward.
Win a 1:1 Substack coaching session + bougie tea experience with me ✨🍵
All proceeds going to charity @JoinEdgeCity, which provides grants for young people to take risks and pursue their wild ideas & projects.
Check it out:my.onecause.com/event/organiza…T
📝 1:1 Substack Coaching Session & Bougie Tea with @lennysan
A private coaching session with Lenny (1M+ subscribers, ex-Airbnb product lead, #1 business newsletter on Substack). Over tea in Marin, Lenny will coach you on scaling and growing your audience and newsletter.
多智能体系统(Multi-agent systems)经常让人失望?
问题可能不在于智能体本身,而在于它们的组织方式。
大多数系统采用固定的链式、树状或图状结构,无法随着任务的变化而调整。
但如果系统能够学习自己的协作模式呢?
这篇重磅论文介绍了一种名为 Puppeteer 的框架,它能动态地编排智能体,而不是依赖于预先设计好的拓扑结构。
关键在于:
• 不再预定义协作结构,而是由一个协调器根据不断变化的对话状态来选择下一个发言的智能体。
• 使用 REINFORCE 算法训练策略,直接优化任务成功率。
• 将所有内容序列化为连续的智能体选择,而不是搜索复杂的图拓扑,从而避开组合复杂性。
结果令人惊讶:
自然形成了紧凑的循环模式,而不是庞大的图结构,其中 2-3 个智能体处理大部分工作。
更厉害的是,系统能够自主发现效率。
成果展示:
• 在 GSM-Hard 数学问题上:准确率达到 70%(相比之下,基础模型单独使用时只有 13.5%)。
• 在 MMLU-Pro 上:达到 83%(基线为 76%)。
• 在 SRDD 软件开发上:达到 76.4%(基线为 60.6%)。
这些提升伴随着 token 消耗的降低。
论文表明,在整个训练过程中,token 成本持续下降,而性能却在提高。
他们还证明了智能体选择过程满足马尔可夫性质,这意味着当前状态就能决定最优的下一个智能体,无需跟踪完整历史。
所以:
对于 AI 开发者来说,学习到的简单性胜过精心设计的复杂性。
一个经过训练的路由器,加上一些专业智能体,就能胜过精心设计的工作流程,同时还能降低计算开销。
Multi-agent AI systems are poor at communication.
The default approach in multi-agent RL today focuses almost entirely on task success rates. Can agents coordinate? Did they solve the problem?
The actual cost of communication is rarely measured or optimized.
But in real-world systems, bandwidth, energy, and compute are finite. Every message has a price.
This new research introduces three Communication Efficiency Metrics (CEMs) and a framework for learning protocols that are both effective and efficient.
They find that communication inefficiency arises primarily from poorly designed optimization objectives rather than inherent information needs.
The researchers propose three metrics:
- Information Entropy Efficiency Index (IEI) measures how compact messages are.
- Specialization Efficiency Index (SEI) captures whether agents develop distinct roles rather than sending redundant information.
- Topology Efficiency Index (TEI) tracks task success relative to communication frequency.
By augmenting training loss functions with these metrics, they achieve dual improvements.
CommNet saw an increase in success rate while also improving topology efficiency. IC3Net also improved the success rate with better efficiency.
Counterintuitively, one-round communication with efficiency augmentation consistently outperformed two-round baseline configurations. More communication rounds degraded TEI significantly due to overhead.
Communication efficiency and task performance can improve simultaneously rather than trading off.
The takeaway for AI devs is to build better objectives, not more messages, to unlock coordination.
🔖 (bookmark it)