精选周刊

BestBlogs.dev 第 85 期：驾驭工程

大家好！欢迎阅读 BestBlogs.dev 第 85 期 AI 精选文章推荐。

本周有一个关键词贯穿了多篇文章：驾驭。martinfowler.com 上发表的文章提出，开发者的核心工作正在从写代码转向构建 Agent 运行所依赖的驾驭工程，即规格、质量检查和工作流指引的集合。AI 炼金术播客的标题更直白：别干活了，给 AI 布置办公室去吧。OpenAI 团队用 Codex 生成了百万行代码，靠的不是更强的模型，而是结构化知识库和刚性架构约束。当 Agent 越来越能干的时候，真正的竞争力不在于会不会用 AI，而在于能不能驾驭它。

本周 BestBlogs.dev 也在大幅使用 AI 编程推进 2.0 版本开发，重点是支持添加自定义订阅源和个性化 Feed，让每个人都能按自己的兴趣塑造阅读体验。同时我也在基于开放接口开发 Skills，用于内容搜索、深度阅读和日常运营，目标是真正驾驭好未来的阅读需求。

以下是本周最值得关注的 10 个精彩亮点：

🤖 GPT-5.4 发布，OpenAI 首次将推理、编程、计算机操作、深度搜索和百万级 Token 上下文整合进单一模型。最值得关注的是原生计算机使用能力，模型通过截图理解界面并直接操作鼠标键盘，在 OSWorld 桌面任务中成功率已超越人类平均水平。工具搜索机制让 Agent 任务的 Token 消耗降低 47%，高能力与低成本首次实现同步。与此同时，GPT-5.3 Instant 把优化重心放在使用体感上，联网幻觉率下降 26.8%，是 ChatGPT 走向日常工具的一次实质性进步。

🏗️ martinfowler.com 本周发表了两篇文章，构成一组完整的思考。第一篇提出人在回路上的定位：开发者的核心工作从编写代码转变为构建和维护 Agent 运行所依赖的驾驭工程，并进一步描述了智能体飞轮的演化路径，让 Agent 不仅执行任务，还能持续改进驱动自身的驾驭体系。第二篇展开设计先行的协作框架，在生成任何代码之前按能力、组件、交互、接口、实现五个层级逐步对齐设计，避免架构决策被 AI 静默嵌入实现中。

🎬 Pragmatic Engineer 对话 Claude Code 创造者 Boris Cherny，还原了这款工具从 Anthropic 内部业余项目到增长最快的开发者工具的完整历程。Boris 每天提交 20-30 个 PR，全部由 AI 生成，从不手动改一行代码。对话还涉及 Anthropic 内部对能否对外发布的真实争论、AI 时代代码审查的演变，以及 Claude Code 架构背后的安全分层设计。

🔧 淘天集团天猫技术团队指出企业级 AI 编程的核心瓶颈不是 Agent 的执行能力，而是如何准确向 AI 传达复杂任务目标。他们的解法是构建分层统一的专家知识库实现系统性降熵，推动从工具提效向知识驱动的智能研发范式演进。OpenAI 工程团队的 Codex 实践印证了同一判断：5 个月内 1500 个 PR、零人工编码，规模化落地靠的是结构化知识库管理、刚性架构约束和周期性的代码熵增清理。

📁 腾讯云开发者发布了目前最详尽的中文 OpenClaw 上下文管理源码解析，覆盖三层防御体系：预防性裁剪、大模型摘要压缩、溢出后恢复，并额外分析了各操作对服务商 KV Cache 成本的影响。对于正在构建长会话 Agent 的开发者，这是一份难得的实战参考。

⚡ 小模型正在刷新性能认知。Qwen3.5 发布 0.8B 至 9B 四款模型，采用 Apache 2.0 开源协议，消费级显卡即可微调，其中 4B 的多模态和 Agent 能力尤为亮眼，9B 性能逼近更大规模模型。小红书开源的 FireRed-OCR 则用三阶段渐进训练将 Qwen3-VL-2B 改造为专用文档解析模型，在 OmniDocBench v1.5 综合评分达 92.94%，端到端方案排名第一，支持公式、表格、手写体等复杂场景。两个项目都说明了同一件事：精准的训练策略比盲目堆参数更有效。

🎨 Anthropic 设计负责人 Jenny Wen 分享了一个深刻的观察：传统设计流程已经死亡，不是设计师主动求变，而是工程师借助 AI 工具的极速交付迫使设计随之改变。她制作精美设计稿的时间已从 60-70% 降至 30-40%，直接与工程师结对甚至亲自改代码的比例大幅上升。设计工作正分化为两类：支持工程执行的实时协作，和给出 3 到 6 个月方向感的愿景设计。

💡 孟岩与李继刚的三小时长谈从一个简洁却有重量的判断出发：工业革命拿走了体力，AI 正在拿走脑力，留给人的是心力。对话延伸到向量世界的本质、商业模式从编网到打井的转变，以及教育从灌输式的水转向启发式的火。Your feed is your fate 和提示词是有形状的，是两个值得单独展开的洞察。

📈 Zapier 产品副总裁分享了企业 AI 转型的一手实践，内部已运行 800 个 AI Agent。核心观点是技术采用与业务转型必须做清晰区分，领导层必须亲自使用 AI 工具，转型才能真正落地。管理 900 亿美元资产的 Insight Partners 联合创始人则给出更激进的判断：自主 Agent 才是这波变革的核心，SaaS 按席位定价将被基于消耗的模式取代，白领失业潮将在两年内成为大选议题。

🌐 一篇以 2028 年视角撰写的 AI 经济思想实验值得关注：白领失业引发消费萎缩，触发私募信贷违约，进而传导至抵押贷款市场，形成一个无天然刹车的负反馈循环。这不是预测，而是一套系统性的左尾风险推演框架，值得每个关注 AI 经济影响的人认真阅读。

希望本期的推荐能为您带来新的启发。保持好奇，我们下周见！

登录后订阅周刊

1GPT-5.4 发布：OpenAI 首个大一统模型，简直是龙虾原生
2OpenAI 深夜上新默认款 GPT5.3 模型！主打去尴尬！实测：速度快到即时满足的爽感！搜索能力更强了！OpenAI 人员坦承自己模型切换策略
3Qwen3.5 更小尺寸来啦！
4FireRed-OCR 开源发布：端到端方案新 SOTA！小红书提出低成本文档识别训练范式
5开源 LLM 背后的架构
6与 Boris Cherny 共同构建 Claude Code
7软件工程循环中的人类与智能体
8设计优先的协作
9AI Coding 思考：从工具提效到范式变革，我们还缺什么？
10深入解析 OpenClaw 上下文窗口压缩方案：一切都是为了效果与省钱
11别再谈“10 倍开发者”了：AI 智能体不是加速 SDLC，而是直接终结 SDLC
121500 个 PR、0 人写代码：Codex 驱动的百万行级内部产品实践
13别干活了！给 AI 布置办公室去吧！
14设计流程已死。取而代之的是这些。 | Jenny Wen (Claude 设计负责人)
15Zapier 产品副总裁谈如何编排 800 多个 AI 智能体来管理一切
16深扒 Nano Banana 2 超多趣味玩法，速度快还要效果好！
17AI 转型四步法：个人、组织、产品和商业（下）
18E45 孟岩对话李继刚：人何以自处
19#445. 20VC：为何 Cursor 已死 | AI 海啸即将来袭，你需做好准备
202028 全球智能危机，谁来买单？

GPT-5.4 发布：OpenAI 首个大一统模型，简直是龙虾原生

量子位

qbitai.com

03-06

4124 字 · 约 17 分钟

OpenAI 发布 GPT-5.4，首次将推理、编程、计算机原生操作、深度搜索和百万级 Token 上下文整合进单一模型，且没有牺牲任何单项性能。最值得关注的是原生计算机使用能力，模型可通过截图理解界面并直接操作鼠标键盘，在 OSWorld 桌面任务中成功率已超越人类平均水平。与此同时，工具搜索机制让 Agent 任务的 Token 消耗降低 47%，使高能力与低成本首次实现了同步。

OpenAI 深夜上新默认款 GPT5.3 模型！主打去尴尬！实测：速度快到即时满足的爽感！搜索能力更强了！OpenAI 人员坦承自己模型切换策略

51CTO技术栈

mp.weixin.qq.com

03-04

3461 字 · 约 14 分钟

OpenAI 深夜上新默认款 GPT5.3 模型！主打去尴尬！实测：速度快到即时满足的爽感！搜索能力更强了！OpenAI 人员坦承自己模型切换策略

GPT-5.3 Instant 把优化重心放在使用体感上，而非基准测试分数。减少说教语气、提升意图识别、优化搜索整合，联网幻觉率下降 26.8%，是 ChatGPT 走向日常工具的一次实质性进步。

Qwen3.5 更小尺寸来啦！

通义大模型

mp.weixin.qq.com

03-03

174 字 · 约 1 分钟

Qwen3.5 发布 0.8B 至 9B 四款小模型，Apache 2.0 开源，消费级显卡可微调。4B 多模态和 Agent 能力亮眼，9B 性能逼近更大规模模型，适合低成本垂直场景落地。

FireRed-OCR 开源发布：端到端方案新 SOTA！小红书提出低成本文档识别训练范式

小红书技术REDtech

mp.weixin.qq.com

03-02

4293 字 · 约 18 分钟

FireRed-OCR 开源发布：端到端方案新 SOTA！小红书提出低成本文档识别训练范式

FireRed-OCR 用三阶段渐进训练将 Qwen3-VL-2B 改造为专用文档解析模型，在 OmniDocBench v1.5 综合评分达 92.94%，端到端方案第一，支持公式、表格、手写体等复杂场景，已全面开源。

开源 LLM 背后的架构

ByteByteGo Newsletter

blog.bytebytego.com

03-02

1654 字 · 约 7 分钟

六大开源大模型架构横向对比，覆盖 MoE 设计、注意力机制选型、训练策略差异，并给出选型时真正应该关注的核心问题。适合需要快速了解当前开源模型格局的工程师和研究者。

与 Boris Cherny 共同构建 Claude Code

The Pragmatic Engineer

youtube.com

03-04

21313 字 · 约 86 分钟

Pragmatic Engineer 对话 Claude Code 创造者 Boris Cherny，深度还原了这款工具从 Anthropic 内部业余项目到增长最快开发者工具之一的完整历程。Boris 分享了他每天提交 20-30 个 PR、100% 由 AI 生成、从不手动改一行代码的实际工作流，也坦诚分享了 Anthropic 内部"能不能对外发布"的真实争论。对话还涉及 AI 时代代码审查的演变、Claude Code 架构背后的安全分层设计，以及他对未来工程师技能的判断，印刷术比喻贯穿始终，引人深思。

软件工程循环中的人类与智能体

Martin Fowler

martinfowler.com

03-04

1603 字 · 约 7 分钟

这篇文章提出了一个清晰的框架，将 AI 时代的软件开发分为三种模式：人在回路外、人在回路内、人在回路上。作者认为最理想的位置是第三种：开发者的核心工作从编写代码转变为构建和维护 Agent 运行所依赖的"harness"，即规格、质量检查和工作流指引的集合。文章还进一步描述了"agentic flywheel"的演化路径，让 Agent 不仅执行任务，还能持续改进驱动自身的 harness 本身。

设计优先的协作

Martin Fowler

martinfowler.com

03-03

2226 字 · 约 9 分钟

作者提出了一个与 AI 协作编程的核心问题：AI 会直接跳过设计阶段生成代码，把所有架构决策静默地嵌入实现中，让代码审查变成一次负担极重的逆向解读过程。文章将解决方案称为"Design-First"，即在生成任何代码之前，按照能力、组件、交互、接口、实现五个层级逐步对齐设计。这不是流程上的仪式感，而是在正确的抽象层级做出决策，避免"Implementation Trap"。对于经常使用 AI 辅助编程的开发者，这篇文章提供了一套值得实践的协作框架。

AI Coding 思考：从工具提效到范式变革，我们还缺什么？

大淘宝技术

mp.weixin.qq.com

03-02

7601 字 · 约 31 分钟

来自淘天集团天猫技术的深度思考：企业级 AI Coding 的核心瓶颈不是 Agent 的执行能力，而是如何准确向 AI 传达复杂任务目标。解法是构建分层统一的专家知识库，实现系统性降熵，推动从工具提效向知识驱动的智能研发范式演进。

深入解析 OpenClaw 上下文窗口压缩方案：一切都是为了效果与省钱

腾讯云开发者

mp.weixin.qq.com

03-04

9892 字 · 约 40 分钟

OpenClaw 上下文管理源码深度解析，覆盖三层防御体系：预防性裁剪、LLM 摘要压缩、溢出后恢复，并额外分析了各操作对 Provider KV Cache 成本的影响。是目前关于 AI Agent 长会话上下文管理最详尽的中文技术分析之一。

别再谈“10 倍开发者”了：AI 智能体不是加速 SDLC，而是直接终结 SDLC

InfoQ 中文

mp.weixin.qq.com

03-01

3384 字 · 约 14 分钟

别再谈“10 倍开发者”了：AI 智能体不是加速 SDLC，而是直接终结 SDLC

这篇文章提出一个犀利判断：AI Agent 不是让软件开发生命周期变快了，而是直接终结了它。作者逐一拆解 SDLC 的每个阶段，需求变成迭代的副产品，设计在协作中涌现，测试与代码同步生成，PR 流程成为历史遗留，监控则从被动仪表盘演变为驱动整个闭环的反馈机制。最终，作者认为新的核心能力只剩两件事：上下文工程和可观测性。这是一篇观点鲜明、值得认真对话的文章。

1500 个 PR、0 人写代码：Codex 驱动的百万行级内部产品实践

AI前线

mp.weixin.qq.com

03-01

6416 字 · 约 26 分钟

OpenAI 工程团队 5 个月内用 Codex 生成百万行代码、1500 个 PR，零人工编码。文章总结了让 Agent 开发规模化落地的核心方法：结构化知识库管理、刚性架构约束、可观测性工具接入 Agent 运行时，以及周期性代码熵增清理。

别干活了！给 AI 布置办公室去吧！

AI炼金术

xiaoyuzhoufm.com

03-03

28034 字 · 约 113 分钟

两位 AI 创业者分享 Agent 时代的工程实战：核心工作从写代码转向给 AI 搭环境，三步开发法（看计划→放手→验收）已成日常，判断力带宽而非执行力才是新的产能上限。适合想了解 Agent 时代真实工作方式的技术从业者。

设计流程已死。取而代之的是这些。 | Jenny Wen (Claude 设计负责人)

Lenny's Podcast

youtube.com

03-01

6060 字 · 约 25 分钟

设计流程已死。取而代之的是这些。 | Jenny Wen (Claude 设计负责人)

Anthropic 设计负责人 Jenny Wen 分享了她对 AI 时代设计角色转变的深度观察。她的核心判断是：传统的「发现-收敛-再发散-再收敛」设计流程已经死亡，不是因为设计师主动求变，而是工程师借助 AI 工具的极速交付迫使设计随之改变。设计工作正分化为两类，一类是支持工程执行的实时协作，另一类是给出 3 到 6 个月方向感的愿景设计。她还分享了自己的真实工作流：制作精美设计稿的时间已从 60-70% 降至 30-40%，直接与工程师结对、甚至亲自改代码的比例大幅上升。对于正在经历这场转变的设计师，这是一篇来自前沿实践者的一手观察。

Zapier 产品副总裁谈如何编排 800 多个 AI 智能体来管理一切

Product School

youtube.com

03-03

11522 字 · 约 47 分钟

Zapier 产品副总裁分享企业 AI 转型的一手实践：内部运行 800 个 AI Agent，将技术采用与业务转型做清晰区分，强调领导层必须亲自使用 AI 工具，转型才能真正落地。传统工作流与 Agentic 工作流的核心区别在于是否具备推理和动态改变路径的能力。

深扒 Nano Banana 2 超多趣味玩法，速度快还要效果好！

阿真Irene

mp.weixin.qq.com

03-04

13755 字 · 约 56 分钟

Gemini 3.1 Flash Image 的深度实测：图文渲染更准确，角色一致性大幅提升，新增 1:4 和 1:8 极端长图比例。文章附带大量实操提示词，适合需要快速出图、低成本探索方案的设计和内容创作场景。

AI 转型四步法：个人、组织、产品和商业（下）

AI炼金术

xiaoyuzhoufm.com

03-02

2573 字 · 约 11 分钟

AI 产品最大的误区是把 AI 加在功能上，而不是帮用户完成真正的任务。播客用"拆、塑、翻"三步法拆解产品创新逻辑，并梳理了解锁增量、套壳占位、卖水卖铲、铺路修桥四条 AI 原生创业路径，每条都有真实案例，实操性强。

E45 孟岩对话李继刚：人何以自处

无人知晓

xiaoyuzhoufm.com

03-03

3805 字 · 约 16 分钟

孟岩与李继刚的这期三小时长谈，核心出发点是一个简洁却有重量的判断：工业革命拿走了体力，AI 正在拿走脑力，留给人的是心力。对话从这里出发，延伸到向量世界的本质、商业模式从编网到打井的转变、人机协作中异质性增幅与思考撤离的两条岔路，以及教育从灌输式「水」转向启发式「火」的命题。李继刚提出的「Your feed is your fate」和「提示词是有形状的」是两个值得单独展开的洞察。适合想在技术讨论之外，认真思考 AI 时代人何以自处的读者。

#445. 20VC：为何 Cursor 已死 | AI 海啸即将来袭，你需做好准备

跨国串门儿计划

xiaoyuzhoufm.com

03-02

1576 字 · 约 7 分钟

管理 900 亿美元资产的 Insight Partners 联合创始人 Jerry Murdock 认为，自主 Agent 才是这波 AI 变革的真正核心，Cursor 等工具已面临过时，SaaS 按席位定价模式将被基于消耗的模式取代，白领失业潮将在两年内成为大选议题。

2028 全球智能危机，谁来买单？

Datawhale

mp.weixin.qq.com

02-27

12468 字 · 约 50 分钟

以 2028 年视角撰写的 AI 经济左尾风险思想实验：白领失业→消费萎缩→私募信贷违约→抵押贷款承压，构成一个无天然刹车的负反馈循环。不是预测，是系统性的风险推演框架，值得每个关注 AI 经济影响的人认真阅读。

BestBlogs.dev 第 85 期：驾驭工程

目录