跳转到主要内容
精选推送

BestBlogs.dev 第 85 期:驾驭工程

大家好!欢迎阅读 BestBlogs.dev 第 85 期 AI 精选文章推荐。

本周有一个关键词贯穿了多篇文章:驾驭。martinfowler.com 上发表的文章提出,开发者的核心工作正在从写代码转向构建 Agent 运行所依赖的驾驭工程,即规格、质量检查和工作流指引的集合。AI 炼金术播客的标题更直白:别干活了,给 AI 布置办公室去吧。OpenAI 团队用 Codex 生成了百万行代码,靠的不是更强的模型,而是结构化知识库和刚性架构约束。当 Agent 越来越能干的时候,真正的竞争力不在于会不会用 AI,而在于能不能驾驭它。

本周 BestBlogs.dev 也在大幅使用 AI 编程推进 2.0 版本开发,重点是支持添加自定义订阅源和个性化 Feed,让每个人都能按自己的兴趣塑造阅读体验。同时我也在基于开放接口开发 Skills,用于内容搜索、深度阅读和日常运营,目标是真正驾驭好未来的阅读需求。

以下是本周最值得关注的 10 个精彩亮点:

🤖 GPT-5.4 发布,OpenAI 首次将推理、编程、计算机操作、深度搜索和百万级 Token 上下文整合进单一模型。最值得关注的是原生计算机使用能力,模型通过截图理解界面并直接操作鼠标键盘,在 OSWorld 桌面任务中成功率已超越人类平均水平。工具搜索机制让 Agent 任务的 Token 消耗降低 47%,高能力与低成本首次实现同步。与此同时,GPT-5.3 Instant 把优化重心放在使用体感上,联网幻觉率下降 26.8%,是 ChatGPT 走向日常工具的一次实质性进步。

🏗️ martinfowler.com 本周发表了两篇文章,构成一组完整的思考。第一篇提出人在回路上的定位:开发者的核心工作从编写代码转变为构建和维护 Agent 运行所依赖的驾驭工程,并进一步描述了智能体飞轮的演化路径,让 Agent 不仅执行任务,还能持续改进驱动自身的驾驭体系。第二篇展开设计先行的协作框架,在生成任何代码之前按能力、组件、交互、接口、实现五个层级逐步对齐设计,避免架构决策被 AI 静默嵌入实现中。

🎬 Pragmatic Engineer 对话 Claude Code 创造者 Boris Cherny,还原了这款工具从 Anthropic 内部业余项目到增长最快的开发者工具的完整历程。Boris 每天提交 20-30 个 PR,全部由 AI 生成,从不手动改一行代码。对话还涉及 Anthropic 内部对能否对外发布的真实争论、AI 时代代码审查的演变,以及 Claude Code 架构背后的安全分层设计。

🔧 淘天集团天猫技术团队指出企业级 AI 编程的核心瓶颈不是 Agent 的执行能力,而是如何准确向 AI 传达复杂任务目标。他们的解法是构建分层统一的专家知识库实现系统性降熵,推动从工具提效向知识驱动的智能研发范式演进。OpenAI 工程团队的 Codex 实践印证了同一判断:5 个月内 1500 个 PR、零人工编码,规模化落地靠的是结构化知识库管理、刚性架构约束和周期性的代码熵增清理。

📁 腾讯云开发者发布了目前最详尽的中文 OpenClaw 上下文管理源码解析,覆盖三层防御体系:预防性裁剪、大模型摘要压缩、溢出后恢复,并额外分析了各操作对服务商 KV Cache 成本的影响。对于正在构建长会话 Agent 的开发者,这是一份难得的实战参考。

⚡ 小模型正在刷新性能认知。Qwen3.5 发布 0.8B 至 9B 四款模型,采用 Apache 2.0 开源协议,消费级显卡即可微调,其中 4B 的多模态和 Agent 能力尤为亮眼,9B 性能逼近更大规模模型。小红书开源的 FireRed-OCR 则用三阶段渐进训练将 Qwen3-VL-2B 改造为专用文档解析模型,在 OmniDocBench v1.5 综合评分达 92.94%,端到端方案排名第一,支持公式、表格、手写体等复杂场景。两个项目都说明了同一件事:精准的训练策略比盲目堆参数更有效。

🎨 Anthropic 设计负责人 Jenny Wen 分享了一个深刻的观察:传统设计流程已经死亡,不是设计师主动求变,而是工程师借助 AI 工具的极速交付迫使设计随之改变。她制作精美设计稿的时间已从 60-70% 降至 30-40%,直接与工程师结对甚至亲自改代码的比例大幅上升。设计工作正分化为两类:支持工程执行的实时协作,和给出 3 到 6 个月方向感的愿景设计。

💡 孟岩与李继刚的三小时长谈从一个简洁却有重量的判断出发:工业革命拿走了体力,AI 正在拿走脑力,留给人的是心力。对话延伸到向量世界的本质、商业模式从编网到打井的转变,以及教育从灌输式的水转向启发式的火。Your feed is your fate 和提示词是有形状的,是两个值得单独展开的洞察。

📈 Zapier 产品副总裁分享了企业 AI 转型的一手实践,内部已运行 800 个 AI Agent。核心观点是技术采用与业务转型必须做清晰区分,领导层必须亲自使用 AI 工具,转型才能真正落地。管理 900 亿美元资产的 Insight Partners 联合创始人则给出更激进的判断:自主 Agent 才是这波变革的核心,SaaS 按席位定价将被基于消耗的模式取代,白领失业潮将在两年内成为大选议题。

🌐 一篇以 2028 年视角撰写的 AI 经济思想实验值得关注:白领失业引发消费萎缩,触发私募信贷违约,进而传导至抵押贷款市场,形成一个无天然刹车的负反馈循环。这不是预测,而是一套系统性的左尾风险推演框架,值得每个关注 AI 经济影响的人认真阅读。

希望本期的推荐能为您带来新的启发。保持好奇,我们下周见!

量子位
qbitai.com
03-06
4124 字 · 约 17 分钟
94
GPT-5.4 发布:OpenAI 首个大一统模型,简直是龙虾原生

OpenAI 发布 GPT-5.4,首次将推理、编程、计算机原生操作、深度搜索和百万级 Token 上下文整合进单一模型,且没有牺牲任何单项性能。最值得关注的是原生计算机使用能力,模型可通过截图理解界面并直接操作鼠标键盘,在 OSWorld 桌面任务中成功率已超越人类平均水平。与此同时,工具搜索机制让 Agent 任务的 Token 消耗降低 47%,使高能力与低成本首次实现了同步。

ByteByteGo Newsletter
blog.bytebytego.com
03-02
1654 字 · 约 7 分钟
92
开源 LLM 背后的架构

六大开源大模型架构横向对比,覆盖 MoE 设计、注意力机制选型、训练策略差异,并给出选型时真正应该关注的核心问题。适合需要快速了解当前开源模型格局的工程师和研究者。

The Pragmatic Engineer
youtube.com
03-04
21313 字 · 约 86 分钟
94
与 Boris Cherny 共同构建 Claude Code

Pragmatic Engineer 对话 Claude Code 创造者 Boris Cherny,深度还原了这款工具从 Anthropic 内部业余项目到增长最快开发者工具之一的完整历程。Boris 分享了他每天提交 20-30 个 PR、100% 由 AI 生成、从不手动改一行代码的实际工作流,也坦诚分享了 Anthropic 内部"能不能对外发布"的真实争论。对话还涉及 AI 时代代码审查的演变、Claude Code 架构背后的安全分层设计,以及他对未来工程师技能的判断,印刷术比喻贯穿始终,引人深思。

Martin Fowler
martinfowler.com
03-04
1603 字 · 约 7 分钟
93
软件工程循环中的人类与智能体

这篇文章提出了一个清晰的框架,将 AI 时代的软件开发分为三种模式:人在回路外、人在回路内、人在回路上。作者认为最理想的位置是第三种:开发者的核心工作从编写代码转变为构建和维护 Agent 运行所依赖的"harness",即规格、质量检查和工作流指引的集合。文章还进一步描述了"agentic flywheel"的演化路径,让 Agent 不仅执行任务,还能持续改进驱动自身的 harness 本身。

Martin Fowler
martinfowler.com
03-03
2226 字 · 约 9 分钟
93

作者提出了一个与 AI 协作编程的核心问题:AI 会直接跳过设计阶段生成代码,把所有架构决策静默地嵌入实现中,让代码审查变成一次负担极重的逆向解读过程。文章将解决方案称为"Design-First",即在生成任何代码之前,按照能力、组件、交互、接口、实现五个层级逐步对齐设计。这不是流程上的仪式感,而是在正确的抽象层级做出决策,避免"Implementation Trap"。对于经常使用 AI 辅助编程的开发者,这篇文章提供了一套值得实践的协作框架。

InfoQ 中文
mp.weixin.qq.com
03-01
3384 字 · 约 14 分钟
92
别再谈“10 倍开发者”了:AI 智能体不是加速 SDLC,而是直接终结 SDLC

这篇文章提出一个犀利判断:AI Agent 不是让软件开发生命周期变快了,而是直接终结了它。作者逐一拆解 SDLC 的每个阶段,需求变成迭代的副产品,设计在协作中涌现,测试与代码同步生成,PR 流程成为历史遗留,监控则从被动仪表盘演变为驱动整个闭环的反馈机制。最终,作者认为新的核心能力只剩两件事:上下文工程和可观测性。这是一篇观点鲜明、值得认真对话的文章。

AI炼金术
xiaoyuzhoufm.com
03-03
28034 字 · 约 113 分钟
93
别干活了!给 AI 布置办公室去吧!

两位 AI 创业者分享 Agent 时代的工程实战:核心工作从写代码转向给 AI 搭环境,三步开发法(看计划→放手→验收)已成日常,判断力带宽而非执行力才是新的产能上限。适合想了解 Agent 时代真实工作方式的技术从业者。

Lenny's Podcast
youtube.com
03-01
6060 字 · 约 25 分钟
93
设计流程已死。取而代之的是这些。 | Jenny Wen (Claude 设计负责人)

Anthropic 设计负责人 Jenny Wen 分享了她对 AI 时代设计角色转变的深度观察。她的核心判断是:传统的「发现-收敛-再发散-再收敛」设计流程已经死亡,不是因为设计师主动求变,而是工程师借助 AI 工具的极速交付迫使设计随之改变。设计工作正分化为两类,一类是支持工程执行的实时协作,另一类是给出 3 到 6 个月方向感的愿景设计。她还分享了自己的真实工作流:制作精美设计稿的时间已从 60-70% 降至 30-40%,直接与工程师结对、甚至亲自改代码的比例大幅上升。对于正在经历这场转变的设计师,这是一篇来自前沿实践者的一手观察。

无人知晓
xiaoyuzhoufm.com
03-03
3805 字 · 约 16 分钟
94
E45 孟岩对话李继刚:人何以自处

孟岩与李继刚的这期三小时长谈,核心出发点是一个简洁却有重量的判断:工业革命拿走了体力,AI 正在拿走脑力,留给人的是心力。对话从这里出发,延伸到向量世界的本质、商业模式从编网到打井的转变、人机协作中异质性增幅与思考撤离的两条岔路,以及教育从灌输式「水」转向启发式「火」的命题。李继刚提出的「Your feed is your fate」和「提示词是有形状的」是两个值得单独展开的洞察。适合想在技术讨论之外,认真思考 AI 时代人何以自处的读者。

Datawhale
mp.weixin.qq.com
02-27
12468 字 · 约 50 分钟
92
2028 全球智能危机,谁来买单?

以 2028 年视角撰写的 AI 经济左尾风险思想实验:白领失业→消费萎缩→私募信贷违约→抵押贷款承压,构成一个无天然刹车的负反馈循环。不是预测,是系统性的风险推演框架,值得每个关注 AI 经济影响的人认真阅读。

    BestBlogs.dev 第 85 期:驾驭工程 | BestBlogs.dev