精选推送

BestBlogs.dev 第 89 期：智能体工程化

大家好！欢迎阅读 BestBlogs.dev 第 89 期 AI 精选文章推荐。

本周的关键词是智能体工程化。腾讯团队从一个 AGENTS.md 文件出发，逐步演进出包含 22 个智能体和 27 个技能的完整工程体系；Thoughtworks 的 Birgitta Böckeler 在 Martin Fowler 博客发表约束工程框架，将 Agent 治理拆解为前馈引导与反馈传感两条路径；天猫团队则用 97.9% 的代码采纳率证明了「胶水编程」的工程价值。三个实践指向同一个方向：当 AI 从辅助写代码的工具升级为独立执行任务的智能体，整个行业需要一套全新的工程纪律来驾驭它。

本周我和家人在外度假，但 BestBlogs 2.0 的开发并没有停下来。我让 Claude Code 基于项目的顶层设计文档，包括产品愿景、品牌定义、设计语言和术语库，对 2.0 版本进行全面 review 和优化。借助 Preview 功能，它自己边改进边验证，我只需要在手机上看看进度、确认方向。这大概就是智能体工程化最朴素的样子：你负责定义标准和边界，Agent 在约束内交付成果。下周末 2.0 正式发布，届时和大家分享。

以下是本周最值得关注的 10 个精彩亮点：

🤖 模型军备竞赛持续升温。Google 发布 Gemma 4 系列并将许可协议转为 Apache 2.0，31B 版本在 Arena AI 榜单名列前茅，开发者在本地部署和商业化应用上获得了完全的自由度。Qwen3.6-Plus 则聚焦 Coding Agent 场景，支持百万级长上下文，引入的 preserve_thinking 机制可以在多轮对话中保留思维链，让智能体在复杂长程任务中保持决策一致性。

🎨 Wan2.7-Image 在图像生成的三个老大难问题上取得突破：人物解剖结构更真实、文字渲染不再畸变、色彩还原更精准。对于海报设计和高质量视觉创作场景，这是一个务实的工程级方案。

👁️ GLM-5V-Turbo 为编程智能体装上了眼睛。这个原生多模态模型拥有 200K 上下文，从设计稿还原到 GUI 操控形成完整闭环，深度适配 Claude Code 与 AutoClaw 等工具。LangChain 的评测也印证了趋势：GLM-5 和 MiniMax M2.7 等开源模型在智能体核心能力上已对标顶级闭源模型，通过 Deep Agents SDK 一行代码即可接入，开源阵营正式跨越临界点。

🛠️ Cursor 3 的发布标志着软件开发进入新阶段。这已经是一个以智能体为核心的统一工作区，支持多仓库并行处理、本地与云端 Agent 无缝切换，还集成了浏览器和 MCP 插件生态。开发者的核心工作正在从编辑文件转向调度智能体集群。

⚡ Simon Willison 在 Lenny's Podcast 上深度剖析了 AI 编程的拐点。他提出的「暗工厂」模式直击要害：当 Agent 批量生产代码时，传统的逐行 Code Review 已难以为继，大规模自动化测试集群才是合理的替代方案。他还界定了提示词注入的致命三要素，警示行业正处于风险潜伏期。

🔧 Claude Code 源码曝光，揭示了顶级 Agent 运行时的工程细节。基于异步生成器的主循环、流式并发的工具调度、五层上下文压缩管道、三层纵深防御权限体系，每个设计决策都围绕同一个目标：让智能体在长对话中保持可靠且安全。

🏗️ 本周最值得细读的长文来自腾讯技术工程团队。作者记录了如何从 Vibe Coding 的随性起步，通过一个 AGENTS.md 文件逐步构建出包含 22 个智能体和 27 个技能的完整工程体系。核心洞察是：AI 的能力上限取决于上下文工程与复利工程的质量，文档即记忆、工具化封装和 Ralph Loop 机制构成了让 AI 可靠参与全生命周期的关键。

📐 Thoughtworks 的 Birgitta Böckeler 在 Martin Fowler 博客发表的约束工程一文提出 Agent = Model + Harness 的概念，通过前馈引导和反馈传感器两条路径来治理编程智能体。腾讯科技的深度解读进一步指出，Harness 是动态补偿模型能力的机制，真正的竞争力在于精准捕捉「补偿面迁移」的时机，在模型增强时果断做减法。天猫团队则用 97.9% 的采纳率验证了最务实的落地路径：将 AI 定位为装配工，通过开发规范、代码模式、领域知识和任务规格组成的四层物料体系来约束生成质量。

☕ Google ADK for Java 1.0.0 正式发布，为 Java 开发者提供了生产级的智能体开发工具链，增强型检索、全局插件架构、自动化上下文压缩以及原生 A2A 协议支持让跨语言智能体协作成为可能。Qdrant Skills 同期发布，将专家级的架构诊断经验转化为 Agent 可理解的决策树，专注解决生产环境中「何时用」和「为何用」的问题。

💡 Block 裁员 40% 的消息引发广泛讨论，业务主管详细解释了背后的逻辑：AI Agent 正在打破员工人数与产出之间的长期相关性。通过内部的 Goose 平台和 BuilderBot，Block 实现了向智能体驱动开发的转型，「生成式 UI」可根据用户数据实时构建动态界面。Kimi 杨植麟在中关村论坛分享了 K2.5 的技术突破，Agent 集群通过并行协作攻克复杂任务，注意力残差架构显著优化了网络深度。在身份验证领域，World CEO Alex Blania 展示了基于虹膜识别与零知识证明的「人类证明」方案，试图回答一个日益紧迫的问题：在 AI 可以完美模拟人类行为的时代，如何确认真实身份？

希望本期的推荐能为您带来新的启发。保持好奇，我们下周见！

立即订阅

1Gemma 4：同等规模下最强大的开源模型
2Qwen3.6-Plus：编码智能体能力全面跃升！
3Wan2.7-Image：人更真，字更稳，色更准
4GLM-5V-Turbo 发布：多模态 Coding 基座模型
5开源模型已跨越临界点
6遇见全新的 Cursor · Cursor
7AI 现状综述：我们已跨越拐点，「暗工厂」时代即将来临
8Claude Code 架构深度拆解：最强 AI Coding Agent 的工程实现全貌
9认知重建之后，步入 Agentic Engineering 的工程革命
1097.9%采纳率，胶水编程：业务需求出码最佳实践【天猫 AI Coding 实践系列】
11面向编程智能体用户的“约束工程”
12一文读懂 Harness Engineering：从 14 篇工程文章中，寻找那个让 AI 不再离经叛道的壳｜Hao 好聊趋势
13面向 AI 智能体的 Qdrant Skills
14宣布 ADK for Java 1.0.0 发布：构建 Java AI 智能体的未来
15「我们不再亲手写代码了。那个时代已经结束。」| Owen Jennings & David Haber - a16z 播客
16Kimi 杨植麟「2026 中关村论坛」演讲全文（附视频）
17134. 和谢晨聊「数据的综述」：AI 和机器人数据的历史、版图、金字塔与 Recipe
18从质疑者到忠实信徒：OpenClaw 如何改变了我的生活 | Claire Vo
19Vol.110｜养虾时代，OpenClaw 让打工人何去何从？
20“人类证明” (Proof of Human) 如何改变社交媒体 | Alex Blania 做客 The a16z Show

Gemma 4：同等规模下最强大的开源模型

Google DeepMind Blog

deepmind.google

04-02

1258 字 · 约 6 分钟

Google 发布了迄今最智能的开放模型 Gemma 4，主打高级推理与 Agent 工作流。该系列涵盖从 E2B 到 31B Dense 四种规格，其中 31B 版本在 Arena AI 榜单名列前茅，性能足以跨量级挑战巨型模型。Gemma 4 原生支持多模态输入、函数调用及最高 256K 上下文处理。最关键的突破在于 Google 将授权协议转为 Apache 2.0，大幅提升了开发者在本地部署、定制微调及商业化应用中的自由度与数字主权。

Qwen3.6-Plus：编码智能体能力全面跃升！

通义大模型

mp.weixin.qq.com

04-02

8475 字 · 约 34 分钟

Qwen3.6-Plus 正式发布，核心聚焦提升 Coding Agent 的任务执行稳定性。该模型支持 100 万长上下文，在代码修复、自动化办公及前端页面生成等实战场景中表现优异。技术上，其引入的 preserve_thinking 功能可保留多轮对话中的思维链，显著增强了智能体在复杂长程任务中的决策一致性。相比同尺寸模型，Qwen3.6-Plus 在多模态感知与视觉编程领域具有极高的性价比。

Wan2.7-Image：人更真，字更稳，色更准

通义大模型

mp.weixin.qq.com

04-01

11 字 · 约 1 分钟

通义实验室推出 Wan2.7-Image，重点突破了人物写实、文字渲染稳定性及色彩还原三大痛点。模型通过优化解剖结构与色彩算法，不仅实现了照片级的真实感，更解决了图像生成中常见的文字畸变难题，为海报设计与高质量视觉创作提供了更务实、更具工程参考价值的图像生成解决方案。

GLM-5V-Turbo 发布：多模态 Coding 基座模型

智谱

mp.weixin.qq.com

04-02

3007 字 · 约 13 分钟

GLM-5V-Turbo 是面向视觉编程打造的原生多模态模型。它具备 200k 上下文，精通设计稿还原、视觉代码生成及 GUI Agent 操控。模型深度适配 Claude Code 与 AutoClaw，实现了从视觉感知到动作执行的完整闭环，在维持顶尖编程能力的同时，为智能体安上了「眼睛」，是视觉交互场景下的核心基座选择。

开源模型已跨越临界点

LangChain Blog

blog.langchain.com

04-02

1432 字 · 约 6 分钟

最新评测显示，开源模型 GLM-5 与 MiniMax M2.7 在智能体核心能力上已对标顶级闭源模型。其核心优势在于极高的性价比与低延迟，能显著优化生产环境的运行成本。通过 Deep Agents SDK，开发者可以一行代码接入开源动力，并利用混合模型架构在复杂规划与高效执行之间取得平衡。

遇见全新的 Cursor · Cursor

Cursor Blog

cursor.com

04-02

638 字 · 约 3 分钟

Cursor 3 的发布标志着软件开发进入「第三纪元」，其核心范式从手动编辑文件转向管理自动化的智能体集群。新版本突破了传统 IDE 的局限，从零构建了以智能体为核心的统一工作区。该版本支持多仓库并行处理、本地与云端智能体无缝切换，并集成了浏览器与 MCP 插件生态。通过更高的抽象层级，开发者可以从繁琐的代码微操中解放，专注于架构逻辑与任务调度。本文深入探讨了 Cursor 如何通过模型、产品与运行时的结合，构建未来协作式 AI 开发的新基准，推荐给关注 AI 编程工具链演进的开发者。

AI 现状综述：我们已跨越拐点，「暗工厂」时代即将来临

Lenny's Podcast

youtube.com

04-02

4852 字 · 约 20 分钟

资深工程师 Simon Willison 深度剖析了 2025 年 AI 编程的「拐点」，详细探讨了从「氛围编程」向「智能体工程」的范式转移。他提出的「暗工厂」模式挑战了传统的代码审查逻辑，强调通过大规模自动化测试集群而非人工阅读来确保系统质量。针对安全领域，他界定了提示词注入的「致命三要素」，警示行业正处于「挑战者号」式的风险潜伏期。本内容不仅提供了前沿的技术洞察，还为 AI 浪潮下不同阶段的开发者提供了关于保持「自主意识」与工程竞争力的务实指南。

Claude Code 架构深度拆解：最强 AI Coding Agent 的工程实现全貌

掘金本周最热

juejin.cn

03-31

8619 字 · 约 35 分钟

Claude Code 架构深度拆解：最强 AI Coding Agent 的工程实现全貌

Claude Code 源码曝光，揭示了其作为顶级智能体运行时的工程细节。本文深入拆解了其核心架构，包括基于异步生成器的 Agent 主循环、支持流式并发的工具调度系统，以及最为精妙的五层上下文压缩管道。通过分析其三层纵深防御权限体系与极致的缓存优化策略，文章总结了 Claude Code 领先于同类工具的底层逻辑。对于希望提升 Agent 工程化深度、优化长对话性能或构建安全受控系统的开发者，这是一份极具参考价值的实战指南。

认知重建之后，步入 Agentic Engineering 的工程革命

腾讯技术工程

mp.weixin.qq.com

03-30

46254 字 · 约 186 分钟

从 Vibe Coding 的随性转向 Agentic Engineering 的严谨，本文记录了作者如何通过一个 AGENTS.md 文件演进出包含 22 个智能体、27 个技能的工程体系。核心洞察在于：人工智能的能力上限取决于上下文工程与复利工程的构建。文章深入探讨了如何通过文档即记忆、工具化封装及 Ralph Loop 机制，让人工智能可靠地参与从需求定义到代码审查的全生命周期。对于正在思考人工智能原生研发范式、希望超越简单对话式编程的开发者与技术负责人，这是一份带有大量「弯路与修正」的实战指南。

97.9%采纳率，胶水编程：业务需求出码最佳实践【天猫 AI Coding 实践系列】

大淘宝技术

mp.weixin.qq.com

03-27

13853 字 · 约 56 分钟

97.9%采纳率，胶水编程：业务需求出码最佳实践【天猫 AI Coding 实践系列】

天猫团队分享了胶水编程在业务交付中的实战经验，通过将 AI 从「创作者」转型为「装配工」，成功将代码采纳率提升至 97.9%。文章详细解析了由开发规范、代码模式、领域知识和任务规格组成的四层物料体系，强调「能抄不写、能连不造」的核心理念。该实践通过 MCP 协议和 AGENTS.md 自动化注入上下文，有效解决了 AI 生成代码风格不一、难以合入生产环境等痛点。对于致力于 AI 编码工程化落地、提升中后台交付效率的技术团队，本文提供了极具价值的架构设计参考与务实路径。

面向编程智能体用户的“约束工程”

Martin Fowler

martinfowler.com

04-02

2452 字 · 约 10 分钟

文章提出「Agent = Model + Harness」的概念，重点讨论如何通过构建前馈引导与反馈传感器来治理编程智能体。控制手段涵盖了确定性的计算型工具与语义化的推理型模型。该方案旨在通过外部 Harness 自动化代码纠错、架构对齐与行为验证，是将 AI 深度整合进持续集成流水线、提升代码可维护性的关键路径。

一文读懂 Harness Engineering：从 14 篇工程文章中，寻找那个让 AI 不再离经叛道的壳｜Hao 好聊趋势

腾讯科技

mp.weixin.qq.com

04-02

16409 字 · 约 66 分钟

一文读懂 Harness Engineering：从 14 篇工程文章中，寻找那个让 AI 不再离经叛道的壳｜Hao 好聊趋势

文章通过复盘 Anthropic 等巨头的工程实践，系统阐述了「约束工程」的三层核心机制：流程管控、并发调度与闭环验证。其深刻指出 Harness 并非一劳永逸的静态架构，而是动态补偿模型能力的补丁。真正的竞争力源于对「补偿面迁移」的精准捕捉，即在模型增强时果断做减法。结合 Claude Code 源码分析，本文是理解 Agent 工业化落地的必读指南。

面向 AI 智能体的 Qdrant Skills

Qdrant

qdrant.tech

03-31

2401 字 · 约 10 分钟

Qdrant Skills 将专家级的架构诊断经验转化为 AI Agent 可理解的决策树。它跳出了传统文档「如何使用」的局限，专注于解决生产环境中的「何时使用」与「为何使用」问题。通过对量化、HNSW 调优及多租户架构的实战评估，该工具赋予了 AI 智能体在复杂场景下进行性能调优与故障排查的能力，显著提升了 RAG 系统的工程落地效率。

宣布 ADK for Java 1.0.0 发布：构建 Java AI 智能体的未来

Google Developers Blog

developers.googleblog.com

03-30

2177 字 · 约 9 分钟

宣布 ADK for Java 1.0.0 发布：构建 Java AI 智能体的未来

谷歌 ADK for Java 1.0.0 正式发布，为开发者提供了一套完整的生产级智能体开发工具链。该版本核心涵盖了增强型检索工具、全局插件架构、自动化上下文压缩以及人机协同工作流。通过原生支持 A2A 协议，极大提升了跨语言、跨框架智能体之间的协作能力，是构建高性能人工智能应用的理想架构选择。

「我们不再亲手写代码了。那个时代已经结束。」| Owen Jennings & David Haber - a16z 播客

a16z

youtube.com

04-01

3114 字 · 约 13 分钟

「我们不再亲手写代码了。那个时代已经结束。」| Owen Jennings & David Haber - a16z 播客

本文深入探讨了 Block 在 AI 浪潮下的激进转型实践。业务主管 Owen Jennings 详细解释了公司裁员 40% 背后的深层逻辑：AI Agent 的普及彻底打破了员工人数与产出之间的长期相关性。通过内部开发的 Goose 智能体平台与 BuilderBot，Block 实现了从手动编码到智能体驱动的范式转移。文章重点介绍了「生成式 UI」如何根据用户数据实时构建动态界面，并重新定义了 AI 时代企业的护城河——即对复杂信号的深度理解与极速迭代能力。推荐给关注组织架构重塑与 AI 落地策略的决策者及开发者。

Kimi 杨植麟「2026 中关村论坛」演讲全文（附视频）

月之暗面 Kimi

mp.weixin.qq.com

03-31

2546 字 · 约 11 分钟

杨植麟分享了 K2.5 模型的核心技术突破，重点介绍 Agent 集群如何通过并行协作攻克复杂任务，以及创新的注意力残差架构对网络深度的优化。文章指出大模型正从暴力堆算力转向追求 Token 与架构效率，并预示了 AI 主导研发将成为未来的主流模式。

134. 和谢晨聊「数据的综述」：AI 和机器人数据的历史、版图、金字塔与 Recipe

张小珺Jùn｜商业访谈录

xiaoyuzhoufm.com

03-30

389 字 · 约 2 分钟

134. 和谢晨聊「数据的综述」：AI 和机器人数据的历史、版图、金字塔与 Recipe

本期播客深度拆解了人工智能与机器人领域的「数据产业综述」。光轮智能创始人谢晨从底层逻辑出发，阐述了数据如何从单纯的静态资产演进为驱动智能进化的「教育系统」。针对具身智能面临的数据荒漠难题，节目重点探讨了仿真数据作为先决条件的必要性，并详细解析了由真实、仿真与人类数据构成的金字塔结构。核心洞察指出，包含纠错逻辑的副样本数据对模型泛化能力至关重要。

从质疑者到忠实信徒：OpenClaw 如何改变了我的生活 | Claire Vo

Lenny's Podcast

youtube.com

03-29

4382 字 · 约 18 分钟

从质疑者到忠实信徒：OpenClaw 如何改变了我的生活 | Claire Vo

前工程副总裁 Claire Vo 在本次访谈中深入分享了她将 OpenClaw 转化为高效生产力工具的实战经验。从最初的质疑者到运行 9 个智能体的超级用户，她详细解析了开源智能体框架在透明度与安全性上的核心优势。内容重点介绍了如何通过硬件隔离保障隐私，以及利用「灵魂」文件与「心跳」机制构建具备主动性的 Agent 团队。无论是自动化的销售线索筛选，还是复杂的家庭日程管理，Claire 证明了应用管理人类员工的逻辑来配置 AI，能极大释放个人精力。

Vol.110｜养虾时代，OpenClaw 让打工人何去何从？

开始连接LinkStart

xiaoyuzhoufm.com

03-31

1272 字 · 约 6 分钟

本期播客深入探讨了 AI 数字员工从技术概念走向企业落地的真实路径。通过对话 Seele AI 创始人王诗沐与 Junior.so CTO 宇豪，揭示了 OpenClaw 等工具如何重塑办公自动化。核心洞察包括：AI 正在从传统的 SaaS 工具转变为以劳动力定价的数字员工，例如以月费 2000 美金替代 5 名初级员工；管理范式需从控制转向上下文，避免人类成为效率瓶颈；以及 Harness Engineering 作为 Agent 落地关键环境的重要性。内容涵盖了从 Token 成本账到 T0-T2 风险治理的实战建议，是企业决策者与职场人理解 AI 组织变革的必听指南。

“人类证明” (Proof of Human) 如何改变社交媒体 | Alex Blania 做客 The a16z Show

a16z

youtube.com

04-02

4389 字 · 约 18 分钟

“人类证明” (Proof of Human) 如何改变社交媒体 | Alex Blania 做客 The a16z Show

面对 AI 完美模拟人类行为的挑战，World 首席执行官 Alex Blania 提出了基于虹膜识别的「人类证明」方案。文章重点介绍了 Orb 硬件如何通过物理验证确保真实活体，以及结合 MPC 与 ZKP 技术在不泄露身份的前提下完成唯一性比对。这是解决 AI 身份欺诈、维护社交信用及未来数字经济安全的关键基础设施。

BestBlogs.dev 第 89 期：智能体工程化

目录