跳转到主要内容
精选推送

BestBlogs.dev 第 89 期:智能体工程化

大家好!欢迎阅读 BestBlogs.dev 第 89 期 AI 精选文章推荐。

本周的关键词是智能体工程化 。腾讯团队从一个 AGENTS.md 文件出发,逐步演进出包含 22 个智能体和 27 个技能的完整工程体系;Thoughtworks 的 Birgitta Böckeler 在 Martin Fowler 博客发表约束工程框架,将 Agent 治理拆解为前馈引导与反馈传感两条路径;天猫团队则用 97.9% 的代码采纳率证明了「胶水编程」的工程价值。三个实践指向同一个方向:当 AI 从辅助写代码的工具升级为独立执行任务的智能体,整个行业需要一套全新的工程纪律来驾驭它。

本周我和家人在外度假,但 BestBlogs 2.0 的开发并没有停下来。我让 Claude Code 基于项目的顶层设计文档,包括产品愿景、品牌定义、设计语言和术语库,对 2.0 版本进行全面 review 和优化。借助 Preview 功能,它自己边改进边验证,我只需要在手机上看看进度、确认方向。这大概就是智能体工程化最朴素的样子:你负责定义标准和边界,Agent 在约束内交付成果。下周末 2.0 正式发布,届时和大家分享。

以下是本周最值得关注的 10 个精彩亮点:

🤖 模型军备竞赛持续升温。Google 发布 Gemma 4 系列并将许可协议转为 Apache 2.0,31B 版本在 Arena AI 榜单名列前茅,开发者在本地部署和商业化应用上获得了完全的自由度。Qwen3.6-Plus 则聚焦 Coding Agent 场景,支持百万级长上下文,引入的 preserve_thinking 机制可以在多轮对话中保留思维链,让智能体在复杂长程任务中保持决策一致性。

🎨 Wan2.7-Image 在图像生成的三个老大难问题上取得突破:人物解剖结构更真实、文字渲染不再畸变、色彩还原更精准。对于海报设计和高质量视觉创作场景,这是一个务实的工程级方案。

👁️ GLM-5V-Turbo 为编程智能体装上了眼睛。这个原生多模态模型拥有 200K 上下文,从设计稿还原到 GUI 操控形成完整闭环,深度适配 Claude Code 与 AutoClaw 等工具。LangChain 的评测也印证了趋势:GLM-5MiniMax M2.7 等开源模型在智能体核心能力上已对标顶级闭源模型,通过 Deep Agents SDK 一行代码即可接入,开源阵营正式跨越临界点。

🛠️ Cursor 3 的发布标志着软件开发进入新阶段。这已经是一个以智能体为核心的统一工作区,支持多仓库并行处理、本地与云端 Agent 无缝切换,还集成了浏览器和 MCP 插件生态。开发者的核心工作正在从编辑文件转向调度智能体集群。

⚡ Simon Willison 在 Lenny's Podcast 上深度剖析了 AI 编程的拐点。他提出的「暗工厂」模式直击要害:当 Agent 批量生产代码时,传统的逐行 Code Review 已难以为继,大规模自动化测试集群才是合理的替代方案。他还界定了提示词注入的致命三要素,警示行业正处于风险潜伏期。

🔧 Claude Code 源码曝光,揭示了顶级 Agent 运行时的工程细节。基于异步生成器的主循环、流式并发的工具调度、五层上下文压缩管道、三层纵深防御权限体系,每个设计决策都围绕同一个目标:让智能体在长对话中保持可靠且安全。

🏗️ 本周最值得细读的长文来自腾讯技术工程团队。作者记录了如何从 Vibe Coding 的随性起步,通过一个 AGENTS.md 文件逐步构建出包含 22 个智能体和 27 个技能的完整工程体系。核心洞察是:AI 的能力上限取决于上下文工程与复利工程的质量,文档即记忆、工具化封装和 Ralph Loop 机制构成了让 AI 可靠参与全生命周期的关键。

📐 Thoughtworks 的 Birgitta Böckeler 在 Martin Fowler 博客发表的约束工程一文提出 Agent = Model + Harness 的概念,通过前馈引导和反馈传感器两条路径来治理编程智能体。腾讯科技的深度解读进一步指出,Harness 是动态补偿模型能力的机制,真正的竞争力在于精准捕捉「补偿面迁移」的时机,在模型增强时果断做减法。天猫团队则用 97.9% 的采纳率验证了最务实的落地路径:将 AI 定位为装配工,通过开发规范、代码模式、领域知识和任务规格组成的四层物料体系来约束生成质量。

☕ Google ADK for Java 1.0.0 正式发布,为 Java 开发者提供了生产级的智能体开发工具链,增强型检索、全局插件架构、自动化上下文压缩以及原生 A2A 协议支持让跨语言智能体协作成为可能。Qdrant Skills 同期发布,将专家级的架构诊断经验转化为 Agent 可理解的决策树,专注解决生产环境中「何时用」和「为何用」的问题。

💡 Block 裁员 40% 的消息引发广泛讨论,业务主管详细解释了背后的逻辑:AI Agent 正在打破员工人数与产出之间的长期相关性。通过内部的 Goose 平台和 BuilderBot,Block 实现了向智能体驱动开发的转型,「生成式 UI」可根据用户数据实时构建动态界面。Kimi 杨植麟在中关村论坛分享了 K2.5 的技术突破,Agent 集群通过并行协作攻克复杂任务,注意力残差架构显著优化了网络深度。在身份验证领域,World CEO Alex Blania 展示了基于虹膜识别与零知识证明的「人类证明」方案,试图回答一个日益紧迫的问题:在 AI 可以完美模拟人类行为的时代,如何确认真实身份?

希望本期的推荐能为您带来新的启发。保持好奇,我们下周见!

Google DeepMind Blog
deepmind.google
04-02
1258 字 · 约 6 分钟
93
Gemma 4:同等规模下最强大的开源模型

Google 发布了迄今最智能的开放模型 Gemma 4,主打高级推理与 Agent 工作流。该系列涵盖从 E2B 到 31B Dense 四种规格,其中 31B 版本在 Arena AI 榜单名列前茅,性能足以跨量级挑战巨型模型。Gemma 4 原生支持多模态输入、函数调用及最高 256K 上下文处理。最关键的突破在于 Google 将授权协议转为 Apache 2.0,大幅提升了开发者在本地部署、定制微调及商业化应用中的自由度与数字主权。

通义大模型
mp.weixin.qq.com
04-02
8475 字 · 约 34 分钟
92
Qwen3.6-Plus:编码智能体能力全面跃升!

Qwen3.6-Plus 正式发布,核心聚焦提升 Coding Agent 的任务执行稳定性。该模型支持 100 万长上下文,在代码修复、自动化办公及前端页面生成等实战场景中表现优异。技术上,其引入的 preserve_thinking 功能可保留多轮对话中的思维链,显著增强了智能体在复杂长程任务中的决策一致性。相比同尺寸模型,Qwen3.6-Plus 在多模态感知与视觉编程领域具有极高的性价比。

通义大模型
mp.weixin.qq.com
04-01
11 字 · 约 1 分钟
92
Wan2.7-Image:人更真,字更稳,色更准

通义实验室推出 Wan2.7-Image,重点突破了人物写实、文字渲染稳定性及色彩还原三大痛点。模型通过优化解剖结构与色彩算法,不仅实现了照片级的真实感,更解决了图像生成中常见的文字畸变难题,为海报设计与高质量视觉创作提供了更务实、更具工程参考价值的图像生成解决方案。

智谱
mp.weixin.qq.com
04-02
3007 字 · 约 13 分钟
92
GLM-5V-Turbo 发布:多模态 Coding 基座模型

GLM-5V-Turbo 是面向视觉编程打造的原生多模态模型。它具备 200k 上下文,精通设计稿还原、视觉代码生成及 GUI Agent 操控。模型深度适配 Claude Code 与 AutoClaw,实现了从视觉感知到动作执行的完整闭环,在维持顶尖编程能力的同时,为智能体安上了「眼睛」,是视觉交互场景下的核心基座选择。

LangChain Blog
blog.langchain.com
04-02
1432 字 · 约 6 分钟
92
开源模型已跨越临界点

最新评测显示,开源模型 GLM-5 与 MiniMax M2.7 在智能体核心能力上已对标顶级闭源模型。其核心优势在于极高的 性价比 与 低延迟,能显著优化生产环境的运行成本。通过 Deep Agents SDK,开发者可以一行代码接入开源动力,并利用混合模型架构在复杂规划与高效执行之间取得平衡。

Cursor Blog
cursor.com
04-02
638 字 · 约 3 分钟
93
遇见全新的 Cursor · Cursor

Cursor 3 的发布标志着软件开发进入「第三纪元」,其核心范式从手动编辑文件转向管理自动化的智能体集群。新版本突破了传统 IDE 的局限,从零构建了以智能体为核心的统一工作区。该版本支持多仓库并行处理、本地与云端智能体无缝切换,并集成了浏览器与 MCP 插件生态。通过更高的抽象层级,开发者可以从繁琐的代码微操中解放,专注于架构逻辑与任务调度。本文深入探讨了 Cursor 如何通过模型、产品与运行时的结合,构建未来协作式 AI 开发的新基准,推荐给关注 AI 编程工具链演进的开发者。

Lenny's Podcast
youtube.com
04-02
4852 字 · 约 20 分钟
93
AI 现状综述:我们已跨越拐点,「暗工厂」时代即将来临

资深工程师 Simon Willison 深度剖析了 2025 年 AI 编程的「拐点」,详细探讨了从「氛围编程」向「智能体工程」的范式转移。他提出的 「暗工厂」模式 挑战了传统的代码审查逻辑,强调通过大规模自动化测试集群而非人工阅读来确保系统质量。针对安全领域,他界定了提示词注入的 「致命三要素」,警示行业正处于「挑战者号」式的风险潜伏期。本内容不仅提供了前沿的技术洞察,还为 AI 浪潮下不同阶段的开发者提供了关于保持「自主意识」与工程竞争力的务实指南。

掘金本周最热
juejin.cn
03-31
8619 字 · 约 35 分钟
92
Claude Code 架构深度拆解:最强 AI Coding Agent 的工程实现全貌

Claude Code 源码曝光,揭示了其作为顶级智能体运行时的工程细节。本文深入拆解了其核心架构,包括基于异步生成器的 Agent 主循环、支持流式并发的工具调度系统,以及最为精妙的五层上下文压缩管道。通过分析其三层纵深防御权限体系与极致的缓存优化策略,文章总结了 Claude Code 领先于同类工具的底层逻辑。对于希望提升 Agent 工程化深度、优化长对话性能或构建安全受控系统的开发者,这是一份极具参考价值的实战指南。

腾讯技术工程
mp.weixin.qq.com
03-30
46254 字 · 约 186 分钟
93
认知重建之后,步入 Agentic Engineering 的工程革命

从 Vibe Coding 的随性转向 Agentic Engineering 的严谨,本文记录了作者如何通过一个 AGENTS.md 文件演进出包含 22 个 智能体、27 个技能的工程体系。核心洞察在于:人工智能的能力上限取决于上下文工程与复利工程的构建。文章深入探讨了如何通过文档即记忆、工具化封装及 Ralph Loop 机制,让人工智能可靠地参与从需求定义到代码审查的全生命周期。对于正在思考人工智能原生研发范式、希望超越简单对话式编程的开发者与技术负责人,这是一份带有大量「弯路与修正」的实战指南。

大淘宝技术
mp.weixin.qq.com
03-27
13853 字 · 约 56 分钟
92
97.9%采纳率,胶水编程:业务需求出码最佳实践【天猫 AI Coding 实践系列】

天猫团队分享了胶水编程在业务交付中的实战经验,通过将 AI 从「创作者」转型为「装配工」,成功将代码采纳率提升至 97.9%。文章详细解析了由开发规范、代码模式、领域知识和任务规格组成的四层物料体系,强调「能抄不写、能连不造」的核心理念。该实践通过 MCP 协议和 AGENTS.md 自动化注入上下文,有效解决了 AI 生成代码风格不一、难以合入生产环境等痛点。对于致力于 AI 编码工程化落地、提升中后台交付效率的技术团队,本文提供了极具价值的架构设计参考与务实路径。

Martin Fowler
martinfowler.com
04-02
2452 字 · 约 10 分钟
93
面向编程智能体用户的“约束工程”

文章提出「Agent = Model + Harness」的概念,重点讨论如何通过构建前馈引导与反馈传感器来治理编程智能体。控制手段涵盖了确定性的计算型工具与语义化的推理型模型。该方案旨在通过外部 Harness 自动化代码纠错、架构对齐与行为验证,是将 AI 深度整合进持续集成流水线、提升代码可维护性的关键路径。

腾讯科技
mp.weixin.qq.com
04-02
16409 字 · 约 66 分钟
93
一文读懂 Harness Engineering:从 14 篇工程文章中,寻找那个让 AI 不再离经叛道的壳|Hao 好聊趋势

文章通过复盘 Anthropic 等巨头的工程实践,系统阐述了「约束工程」的三层核心机制:流程管控、并发调度与闭环验证。其深刻指出 Harness 并非一劳永逸的静态架构,而是动态补偿模型能力的补丁。真正的竞争力源于对「补偿面迁移」的精准捕捉,即在模型增强时果断做减法。结合 Claude Code 源码分析,本文是理解 Agent 工业化落地的必读指南。

Qdrant
qdrant.tech
03-31
2401 字 · 约 10 分钟
92
面向 AI 智能体的 Qdrant Skills

Qdrant Skills 将专家级的架构诊断经验转化为 AI Agent 可理解的决策树。它跳出了传统文档「如何使用」的局限,专注于解决生产环境中的「何时使用」与「为何使用」问题。通过对量化、HNSW 调优及多租户架构的实战评估,该工具赋予了 AI 智能体在复杂场景下进行性能调优与故障排查的能力,显著提升了 RAG 系统的工程落地效率。

宣布 ADK for Java 1.0.0 发布:构建 Java AI 智能体的未来

谷歌 ADK for Java 1.0.0 正式发布,为开发者提供了一套完整的生产级智能体开发工具链。该版本核心涵盖了增强型检索工具、全局插件架构、自动化上下文压缩以及人机协同工作流。通过原生支持 A2A 协议,极大提升了跨语言、跨框架智能体之间的协作能力,是构建高性能人工智能应用的理想架构选择。

a16z
youtube.com
04-01
3114 字 · 约 13 分钟
92
「我们不再亲手写代码了。那个时代已经结束。」| Owen Jennings & David Haber - a16z 播客

本文深入探讨了 Block 在 AI 浪潮下的激进转型实践。业务主管 Owen Jennings 详细解释了公司裁员 40% 背后的深层逻辑:AI Agent 的普及彻底打破了员工人数与产出之间的长期相关性。通过内部开发的 Goose 智能体平台与 BuilderBot,Block 实现了从手动编码到智能体驱动的范式转移。文章重点介绍了「生成式 UI」如何根据用户数据实时构建动态界面,并重新定义了 AI 时代企业的护城河——即对复杂信号的深度理解与极速迭代能力。推荐给关注组织架构重塑与 AI 落地策略的决策者及开发者。

134. 和谢晨聊「数据的综述」:AI 和机器人数据的历史、版图、金字塔与 Recipe

本期播客深度拆解了人工智能与机器人领域的「数据产业综述」。光轮智能创始人谢晨从底层逻辑出发,阐述了数据如何从单纯的静态资产演进为驱动智能进化的「教育系统」。针对具身智能面临的数据荒漠难题,节目重点探讨了仿真数据作为先决条件的必要性,并详细解析了由真实、仿真与人类数据构成的金字塔结构。核心洞察指出,包含纠错逻辑的副样本数据对模型泛化能力至关重要。

Lenny's Podcast
youtube.com
03-29
4382 字 · 约 18 分钟
92
从质疑者到忠实信徒:OpenClaw 如何改变了我的生活 | Claire Vo

前工程副总裁 Claire Vo 在本次访谈中深入分享了她将 OpenClaw 转化为高效生产力工具的实战经验。从最初的质疑者到运行 9 个智能体的超级用户,她详细解析了开源智能体框架在透明度与安全性上的核心优势。内容重点介绍了如何通过硬件隔离保障隐私,以及利用「灵魂」文件与「心跳」机制构建具备主动性的 Agent 团队。无论是自动化的销售线索筛选,还是复杂的家庭日程管理,Claire 证明了应用管理人类员工的逻辑来配置 AI,能极大释放个人精力。

开始连接LinkStart
xiaoyuzhoufm.com
03-31
1272 字 · 约 6 分钟
92
Vol.110|养虾时代,OpenClaw 让打工人何去何从?

本期播客深入探讨了 AI 数字员工从技术概念走向企业落地的真实路径。通过对话 Seele AI 创始人王诗沐与 Junior.so CTO 宇豪,揭示了 OpenClaw 等工具如何重塑办公自动化。核心洞察包括:AI 正在从传统的 SaaS 工具转变为以劳动力定价的数字员工,例如以月费 2000 美金替代 5 名初级员工;管理范式需从控制转向上下文,避免人类成为效率瓶颈;以及 Harness Engineering 作为 Agent 落地关键环境的重要性。内容涵盖了从 Token 成本账到 T0-T2 风险治理的实战建议,是企业决策者与职场人理解 AI 组织变革的必听指南。

a16z
youtube.com
04-02
4389 字 · 约 18 分钟
92
“人类证明” (Proof of Human) 如何改变社交媒体 | Alex Blania 做客 The a16z Show

面对 AI 完美模拟人类行为的挑战,World 首席执行官 Alex Blania 提出了基于虹膜识别的「人类证明」方案。文章重点介绍了 Orb 硬件如何通过物理验证确保真实活体,以及结合 MPC 与 ZKP 技术在不泄露身份的前提下完成唯一性比对。这是解决 AI 身份欺诈、维护社交信用及未来数字经济安全的关键基础设施。

    BestBlogs.dev 第 89 期:智能体工程化 | BestBlogs.dev