跳转到主要内容
精选推送

BestBlogs.dev 第 86 期:基建

大家好!欢迎阅读 BestBlogs.dev 第 86 期 AI 精选文章推荐。

本周有一个词在不同层面反复出现:基建。AlphaGo 问世十年,Demis Hassabis 亲笔回顾了从围棋到蛋白质折叠、数学发现的演化轨迹,并给出他对 AGI 的清晰判断:Gemini 的多模态感知与 AlphaGo 的逻辑规划正在走向融合,让 AI 从工具进化为「协同科学家」。而在应用层,OpenClaw 已正式超越 React 成为 GitHub 历史上 Star 最多的项目,不再只是一个开源工具,而是一套正在下沉为基础设施的智能体操作系统。从个人开发者的六层架构治理,到企业级 Code Review 的三代演进,再到黄仁勋笔下的 AI 五层蛋糕,本周的内容集体在回答同一个问题:当 AI 编程能力成为标配,真正的竞争力来自你搭建了怎样的基建。

这周我把主要精力放在用 Skills 搭建个人内容工作流上,打通了从内容输入、整理、深度阅读、基于个人画像的内容创作,到多平台发布和数据分析的全链路,试图把碎片化的信息消费升级为一个有反馈闭环的内容操作系统。还在调试迭代中,但已经能感受到把工具串联成系统之后的质的变化——这和本周很多文章的核心洞察高度共鸣。

以下是本周最值得关注的 10 个精彩亮点:

🏆 AlphaGo 十周年,Google DeepMind 创始人 Demis Hassabis 亲笔回顾了 Move 37 的历史瞬间与十年影响。这场胜利的真正遗产不是战胜人类棋手,而是验证了一套通用的搜索与推理方法论,并将其移植到 AlphaFoldFunSearch 和芯片设计中。他的 AGI 路线图很清晰:Gemini 的多模态感知加上 AlphaGo 的逻辑规划,使 AI 从工具进化为能独立进行科学探索的「协同科学家」。

🔮 两大基础模型本周密集亮相。Gemini Embedding 2 是 Google 首个原生多模态嵌入模型,将文本、图像、音视频统一到同一向量空间,支持 100+ 语言和 MRL 灵活维度压缩,是多模态 RAG 架构的关键升级。NVIDIA Nemotron 3 Super 则以全开源姿态填补了智能体推理的基础模型空缺:120B 参数、1M 超长上下文、Mamba-Transformer 混合架构带来 5 倍吞吐量提升,是当前处理复杂长程多 Agent 任务的最佳开源选择。

🤖 两项面向智能体的基础组件研究同样值得收藏。通义实验室开源的 Mobile-Agent-v3.5 通过混合数据飞轮与强化学习,在桌面、移动和浏览器三端实现 GUI 自动化能力统一,20+ 基准开源 SOTA。微软研究院的 PlugMem 将 Agent 的交互历史提炼为结构化事实与可复用技能,以更少 Token 提供更高质量的决策信息,在对话和网页浏览等场景均优于传统检索方案。

🦞 李宏毅教授的视频「解剖小龙虾」用教学级清晰度拆解了 AI Agent 的运作全貌:系统提示词构建身份认知,RAG 与压缩突破上下文上限,心跳机制支撑 24 小时自主运行,Sub-Agent 协同分解复杂任务。腾讯技术工程的实战指南则从硬件选型到多 Agent 协同提供了完整落地路径,并发出安全警示:凡追求高自动化,必须按数据全开的最坏情况预估风险。一理一实,构成理解 OpenClaw 体系的最佳入门组合。

🏗️ Tw93 深度使用 Claude Code 半年后提炼出一套六层架构治理模型:CLAUDE.md、Tools/MCP、Skills、Hooks、Subagents、Verifiers。核心洞察是 Agent 的失控往往不来自模型能力不足,而来自上下文污染、工具冗余和缺乏确定性约束。HackerNoon 的「可扩展性三角」提供了配套决策框架——MCP 负责动态数据交互,Subagents 负责任务隔离与模型路由,Skills 负责静态知识注入,三者边界清晰,防止过度设计。两篇合读,是目前对 Claude Code 工程实践最系统的梳理。

⚡ OpenAI Build Hour 和得物技术的 Spec Coding 实战从两个视角展示了 Agent 工程的生产级落地。OpenAI 提出 Harness Engineering 七大易读性指标,核心主张是通过在代码库嵌入 agent.md 规则让 AI 独立交付 PR。得物团队用 10 天 2,754 次真实工具调用验证了三层规范体系的价值:提效 36% 的背后是系统性规范投入,文章也坦诚记录了 AI 在复杂 CI 环境下的失效边界——这份诚实让这篇实战报告更有参考价值。

🔍 快手智能 Code Review 是本周最具参考价值的企业实战案例。三代架构演进——从 LLM 启发式到知识引擎加规则确定性,再到 Agentic 自主决策——将代码评审采纳率从 7.9% 跃升至 54%,MR 耗时缩短近 10%。核心突破是构建了 1,100+ 条硬性规则以消除 AI 幻觉,实现了从私人助理到组织级协作者的范式跃迁。这个演进路径,对所有正在推进 AI 工程化落地的团队都有直接借鉴价值。

🌐 Founder Park 梳理了 Product Hunt 2 月份 500+ 款 OpenClaw 相关产品,横跨云托管、Skill 开发、Agent 社交和竞品四大赛道,一个没有官方统一规划、完全自下而上生长的产业链已然成形——OpenClaw 已不只是工具,而是操作系统级生态。与此同时,LangChain 指出随着代码实现成本骤降,软件开发的瓶颈从实现转向评审,未来人才将分化为全能的构建者与深耕架构的评审者,产品感成为所有角色的核心标配。

🎨 三篇文章从不同角度追问 AI 时代人的位置。YC 设计专家对 Vibe Coded 网站的复盘揭示了同质化陷阱:过度依赖 LLM 产生千篇一律的淡入动画,AI 是执行杠杆而非思考的替代品。Elys 创始人 Tristan 提出了另一个维度:人的灵魂是所有 context 的总和,AI 社交必须有一端连接真实人类,记忆槽位与熵减设计才是 AI 社交产品的技术护城河。两者合读指向同一个结论:工具越强大,人的判断力越珍贵。

📈 四篇宏观内容共同描绘了 AI 的全景图。黄仁勋的署名长文将 AI 拆解为从能源到应用的五层蛋糕,强调开源模型是激活全栈需求的催化剂。a16z 消费级 AI 应用百强报告指出个人记忆正成为下一个核心护城河。《2026 写给 AI 创业者》用印刷机、电动机、云计算三段历史推演出利润守恒定律——当实现不再是瓶颈,价值迁移到架构判断和产品直觉。屠龙之术的 70 页 PPT solo 则提供了 2026 年 Q1 中美 AI 格局最全面的数据复盘。

希望本期的推荐能为您带来新的启发。保持好奇,我们下周见!

NVIDIA Technical Blog
developer.nvidia.com
03-11
2283 字 · 约 10 分钟
93
Nemotron 3 Super 发布:用于智能体推理的开源混合 Mamba-Transformer MoE 模型

NVIDIA 发布 Nemotron 3 Super,一款针对智能体优化的 120B 混合专家模型。它结合 Mamba 的长序列效率与 Transformer 的精确推理,支持 1M 超长上下文。通过 Latent MoE 和多 token 预测技术,该模型在保持高精度的同时实现了 5 倍吞吐量提升。模型完全开源,是当前处理复杂、长程多智能体任务的最佳开源选择。

魔搭ModelScope社区
mp.weixin.qq.com
03-08
2771 字 · 约 12 分钟
93
阿里巴巴通义实验室开源 Mobile-Agent-v3.5:一套真正“多平台可用”的原生 GUI Agent 基座模型

通义实验室推出 GUI-Owl-1.5 原生 GUI Agent 模型家族,实现桌面、移动与浏览器端的能力统一。该系列通过混合数据飞轮与 MRPO 强化学习解决了长程任务稳定性难题,并在 OSWorld 等 20 多个基准测试中取得开源 SOTA。模型提供 Instruct 和 Thinking 两种变体,支持端云协同部署,是目前 GUI 自动化领域极具竞争力的开源基座。

Microsoft Research Blog
microsoft.com
03-10
967 字 · 约 4 分钟
92
PlugMem:一个适用于各类 AI 智能体任务的通用记忆系统

微软研究院推出 PlugMem,旨在解决 AI Agent 记忆臃肿导致的性能下降问题。该模块通过将交互历史提炼为结构化的事实与技能,实现了高效率、低成本的知识重用。实验证明,PlugMem 在对话问答、网页浏览等任务中均优于传统检索方案,能在消耗更少 Token 的同时提供更高价值的决策信息。

Google DeepMind Blog
deepmind.google
03-10
1356 字 · 约 6 分钟
92
AlphaGo 十周年:AI 创新如何铺就通往 AGI 之路

本文回顾了 AlphaGo 夺冠十年的深远影响:其搜索与推理技术已转化为解决蛋白质折叠、数学证明及算法优化的核心动力。Demis 强调,未来的 AGI 将由 Gemini 的多模态感知与 AlphaGo 的逻辑规划共同驱动,使 AI 从单纯的工具进化为能独立进行科学探索的“协同科学家”。

Hung-yi Lee
youtube.com
03-09
4207 字 · 约 17 分钟
93
解剖小龍蝦 — 以 OpenClaw 為例介紹 AI Agent 的運作原理

李宏毅教授深度剖析了 AI Agent 的工程实现:通过系统提示词构建身份,利用 RAG 与压缩技术突破上下文限制,并借助心跳机制实现 24 小时自主运行。内容涵盖了从工具调用到 Sub-Agent 协作的核心流程,并针对 Agent 的安全风险提出了“权限隔离”与“物理隔离”的实践建议。

Tw93 Blog
tw93.fun
03-12
10004 字 · 约 41 分钟
94
你不知道的 Claude Code:架构、治理与工程实践 - Tw93

本文是知名开发者 Tw93 深度使用 Claude Code 半年后的硬核实战总结。文章跳出了提示词工程的窠臼,提出从系统设计角度构建 AI 协作流,详细拆解了由 CLAUDE.md、Skills、Hooks 等构成的六层架构模型。作者深入探讨了上下文污染的治理方案、Prompt 缓存对成本与响应的影响,以及如何通过验证闭环确保 AI 输出的可靠性。对于正在探索 AI Agent 落地、希望提升自动化编程上限的开发者来说,这是一份兼具技术深度与工程美感的进阶指南。

OpenAI
youtube.com
03-10
14614 字 · 约 59 分钟
94
Build Hour:API 与 Codex

OpenAI 团队与 Basis 联合创始人深度拆解了 Agent 驱动开发的实战架构。核心亮点包括:GPT 5.4 的原生控制能力、Harness Engineering 的七大易读性指标,以及如何通过在代码库中嵌入 agent.md 规则来消除 AI 垃圾代码。一句话总结:别再把 AI 当打字员,要把它当作能独立交付 PR 的工程合伙人。

HackerNoon
hackernoon.com
03-12
3096 字 · 约 13 分钟
92

本文梳理了 Claude Code 扩展的核心逻辑:MCP 用于外部数据交互,Subagents 用于隔离任务与模型路由(如切换至 Haiku 降本),Skills 用于注入静态知识。通过实用的“决策函数”,帮助开发者避开在 MCP 中写静态文本或在 Skills 中查数据库的典型误区,实现开发效率与成本的最优平衡。

得物技术
mp.weixin.qq.com
03-11
7366 字 · 约 30 分钟
92
AI 编程能力边界探索:基于 Claude Code 的 Spec Coding 项目实战|得物技术

通过 10 天 2,754 次工具调用的实战数据,本文拆解了 Spec Coding 工作流如何重构 AI 开发效率。其核心在于:通过三层规范体系(Rules/Code/UI)消除 AI 的不确定性,并利用 MCP 工具打通外部文档。文章不仅分享了提效 36% 的成功经验,还客观分析了 AI 在面对复杂 CI 环境和隐性依赖时的失效模式,是 AI 编程进阶必读。

快手技术
mp.weixin.qq.com
03-09
9149 字 · 约 37 分钟
93
采纳率从 7.9%到 54%:快手智能 Code Review 的三阶进化

快手智能 CR 实践:通过“上下文引擎 + 知识规则库 + Agentic 架构”的组合拳,成功将代码评审采纳率从 7.9% 跃升至 54%,并将 MR 评审耗时缩短近 10%。核心突破在于利用 1,100+ 条硬性规则与长上下文处理技术消除 AI 幻觉,实现了从“私人助理”到“组织级协作者”的范式升级。

腾讯技术工程
mp.weixin.qq.com
03-09
10592 字 · 约 43 分钟
92
玩转 OpenClaw,你需要了解的:核心架构、运作原理、Agent 部署步骤

OpenClaw 实战全攻略:从硬件选型到多 Agent 协同架构。文章深度剖析了 Agent 的记忆力机制、Skills 管理流程及多任务分配逻辑,并分享了每日论文抓取、本地 ComfyUI 绘图等实操案例。重点强调了在追求高效 AI 自动化的同时,必须按“数据全开”的最坏打算来预估安全风险。

LangChain Blog
blog.langchain.com
03-10
1992 字 · 约 8 分钟
93
编程智能体如何重塑工程、产品与设计

本文深入探讨了 AI 编程智能体如何重塑工程、产品与设计的协作模式。作者指出,随着代码实现成本骤降,软件开发的瓶颈已从“实现”转向“评审”与“系统思维”。传统的 PRD 流程正在消亡,取而代之的是原型驱动的迭代。文章强调,未来的专业人才将分化为全能的“构建者”或深耕架构的“评审者”,而“产品感”将成为所有角色的核心标配。对于关注 AI 时代职业转型的技术从业者而言,这篇深度分析提供了极具前瞻性的思考框架。

Founder Park
mp.weixin.qq.com
03-06
12364 字 · 约 50 分钟
92

Elys 创始人 Tristan 揭秘 AI 社交新范式:将 Context 视为灵魂总和,通过“记忆槽位”实现主动式记忆。核心观点涵盖:AI 社交必须有一端连接人类以保持真实性;利用 AI 算力实现人际连接的“熵减”;以及从情绪陪伴向高维社交连接的跨越。直击 AI 时代社交产品的核心技术瓶颈与产品美学。

Y Combinator
youtube.com
03-06
11889 字 · 约 48 分钟
92
设计专家评析 Vibe Coded 网站

本视频深度复盘了 AI 辅助设计中的“同质化”灾难。YC 专家通过实测案例指出,过度依赖 LLM 容易产生无意义的淡入动画和模版化仪表盘,导致品牌识别度丧失。关键结论:AI 是提升执行效率的杠杆,而非思考的替代品。创业者应将节省的时间投入到核心价值传递和质量保证(QA)中,避免让产品看起来像廉价的“AI 缝合怪”。

a16z
youtube.com
03-10
14800 字 · 约 60 分钟
94
消费级 AI 应用百强榜 | a16z Show

a16z 报告复盘:AI 应用已从简单的文本框演进为复杂的智能体与桌面生态。ChatGPT 稳居统治地位,但 Claude 与 Gemini 在专业领域和创意端各显神通。核心趋势包括:智能体的消费级突破、AI 专属浏览器的入口争夺,以及「个人记忆」作为未来核心护城河的崛起。

十字路口Crossing
mp.weixin.qq.com
03-07
9463 字 · 约 38 分钟
93
2026,写给 AI 创业者的慷慨、残酷、与迷雾

本文由 AI 创业者加元撰写,深刻剖析了 2026 年编程能力被快速“商品化”后的技术与商业变局。作者不仅记录了 Andrej Karpathy 等先锋人物见证的编程范式倒置,更通过复盘印刷机、电动机和云计算的三段历史,推导出“利润守恒定律”在 AI 时代的演进。文章指出,当“实现”不再是瓶颈,价值将从编码迁移到系统架构判断、产品直觉与用户理解。对于试图在“地狱模式”竞争中生存的创业者,这是一份冷静的转型指南,帮助你透过 AI 热潮看清权力的迁移。

屠龙之术
xiaoyuzhoufm.com
03-09
31173 字 · 约 125 分钟
94
Vol.89 AI 行业 2025 年度总结补充篇(V4 不等了版)---70 页 PPT solo

资深投资人庄明浩通过 70 页 PPT 深度拆解了 2026 年初全球 AI 行业的关键动向。内容涵盖美国算力资本支出的叙事演进、OpenClaw 引发的 Agent 革命,以及中国模型厂商在春节红包大战后的估值与竞争格局。作者不仅提供了扎实的数据支撑,更对“软件被 AI 吞噬”等末世论议题进行了冷思考。对于想要快速同步 2026 年 Q1 全球 AI 投资逻辑与技术趋势的从业者来说,这是一份不可多得的复盘指南。

    BestBlogs.dev 第 86 期:基建 | BestBlogs.dev