跳转到主要内容
精选周刊

BestBlogs.dev 第 84 期:编排

大家好!欢迎阅读 BestBlogs.dev 第 84 期 AI 精选文章推荐。

春节快乐!过去两周因为假期休刊,攒了不少好内容,这一期信息量比较大,希望大家慢慢消化。

这两周 AI 领域最显著的变化,不是某个模型又刷新了某个榜单,而是一个角色转变正在加速发生:工程师正在从写代码的人,变成编排 AI 写代码的人 。Claude Code 负责人 Boris Cherny 说编程问题在很大程度上已经被解决,OpenAI 内部已经有工程师同时调度 10 到 20 个 Agent 跑小时级任务,Anthropic 的趋势报告则直接把这称为从人写代码到人编排 Agent 写代码的系统性转变。与此同时,Claude Sonnet 4.6、Gemini 3.1 Pro、GLM-5、MiniMax M2.5 等新模型密集发布,模型能力越强,编排和判断的价值就越高。

这两周我一直在构思和搭建 BestBlogs 2.0 的核心特性,实践中也深刻体会到了编排的力量:通过 Spec 文档编排多个 AI Coding 工具和智能体,完成需求讨论、方案设计、Demo 开发和交互 Review,整个流程几乎不需要手写代码,预计三月底上线,届时和大家分享更多细节。

以下是本周最值得关注的 10 个精彩亮点:

🏆 模型军备竞赛进入白热化。Claude Sonnet 4.6 带来百万 token 上下文和全面升级的 Agent 能力,实测 59% 的场景优于上代旗舰 Opus 4.5,价格却与 Sonnet 4.5 持平。Gemini 3.1 Pro 推理分数从 31% 跃升至 77%,引入三级思考模式让开发者按任务复杂度灵活分配算力,API 成本不到 Claude Opus 4.6 的一半。加量不加价,成了这一轮竞争的主旋律。

🤖 GLM-5MiniMax M2.5 从不同方向回答了同一个问题:如何让 Agent 在真实场景中跑起来。GLM-5 以智能体工程为核心设计目标,通过异步强化学习和稀疏注意力在开源模型中达到最优;MiniMax M2.5 则把连续运行 Agent 的成本压到每小时不足 1 美元,让无成本约束地运行复杂 Agent 从愿景变成现实。

🎨 Seedance 2.0Nano Banana 2 分别在视频和图像生成领域推进边界。Seedance 2.0 不只是生成画面,而是开始理解导演思维,能自主完成分镜设计和情绪节奏把控。Nano Banana 2 则大幅降低了 API 定价,虽然实测表现不如宣传那么惊艳,但让高质量图像生成真正触手可及。

🛠️ Claude Code 负责人 Boris Cherny 的两场访谈是本期最值得细读的内容。他分享了 Claude Code 从内部两个赞的小项目到占 GitHub 4% 代码提交量的完整历程,核心哲学是不为今天的模型构建、而为六个月后的模型构建。他坦言自从 Opus 4.5 之后已不再手写一行代码,并判断编程问题已在很大程度上被解决,下一个前沿是让 AI 从执行者变成主动提出想法的同事。

⚡ OpenAI 工程负责人 Sherwin Wu 揭示了 AI 工具正在如何重塑工程团队:95% 的工程师每天使用 Codex,高低效工程师之间的 PR 数量差距高达 70%,能同时调度 10 到 20 个 Agent 的人正在把其他人远远甩开。他也坦诚指出大量企业的 AI 部署 ROI 为负,以及一人十亿美元公司背后那些被低估的二阶三阶影响。

📁 大模型的下一个工程化核心正从参数调优转向记忆。一篇来自 InfoQ 的演讲系统梳理了记忆分层建模、主动调度和脑图式信息组织三大机制,核心洞察是与其在检索时被动应对,不如将记忆管理前置到用户交互的空档期,让所需记忆在查询到达前就已就绪。同时 Datawhale 对 Skill 设计的拆解也揭示了一个关键分水岭:用脚本锁死脆弱操作、用文字引导创造性任务。

💡 Vibe Coding 正在从概念走向大规模落地。阿里巴巴内部实践揭示了 AI 生成代码的质量一致性、调试效率和安全漏洞等真实挑战,给出了模板化固化成功路径、将 Agent 抽象为可复用工具等来自生产环境的解法。而一位没有编程背景的产品经理用一个下午通过 Claude Code 搭建出了运行在自己服务器上的个人 AI Agent,印证了产品感比写代码更稀缺这一判断。

🧩 Anthropic 发布的 Agent 编程趋势报告描绘了软件开发的系统性转变,涵盖多 Agent 协同、长时间自主运行和编程民主化等八大趋势。报告的核心判断是 AI 放大的是工程师已有的判断力而非凭空替代它,系统设计、任务拆解和质量验收这些老功夫在 Agent 时代反而更加值钱。

🔬 Google 首席 AI 科学家 Jeff Dean 从亲历者视角回顾了从 2001 年将 Google 索引加载进内存到 TPU 协同设计的完整脉络,并给出两个对未来的核心判断:能关注用户全部个人数据的个性化模型,以及专用硬件驱动的超低延迟将彻底改变人机协作方式。

👨‍💼 关于 AI 是否会终结软件工程的争论仍在继续。UML 之父 Grady Booch 驳斥了 Dario 的判断,指出软件工程已经历过多次存在主义危机,每一次都以新的黄金时代收场。Naval 则从另一个角度给出答案:主体意识是人类对抗 AI 替代的真正护城河,因为 AI 没有欲望、没有生存压力,无法在真正未知的领域自主决策。消解 AI 焦虑的唯一方法,始终是打开引擎盖去理解它,然后付诸行动。

希望本期的推荐能为您带来新的启发。保持好奇,我们下周见!

机器之心
mp.weixin.qq.com
02-18
1537 字 · 约 7 分钟
93
Claude 最强 Sonnet 模型 4.6 来了,百万 token 上下文

Anthropic 在春节期间发布了 Claude Sonnet 4.6,对编码、计算机使用、长上下文推理和智能体规划进行了全面升级,并提供 100 万 token 上下文窗口。值得关注的是,它在实际测试中有 59% 的时间优于上一代旗舰模型 Opus 4.5,同时在价格上与 Sonnet 4.5 保持一致,使高水准的智能体能力真正触手可及。

腾讯科技
mp.weixin.qq.com
02-20
3322 字 · 约 14 分钟
95
谷歌要重夺王座?Gemini 3.1 Pro 推理分数翻倍,幻觉率继续下降,价格不变

谷歌发布 Gemini 3.1 Pro,在 ARC-AGI-2 推理测试上得分从 31% 跃升至 77%,并引入可调节的三级思考模式,让开发者无需维护多个模型就能按任务复杂度灵活分配算力。更值得关注的是,这次性能大幅提升的同时价格保持不变,API 成本不到 Claude Opus 4.6 的一半,谷歌用一场加量不加价的反攻,把智能指数排行重新夺了回来。

爱范儿
ifanr.com
02-27
3031 字 · 约 13 分钟
93
刚刚,Nano Banana 2 发布!便宜又大碗,体验后我发现这些细节

这篇文章通过大量实测案例,展示了 Nano Banana 2 在中文文字渲染、复杂 UI 生成、漫画分镜和主体一致性上的真实表现,给出了比官方博客更客观的评价:整体速度和质量的提升不如宣传中那么明显,部分场景甚至不及前代,但凭借大幅降低的 API 定价和更低的使用门槛,它真正把高质量图像生成变成了一件触手可及的事。

智谱
mp.weixin.qq.com
02-22
24347 字 · 约 98 分钟
93
GLM-5 技术报告:技术细节全公开

智谱发布的 GLM-5 是一个以智能体工程为核心设计目标的新一代开源大模型,通过异步强化学习框架和稀疏注意力机制,在大幅降低推理成本的同时实现了显著的性能跃升。它在 SWE-bench、BrowseComp 等主流 Agent 基准上达到开源最优,并在真实软件工程任务中展现出媲美顶尖闭源模型的端到端交付能力。

MiniMax 稀宇科技
mp.weixin.qq.com
02-12
3205 字 · 约 13 分钟
94
MiniMax M2.5 发布:1 美金/小时,真实世界工作王者

MiniMax M2.5 在编程、工具调用和办公场景全面达到行业顶尖水平,但真正值得关注的不是跑分,而是两个核心命题:一是通过原生 Agent RL 框架将复杂任务拆解能力直接写入模型,使速度提升 37% 的同时 token 消耗反而下降;二是将连续运行 Agent 的成本压到每小时不足 1 美元,让「无成本约束地运行复杂 Agent」从愿景变成现实。

数字生命卡兹克
mp.weixin.qq.com
02-11
5162 字 · 约 21 分钟
93
中国也有了世界第一的模型,他的名字,叫 Seedance 2.0。

Seedance 2.0 正在重新定义 AI 视频的可能性边界:它不只是生成画面,而是真正理解导演思维,能自主完成分镜设计、情绪节奏把控和多场景切换。作者以亲身经历,展示了从剧情短片、经典二创、现实编辑到带货广告的多种玩法,也坦诚分享了身处 AI 影视行业一线、亲眼看着自己搭建的工作流被技术迭代「气化」的复杂心情。

Y Combinator
youtube.com
02-17
9395 字 · 约 38 分钟
94
Boris Cherny:我们如何打造 Claude Code

Claude Code 创作者 Boris Cherny 在这场对话中,分享了这款工具从偶然原型到改变工程范式的完整历程:不为今天的模型构建、而为六个月后的模型构建,是贯穿始终的核心哲学。他坦言自从 Opus 4.5 之后已不再手写一行代码,并深入探讨了多智能体系统、ClaudeMD 的正确用法,以及在模型能力快速演进的时代,工程师最需要培养的其实是初学者心态和科学思维。

Datawhale
mp.weixin.qq.com
02-22
9159 字 · 约 37 分钟
93
如何写出好的 Skill ?拆解 skill-creator 背后的设计!

这篇文章以 skill-creator 的设计为线索,系统拆解了 AI Skill 的本质、结构和写法。核心洞察是:写 Skill 不是在给人写文档,而是在给 AI 写指令,这意味着每一句话都要值得它占用的上下文 token,用"不做什么"比"做什么"更能精确约束 AI 的行为空间,用脚本锁死脆弱操作、用文字引导创造性任务,是写出高质量 Skill 的关键分水岭。

InfoQ 中文
mp.weixin.qq.com
02-18
21952 字 · 约 88 分钟
93
OpenAI 一线开发现实观察:能同时盯住 10~20 个 Agent、跑小时级任务的人,正在把其他工程师远远甩开

OpenAI 工程负责人 Sherwin Wu 分享了 AI 工具正在如何重塑软件工程团队的真实样貌:95% 的工程师每天使用 Codex,PR 数量差距高达 70%,工程师角色正从写代码演变为调度 AI Agent 的技术负责人。他还深入分析了为什么大量企业的 AI 部署 ROI 为负,以及「一人十亿美元公司」背后那些被严重低估的二阶三阶影响。

InfoQ 中文
mp.weixin.qq.com
02-25
9347 字 · 约 38 分钟
93
从上下文到长期记忆:大模型记忆工程的架构设计与实践

大模型的下一个工程化核心正从参数调优转向记忆。这篇演讲系统梳理了记忆分层建模、主动调度和脑图式信息组织三大核心机制,核心洞察是:与其在检索时被动应对,不如将记忆管理工作前置到用户交互的空档期,让所需记忆在查询到达前就已就绪,从而同时解决精度与延迟的两难困境。

InfoQ 中文
mp.weixin.qq.com
02-10
8682 字 · 约 35 分钟
93
Vibe Coding 在代码生成与协作中的实践与思考

阿里巴巴内部大规模落地 Vibe Coding 工具的实践,揭示了当前 AI 编程工具面临的真实挑战:AI 生成代码的质量一致性、调试效率下降、安全漏洞风险,以及高昂的 Token 成本。文章给出了来自一线的解法:用模板化固化成功路径、用国产模型替代闭源方案、将 Agent 本身抽象为可复用工具,为下一代 Vibe Coding 产品的设计提供了来自生产环境的参考。

42章经
xiaoyuzhoufm.com
02-07
1121 字 · 约 5 分钟
94
从 Clawdbot 到 26 年 AI Coding 主题大爆发|对谈 PingCAP CTO 东旭

PingCAP CTO 黄东旭以大量一手实践经验为基础,深入解析了 AI Coding 从辅助工具到自主 Agent 的能力跃迁,并提出了一切皆 Coding Agent 的技术演进判断。他还阐述了上下文工程的核心作用、Box 隔离环境的创新构想,以及在编程门槛消失的未来,工程师如何通过审美与人文连接重新定义自身价值。

宝玉的分享
baoyu.io
02-21
5968 字 · 约 24 分钟
91
OpenAI 应用 CTO 和 Codex 负责人:AI 正在重塑构建软件的方式

OpenAI 应用 CTO 和 Codex 工程负责人在这场对话中揭示了一个正在 OpenAI 内部真实发生的转变:Codex 已从编程辅助工具进化为可以被"委托任务"的 AI 队友,工程师合上笔记本去开会,回来发现活已经干完了。更值得关注的是,瓶颈在持续转移:从代码生成到审查、部署再到需求理解,而产品直觉与系统思维正在取代纯编码能力,成为工程师的核心竞争力。

少数派
mp.weixin.qq.com
02-20
12073 字 · 约 49 分钟
92
Vibe Coding 时代:为什么说「产品感」比「写代码」更稀缺?

一位没有编程背景的产品经理,用一个下午通过 Claude Code 搭建出了运行在自己服务器上的个人 AI Agent。文章分享了六个 Vibe Coding 实操技巧,核心洞察是:AI 抹平了技术门槛,但「想清楚做什么、为什么做」的产品思维依然无法被替代,这反而成为非技术背景者在 AI 时代最值钱的差异化能力。

宝玉的分享
baoyu.io
02-10
4960 字 · 约 20 分钟
93
2026 编程巨变:Anthropic 报告揭示 Agent 编程八大趋势

Anthropic 发布的《2026 Agent 编程趋势报告》描绘了软件开发从人写代码向人编排 Agent 写代码的系统性转变,涵盖多 Agent 协同、长时间自主运行、编程民主化等八大趋势。报告的核心洞察是:AI 放大的是工程师已有的判断力,而非凭空替代它,系统设计、任务拆解、质量验收这些老功夫在 Agent 时代反而更加值钱。

Latent Space
latent.space
02-12
15864 字 · 约 64 分钟
93
掌控 AI 帕累托前沿 —— Jeff Dean

Google 首席 AI 科学家 Jeff Dean 在这场对话中,从亲历者视角回顾了 AI 基础设施演进的整条脉络:从将 Google 索引整体加载进内存的 2001 年决策,到 TPU 协同设计、稀疏模型与蒸馏技术的背后逻辑,再到他对 AI 未来的两个核心判断:能关注用户全部个人数据的个性化模型,以及专用硬件驱动的超低延迟将彻底改变人机协作方式。

Lenny's Podcast
youtube.com
02-19
19102 字 · 约 77 分钟
94
Claude Code 负责人:当编程问题被解决后会发生什么 | Boris Cherny

Claude Code 负责人 Boris Cherny 在这篇访谈中分享了从一个内部两赞的小项目到 GitHub 4% 代码提交量背后的完整故事。他最核心的判断是:编程问题在很大程度上已经被解决,下一个前沿是让 AI 从执行者变成主动提出想法的同事,而真正稀缺的能力,是跨越多个领域、能定义「做什么」的通才思维。

跨国串门儿计划
xiaoyuzhoufm.com
02-24
1642 字 · 约 7 分钟
93
#434.AI 时代的生存法则:纳瓦尔谈氛围编程、个人杠杆与创造力的未来

Naval 这期播客用几个清晰的框架重新定义了 AI 时代的个人竞争力:氛围编程让品味和判断力直接成为生产力,但理解底层逻辑的人才能在 AI 出错时补漏洞;主体意识是人类对抗 AI 替代的真正护城河,因为 AI 没有欲望、没有生存压力,无法在真正未知的领域自主决策;而消解 AI 焦虑的唯一方法,始终是打开引擎盖去理解它,然后付诸行动。

51CTO技术栈
mp.weixin.qq.com
02-10
14961 字 · 约 60 分钟
92
UML 之父:Dario 大错特错,根本不懂软件工程!软件工程不会死亡!软件已经迎来第三次黄金时代!业界回应:有了 AI,SaaS 只会更加繁荣!

UML 之父 Grady Booch 在这篇访谈中给出了一剂历史解药:软件工程已经历过多次存在主义危机,每一次都以新的黄金时代收场。他驳斥了 Dario 关于软件工程将被 AI 全面自动化的判断,指出真正的软件工程是在多种力量之间做权衡取舍,当前 AI 处理的不过是另一次抽象层级的跃迁,而系统思维、复杂性管理和人类判断力,才是这个时代真正稀缺的能力。

晚点聊 LateTalk
xiaoyuzhoufm.com
02-09
1414 字 · 约 6 分钟
93
150: 年末 AI 回顾:从模型到应用、从技术到商战,拽住洪流中的意义之线

《晚点聊》用七个章节系统梳理了 2025 年的 AI 全景:从 DeepSeek R1 引发的推理模型范式转变、Agent 元年的到来,到字节、阿里、腾讯的人才与组织之战,再到具身智能的投资热与落地挑战。节目最后回归到人的视角,探讨在技术加速时代,人如何在技能贬值与意义重构之间找到自己的位置。