精选周刊

BestBlogs.dev 第 92 期：模型周

大家好！欢迎阅读 BestBlogs.dev 第 92 期 AI 精选文章推荐。

最近两周像是模型层的一次集中爆发。OpenAI 发布 GPT-5.5 ，Terminal-Bench 2.0 跑到 82.7%、OSWorld 78.7%，延迟持平 5.4 但 token 消耗下降；DeepSeek 把 1M 上下文做成所有官方服务的标配，V4-Pro 在 Agentic Coding 上优于 Sonnet 4.5、接近 Opus 4.6 非思考；月之暗面开源 Kimi K2.6 ，可不间断编码 13 小时、Agent 集群调度 300 子 Agent 协作 4000 步；OpenAI 同周还把 Images 2.0 推到杂志、家装、漫画的生产级别。关键已经不是「谁更聪明」，而是「能不能让 Agent 把长程任务持续可靠干完」。

这周 BestBlogs 内测继续推进，邀请名单已超 160 人。我几乎全程用 Claude Opus 4.7 写代码、Codex Review、Claude 更新文档，把开放能力（OpenAPI v2、bestblogs-cli、bestblogs-skills ）、内置翻译（文章和推文详情页不再需跳转 wenrun.ai）、每日回顾一起跑完，完整 changelog 见 bestblogs.dev/changelog。下一阶段聚焦个性化推荐、早报图文体验、移动端、新增话题功能并继续推进 App。一边造工具、一边读这些「Agent 走向生产」的文章，体感比看新闻深一层。

以下是本周最值得关注的 10 个亮点：

🧠 GPT-5.5 把模型推向「自主完成多步任务」这一战场。Terminal-Bench 2.0 拿下 82.7%、OSWorld 78.7%、FrontierMath Tier 4 35.4%，全面甩开 Opus 4.7 与 Gemini 3.1 Pro；延迟持平 5.4 但 Codex 任务用更少 token 完成更多。配合「网络安全信任访问」计划与近 200 名早期合作伙伴灰度，OpenAI 第一次明确把「Agent 编程 + 计算机操控 + 早期科研」列为主战场。

🐉 DeepSeek-V4 预览版同步开源，1M 上下文成为所有官方服务的标配。新引入的 DSA 稀疏注意力与 token 维度压缩把长文本算力和显存开销大幅压下来。Pro 在 Agentic Coding 上达到开源最佳，内部反馈优于 Sonnet 4.5、接近 Opus 4.6 非思考；Flash 面向高 QPS 与成本敏感场景。同时对 OpenClaw、Hermes Agent、OpenCode 等主流框架做了适配，是开源阵营追赶的一记硬球。

🦘 月之暗面开源 Kimi K2.6 ，长程编码与 Agent 集群一起拉满。实测连续编码 13 小时、4,000+ 工具调用迭代 14 轮，把 Mac 本地推理吞吐从 15 提到 193 tokens/s；Agent 集群升级到「300 子 Agent / 4000 协作步骤」，端到端接管文档→网页→PPT→数据集。配合 OpenClaw、Hermes 适配实现连续 5 天自主运行；内测中的 Claw 群组把人和异构 Agent 放进同一个聊天群协作。

🎨 OpenAI 同周把图像和工作流一起升级。Images 2.0 真正具备「思考」与联网搜索能力，攻克了精准排版、复杂解释图与数学证明插图，多语言加成套连贯输出让杂志、家装、漫画第一次具备批量生产级别。同步上线的 Workspace Agents 把 ChatGPT 从一次性问答推向可重复工作流：触发器 + 专业技能 + 第三方工具，比传统 API 工作流多了一层「概率性判断」。

🏗️ Cloudflare 用一场 Agents Week 把「Cloud 2.0 = 智能体云」叫了出来。计算（Sandbox GA、Project Think 打包纤程持久化/Facets 子 Agent/沙盒代码执行/持久会话）、存储（Durable Object Facets + Git 兼容 Artifacts）、安全（Managed OAuth + Mesh 私有联网）、推理路由（AI Gateway 跨 12+ 供应商 70+ 模型）一周全部就位。他们也明确指出：当 Agent 驱动越来越多互联网流量，Web 本身也要为「智能体网络」重新设计。

🔌 智能体基建的边界与押注开始浮出水面。Anthropic 实战指南讲清了 API / CLI / MCP 三条接入路径的取舍：MCP SDK 月下载量已突破 3 亿次，是 M×N 集成的事实标准，最佳实践是「按意图而非端点组织工具」。Addy Osmani 给出 Agent Stack 四大押注：独立身份、通用上下文、持久化运行、标准化平台，否则就是一群「借服务账户跑的鬼」。MiniMax × Nous Research（Hermes）的中美对谈则把范式问题摆上桌：模型与 Agent 必须一起做，通用 Agent 终将吃掉垂直 Agent，审美和目标定义才是人类最后的护城河。

🎯 国内三家大厂同周给出 Harness Engineering 的中文版第一性原理。腾讯云开发者把 vibe coding → Agentic Engineering 拆到底，配套开源了基于 Skill 的 SDLC 框架；阿里 Aegis 项目把 Harness 定义为「为非确定性引擎设计的物理控制面」；腾讯审核团队则给出从 L2 到 L3 全自动化交付的完整路线，目标 80% 效能提升。共同结论：程序员的核心价值正从「亲手写代码」迁移到「定义目标、卡边界、控节奏、做验收」。

🛠️ 两个标杆案例同时出现。YC 总裁 Garry Tan 三周写出的 GStack 在 GitHub 上 Star 数已超 Ruby on Rails，用「薄 harness、厚 Skill」把 Claude Code 升级成全能工程团队——Office Hours、对抗审查、Playwright 浏览器测试都做成可复用 Skill，他今年写的代码已超过 2013 年全年。Anthropic Claude Code 产品负责人 Cat Wu 透露内部把发布周期从 6 个月压到 1 天，秘诀是「研究预览版 + 长青发布室」去流程化；她给从业者的建议是「把自动化做到 100% 」。

📊 大厂里的真实图景越来越离奇。Pragmatic Engineer 的 Gergely Orosz 揭露 Token Maxing 异象：Salesforce 把月均 175 美元 token 消费做成最低指标、Meta 和微软用排行榜倒逼员工刷 token、Coinbase CEO 一周后真的开除了一名工程师——工程文化被「先用起来再说」扭曲。另一头 Shopify CTO Mikhail Parakhin 在 Latent Space 给出反例：90%+ 全员 AI 采纳，自研 Tangle/Tangent/SimGym 覆盖 ML 实验、自动科研与顾客行为仿真，抛出一个值得记下的判断——AI 编码的瓶颈已从生成转移到 review 和发布稳定性。

🎙️ 模型公司的战略叙事被几场对谈同时刷新。Sam Altman + Greg Brockman 在 Core Memory 罕见同台复盘 OpenAI 的「重大重置」：从「模型即产品」转向「智能体基础设施」，为 Codex 战略性推迟 Sora，直言未来是 80 亿个个人 Agent 驱动的计算经济；Greg 在 Knowledge Project 把 RL 视作 AI 从「预测」走向「推理」的关键拐点。小米罗福莉首次长访谈翻译成中国语境：预训练和后训练算力正向 1:1 收敛、RL Scaling 是 Agent 进阶的钥匙、研究效率从「周」压到「小时」。阮一峰则点穿全局：第二次 API 开放浪潮正在到来——外卖、电商甚至餐馆预订都被卷进来；API 不再为应用程序服务，而是为 AI 代表用户行事。

希望本期推荐为您带来新的启发。保持好奇，我们下周见！

登录后订阅周刊

1GPT-5.5 发布
2DeepSeek-V4 预览版：迈入百万上下文普惠时代
3这就是 ChatGPT 图像 2.0
4工作区智能体
5Kimi K2.6 发布并开源，全面精进代码和 Agent 集群能力
6AI 如何改变软件工程：与 Gergely Orosz (@pragmaticengineer) 的对话
7构建智能体云：我们在 2026 年智能体周期间发布的一切
8使用 MCP 构建能够接入生产系统的智能体 | Claude
9智能体技术栈的押注
10从第一性原理思考 Agentic Engineering
11从提需求到部署发布，全 AI 全自动化后，研发效能全面跃升
12从玩具到生产力：用真实项目讲透 AI Agent 的 Harness Engineering
13Garry Tan 的 Claude Code 设置内幕
14Sam Altman + Greg Brockman - 关于 OpenAI 的重大重置
15OpenAI 联合创始人 Greg Brockman 谈 AI 竞赛、Sam Altman 解雇风波与 AGI 未来
16138. 对罗福莉 3.5 小时访谈：AI 范式已然巨变！OpenClaw、Agent 范式很吃后训练、卡的分配、组织平权
17Shopify 的 AI 相变：2026 年使用量激增，无限的 Opus-4.6 Token 预算，Tangle，Tangent，SimGym —— 对话 Shopify CTO Mikhail Parakhin
18Anthropic 产品团队如何比任何人都快 | Cat Wu（Claude Code 产品负责人）
19当我们在讨论 Harness 的时候，我们在讨论什么 | 深度对谈: MiniMax × Hermes Agent
20科技爱好者周刊（第 394 期）：第二次 API 开放浪潮

GPT-5.5 发布

OpenAI Blog

openai.com

04-23

4169 字 · 约 17 分钟

OpenAI 正式发布 GPT-5.5，标志着大语言模型从单纯的对话交互向「自主智能体」能力的重大跨越。该模型在维持 GPT-5.4 响应延迟的基础上，显著提升了推理深度与执行效率。其核心优势集中在 Agent 编程、计算机操控以及前沿科学研究领域，在 Terminal-Bench 2.0 和 OSWorld 等复杂任务基准测试中均刷新了纪录。通过引入更严密的防御机制与「网络安全信任访问」计划，GPT-5.5 在处理高风险任务时展现了极高的可靠性。

DeepSeek-V4 预览版：迈入百万上下文普惠时代

DeepSeek

mp.weixin.qq.com

04-24

1268 字 · 约 6 分钟

DeepSeek-V4 预览版正式发布并同步开源，包含 Pro 与 Flash 两个版本，其核心亮点在于标配 1M 超长上下文。技术上，模型通过创新的 DSA 稀疏注意力与 token 维度压缩技术，显著降低了长文本处理的计算与显存开销。Pro 版本在 Agent 能力、世界知识及推理性能上表现惊艳，其代码生成能力已比肩顶级闭源模型；Flash 版本则为追求响应速度与成本效益的场景提供了高性能选择。该系列模型针对主流 Agent 框架进行了深度适配，非常适合需要处理海量文档、构建复杂自动化工作流的开发者与企业。

这就是 ChatGPT 图像 2.0

OpenAI

youtube.com

04-21

861 字 · 约 4 分钟

Images 2.0 标志着图像生成从单纯的艺术探索转向实际的生产力工具。该模型不仅集成了「思考」与联网搜索能力，以确保视觉内容的准确性，还攻克了精准排版、复杂系统图解及数学证明等技术难题。其核心价值在于支持多语言输出与成套图像的连贯生成，极大提升了杂志出版、家装设计及漫画创作的自动化水平。对于需要 2K 高清细节与结构化设计的专业用户，该模型提供了从视觉欣赏到实际构建的闭环方案。

工作区智能体

OpenAI Blog

openai.com

04-22

1704 字 · 约 7 分钟

OpenAI 发布工作区智能体，本文介绍了如何利用它构建可重复的业务工作流。智能体通过整合触发器、专业技能与第三方工具，能够处理比传统 API 更复杂的概率性任务。文章提供了信息简报、任务分发、数据分析等多种典型模式，旨在帮助团队将 AI 能力无缝嵌入日常协作，实现从零到一的自动化转型。

Kimi K2.6 发布并开源，全面精进代码和 Agent 集群能力

月之暗面 Kimi

mp.weixin.qq.com

04-20

3881 字 · 约 16 分钟

月之暗面正式发布 Kimi K2.6 模型，在代码生成、长程任务执行与 Agent 集群协作方面达到行业领先水平。该模型通过强化学习大幅提升了逻辑推理与工程能力，支持长达 13 小时的不间断编码，并能驱动 300 个智能体并行协作处理复杂任务。其多模态编程能力不仅能构建具备专业交互设计的 Web 应用，在 SWE-Bench Pro 等基准测试中也展现出优于部分主流闭源模型的表现。

AI 如何改变软件工程：与 Gergely Orosz (@pragmaticengineer) 的对话

AI Engineer

youtube.com

04-21

8455 字 · 约 34 分钟

AI 如何改变软件工程：与 Gergely Orosz (@pragmaticengineer) 的对话

Gergely Orosz 深入探讨了大厂内部的「Token Maxing」异象，揭示了工程师为应对绩效考核而虚报 AI 使用量的职场现实。文章分析了软件工程师角色的加速演变，即从单纯的代码编写者转向 AI 智能体的系统编排者。此外，他详细介绍了 Uber 和 Shopify 等公司在构建定制化 AI 基础设施及 MCP 网关方面的深度布局，而非盲目依赖现成工具。通过务实的视角，对话拆解了 AI 对生产力的真实影响与组织层面的挑战，是技术从业者和管理者的必读指南。

构建智能体云：我们在 2026 年智能体周期间发布的一切

The Cloudflare Blog

blog.cloudflare.com

04-20

1861 字 · 约 8 分钟

Cloudflare 通过「Agents Week」正式宣告进入「Cloud 2.0」时代，旨在构建专为 Agent 负载设计的智能体云。本次更新涵盖了全栈能力的演进：从支持 Git 的 Artifacts 存储、持久化的 Sandbox 环境，到解决身份验证的 Managed OAuth 和私有联网的 Mesh 技术。特别值得关注的是 Unweight 压缩技术与 Agent Memory，有效降低了推理成本并赋予 Agent 长期记忆。本文系统梳理了如何将实验性原型转化为规模化生产应用，是理解未来「智能体网络」基础设施演进的必读指南。

使用 MCP 构建能够接入生产系统的智能体 | Claude

Claude Blog

claude.com

04-21

1740 字 · 约 7 分钟

文章深入探讨了将智能体连接至外部系统的三种路径：直接 API 调用、CLI 和 MCP。作者指出，随着生产级智能体向云端迁移，MCP 已成为解决 M×N 集成难题的关键协议，其 SDK 月下载量已突破 3 亿次。文中重点分享了构建高效 MCP 服务的实战模式，建议开发者按「意图」而非 API 端点组织工具，并针对复杂接口采用代码编排模式。对于致力于构建可扩展、高性能智能体生态的架构师与开发者而言，这些来自一线实践的专业洞察具有极高的参考价值。

智能体技术栈的押注

Elevate

addyo.substack.com

04-18

1354 字 · 约 6 分钟

本文探讨了智能体从演示原型走向生产环境的四大架构支柱：独立身份、通用上下文、持久化运行与标准化平台。作者呼吁开发者应停止在底层基础设施上「重复造轮子」，转而利用成熟的平台能力来处理业务逻辑，从而构建更可靠、可治理的人工智能系统。

从第一性原理思考 Agentic Engineering

ruanyifeng.com

04-23

4580 字 · 约 19 分钟

本文深入探讨了第二次 API 开放浪潮的兴起及其背后的驱动力。文章通过回顾 2011 年与 2025 年两个时间节点的行业变迁，指出在人工智能时代，API 已从单纯的数据共享工具演变为平台接入自动化工作流的必备门票。作者强调，AI 的核心价值在于内容生成与自动化的结合，若平台不通过 API 或 MCP 开放接口，将因无法被智能体调用而面临被市场抛弃的风险。内容精准分析了本次浪潮在服务覆盖面、交互方式及使用目的上的根本性变革。

BestBlogs.dev 第 92 期：模型周

目录