跳转到主要内容
精选周刊

BestBlogs.dev 第 92 期:模型周

大家好!欢迎阅读 BestBlogs.dev 第 92 期 AI 精选文章推荐。

最近两周像是模型层的一次集中爆发。OpenAI 发布 GPT-5.5 ,Terminal-Bench 2.0 跑到 82.7%、OSWorld 78.7%,延迟持平 5.4 但 token 消耗下降;DeepSeek 把 1M 上下文 做成所有官方服务的标配,V4-Pro 在 Agentic Coding 上优于 Sonnet 4.5、接近 Opus 4.6 非思考;月之暗面开源 Kimi K2.6 ,可不间断编码 13 小时、Agent 集群调度 300 子 Agent 协作 4000 步;OpenAI 同周还把 Images 2.0 推到杂志、家装、漫画的生产级别。关键已经不是「谁更聪明」,而是「能不能让 Agent 把长程任务持续可靠干完」。

这周 BestBlogs 内测继续推进,邀请名单已超 160 人。我几乎全程用 Claude Opus 4.7 写代码、Codex Review、Claude 更新文档,把开放能力(OpenAPI v2、bestblogs-cli、bestblogs-skills )、内置翻译(文章和推文详情页不再需跳转 wenrun.ai)、每日回顾一起跑完,完整 changelog 见 bestblogs.dev/changelog。下一阶段聚焦个性化推荐、早报图文体验、移动端、新增话题功能并继续推进 App。一边造工具、一边读这些「Agent 走向生产」的文章,体感比看新闻深一层。

以下是本周最值得关注的 10 个亮点:

🧠 GPT-5.5 把模型推向「自主完成多步任务」这一战场。Terminal-Bench 2.0 拿下 82.7%、OSWorld 78.7%、FrontierMath Tier 4 35.4%,全面甩开 Opus 4.7 与 Gemini 3.1 Pro;延迟持平 5.4 但 Codex 任务用更少 token 完成更多。配合「网络安全信任访问」计划与近 200 名早期合作伙伴灰度,OpenAI 第一次明确把「Agent 编程 + 计算机操控 + 早期科研」列为主战场。

🐉 DeepSeek-V4 预览版同步开源,1M 上下文 成为所有官方服务的标配。新引入的 DSA 稀疏注意力与 token 维度压缩把长文本算力和显存开销大幅压下来。Pro 在 Agentic Coding 上达到开源最佳,内部反馈优于 Sonnet 4.5、接近 Opus 4.6 非思考;Flash 面向高 QPS 与成本敏感场景。同时对 OpenClaw、Hermes Agent、OpenCode 等主流框架做了适配,是开源阵营追赶的一记硬球。

🦘 月之暗面开源 Kimi K2.6 ,长程编码与 Agent 集群一起拉满。实测连续编码 13 小时、4,000+ 工具调用迭代 14 轮,把 Mac 本地推理吞吐从 15 提到 193 tokens/s;Agent 集群升级到「300 子 Agent / 4000 协作步骤」,端到端接管文档→网页→PPT→数据集。配合 OpenClaw、Hermes 适配实现连续 5 天自主运行;内测中的 Claw 群组把人和异构 Agent 放进同一个聊天群协作。

🎨 OpenAI 同周把图像和工作流一起升级。Images 2.0 真正具备「思考」与联网搜索能力,攻克了精准排版、复杂解释图与数学证明插图,多语言加成套连贯输出让杂志、家装、漫画第一次具备批量生产级别。同步上线的 Workspace Agents 把 ChatGPT 从一次性问答推向可重复工作流:触发器 + 专业技能 + 第三方工具,比传统 API 工作流多了一层「概率性判断」。

🏗️ Cloudflare 用一场 Agents Week 把「Cloud 2.0 = 智能体云 」叫了出来。计算(Sandbox GA、Project Think 打包纤程持久化/Facets 子 Agent/沙盒代码执行/持久会话)、存储(Durable Object Facets + Git 兼容 Artifacts)、安全(Managed OAuth + Mesh 私有联网)、推理路由(AI Gateway 跨 12+ 供应商 70+ 模型)一周全部就位。他们也明确指出:当 Agent 驱动越来越多互联网流量,Web 本身也要为「智能体网络」重新设计。

🔌 智能体基建的边界与押注开始浮出水面。Anthropic 实战指南讲清了 API / CLI / MCP 三条接入路径的取舍:MCP SDK 月下载量已突破 3 亿次,是 M×N 集成的事实标准,最佳实践是「按意图而非端点组织工具」。Addy Osmani 给出 Agent Stack 四大押注 :独立身份、通用上下文、持久化运行、标准化平台,否则就是一群「借服务账户跑的鬼」。MiniMax × Nous Research(Hermes)的中美对谈则把范式问题摆上桌:模型与 Agent 必须一起做,通用 Agent 终将吃掉垂直 Agent,审美和目标定义 才是人类最后的护城河。

🎯 国内三家大厂同周给出 Harness Engineering 的中文版第一性原理。腾讯云开发者把 vibe coding → Agentic Engineering 拆到底,配套开源了基于 Skill 的 SDLC 框架;阿里 Aegis 项目把 Harness 定义为「为非确定性引擎设计的物理控制面」;腾讯审核团队则给出从 L2 到 L3 全自动化交付 的完整路线,目标 80% 效能提升。共同结论:程序员的核心价值正从「亲手写代码」迁移到「定义目标、卡边界、控节奏、做验收」。

🛠️ 两个标杆案例同时出现。YC 总裁 Garry Tan 三周写出的 GStack 在 GitHub 上 Star 数已超 Ruby on Rails,用「薄 harness、厚 Skill」把 Claude Code 升级成全能工程团队——Office Hours、对抗审查、Playwright 浏览器测试都做成可复用 Skill,他今年写的代码已超过 2013 年全年。Anthropic Claude Code 产品负责人 Cat Wu 透露内部把发布周期从 6 个月压到 1 天,秘诀是「研究预览版 + 长青发布室」去流程化;她给从业者的建议是「把自动化做到 100% 」。

📊 大厂里的真实图景越来越离奇。Pragmatic Engineer 的 Gergely Orosz 揭露 Token Maxing 异象 :Salesforce 把月均 175 美元 token 消费做成最低指标、Meta 和微软用排行榜倒逼员工刷 token、Coinbase CEO 一周后真的开除了一名工程师——工程文化被「先用起来再说」扭曲。另一头 Shopify CTO Mikhail Parakhin 在 Latent Space 给出反例:90%+ 全员 AI 采纳 ,自研 Tangle/Tangent/SimGym 覆盖 ML 实验、自动科研与顾客行为仿真,抛出一个值得记下的判断——AI 编码的瓶颈已从生成转移到 review 和发布稳定性

🎙️ 模型公司的战略叙事被几场对谈同时刷新。Sam Altman + Greg Brockman 在 Core Memory 罕见同台复盘 OpenAI 的「重大重置」:从「模型即产品」转向「智能体基础设施」,为 Codex 战略性推迟 Sora,直言未来是 80 亿个个人 Agent 驱动的计算经济;Greg 在 Knowledge Project 把 RL 视作 AI 从「预测」走向「推理」的关键拐点。小米罗福莉首次长访谈翻译成中国语境:预训练和后训练算力正向 1:1 收敛 、RL Scaling 是 Agent 进阶的钥匙、研究效率从「周」压到「小时」。阮一峰则点穿全局:第二次 API 开放浪潮 正在到来——外卖、电商甚至餐馆预订都被卷进来;API 不再为应用程序服务,而是为 AI 代表用户行事。

希望本期推荐为您带来新的启发。保持好奇,我们下周见!

OpenAI Blog
openai.com
04-23
4169 字 · 约 17 分钟
95
GPT-5.5 发布

OpenAI 正式发布 GPT-5.5,标志着大语言模型从单纯的对话交互向「自主智能体」能力的重大跨越。该模型在维持 GPT-5.4 响应延迟的基础上,显著提升了推理深度与执行效率。其核心优势集中在 Agent 编程、计算机操控以及前沿科学研究领域,在 Terminal-Bench 2.0 和 OSWorld 等复杂任务基准测试中均刷新了纪录。通过引入更严密的防御机制与「网络安全信任访问」计划,GPT-5.5 在处理高风险任务时展现了极高的可靠性。

DeepSeek
mp.weixin.qq.com
04-24
1268 字 · 约 6 分钟
95
DeepSeek-V4 预览版:迈入百万上下文普惠时代

DeepSeek-V4 预览版正式发布并同步开源,包含 Pro 与 Flash 两个版本,其核心亮点在于标配 1M 超长上下文。技术上,模型通过创新的 DSA 稀疏注意力与 token 维度压缩技术,显著降低了长文本处理的计算与显存开销。Pro 版本在 Agent 能力、世界知识及推理性能上表现惊艳,其代码生成能力已比肩顶级闭源模型;Flash 版本则为追求响应速度与成本效益的场景提供了高性能选择。该系列模型针对主流 Agent 框架进行了深度适配,非常适合需要处理海量文档、构建复杂自动化工作流的开发者与企业。

OpenAI
youtube.com
04-21
861 字 · 约 4 分钟
94
这就是 ChatGPT 图像 2.0

Images 2.0 标志着图像生成从单纯的艺术探索转向实际的生产力工具。该模型不仅集成了「思考」与联网搜索能力,以确保视觉内容的准确性,还攻克了精准排版、复杂系统图解及数学证明等技术难题。其核心价值在于支持多语言输出与成套图像的连贯生成,极大提升了杂志出版、家装设计及漫画创作的自动化水平。对于需要 2K 高清细节与结构化设计的专业用户,该模型提供了从视觉欣赏到实际构建的闭环方案。

OpenAI Blog
openai.com
04-22
1704 字 · 约 7 分钟
93
工作区智能体

OpenAI 发布工作区智能体,本文介绍了如何利用它构建可重复的业务工作流。智能体通过整合触发器、专业技能与第三方工具,能够处理比传统 API 更复杂的概率性任务。文章提供了信息简报、任务分发、数据分析等多种典型模式,旨在帮助团队将 AI 能力无缝嵌入日常协作,实现从零到一的自动化转型。

月之暗面 Kimi
mp.weixin.qq.com
04-20
3881 字 · 约 16 分钟
94
Kimi K2.6 发布并开源,全面精进代码和 Agent 集群能力

月之暗面正式发布 Kimi K2.6 模型,在代码生成、长程任务执行与 Agent 集群协作方面达到行业领先水平。该模型通过强化学习大幅提升了逻辑推理与工程能力,支持长达 13 小时的不间断编码,并能驱动 300 个智能体并行协作处理复杂任务。其多模态编程能力不仅能构建具备专业交互设计的 Web 应用,在 SWE-Bench Pro 等基准测试中也展现出优于部分主流闭源模型的表现。

AI Engineer
youtube.com
04-21
8455 字 · 约 34 分钟
93
AI 如何改变软件工程:与 Gergely Orosz (@pragmaticengineer) 的对话

Gergely Orosz 深入探讨了大厂内部的 「Token Maxing」 异象,揭示了工程师为应对绩效考核而虚报 AI 使用量的职场现实。文章分析了软件工程师角色的加速演变,即从单纯的代码编写者转向 AI 智能体的系统编排者。此外,他详细介绍了 Uber 和 Shopify 等公司在构建定制化 AI 基础设施及 MCP 网关方面的深度布局,而非盲目依赖现成工具。通过务实的视角,对话拆解了 AI 对生产力的真实影响与组织层面的挑战,是技术从业者和管理者的必读指南。

The Cloudflare Blog
blog.cloudflare.com
04-20
1861 字 · 约 8 分钟
93
构建智能体云:我们在 2026 年智能体周期间发布的一切

Cloudflare 通过「Agents Week」正式宣告进入「Cloud 2.0」时代,旨在构建专为 Agent 负载设计的智能体云。本次更新涵盖了全栈能力的演进:从支持 Git 的 Artifacts 存储、持久化的 Sandbox 环境,到解决身份验证的 Managed OAuth 和私有联网的 Mesh 技术。特别值得关注的是 Unweight 压缩技术与 Agent Memory,有效降低了推理成本并赋予 Agent 长期记忆。本文系统梳理了如何将实验性原型转化为规模化生产应用,是理解未来「智能体网络」基础设施演进的必读指南。

Claude Blog
claude.com
04-21
1740 字 · 约 7 分钟
92
使用 MCP 构建能够接入生产系统的智能体 | Claude

文章深入探讨了将智能体连接至外部系统的三种路径:直接 API 调用、CLI 和 MCP。作者指出,随着生产级智能体向云端迁移,MCP 已成为解决 M×N 集成难题的关键协议,其 SDK 月下载量已突破 3 亿次。文中重点分享了构建高效 MCP 服务的实战模式,建议开发者按「意图」而非 API 端点组织工具,并针对复杂接口采用代码编排模式。对于致力于构建可扩展、高性能智能体生态的架构师与开发者而言,这些来自一线实践的专业洞察具有极高的参考价值。

Elevate
addyo.substack.com
04-18
1354 字 · 约 6 分钟
92
智能体技术栈的押注

本文探讨了智能体从演示原型走向生产环境的四大架构支柱:独立身份、通用上下文、持久化运行与标准化平台。作者呼吁开发者应停止在底层基础设施上「重复造轮子」,转而利用成熟的平台能力来处理业务逻辑,从而构建更可靠、可治理的人工智能系统。

腾讯云开发者
mp.weixin.qq.com
04-23
18901 字 · 约 76 分钟
93

本文深入探讨了从 vibe coding 到 Agentic Engineering 的范式演进,强调在 AI 协作中回归工程纪律。作者基于第一性原理,系统分析了 大语言模型 的概率性本质与人类认知资源的稀缺性,提出一套旨在降低信息损耗、打破知识孤岛的工程化方法论。其核心实践包括 Context Engineering、Spec-First 流程以及基于 Skill 的模块化框架。文章不仅提供了深刻的理论洞察,还分享了已落地的开源框架,为开发者在复杂系统中可靠地利用 人工智能 提升研发效能提供了务实且具备可操作性的深度指南。

腾讯技术工程
mp.weixin.qq.com
04-20
4484 字 · 约 18 分钟
93
从提需求到部署发布,全 AI 全自动化后,研发效能全面跃升

这篇文章深入探讨了从 L2 人机协同向 L3 全自动化交付演进的实践路径。腾讯审核团队分享了如何超越单纯的 AI 编码,通过构建需求、技术方案到测试部署的全链路闭环,系统性地解决了流程标准化、知识库建设及核心技能沉淀等四大核心挑战。文中提出的 Harness Engineering 框架以及「交付+治理」双轮驱动模式,为企业在复杂业务场景下实现研发效能的量级提升提供了极具参考价值的工程化视角。

阿里云开发者
mp.weixin.qq.com
04-21
9577 字 · 约 39 分钟
93
从玩具到生产力:用真实项目讲透 AI Agent 的 Harness Engineering

文章核心论点是 Harness 优于 Prompt:在企业工程中,必须建立物理控制面来约束人工智能的非确定性。重点介绍了通过 Spec 驱动开发、执行前 Checkpoint 以及基于证据的验证来确保智能体不偏离目标。这促使程序员从执行者升级为定义目标与掌控节奏的控盘者,利用物理门禁与反馈闭环,实现从「写代码」到「控全局」的身份转型,确保研发链路的稳健交付。

Y Combinator
youtube.com
04-23
5422 字 · 约 22 分钟
93
Garry Tan 的 Claude Code 设置内幕

YC 总裁 Gary Tan 分享了如何利用开源项目 GStack 将 Claude Code 升级为全能智能体工程团队。该工具通过模拟 YC 核心的 Office Hours 流程,帮助开发者在编码前深度打磨产品策略与商业模式。视频详细演示了对抗性审查、自动化 UI 设计以及基于 Playwright 的浏览器测试等核心技能。Gary 强调,软件开发已进入智能体时代,通过管理并行会话与自动化工作流,单人即可实现极高的开发产出。

Core Memory Podcast
youtube.com
04-22
27552 字 · 约 111 分钟
94
Sam Altman + Greg Brockman - 关于 OpenAI 的重大重置

OpenAI 联合创始人 Sam Altman 与 Greg Brockman 在 Core Memory 播客中罕见同台,深度复盘了公司从早期实验室向行业引领者的进化历程。对话核心揭示了 OpenAI 的战略转型:从「模型即产品」转向构建智能体基础设施。Greg 详细解释了为何优先发展 Codex 以处理繁琐的「计算机工作」,并为此战略性推迟 Sora 等项目。两人还探讨了个人 AGI 的愿景,即 AI 将进化为具备深度上下文感知、能代表用户执行任务的直观界面。面对与埃隆·马斯克的法律纠纷与行业动荡,他们重申了算力普惠对缓解社会不平等的重要性。

The Knowledge Project Podcast
youtube.com
04-22
20385 字 · 约 82 分钟
93
OpenAI 联合创始人 Greg Brockman 谈 AI 竞赛、Sam Altman 解雇风波与 AGI 未来

在 The Knowledge Project 播客的深度访谈中,OpenAI 联合创始人 Greg Brockman 详尽复盘了公司从非营利组织向营利实体转型的战略考量,并首次公开披露了 Sam Altman 罢免事件中团队内部的博弈与前所未有的忠诚度。内容涵盖了从 Dota 实验到 GPT-4 的算力演进逻辑,深入探讨了强化学习如何驱动 AI 从「预测」向「推理」实现范式跨越。Brockman 预言未来经济将演变为由 80 亿个个人 Agent 驱动的计算经济。

138. 对罗福莉 3.5 小时访谈:AI 范式已然巨变!OpenClaw、Agent 范式很吃后训练、卡的分配、组织平权

2026 年大模型战争进入第二幕,范式从 Pre-train 主导转向 Post-train 主导的 Agent 时代。小米大模型负责人罗福莉在本次访谈中,深度解析了 OpenClaw 与 Claude 4.6 触发的技术巨震。核心洞察包括:算力资源正向后训练倾斜,顶尖团队的资源分配比例已趋近 1:1;RL Scaling 成为 Agent 能力进阶的关键。通过 Agent 框架编排,研究效率已实现从「周」到「小时」的质变。推荐给关注模型架构演进、研发管理及 AI 组织转型的技术决策者与研究人员。

Latent Space
latent.space
04-22
14297 字 · 约 58 分钟
92
Shopify 的 AI 相变:2026 年使用量激增,无限的 Opus-4.6 Token 预算,Tangle,Tangent,SimGym —— 对话 Shopify CTO Mikhail Parakhin

Shopify 技术官 Mikhail Parakhin 深度揭秘这家市值 2000 亿美元的公司如何全面转型人工智能。目前 Shopify 内部 AI 采用率已超 90%,其核心支撑在于三大内部系统:实现可重复机器学习工作流的 Tangle、支持自动科研优化的 Tangent,以及利用数十年历史数据进行顾客行为仿真的 SimGym。访谈还探讨了非 Transformer 架构 Liquid AI 在低延迟搜索中的实战表现,并指出 AI 编程的瓶颈已从代码生成转移至代码审查与发布稳定性。

Lenny's Podcast
youtube.com
04-23
3770 字 · 约 16 分钟
92
Anthropic 产品团队如何比任何人都快 | Cat Wu(Claude Code 产品负责人)

在这期访谈中,Anthropic 的 Claude Code 产品负责人 Cat Wu 深度揭秘了 AI 原生产品的开发逻辑。她分享了 Anthropic 如何通过去流程化将发布周期缩短至 1 天,并提出在 LLM 飞速演进的背景下,PM 必须从传统的长期规划者转型为具备敏锐「产品品味」的决策者。文章深入探讨了工程师与 PM 职能重叠的趋势,并建议从业者通过实现 100% 自动化来获取核心竞争力。本文是开发者与产品人理解 AI 时代效能提升与职业转型的必读指南。

十字路口Crossing
mp.weixin.qq.com
04-20
20070 字 · 约 81 分钟
92
当我们在讨论 Harness 的时候,我们在讨论什么 | 深度对谈: MiniMax × Hermes Agent

本文对话 MiniMax 与 Hermes 开发者,核心复盘了 Agent 领域的范式变迁。重点涵盖:Hermes 通过记忆系统实现自我进化;Harness 作为「挽具」释放模型潜能;以及多智能体协作解决长程任务的实战经验。文章强调通用 Agent 终将内化垂直能力,并指出在高复杂度工作中,人类的职责将从执行转向「审美」与目标定义。对于关注 Agent Infra 与未来生产力重构的读者,本文提供了极具价值的趋势预测。

阮一峰的网络日志
ruanyifeng.com
04-23
4580 字 · 约 19 分钟
93
科技爱好者周刊(第 394 期):第二次 API 开放浪潮

本文深入探讨了第二次 API 开放浪潮的兴起及其背后的驱动力。文章通过回顾 2011 年与 2025 年两个时间节点的行业变迁,指出在人工智能时代,API 已从单纯的数据共享工具演变为平台接入自动化工作流的必备门票。作者强调,AI 的核心价值在于内容生成与自动化的结合,若平台不通过 API 或 MCP 开放接口,将因无法被智能体调用而面临被市场抛弃的风险。内容精准分析了本次浪潮在服务覆盖面、交互方式及使用目的上的根本性变革。