
OpenAI 发布 GPT-5.4,首次将推理、编程、计算机原生操作、深度搜索和百万级 Token 上下文整合进单一模型,且没有牺牲任何单项性能。最值得关注的是原生计算机使用能力,模型可通过截图理解界面并直接操作鼠标键盘,在 OSWorld 桌面任务中成功率已超越人类平均水平。与此同时,工具搜索机制让 Agent 任务的 Token 消耗降低 47%,使高能力与低成本首次实现了同步。
大家好!欢迎阅读 BestBlogs.dev 第 85 期 AI 精选文章推荐。
本周有一个关键词贯穿了多篇文章:驾驭。martinfowler.com 上发表的文章提出,开发者的核心工作正在从写代码转向构建 Agent 运行所依赖的驾驭工程,即规格、质量检查和工作流指引的集合。AI 炼金术播客的标题更直白:别干活了,给 AI 布置办公室去吧。OpenAI 团队用 Codex 生成了百万行代码,靠的不是更强的模型,而是结构化知识库和刚性架构约束。当 Agent 越来越能干的时候,真正的竞争力不在于会不会用 AI,而在于能不能驾驭它。
本周 BestBlogs.dev 也在大幅使用 AI 编程推进 2.0 版本开发,重点是支持添加自定义订阅源和个性化 Feed,让每个人都能按自己的兴趣塑造阅读体验。同时我也在基于开放接口开发 Skills,用于内容搜索、深度阅读和日常运营,目标是真正驾驭好未来的阅读需求。
以下是本周最值得关注的 10 个精彩亮点:
🤖 GPT-5.4 发布,OpenAI 首次将推理、编程、计算机操作、深度搜索和百万级 Token 上下文整合进单一模型。最值得关注的是原生计算机使用能力,模型通过截图理解界面并直接操作鼠标键盘,在 OSWorld 桌面任务中成功率已超越人类平均水平。工具搜索机制让 Agent 任务的 Token 消耗降低 47%,高能力与低成本首次实现同步。与此同时,GPT-5.3 Instant 把优化重心放在使用体感上,联网幻觉率下降 26.8%,是 ChatGPT 走向日常工具的一次实质性进步。
🏗️ martinfowler.com 本周发表了两篇文章,构成一组完整的思考。第一篇提出人在回路上的定位:开发者的核心工作从编写代码转变为构建和维护 Agent 运行所依赖的驾驭工程,并进一步描述了智能体飞轮的演化路径,让 Agent 不仅执行任务,还能持续改进驱动自身的驾驭体系。第二篇展开设计先行的协作框架,在生成任何代码之前按能力、组件、交互、接口、实现五个层级逐步对齐设计,避免架构决策被 AI 静默嵌入实现中。
🎬 Pragmatic Engineer 对话 Claude Code 创造者 Boris Cherny,还原了这款工具从 Anthropic 内部业余项目到增长最快的开发者工具的完整历程。Boris 每天提交 20-30 个 PR,全部由 AI 生成,从不手动改一行代码。对话还涉及 Anthropic 内部对能否对外发布的真实争论、AI 时代代码审查的演变,以及 Claude Code 架构背后的安全分层设计。
🔧 淘天集团天猫技术团队指出企业级 AI 编程的核心瓶颈不是 Agent 的执行能力,而是如何准确向 AI 传达复杂任务目标。他们的解法是构建分层统一的专家知识库实现系统性降熵,推动从工具提效向知识驱动的智能研发范式演进。OpenAI 工程团队的 Codex 实践印证了同一判断:5 个月内 1500 个 PR、零人工编码,规模化落地靠的是结构化知识库管理、刚性架构约束和周期性的代码熵增清理。
📁 腾讯云开发者发布了目前最详尽的中文 OpenClaw 上下文管理源码解析,覆盖三层防御体系:预防性裁剪、大模型摘要压缩、溢出后恢复,并额外分析了各操作对服务商 KV Cache 成本的影响。对于正在构建长会话 Agent 的开发者,这是一份难得的实战参考。
⚡ 小模型正在刷新性能认知。Qwen3.5 发布 0.8B 至 9B 四款模型,采用 Apache 2.0 开源协议,消费级显卡即可微调,其中 4B 的多模态和 Agent 能力尤为亮眼,9B 性能逼近更大规模模型。小红书开源的 FireRed-OCR 则用三阶段渐进训练将 Qwen3-VL-2B 改造为专用文档解析模型,在 OmniDocBench v1.5 综合评分达 92.94%,端到端方案排名第一,支持公式、表格、手写体等复杂场景。两个项目都说明了同一件事:精准的训练策略比盲目堆参数更有效。
🎨 Anthropic 设计负责人 Jenny Wen 分享了一个深刻的观察:传统设计流程已经死亡,不是设计师主动求变,而是工程师借助 AI 工具的极速交付迫使设计随之改变。她制作精美设计稿的时间已从 60-70% 降至 30-40%,直接与工程师结对甚至亲自改代码的比例大幅上升。设计工作正分化为两类:支持工程执行的实时协作,和给出 3 到 6 个月方向感的愿景设计。
💡 孟岩与李继刚的三小时长谈从一个简洁却有重量的判断出发:工业革命拿走了体力,AI 正在拿走脑力,留给人的是心力。对话延伸到向量世界的本质、商业模式从编网到打井的转变,以及教育从灌输式的水转向启发式的火。Your feed is your fate 和提示词是有形状的,是两个值得单独展开的洞察。
📈 Zapier 产品副总裁分享了企业 AI 转型的一手实践,内部已运行 800 个 AI Agent。核心观点是技术采用与业务转型必须做清晰区分,领导层必须亲自使用 AI 工具,转型才能真正落地。管理 900 亿美元资产的 Insight Partners 联合创始人则给出更激进的判断:自主 Agent 才是这波变革的核心,SaaS 按席位定价将被基于消耗的模式取代,白领失业潮将在两年内成为大选议题。
🌐 一篇以 2028 年视角撰写的 AI 经济思想实验值得关注:白领失业引发消费萎缩,触发私募信贷违约,进而传导至抵押贷款市场,形成一个无天然刹车的负反馈循环。这不是预测,而是一套系统性的左尾风险推演框架,值得每个关注 AI 经济影响的人认真阅读。
希望本期的推荐能为您带来新的启发。保持好奇,我们下周见!

OpenAI 发布 GPT-5.4,首次将推理、编程、计算机原生操作、深度搜索和百万级 Token 上下文整合进单一模型,且没有牺牲任何单项性能。最值得关注的是原生计算机使用能力,模型可通过截图理解界面并直接操作鼠标键盘,在 OSWorld 桌面任务中成功率已超越人类平均水平。与此同时,工具搜索机制让 Agent 任务的 Token 消耗降低 47%,使高能力与低成本首次实现了同步。

GPT-5.3 Instant 把优化重心放在使用体感上,而非基准测试分数。减少说教语气、提升意图识别、优化搜索整合,联网幻觉率下降 26.8%,是 ChatGPT 走向日常工具的一次实质性进步。

Qwen3.5 发布 0.8B 至 9B 四款小模型,Apache 2.0 开源,消费级显卡可微调。4B 多模态和 Agent 能力亮眼,9B 性能逼近更大规模模型,适合低成本垂直场景落地。

FireRed-OCR 用三阶段渐进训练将 Qwen3-VL-2B 改造为专用文档解析模型,在 OmniDocBench v1.5 综合评分达 92.94%,端到端方案第一,支持公式、表格、手写体等复杂场景,已全面开源。

六大开源大模型架构横向对比,覆盖 MoE 设计、注意力机制选型、训练策略差异,并给出选型时真正应该关注的核心问题。适合需要快速了解当前开源模型格局的工程师和研究者。

Pragmatic Engineer 对话 Claude Code 创造者 Boris Cherny,深度还原了这款工具从 Anthropic 内部业余项目到增长最快开发者工具之一的完整历程。Boris 分享了他每天提交 20-30 个 PR、100% 由 AI 生成、从不手动改一行代码的实际工作流,也坦诚分享了 Anthropic 内部"能不能对外发布"的真实争论。对话还涉及 AI 时代代码审查的演变、Claude Code 架构背后的安全分层设计,以及他对未来工程师技能的判断,印刷术比喻贯穿始终,引人深思。

这篇文章提出了一个清晰的框架,将 AI 时代的软件开发分为三种模式:人在回路外、人在回路内、人在回路上。作者认为最理想的位置是第三种:开发者的核心工作从编写代码转变为构建和维护 Agent 运行所依赖的"harness",即规格、质量检查和工作流指引的集合。文章还进一步描述了"agentic flywheel"的演化路径,让 Agent 不仅执行任务,还能持续改进驱动自身的 harness 本身。
作者提出了一个与 AI 协作编程的核心问题:AI 会直接跳过设计阶段生成代码,把所有架构决策静默地嵌入实现中,让代码审查变成一次负担极重的逆向解读过程。文章将解决方案称为"Design-First",即在生成任何代码之前,按照能力、组件、交互、接口、实现五个层级逐步对齐设计。这不是流程上的仪式感,而是在正确的抽象层级做出决策,避免"Implementation Trap"。对于经常使用 AI 辅助编程的开发者,这篇文章提供了一套值得实践的协作框架。

来自淘天集团天猫技术的深度思考:企业级 AI Coding 的核心瓶颈不是 Agent 的执行能力,而是如何准确向 AI 传达复杂任务目标。解法是构建分层统一的专家知识库,实现系统性降熵,推动从工具提效向知识驱动的智能研发范式演进。

OpenClaw 上下文管理源码深度解析,覆盖三层防御体系:预防性裁剪、LLM 摘要压缩、溢出后恢复,并额外分析了各操作对 Provider KV Cache 成本的影响。是目前关于 AI Agent 长会话上下文管理最详尽的中文技术分析之一。

这篇文章提出一个犀利判断:AI Agent 不是让软件开发生命周期变快了,而是直接终结了它。作者逐一拆解 SDLC 的每个阶段,需求变成迭代的副产品,设计在协作中涌现,测试与代码同步生成,PR 流程成为历史遗留,监控则从被动仪表盘演变为驱动整个闭环的反馈机制。最终,作者认为新的核心能力只剩两件事:上下文工程和可观测性。这是一篇观点鲜明、值得认真对话的文章。
OpenAI 工程团队 5 个月内用 Codex 生成百万行代码、1500 个 PR,零人工编码。文章总结了让 Agent 开发规模化落地的核心方法:结构化知识库管理、刚性架构约束、可观测性工具接入 Agent 运行时,以及周期性代码熵增清理。
两位 AI 创业者分享 Agent 时代的工程实战:核心工作从写代码转向给 AI 搭环境,三步开发法(看计划→放手→验收)已成日常,判断力带宽而非执行力才是新的产能上限。适合想了解 Agent 时代真实工作方式的技术从业者。

Anthropic 设计负责人 Jenny Wen 分享了她对 AI 时代设计角色转变的深度观察。她的核心判断是:传统的「发现-收敛-再发散-再收敛」设计流程已经死亡,不是因为设计师主动求变,而是工程师借助 AI 工具的极速交付迫使设计随之改变。设计工作正分化为两类,一类是支持工程执行的实时协作,另一类是给出 3 到 6 个月方向感的愿景设计。她还分享了自己的真实工作流:制作精美设计稿的时间已从 60-70% 降至 30-40%,直接与工程师结对、甚至亲自改代码的比例大幅上升。对于正在经历这场转变的设计师,这是一篇来自前沿实践者的一手观察。

Zapier 产品副总裁分享企业 AI 转型的一手实践:内部运行 800 个 AI Agent,将技术采用与业务转型做清晰区分,强调领导层必须亲自使用 AI 工具,转型才能真正落地。传统工作流与 Agentic 工作流的核心区别在于是否具备推理和动态改变路径的能力。

Gemini 3.1 Flash Image 的深度实测:图文渲染更准确,角色一致性大幅提升,新增 1:4 和 1:8 极端长图比例。文章附带大量实操提示词,适合需要快速出图、低成本探索方案的设计和内容创作场景。
AI 产品最大的误区是把 AI 加在功能上,而不是帮用户完成真正的任务。播客用"拆、塑、翻"三步法拆解产品创新逻辑,并梳理了解锁增量、套壳占位、卖水卖铲、铺路修桥四条 AI 原生创业路径,每条都有真实案例,实操性强。

孟岩与李继刚的这期三小时长谈,核心出发点是一个简洁却有重量的判断:工业革命拿走了体力,AI 正在拿走脑力,留给人的是心力。对话从这里出发,延伸到向量世界的本质、商业模式从编网到打井的转变、人机协作中异质性增幅与思考撤离的两条岔路,以及教育从灌输式「水」转向启发式「火」的命题。李继刚提出的「Your feed is your fate」和「提示词是有形状的」是两个值得单独展开的洞察。适合想在技术讨论之外,认真思考 AI 时代人何以自处的读者。
管理 900 亿美元资产的 Insight Partners 联合创始人 Jerry Murdock 认为,自主 Agent 才是这波 AI 变革的真正核心,Cursor 等工具已面临过时,SaaS 按席位定价模式将被基于消耗的模式取代,白领失业潮将在两年内成为大选议题。

以 2028 年视角撰写的 AI 经济左尾风险思想实验:白领失业→消费萎缩→私募信贷违约→抵押贷款承压,构成一个无天然刹车的负反馈循环。不是预测,是系统性的风险推演框架,值得每个关注 AI 经济影响的人认真阅读。