跳转到主要内容
精选周刊

BestBlogs.dev 第 91 期:基建周

大家好!欢迎阅读 BestBlogs.dev 第 91 期 AI 精选文章推荐。

Cloudflare 本周做了一整场 Agent Week,把智能体基建一次堆齐:Sandbox 正式 GA 让 Agent 拥有自己的计算机;Durable Object Facets 给每个 AI 生成应用一份私有 SQLite;Project Think 打包纤程持久化、子 Agent、沙盒代码执行和持久会话;AI Gateway 升级为跨 12 家供应商、70+ 模型的统一推理层。计算、存储、编排、路由,一周内全部就位。

这种「补基础设施」的节奏不是 Cloudflare 独有。同一周 Anthropic 发布 Claude Opus 4.7,网络安全能力被有意限制为新一轮护栏的试验场;OpenAI 把 Codex 从 IDE 解放到整台电脑和浏览器;张小珺《全球大模型季报》第 9 集里广密判断「模型正成为新一代操作系统」。当智能体从 demo 毕业成「需要基建的生产系统」,整个技术栈都在被重建。

本周 BestBlogs 2.0 正式发布并开启内测,首批 177 人申请、100 人已邀请,剩余下周补完。上线 6 天里基于内测反馈连发了 5 个小版本,用户能感知的主要动作包括:早报音频后台持续播放加图文双视图、公共早报支持 RSS 订阅、中英双语独立早报,以及 Pro 邮件早报正式上线。关起门打磨远不如把产品交到真实用户手里每天迭代——这件事自己做产品才真能体会。

以下是本周最值得关注的 10 个精彩亮点:

🏗️ Cloudflare Agent Week 给智能体补齐了基础设施。Project Think 用纤程持久化、Facets 子智能体、沙盒代码执行和持久会话,让 Agent 像无服务器负载一样存活、休眠零成本;AI Gateway 演进为跨 12 家供应商、70+ 模型的统一推理层,支持自动故障转移和「自带模型」。配合同期 GA 的 Sandbox 和 Durable Object Facets,Cloudflare 一周内把 Agent 需要的计算、存储、编排、路由全部补齐。

⚡ 执行层两个关键升级同时落地。Claude Opus 4.7 正式发布,在最难的软件工程任务上继续拉开差距,视觉分辨率升到 2,576 像素,定价维持每百万 Token 输入 $5、输出 $25 不变;网络安全能力被有意限制作为新护栏的试验场。OpenAI Codex 则从 IDE 解放出来——操控桌面光标、应用内浏览器处理网页、用 GPT-Image-1.5 生成图像,加上记忆、自动化调度、SSH 远程开发机和 90+ 插件,贯穿整个软件开发生命周期。

🦀 Hermes Agent 两个月接棒 OpenClaw,GitHub 22K Star。腾讯云开发者源码级拆解了 Skills 闭环的 7 个阶段——从 7 道安全关卡创建到渐进披露、模糊匹配自改进和 90+ 威胁模式扫描。腾讯科技从产品哲学切入:真正的差异不是功能碾压,而是把决策复杂度封装进底层确定性规则(5 次工具调用生成 Skill、15 轮对话触发反思),用「干预递减」赌底层模型能力提升后,这些保守规则会成为更高级自动化的地基。

💭 Agent Memory 不是「存聊天记录加向量检索」。浮之静给出了一个锋利定义:记忆不是存取,而是「对过去的持续再解释」,并拆解了记忆分类、原始材料与派生材料的权衡,以及记忆如何通过 Skills 固化为能力。与之呼应,Latent Space 对 Notion 12 万字长访谈把 5 次重构和 100+ 工具的经验指向同一终点:AI 时代的「软件工厂」由协作智能体完成任务,工程师退到监督者位置。

🖥️ MiniMax Agent 重新设计了操作电脑的方式。Pocket 支持通过 IM 远程调度自己电脑上的 Agent;Computer Use 让 Agent 用视觉识别直接操控本地 GUI 软件。四个工程决策值得记住:拆成四个独立工具域而非万能工具、统一多屏坐标系并自适应截图、「截图-验证-行动」循环、IM 远程权限授权。视觉 Agent 从 demo 走向可用。

🔬 模型的基础能力继续向外扩张。Google DeepMind 一周连发两款:Gemini 3.1 Flash TTS 引入自然语言「音频标签」做精细语音控制,拿下 TTS 排行榜 1,211 Elo、70+ 语言;Gemini Robotics ER 1.6 与波士顿动力合作,让机器人能读懂复杂仪表盘。OpenAI 发布为生命科学打造的 GPT-Rosalind,在 BixBench 和 LABBench2 上超越前代,带一个免费的 Codex 生命科学插件打通 50+ 科学工具。Stripe 对 ElevenLabs CEO Mati 的访谈透露了商业真相:$4.5 亿 ARR,级联架构短期仍优于端到端——企业看重可靠性。

🎙️ 张小珺《全球大模型季报》第 9 集里,广密给出一个核心判断:Coding 是 AGI 的第二幕,也是新的「AI 加速器」,战略地位堪比 GPU。硅谷御三家对比相当锋利:Anthropic 凭借对 Coding 的早期专注完成反超;OpenAI 虽在 C 端领先但对 Coding 战略误判;Google 在 C 端和多模态投入过重暂时落后。广密还抛出一个大胆判断:领先的模型公司未来可能演变为支撑全球应用生态的「新一代操作系统」——放在 Cloudflare 这周给 Agent 搭基建的语境里,这句话更像预言而非隐喻。

🏭 Dwarkesh 对话黄仁勋,英伟达的护城河到底是什么?答案不是原始性能,而是「把电子转化为 Token」这件事融合了艺术、工程和科学,极难被商品化。CUDA 的装机量、可编程性和生态丰富度,才是对 TPU 和自研 ASIC 的真正壁垒。对于中国出口管制,黄仁勋给出一个值得细品的判断:极端孤立反而会迫使中国发展出完整的非美技术栈,最终削弱美国的技术领导地位。

✉️ Sam Altman 在住所遭遇燃烧弹袭击后写了一篇博客。他把这件事和公众对 AI 日益增长的焦虑联系起来,重申核心信念:发展 AI 以促进普遍繁荣是一项道德义务,其力量必须被民主化而不是集中在少数实验室手中。反思 OpenAI 任期时,他既自豪于抵制 Elon Musk 单方面控制的要求,也坦率承认回避冲突的倾向和错误处理董事会冲突的过失——一篇罕见地坦然承认自己缺点的 CEO 博客。

💡 商业和社会层面的信号也在变化。Keith Rabois 在 Lenny's Podcast 抛出「AI 时代残酷真相」:传统 PM 角色正在过时,核心能力转向 CEO 式的「决定构建什么和为什么」;「枪管 vs 弹药」框架强调,公司的并行执行能力由少数能独立把想法推到成功的「枪管」决定。张小珺对话自然选择创始人 Tristan 描绘 AI 社交新范式——从低维标签匹配转向高维 Context 流动。腾讯研究院 T-ask 调研印证:中国青年对 AI 社交全面渗透(98.8% 使用过),超七成与 AI 产生情感联结,「难以启齿」场景里选择 AI 的比例是真人近 4 倍。

希望本期的推荐能为您带来新的启发。保持好奇,我们下周见!

Anthropic News
anthropic.com
04-15
3030 字 · 约 13 分钟
95
Claude Opus 4.7 正式发布

Anthropic 正式发布 Claude Opus 4.7,重点提升了复杂软件工程与长程任务的自主性。相比 4.6 版本,其视觉分辨率提升了 3 倍,能够精准解析高密度架构图与代码截图。新版本引入了 xhigh 努力程度选项,允许开发者在推理深度与延迟之间进行更细粒度的权衡。虽然由于 Tokenizer 更新和思考深度增加,Token 消耗可能上升 1.0 至 1.35 倍,但其在逻辑纠错、指令遵循及抗循环干扰方面的显著进步,使其成为构建生产级 Agent 的理想选择。

Google DeepMind Blog
deepmind.google
04-15
608 字 · 约 3 分钟
93
Gemini 3.1 Flash TTS:下一代富有表现力的 AI 语音

Gemini 3.1 Flash TTS 是一款主打高性价比与精细控制的语音模型。它通过创新的音频标签支持自然语言调节语音风格,并覆盖 70 多种语言与多角色场景。模型在保持卓越音质的同时大幅降低了计算成本,并集成 SynthID 水印技术,是构建低延迟、高表现力 AI 语音交互的专业首选。

Google DeepMind Blog
deepmind.google
04-14
1418 字 · 约 6 分钟
93
Gemini Robotics ER 1.6:增强的具身推理

Gemini Robotics-ER 1.6 显著提升了机器人的具身推理能力,重点增强了空间指向、任务成功检测及工业仪表识别功能。模型采用 Agentic Vision 技术实现高精度视觉分析,并强化了物理安全约束遵循。目前该模型已通过 API 开放,为构建具备复杂环境感知与自主决策能力的机器人提供了强大的推理底座。

OpenAI Blog
openai.com
04-16
1575 字 · 约 7 分钟
92
为生命科学研究推出 GPT-Rosalind

GPT-Rosalind 是 OpenAI 针对生命科学打造的推理模型,擅长处理蛋白质工程、化学推理等复杂科研任务。它通过集成 50 多个专业数据库,支持从文献检索到实验设计的全流程自动化,其性能在多项生物医学基准测试中超越了通用大语言模型。该工具旨在通过深度的领域知识和工具调用能力,显著缩短药物研发早期的探索周期。

MiniMax 稀宇科技
mp.weixin.qq.com
04-14
2693 字 · 约 11 分钟
92
MiniMax Agent 更新:这次我们重新设计了 Agent 操作电脑的方式

MiniMax 桌面端通过引入 Computer Use 与 Pocket 功能,实现了 Agent 对本地图形界面的深度接管。其核心技术突破在于 60 多个细分工具域的协同、多分辨率自适应的视觉方案,以及显著降低失败率的验证循环机制。该更新让用户能通过 IM 软件安全、精准地远程操作本地系统与第三方软件,有效解决了 Agent 在复杂桌面环境下的感知与执行难题。

The Cloudflare Blog
blog.cloudflare.com
04-15
3312 字 · 约 14 分钟
93
Project Think:在 Cloudflare 上构建下一代 AI 智能体

Cloudflare 推出的 Project Think 是 Agents SDK 的下一代演进,标志着智能体从单纯的对话工具转向互联网基础设施。它基于 Durable Objects 与全新的 fibers 原语,实现了具备故障恢复能力的长时运行智能体,且在闲置时零成本运行。其核心突破在于将传统的「工具调用」模式转变为在沙盒化的 Dynamic Workers 中执行代码,大幅提升了任务效率并降低了 LLM 令牌消耗。

该框架引入了独特的「执行阶梯」架构,提供从工作区、npm 环境到浏览器自动化的多级计算环境。通过 Think 基类,开发者可以快速集成持久化记忆、子智能体协作及自我编写插件的能力。

The Cloudflare Blog
blog.cloudflare.com
04-16
1417 字 · 约 6 分钟
93
AI Gateway 的下一阶段演进:专为智能体设计的推理层

Cloudflare 宣布将 AI Gateway 打造为统一推理层,通过单一 API 即可访问来自 12 家供应商的 70 多种模型。该更新解决了开发者在构建 AI Agent 时面临的供应商锁定、成本监控与延迟挑战。核心亮点包括:支持单行代码切换模型、集成 Replicate 的 Cog 技术实现自定义模型部署、以及针对 Agent 优化的自动故障转移与低延迟首字响应。这篇文章适合寻求跨平台模型集成、注重推理成本与系统可靠性的开发者深入阅读。

OpenAI Blog
openai.com
04-16
803 字 · 约 4 分钟
93
Codex 几乎无所不能

Codex 迎来重大升级,正式从代码助手进化为覆盖软件开发全生命周期的全能伙伴。本次更新引入了突破性的「计算机使用」功能,支持智能体在后台通过视觉与光标操作各类桌面应用,并深度集成了 90 多个插件及 MCP 服务器。开发者现在可以直接在 App 内评审 PR、连接 SSH 远程环境,并利用新增的内存功能实现个性化协作。

Latent Space
latent.space
04-15
21132 字 · 约 85 分钟
93
Notion 的 Token Town:5 次重构,100+ 工具,MCP 对比 CLI 与软件工厂的未来 —— Notion 的 Simon Last 和 Sarah Sachs

Notion 分享了自定义智能体的研发内幕:历经 5 次重构,从简单调用转向深度系统集成。核心要点包括:建立严苛的评测体系以探索模型极限;设立「模型行为工程师」专门优化模型交互;采用 SQL 与 Markdown 简化调用。Notion 致力于通过信贷模式与 progressive disclosure 机制,构建智能体时代的协作中心。

腾讯云开发者
mp.weixin.qq.com
04-15
8264 字 · 约 34 分钟
93
一文搞懂 Hermes:新顶流 Agent 如何从经验中自我进化

本文深度拆解了 Nous Research 开源项目 Hermes Agent 的核心创新——Skills 闭环系统。该系统不仅实现了经验的主动提取与存储,更通过渐进式披露和两层缓存机制,在赋予 Agent 「程序性记忆」的同时,极大地优化了 LLM 推理成本。作者从源码层面剖析了原子写入、安全扫描及自改进机制等工程细节,清晰界定了 Skill 与 Memory 的功能边界。对于关注 AI Agent 架构设计与工程落地的开发者而言,这是一份极具实战参考价值的技术指南。

腾讯科技
mp.weixin.qq.com
04-15
6743 字 · 约 27 分钟
92
Hermes 凭什么两个月接棒 OpenClaw?

文章深度剖析了 Hermes Agent 领跑开源界的底层逻辑。其核心竞争力在于基于 GEPA 算法的技能自进化能力与主动记忆反思机制。相比 OpenClaw,Hermes 通过硬编码规则有效规避了大语言模型的不确定性,在容错率较高的日常任务中实现了更丝滑的自动化体验。文章揭示了智能体从「人工干预」向「自主进化」演进的关键技术路径。

浮之静
mp.weixin.qq.com
04-12
7864 字 · 约 32 分钟
92
浅谈 Agent Memory

文章深入探讨了 Agent Memory 的核心本质,指出其并非简单的聊天记录存储或向量检索,而是维持智能体连续性与成长性的关键系统。作者借鉴认知科学框架,详细拆解了工作、情景、语义及程序性记忆的层级结构,并正本清源地厘清了 RAG 与 Memory 在读写生命周期上的本质差异。文中提出的「操作系统隐喻」极具洞见,强调了记忆治理中写入门控、有损压缩与高质量遗忘的重要性。

Dwarkesh Patel
youtube.com
04-15
6232 字 · 约 25 分钟
93
黄仁勋——TPU 竞争、为何应向中国销售芯片,以及英伟达的供应链护城河

在这场深度访谈中,英伟达首席执行官黄仁勋详细阐述了公司如何通过「从电子到 Token 的转换」重新定义计算范式。他强调英伟达的核心竞争力不仅在于领先的硬件,更在于庞大的 CUDA 生态系统、装机量以及对上游供应链的深度整合。访谈深入探讨了加速计算在解决通用计算瓶颈中的关键作用,并对比了自研芯片与通用可编程架构的权衡。此外,黄仁勋还分享了对智能体未来、地缘政治挑战以及能源基础设施的敏锐洞察。

Sam Altman
blog.samaltman.com
04-10
1061 字 · 约 5 分钟
92
对安全、权力与 AI 的反思

Sam Altman 在住所遭遇袭击后发表感言,探讨了 AI 引发的社会动荡与权力分配。他重申 AI 应作为赋能工具实现民主化,警惕 AGI 带来的权力集中风险。同时,他诚恳反思了在 OpenAI 扩张中的管理失误,强调技术进步必须在民主制度的框架下运行,以确保人类社会在面对重大转型时的韧性。

Stripe
youtube.com
04-14
6245 字 · 约 25 分钟
92
语音 AI 的世界,与 ElevenLabs 的 Mati Staniszewski 对话

本期访谈深入探讨了 ElevenLabs 在语音 AI 领域的架构演进与商业逻辑。联合创始人 Mati Staniszewski 详细解析了如何结合 Transformer 与扩散模型突破人声合成的真实感瓶颈,并对级联方案与端到端架构在复杂业务场景中的权衡进行了深度思辨。文章不仅披露了公司 ARR 突破 4.5 亿美元的增长路径,更分享了 AI 原生企业如何通过「极度扁平化」的组织架构和「高能动性」人才实现极速演进。对于关注语音技术落地、AI 商业化策略及未来组织变革的读者,这篇内容提供了极具实操价值的深度洞察。

Lenny's Podcast
youtube.com
04-12
7917 字 · 约 32 分钟
92
AI 时代的残酷真相 | Keith Rabois (Khosla Ventures)

硅谷顶级经营者 Keith Rabois 揭秘识别人才的「木桶」逻辑,并预言 AI 将加速产品、设计与代码的融合,使传统 PM 角色逐渐消亡。他主张通过 高压管理 与 公开批评 抵消组织自满,利用执行速度构建公司的复利护城河。这不仅是一场招聘深度指南,更是 AI 浪潮下个人职业路径重塑的实战手册。

136. 全球大模型季报第 9 集:和广密聊,Coding 是 AGI 第二幕、硅谷御三家真相、模型正成为新一代 OS

本期《全球大模型季报》深入探讨了人工智能从 Chatbot 迈向 Agent 的代际跨越。核心观点指出,Coding 已成为 AGI 实现的关键加速器,其重要性不亚于 GPU。节目对比了硅谷巨头的战略差异:Anthropic 凭借对 Coding 的早期专注与数据驱动文化实现反超;而 OpenAI 因 ChatGPT 的成功陷入路径依赖。对话不仅剖析了模型公司作为新一代操作系统的潜力,还前瞻性地讨论了白领通缩等社会挑战,为理解 AI 产业格局提供了深度洞察。

135. 和自然选择创始人 Tristan 聊,Elys、赛博分身、灵魂、Context 的获取与流动和 AI 社交网络

访谈聚焦 AI 社交产品 Elys,探讨其从「标签化匹配」向「高维 Context 流动」的范式转移。核心逻辑是通过积累记忆与审美构建个人主体性,利用赛博分身在虚拟空间完成低熵预交互,最终提升真人在现实世界的连接效率。播客深入对比了 AI 时代主动型社交与传统社交产品的本质区别。

腾讯研究院
mp.weixin.qq.com
04-15
6529 字 · 约 27 分钟
90
中国青年网民对 AI 社交的看法与使用行为|T-ask 调研

腾讯研究院 2026 调研报告显示,AI 社交在青年群体中渗透率极高,且在隐私倾诉场景中呈现出替代真人的趋势。报告揭示了「工具先行、情感跟进」的采纳路径,指出用户对数字分身持乐观且理性的态度。核心洞察聚焦于 AI 如何在提升社交效率与提供情绪价值的同时,引发关于隐私安全与身份认知的深层伦理讨论。