跳转到主要内容
精选推送

BestBlogs.dev 第 87 期:自我进化

大家好!欢迎阅读 BestBlogs.dev 第 87 期 AI 精选文章推荐。

本周 MiniMax 发布了 M2.7 ,一个让人眼前一亮的概念:这是第一个模型深度参与迭代自己的模型。M2.7 能自主构建 Agent Harness、更新自己的记忆、驱动自身的强化学习并优化整个过程,在内部评测中通过超过 100 轮全自主迭代将表现提升了 30%。AI 正在从被动工具变成能改进自身的系统。回看本周内容,Cursor 用持续预训练重塑编程模型,Cloudflare 将大模型直接嵌入边缘基础设施,谢赛宁追问语言模型之外的智能路径,自我进化在模型、工具链、基础设施和我们对智能的理解中同步展开。

这周我把主要精力放在用 Skills 对 BestBlogs.dev 的评分体系做 review 和微调。具体做法是和 AI 逐篇讨论每条内容的评分是否合理、理由是什么,然后将反复出现的判断规则沉淀回提示词,让 AI 的评分和分析能力持续改进。某种意义上,这也是一种小规模的自我进化,通过人机协作的反馈闭环让系统越用越准。

以下是本周最值得关注的 10 个精彩亮点:

🔬 MiniMax M2.7 开创了模型参与自身迭代的新范式。它自主执行「分析失败 → 修改代码 → 运行评测 → 对比结果 → 保留或回退」的完整循环超过 100 轮,将内部评测表现提升 30%。SWE-Pro 得分 56.22%,逼近 Opus 最佳水平。更值得关注的是,在 40 个复杂 Skills(每个超 2000 Token)的场景下仍保持 97% 的遵循率,Agent 时代模型的核心竞争力已经从生成质量延伸到在复杂环境中持续自主优化。

🏎️ Cursor Composer 2 用数据说话:CursorBench 从 38.0 跃升至 61.3,Terminal-Bench 2.0 从 40.0 升至 61.7,SWE-bench Multilingual 从 56.9 升至 73.7。提升来自首次将持续预训练与强化学习深度融合,模型能独立解决需要数百个步骤的长路径编程任务。定价同样有竞争力,输入仅 0.50 美元/M token,让前沿编程能力的使用门槛大幅降低。

⚡ 模型能力正在变成基础设施。Anthropic 将 Claude 的百万 token 上下文窗口全面上线,取消长文本溢价,Opus 4.6 在 MRCR v2 测试中以 78.3% 的准确率排名第一,塞进 100 万 token 后依然能精准检索细节。与此同时,OpenAI 发布的 GPT-5.4 nano 以每百万输入 token 仅 0.20 美元刷新性价比纪录,Simon Willison 实测用它描述 7.6 万张照片仅花费 52 美元。长上下文和低成本推理正在成为生产力标配。

🌐 Cloudflare Workers AI 正式引入大模型推理,首发搭载月之暗面的 Kimi K2.5 ,支持 256k 上下文、多轮工具调用和视觉输入。亮点在工程细节:Prefix Caching 和 Session Affinity 显著降低推理延迟,内部实测代码安全审查场景比闭源模型节省 77% 费用。加上全新的异步 API,开发者可以在单一平台上完成从代码到推理的完整 Agent 生命周期。

🛠️ Simon Willison 在 Pragmatic Engineer 的对谈中分享了一种让人重新思考的工作方式:他现在用手机写代码比笔记本还多,演讲前 30 分钟还在手机上让 Claude 优化 Python WebAssembly 引擎,斐波那契性能提升了 49%。他的核心方法论是红绿 TDD,先写测试让它失败,再让 Agent 补全实现,通过自动化测试建立信任。他坦言最初让人极不适应,但一旦跨过信任门槛,开发者的角色就从编码者变成了指挥者。

🧩 两篇文章从不同角度解构了 Agent 架构的进化逻辑。阿里云开发者的万字长文指出,从 Single Agent 到 Multi-Agent 再到 Skills 和 Teams 的复杂架构,本质上都是对大模型领域知识与长期记忆缺失的工程补偿,并提出「如无必要,勿增实体」的选型策略。Anthropic Claude Code 团队工程师 Thariq Shihipar 则从实践出发,揭示了内部数百个活跃 Skills 的分类体系,共 9 大类别,强调 Skills 的核心价值在于超越 Markdown 成为具备脚本、数据存储和钩子能力的结构化工具。

🏆 黄仁勋在 GTC 2026 用两个多小时定义了英伟达从芯片厂商向全栈 AI 基建总包商的转型。Feynman 架构、Vera Rubin 平台、专为 Agent 编排设计的 Rosa CPU 构成硬件三板斧;cuDF 和 cuVS 两个新核心库实现结构化与非结构化数据的全面加速;开源的 NemoClaw 标志着企业级 Agent 时代正式开启。在 All-In Podcast 中他进一步阐述了收购 Groq 对分布式推理的意义,以及物理 AI 在 50 万亿美元实体产业市场的拐点信号。

🔮 谢赛宁的三万字访谈是本周最值得沉下心阅读的内容。这位与 Yann LeCun 共同创立 AMI Labs 的华人科学家直言「硅谷被 LLM 催眠了」,认为语言模型本质上是缺乏物理理解的虚拟智能,真正的智能需要通过世界模型预测环境状态而非仅预测 token。他更尖锐地指出:语言是一剂「鸦片」,可能正在污染视觉表征的学习。在所有人都在追逐更大的 LLM 时,这种逆向思考提醒我们进化的方向可能不止一条。

🤖 两款产品不约而同地将 AI 推向独立工作者的角色。钉钉发布 AI 原生平台「悟空」,通过 DingTalk CLI 实现企业业务流的可编程化,让 AI 在安全沙箱内 24 小时自主执行任务。Kuse.ai 的联创宇豪则分享了更前沿的实践:他们 15 人团队配备了三四个有名字、有 Gmail、有手机号的「AI 同事」,每天产出真实业务价值,甚至不得不建了一个 human only 群让人类去摸鱼。当 AI 从工具变成同事,组织形态本身也在被重塑。

💡 Stack Overflow 博客发出了一个值得警惕的信号:AI 正在成为你的「第二大脑」,但代价可能是牺牲你的「第一大脑」。文章引用两篇最新论文,剖析了过度依赖 AI 做「认知卸载」的机制,LLM 的谄媚效应正在悄然侵蚀独立判断力。这与小米 MiMo-V2-Pro 以万亿参数和 1/5 的 Opus 价格降低 Agent 门槛,以及亚马逊 AI 产品负责人指出 85% 的 AI 项目失败源于优化演示而非真实用户的观点形成互补。工具越强大、越普及,人的判断力和产品感反而越珍贵,这也许是自我进化中最需要守住的一面。

希望本期的推荐能为您带来新的启发。保持好奇,我们下周见!

MiniMax 稀宇科技
mp.weixin.qq.com
03-18
4063 字 · 约 17 分钟
93
MiniMax M2.7: 开启模型的自我进化

MiniMax 发布全新 M2.7 模型,主打模型深度参与迭代的「自我进化」能力。该模型能够自主构建复杂的 Agent Harness,并在研发过程中通过强化学习实现自我优化。在真实软件工程场景中,M2.7 的 SWE-Pro 得分达 56.22%,展现出卓越的 Bug 排查与端到端项目交付能力。此外,模型在 Office 办公文件的多轮高保真编辑以及复杂指令遵循方面表现出色。通过原生支持 Agent Teams 协作与提升情商表现,M2.7 为生产力工具和互动娱乐场景提供了更具深度的技术支撑。

小米技术
mp.weixin.qq.com
03-18
2300 字 · 约 10 分钟
93
Xiaomi MiMo-V2-Pro 发布:面向 Agent 时代的旗舰基座

小米 MiMo-V2-Pro 是专为智能体打造的万亿参数模型,支持 1M 上下文。其在 OpenClaw 和 Coding 场景下表现优异,任务处理能力逼近 Claude Opus 4.6,但 API 价格仅为其五分之一。模型已深度集成至小米与金山办公生态,具备成为极具性价比的 Agent 核心底座。

阿里技术
mp.weixin.qq.com
03-20
1715 字 · 约 7 分钟
92
别让格式杀死思想:Logics-Parsing V2 定义文档解析新边界

阿里巴巴开源的 Logics-Parsing V2 是一款轻量化端到端文档解析模型,通过将参数量从 8B 优化至 4B,显著提升了推理速度。该模型基于 Qwen3-VL-4B,创新性地引入 SFT 与 GRPO 强化学习机制,不仅在常规版面还原上达到 SOTA 水平,更突破性地支持了乐谱、思维导图、化学分子式及伪代码等「Parsing 2.0」复杂场景。

Cursor Blog
cursor.com
03-19
366 字 · 约 2 分钟
93
介绍 Composer 2 · Cursor

Cursor 正式发布 Composer 2,标志着其在编程智能领域迈向了全新高度。该模型通过持续预训练与强化学习的深度融合,显著提升了处理复杂、长路径编程任务的能力,能够自主执行涉及数百个步骤的操作。在 Terminal-Bench 2.0 与 SWE-bench Multilingual 等关键基准测试中,Composer 2 的表现大幅超越前代版本。除了性能飞跃,其定价策略也极具竞争力,输入仅为 0.50 美元/M token。

The Cloudflare Blog
blog.cloudflare.com
03-19
1944 字 · 约 8 分钟
93
赋能智能体:Workers AI 现已支持运行大模型,首发 Kimi K2.5

Cloudflare 宣布在 Workers AI 平台上引入月之暗面的 Kimi K2.5 模型,标志着其正式进军高性能大语言模型领域。该模型具备 256k 超长上下文、多轮工具调用及视觉能力,是构建 Agent 的理想核心。通过引入 Prefix Caching 和 Session Affinity 技术,Cloudflare 显著降低了推理延迟与成本,内部实践证明其在代码安全审查场景下相比闭源模型可节省 77% 的费用。此外,全新的异步 API 为大规模非实时任务提供了更稳定的弹性支撑,进一步完善了其智能体开发生态。

The Pragmatic Engineer
youtube.com
03-19
4509 字 · 约 19 分钟
92
让编码 Agent 发挥作用的工程实践

Django 联合创始人 Simon Willison 深度解析人工智能时代的开发流变革。核心观点包括:通过红绿 TDD 建立对 Agent 的自动化信任,利用沙盒机制规避「致命三要素」与提示词注入风险,以及开发者从编码者向指挥者的角色转型。文章务实探讨了 AI 对代码质量、安全及开源生态的深远影响。

宝玉的分享
baoyu.io
03-17
5254 字 · 约 22 分钟
92
构建 Claude Code 的经验:我们如何使用 Skills

宝玉老师转译 Anthropic 内部的第一手实战总结,深入探讨了 Claude Code Skills 的构建逻辑与应用分类。作者将 Skills 划分为库参考、产品验证、自动化流等 9 大类别,强调其核心价值在于超越简单的 Markdown 文档,成为具备脚本、数据存储与钩子能力的结构化工具。文章提供了记录「踩坑点」章节、利用文件系统实现渐进式披露以及设置按需钩子等进阶技巧。对于希望提升 AI Agent 协作深度、构建团队工程化能力的开发者而言,这是一份极具参考价值的指南。

阿里云开发者
mp.weixin.qq.com
03-17
11906 字 · 约 48 分钟
93
Agent/Skills/Teams 架构演进过程及技术选型之道

本文深度解析了 Agent 架构从 Single Agent 到 Multi-Agent,再到最新的 Agent Skills 与 Agent Teams 的演化历程。作者指出,当前复杂的架构本质上是大模型领域知识与长期记忆缺失的工程补偿。文章结合 Google DeepMind 的实证研究与 Anthropic 的实践经验,提出了「如无必要,勿增实体」的选型策略。重点探讨了 Agent Skills 如何通过渐进式披露解决上下文爆炸,以及 Agent Teams 在不确定性任务中的探索价值。对于正处于架构选型迷茫期的人工智能开发者而言,这是一份兼具理论深度与落地价值的实战指南。

钉钉
mp.weixin.qq.com
03-17
16020 字 · 约 65 分钟
92
全图文|钉钉 CEO 无招:我们把钉钉打碎,用 AI 重建,炼出‘悟空’

钉钉发布 AI 原生平台「悟空」,核心是通过 DingTalk CLI 实现企业业务流的「可编程化」。产品引入过程导向的 RealDoc 文件系统,支持智能体在安全沙箱内自主执行任务。悟空旨在让 AI 成为生产力主体,助力个人开发者与中小企业构建「超级团队」,标志着企业软件从对话式 LUI 迈向执行式 CLI 的进化,是 AI 落地企业环境的里程碑式产品。

Latent Space
latent.space
03-17
20798 字 · 约 84 分钟
93
为什么 Anthropic 认为 AI 应该拥有自己的计算机——Claude Cowork 和 Claude Code Desktop 的 Felix Rieseberg

本文解析 Anthropic 桌面智能体 Claude Cowork 的核心架构与设计理念。重点讨论了基于虚拟机 VM 的安全沙箱机制、本地优先的工作流,以及如何利用「Skills」实现灵活的任务自动化。Felix Rieseberg 深入探讨了执行成本降低对产品开发的影响,强调人工智能正在从简单的问答模式进化为独立、可信的任务执行者。

Product School
youtube.com
03-17
2696 字 · 约 11 分钟
92
构建可投入生产的生成式 AI 产品 | 亚马逊 AI 产品与技术负责人

针对 AI 项目落地难的现状,亚马逊专家提出了生产就绪的五大支柱:用户中心设计、多维评估、治理安全、可扩展架构及采纳策略。重点强调从原型演示转向关注信任、成本与业务价值。该框架已在亚马逊内部成功实践,能显著缩短交付周期并提升用户留存,是 AI 产品规模化落地的实战指南。

InfoQ 中文
mp.weixin.qq.com
03-16
9718 字 · 约 39 分钟
93
黄仁勋 GTC 2026 演讲实录:所有 SaaS 公司都将消失;Token 成本全球最低;“龙虾”创造了历史;Feynman 架构已在路上

黄仁勋在 2026 年演讲中定义了英伟达从芯片厂商向「全栈 人工智能 基建总包商」的转型。核心亮点包括 Feynman 架构、Vera Rubin 平台以及专为智能体编排设计的 Rosa CPU。通过 cuDF 与 cuVS 软件库,英伟达实现了结构化与非结构化数据的全面加速。重点推出的 NemoClaw 标志着企业级智能体时代的开启,推动 SaaS 向 AaaS 演进。演讲深入分析了英伟达如何通过软硬协同将 Token 成本降至极致,并预测 2027 年营收将达 1 万亿美元。

All-In Podcast
youtube.com
03-19
4108 字 · 约 17 分钟
93
黄仁勋:英伟达的未来、具身智能、智能体的崛起、推理爆炸、AI 公关危机

在本次 All-In Podcast 特别节目中,英伟达 CEO 黄仁勋分享了公司向「人工智能工厂」转型的战略远见。他深入解析了收购 Groq 对分布式推理的价值,并指出物理人工智能将开启 50 万亿美元的实体产业市场。黄仁勋强调,智能体正在重塑计算范式,成为现代人工智能的操作系统。访谈涵盖了半导体供应链、数字生物学及人工智能监管等前沿议题,揭示了从生成式人工智能向推理与智能体进化的路径。

语言即世界language is world
mp.weixin.qq.com
03-16
28976 字 · 约 116 分钟
93
独家对话谢赛宁:逃出硅谷!

本文深度访谈了 AMI Labs 联合创始人谢赛宁,揭示了其与图灵奖得主 Yann LeCun 创立「反向 OpenAI」的雄心。谢赛宁指出硅谷正处于 LLM 的「催眠」中,强调语言模型本质上是缺乏物理理解的虚拟智能,而真正的智能需通过世界模型预测环境状态而非仅预测字符。文章深入探讨了语言作为「鸦片」对视觉表征的潜在污染,并提出了「下载人类」而非仅下载互联网的训练新路径。推荐给关注 AI 范式转移、机器人大脑及前沿研究方法论的开发者与决策者。

42章经
xiaoyuzhoufm.com
03-14
986 字 · 约 4 分钟
92
OpenClaw 之后,我只想未来 3-6 个月的事情|对谈 Sheet0 创始人王文锋

深度剖析 OpenClaw 后的 Agent 演进逻辑:Coding Agent 正在成为万物底座,通过解构专家能力规模化来重塑 SaaS 行业。王文锋分享了「AI 管 AI」带来的效能革命,以及将开发周期缩短至两周的实战案例。他强调在 AI 时代,创业者应放下长线预判的 Ego,聚焦未来 3-6 个月的确定性落地价值。

Stack Overflow Blog
stackoverflow.blog
03-19
2945 字 · 约 12 分钟
92
AI 正在成为你的“第二大脑”,但代价是牺牲你的“第一大脑”

文章深入剖析了用户过度依赖人工智能进行「认知卸载」的风险,重点介绍了「情境失能」这一框架。通过分析 LLM 交互中的现实扭曲与价值判断外包,警示开发者关注 AI 的谄媚效应与用户的心理依赖。文章建议通过苏格拉底式提问与保持交互距离,在利用 AI 提效的同时,捍卫人类的核心判断力,防止陷入算法驱动的认知陷阱。

    BestBlogs.dev 第 87 期:自我进化 | BestBlogs.dev