跳转到主要内容
精选推送

BestBlogs.dev 第 76 期:技能

大家好!欢迎阅读 BestBlogs.dev 第 76 期 AI 精选文章推荐。

本周最让我印象深刻的,是 Anthropic 在 AI Engineer 大会上提出的一个观点:不再构建智能体,转而构建技能。他们认为当前智能体的核心问题在于「有智力却缺乏领域专业知识」,就像让高智商数学家去报税——能力很强,但经验不足。技能的本质是把过程性知识打包成可复用的文件夹,支持版本控制、团队共享,还能与 MCP 服务器无缝集成。巧合的是,MCP 本周正式移交 Linux Foundation 管理,8 个月内获得 37,000 star,验证了标准化的强烈需求。我在想,当「模型 + 运行时环境 + 技能库 + MCP」这套架构逐渐成型,Skills 是否有可能像 Docker 镜像一样,成为跨模型、跨产品的通用能力载体?这或许是 AI 开发从「造轮子」走向「标准化组件」的关键一步。

以下是本周最值得关注的 10 个精彩亮点:

🤖 GPT-5.2 发布,OpenAI 把这次更新定位为「牛马打工人专属 AI」。不再只为程序员服务,而是面向律师、设计师、市场经理等广大白领。在 44 个真实职业任务的评测中,超过 70% 的表现达到或超越 14 年经验的行业专家水平。务实的迭代,解决实际问题。

🔬 清华刘知远团队在《自然·机器智能》发表的密度法则研究揭示了 AI 领域的「摩尔定律」:模型训练和推理效率每 3.5 个月翻倍。这解释了为什么端侧模型能快速追平云端巨头,也预测了 2027 年手机上可部署具备自主学习能力的专属大模型。

📊 斯坦福基于 12 万开发者的研究发现,代码库健康度与 AI 收益呈 0.40 相关性。整洁的代码能放大 AI 效果,而技术债务会加速熵增。更关键的是,单看 PR 增长 14% 可能掩盖代码质量下降 9% 和返工增加 2.5 倍的事实——最终 ROI 可能为负。

💡 Manus 创始人张涛首次系统回应外界质疑,核心理念是「Less structure, more intelligence」。通过 Zero Predefined Workflow 将任务决策完全交还给模型,在多个 Benchmark 中长期保持领先。应用层团队凭借模型选择灵活性,也能对抗 OpenAI 等巨头。

🌐 a16z 2026 年预测指出,Agent-native 基础设施将成为必需品,核心挑战从算力转向多 Agent 协调能力。更关键的洞察是:99% 的市场机会存在于传统垂直行业,而非硅谷科技圈。企业软件的价值将从记录系统转向智能执行层。

🛠️ 腾讯技术团队详细讲解了如何让 AI 智能体拥有持久记忆。基于 LangGraph 框架,短期记忆通过 Checkpointer 管理单次对话状态,长期记忆通过 Store 实现跨会话知识共享。从 InMemorySaver 到 PostgreSQL 持久化,再到语义搜索,代码示例非常完整。

🎨 智谱开源 GLM-4.6V 系列,最大创新是将 Function Call 能力原生融入视觉模型,实现「图像即参数,结果即上下文」的多模态工具调用。9B 的 Flash 版本超越 Qwen3-VL-8B,API 价格降低 50%,完全开源。

📈 Dify 创始人路宇复盘两年创业历程,揭示 GitHub 11 万+ star 项目背后的战略思考。坚持工程价值和模型中立性,从 high code 向智能化的务实转型,以及在日本市场意外获得的现象级成功。对 AI 应用「最后一公里」问题有深刻理解。

🏆 OpenRouter 和 a16z 联合发布的报告基于 100 万亿 Token 真实数据,揭示了几个关键转折:中国开源模型份额从 1.2% 暴涨至近 30%;推理优化模型流量占比超过 50%;编程占据总流量的一半以上。「水晶鞋效应」理论值得关注——模型留存的关键在于能否在发布时就完美解决特定痛点。

🧩 朱啸虎在年末对 AI 产业深度复盘,明确指出至少三年内看不到 AI 泡沫。当前竞争的核心已从模型能力转向超级入口之争。对于创业者,他建议「错开共识 15 度」,聚焦大厂不愿涉足的垂直场景和苦活脏活。

希望本期的推荐能为您带来新的启发。保持好奇,我们下周见!

数字生命卡兹克
mp.weixin.qq.com
12-11
3391 字 · 约 14 分钟
95
GPT-5.2 发布,真正的牛马打工人专属 AI 来了。

OpenAI 十周年发布 GPT-5.2,这次更新的核心是「专业知识工作」能力的跃升。文章深度解析了两个关键评测:ARC-AGI-2 测试流体智力的得分从 17.6% 飙升至 52.9%,而 GDPval 评测显示模型在 44 个真实职业任务中,有超过 70% 的表现达到或超越 14 年经验的行业专家水平。作者特别强调这是一次务实的迭代,不再只为程序员服务,而是真正面向律师、设计师、市场经理等广大白领打工人,聚焦解决实际工作场景中的复杂问题。

智谱
mp.weixin.qq.com
12-08
2446 字 · 约 10 分钟
93
GLM-4.6V 开源:从看懂图片到自动完成任务

智谱 AI 开源 GLM-4.6V 系列多模态大模型,最大的创新在于将 Function Call 能力原生融入视觉模型,实现「图像即参数,结果即上下文」的多模态工具调用。模型支持 128k 上下文窗口,可处理 150 页文档或一小时视频。文章详细展示了四大实战场景:智能图文混排、识图购物导购、前端像素级复刻、长文档视频理解。在性能上,9B 的 Flash 版本超越 Qwen3-VL-8B,106B 版本比肩两倍参数量的竞品,同时 API 价格降低 50%,完全开源且支持多种部署框架。

赛博禅心
mp.weixin.qq.com
12-06
6519 字 · 约 27 分钟
92
V3→R1→V3.2|一文看懂 DeepSeek 技术演进

DeepSeek 从 V3 到 V3.2 的完整技术演进图谱。覆盖 MoE+MLA 架构、RLVR 训练方法、DSA 稀疏注意力、自验证自改进技术,以及 GRPO 算法改进。图文并茂,技术细节丰富但解释清晰,是理解开源大模型如何通过工程创新追平闭源模型性能的最佳参考。

AINLP
mp.weixin.qq.com
12-10
14715 字 · 约 59 分钟
92
统一多模态理解与生成综述:83 页长文梳理进展和挑战

这篇来自南京大学、中科院等机构的 83 页综述,系统梳理了统一多模态理解与生成模型领域的 750+ 篇论文,构建了从编码、解码、建模到训练的完整技术分类体系。论文将建模策略分为外部服务集成、模块化联合、端到端统一三大范式,并深入分析了连续表征、离散表征、混合表征等编码策略的优劣权衡。对于想要系统了解多模态大模型技术全貌、选择合适架构方向的研究者和工程师来说,是一份难得的全景式参考资料。

晚点聊 LateTalk
xiaoyuzhoufm.com
12-11
1685 字 · 约 7 分钟
93
144: 从「大而强」到「小而强」,密度法则、RL 的 Scaling Law 和智能的分布式未来

清华刘知远教授和肖朝君博士在《晚点聊》深度解读他们发表在《自然·机器智能》的密度法则研究。这是 AI 领域的「摩尔定律」:模型训练和推理效率每 3.5 个月翻倍。访谈从业界追求规模法则的迷思切入,系统讲解了提升模型能效的四个层面——架构创新(稀疏注意力、MoE)、数据治理(从 L0 收集到 L4 验证)、学习算法(强化学习的 scaling 困境)和软硬一体优化。面壁团队分享了在车载智能座舱的落地经验,以及对端侧模型发展路径的预测:到 2027 年,手机上可部署具备自主学习能力的专属大模型。最后探讨了 AGI 的三个阶段——自主学习、AI 协作、创造性突破,以及分布式智能的未来图景。

AI Engineer
youtube.com
12-06
4890 字 · 约 20 分钟
93
不再构建智能体,转而构建技能 – Barry Zhang & Mahesh Murag,Anthropic

Anthropic 提出的智能体开发新范式:不再构建复杂的独立智能体,而是创建可组合的技能。演讲阐述了当前智能体的核心问题:虽有智力却缺乏领域专业知识,就像高智商数学家去报税,能力强但经验不足。技能本质上就是打包了过程性知识的文件夹,设计极简却强大:支持版本控制、团队共享、渐进式披露,可与 MCP 服务器无缝集成。

文章展示了正在形成的通用智能体架构:模型+运行时环境+技能库+MCP,这种模块化设计让智能体能够按需获取专业知识。最激动人心的是愿景:构建一个组织内外共同演进的知识库,让智能体通过技能持续学习和改进。

The GitHub Blog
github.blog
12-09
2047 字 · 约 9 分钟
92
MCP 加入 Linux 基金会:这对构建下一代 AI 工具和智能体的开发者意味着什么?

MCP 正式移交 Linux Foundation 管理,从 Anthropic 的开源项目成长为行业标准协议。核心价值是解决 AI 开发的集成碎片化问题:统一的协议让模型能够标准化地调用工具和获取上下文,支持 OAuth、远程服务器和长时运行任务。GitHub Octoverse 数据显示 AI 开发爆发式增长,MCP 在 8 个月内获得 37,000 star,验证了标准化需求。

腾讯技术工程
mp.weixin.qq.com
12-08
17463 字 · 约 70 分钟
92
让 AI 智能体拥有像人类的持久记忆:基于 LangGraph 的长短期记忆管理实践指南

这篇文章系统性地讲解了如何让 AI 智能体拥有持久记忆能力。作者从 Agent Memory 的核心概念出发,详细介绍了 LangGraph 框架下长短期记忆的实现方法:短期记忆通过 Checkpointer 管理单次对话状态,长期记忆则通过 Store 实现跨会话知识共享。文章包含大量代码示例,涵盖了从 InMemorySaver 到 PostgreSQL 数据库持久化,从简单的状态管理到语义搜索的完整实践。最后通过一个融合 MCP 协议的 Multi-Agent 系统案例,展示了中断机制、记忆管理和多智能体协作的综合应用。适合正在构建智能体系统的开发者深入学习。

InfoQ 中文
mp.weixin.qq.com
12-05
14176 字 · 约 57 分钟
93
AI 原生数据库的思考

本文深度剖析了 AI 大模型落地企业场景时,传统数据库在私有数据管理和模型记忆方面的两大挑战,并以前瞻性视角提出了 AI 原生数据库 的三大核心特征:面向 Agent 的多模混合搜索、现代弹性架构(Serverless/分布式) 和 数据与模型深度融合(AI Function)。作者指出,AI 时代的搜索不再是单一的向量搜索,而是多种搜索方式的深度融合,并倡导在成熟关系数据库基础上扩展 AI 能力的主流路径。文章不仅有理论分析,还介绍了 OceanBase 开源的 seekdb,为开发者提供轻量级、多合一的 AI 数据库解决方案,是所有关注 AI 基础设施和应用开发的专业人士不可错过的重磅解读。

AI Engineer
youtube.com
12-11
4337 字 · 约 18 分钟
92
能否证明人工智能在软件工程中的投资回报率?——12 万开发者研究报告,Yegor Denisov-Blanch,斯坦福大学

斯坦福大学基于 12 万开发者的实证研究,系统性地揭示了测量 AI 工具投资回报率的关键要素。研究指出传统的代码行数和拉取请求数量等指标无法准确反映 AI 的真实影响,应采用模拟专家评估的工程产出模型。最核心的发现是代码库健康度与 AI 收益呈 0.40 相关性,整洁的代码能放大 AI 效果,而技术债务会加速熵增。研究还提出了 AI 工程实践基准,帮助团队识别使用 AI 的成熟度阶段。通过真实案例展示了单看 PR 增长 14% 可能掩盖代码质量下降 9% 和返工增加 2.5 倍的事实,最终 ROI 可能为负。这为技术领导者提供了一套超越表面数据的衡量框架。

42章经
xiaoyuzhoufm.com
12-06
1328 字 · 约 6 分钟
93

Dify 创始人路宇在这期播客中深度复盘了两年创业历程,揭示了一个 GitHub 11 万+ star 项目背后的战略思考。他详细阐述了 Dify 如何通过开源、to B、全球化三大战略,在与 LangChain、Coze、GPTs、n8n 等竞品的竞争中找到差异化定位。核心洞察包括:坚持工程价值和模型中立性,从 high code 向智能化的务实转型路径,以及在日本市场意外获得的现象级成功。更有价值的是,路宇分享了对 AI 应用「最后一公里」问题的深刻理解,以及在 AI 对称时代下企业竞争力的重新定义。对于 AI 创业者、产品经理和关注企业级 AI 应用的从业者来说,这是一份不可多得的实战复盘。

真格基金
mp.weixin.qq.com
12-10
9047 字 · 约 37 分钟
93
张涛首次回应争议,Manus 为什么没有被替代?|清华校园行

Manus 联合创始人张涛首次系统回应外界质疑,深度解析通用 Agent 的核心理念「Less structure, more intelligence」。文章揭示了 Manus 如何通过 Zero Predefined Workflow 将任务决策完全交还给模型,在多个 Benchmark 中长期保持领先。张涛分享了从 AI 浏览器转型为通用 Agent 的关键产品决策,Session Replay 在早期传播中的作用,以及应用层团队如何凭借模型选择灵活性对抗 OpenAI 等巨头。

量子位
qbitai.com
12-09
4193 字 · 约 17 分钟
92
起底"豆包手机":核心技术探索早已开源,GUI Agent 布局近两年,"全球首款真正的 AI 手机"

字节「豆包手机」核心技术 UI-TARS 的完整技术演进路径:从开源初代到 UI-TARS-2,如何通过四大核心能力实现系统级 GUI 自动化。技术博主深度拆解揭示 OS 层创新:Virtual Display 并行运行、视觉隔离设计、标准/Pro 双模式技术栈。开发者了解 AI Agent 落地的必读技术解析。

42章经
mp.weixin.qq.com
12-11
9785 字 · 约 40 分钟
92
下一代 AI 交互,会长成什么样子?| 42 章经 AI Newsletter

本文系统梳理下一代 AI 交互的三大方向:个性化软件平台化解决信任与分发问题,AI 语音输入法进化为掌握用户数据的核心交互层,以及参数滑块、反向 Onboarding 等创新设计范式。核心观点是未来产品设计需要系统思维,像建筑一样构建适应多重时间尺度的结构,而非仅关注 UI 细节。

No Priors
youtube.com
12-11
11156 字 · 约 45 分钟
92
No Priors 第 143 集 | 对话 ElevenLabs 联合创始人 Mati Staniszewski

ElevenLabs 联合创始人 Mati Staniszewski 在这期播客中分享了公司如何在三年内达到 3 亿美元 ARR 的增长历程。访谈深入探讨了语音 AI 技术的演进路径,从解决跨语言配音的痛点,到构建完整的创意平台和智能体平台。Mati 详细阐述了如何通过「实验室」模式平衡基础研究与产品开发,让研究团队和工程团队并行工作,确保技术突破能快速转化为产品价值。他特别强调了语音 AI 在教育领域的巨大潜力,认为个性化 AI 导师将彻底改变学习方式。对于关注语音技术发展、AI 产品化策略和创业增长的读者,这是一期信息量丰富的访谈。

腾讯科技
mp.weixin.qq.com
12-10
6877 字 · 约 28 分钟
92
马斯克最新访谈:从 AI、火星到短视频,思考“反常识”生存法则

这篇马斯克访谈深入探讨了 AI 重塑人类劳动的可能性、火星殖民的真实挑战、以及技术加速带来的双刃剑效应。马斯克以反常识的视角颠覆了许多主流认知:火星并非富豪避难所,而是死亡风险极高的硬核试验场;短视频正在侵蚀深度思考能力;文明的延续取决于是否能保持足够的"观影价值"。访谈还揭示了他每日六小时睡眠、专注信息筛选和优先级排序的工作方法。对于思考技术趋势和文明走向的读者,这是一份值得细读的思想素材。

新智元
mp.weixin.qq.com
12-06
6476 字 · 约 26 分钟
92
100 万亿 Token 看懵硅谷!全球一半算力写代码,另一半在「搞颜色」 ?

OpenRouter 和 a16z 联合发布的这份报告,基于过去一年处理的 100 万亿 Token 真实数据,揭示了 2025 年 AI 领域的几个关键转折。开源模型份额已稳定在 30% 左右,其中中国开源模型从 1.2% 暴涨至近 30%;推理优化模型流量占比超过 50%,AI 应用从文本生成转向复杂任务执行;编程占据总流量的 50% 以上,而角色扮演则统治了开源模型 52% 的使用场景。报告还提出了「水晶鞋效应」理论,指出模型留存的关键在于能否在发布时就完美解决特定痛点,而非单纯的价格竞争。这是一份基于海量真实使用数据的行业观察,对理解 AI 市场格局演变很有参考价值。

罗永浩的十字路口
xiaoyuzhoufm.com
12-10
553 字 · 约 3 分钟
94
MiniMax 创始人闫俊杰×罗永浩!大山并非无法翻越

这是一场关于中国 AI 创业独角兽 MiniMax 如何在资源有限的情况下,通过技术理想主义与第一性原理突围的深度对话。创始人闫俊杰与罗永浩探讨了 MiniMax 独特的全模态并行(文本、语音、视频、音乐)研发策略,以及为何不迷信硅谷经验、转而重用中国本土年轻人才的组织哲学。播客不仅涉及了中美 AI 差距(仅 5% 差距但估值差 100 倍)的宏观分析,还深入到了 AI 时代产品经理与工程师边界模糊化的微观职场变革,适合关注 AGI 发展路径、创业组织管理及技术商业化的读者。

122. 朱啸虎现实主义故事的第三次连载:人工智能的盛筵与泡泡

朱啸虎在 2025 年末对 AI 产业的深度复盘,涵盖了从泡沫判断、投资策略到中美竞争的全景观察。他明确指出至少三年内看不到 AI 泡沫,并深入分析了 OpenAI 从 AGI 追求转向日活应用的战略转折。访谈揭示了一个关键洞察:当前 AI 竞争的核心已从模型能力转向超级入口之争。对于创业者,他建议「错开共识 15 度”,聚焦大厂不愿涉足的垂直场景和苦活脏活。基于对移动互联网周期的深刻理解,朱啸虎预测中国 AI 在数据中心和开源生态方面的优势将在 5-10 年内显现。

Founder Park
mp.weixin.qq.com
12-11
10752 字 · 约 44 分钟
92
a16z 年度预测:2026 年,AI 创业的新机会都在垂直行业,AI 产品会走向定制化

a16z 汇集旗下投资人对 2026 年 AI 行业的全面预测,覆盖基础设施、应用和垂直行业三大领域。文章指出,Agent-native 基础设施将成为必需品,核心挑战从算力转向多 Agent 协调能力;消费级 AI 产品的重心将从「帮我做事」转向「懂我内心」,后者有更强的用户粘性;最关键的洞察是 99% 的市场机会存在于传统垂直行业,而非硅谷科技圈。报告还预测,企业软件的价值将从记录系统转向智能执行层,视频将演变为可交互的仿真环境。对于关注 AI 创业方向的创业者和投资人来说,这是一份不可多得的行业前瞻参考。

    BestBlogs.dev 第 76 期:技能 | BestBlogs.dev