跳转到主要内容
精选推送

BestBlogs.dev 第 75 期:深度思考

大家好!欢迎阅读 BestBlogs.dev 第 75 期 AI 精选文章推荐。

本周的关键词是 深度思考 ,它包含两层含义。一层是 AI 正在学会真正的思考,DeepSeek V3.2 首次将思考模式与工具调用融合,GPT-5.1 让推理模型成为默认配置,模型不再只是快速反应,而是开始像人一样先获取信息想清楚再回答。

另一层是我们自己。当 AI 越来越擅长干活,人类反而需要回归最本质的能力:理解世界的结构、判断信息的真假、做出关键决策。腾讯研究院的一篇文章让我印象深刻,认为真正可怕的不是跟不上变化,而是用旧思维赶路。证据优先、逻辑推理、理解不确定性、保持可被推翻的开放心态,这些现代思维的要素,才是我们在 AI 时代真正的底层操作系统。

以下是本周最值得关注的 10 个精彩亮点:

  • 🤖 DeepSeek V3.2 正式发布 ,将思考模式与工具调用深度融合。标准版平衡推理深度与响应速度,V3.2-Speciale 专攻极致推理,在 IMO 和 IOI 中斩获金牌。开源模型在 Agent 能力上迈出了关键一步。

  • 🧠 OpenAI 播客揭示 GPT-5.1 的核心演进:推理模型正式成为默认配置。模型从直觉反应转向类似 System 2 的思维链模式,即便在简单交互中也能显著提升指令遵循能力。另一个有趣的观点是,模型个性被重新定义为记忆功能、上下文窗口与响应风格的 UX 组合,而非拟人化特征。

  • 📚 腾讯技术工程的万字长文从 Scaling Laws 讲到 CoT,再到 PPO、DPO、GRPO 等强化学习算法的内化机制。如果你想系统理解 LLM 如何学会深度思考,这是一份难得的技术地图。

  • ✨ Claude 4.5 Opus 的灵魂文档被公开。这份在监督学习阶段使用的文档,通过叙事和伦理灌输来塑造模型的核心价值观和自我认知,甚至包含针对 Prompt Injection 的防御机制。一个罕见且迷人的对齐视角。

  • 📁 Google 开源的 Agent 开发框架 ADK 提出了一个重要观点:上下文应该被视为一等系统公民,具有自己的架构和生命周期 。存储与表示分离、显式转换、默认作用域限定——这套上下文工程方法论对构建长周期多智能体系统极具实战价值。

  • 🛠️ 如果你想快速掌握 Agent 架构,Datawhale 整理的 17 种主流架构实现(含 ReAct、PEV、黑板系统等)附带端到端 Jupyter Notebook 代码,从概念到落地一步到位。

  • 🎬 Runway Gen-4.5 发布即 SOTA,把视频生成的物理真实感推到新高度——重量、尘土、光影的细节都对了。社区评价:颠覆。

  • 🏢 领英 CPO 揭示产品开发的范式转移:从职能分工转向 AI 赋能的全栈构建者模式 。面对 2030 年 70% 技能将被颠覆的预测,领英正用 APB 取代 APM,重构人才培养体系。这不只是工具升级,而是对人与 AI 协作文化的一次激进实验。

  • 🌏 蔡崇信在港大演讲中解析中国 AI 的独特竞争力:低廉能源、基建优势、系统级优化人才与开源生态。他指出 AI 竞争的终局不在于模型参数大小,而在于实际应用率与数据主权的掌控。

  • 💡 最后推荐腾讯研究院这篇关于认知转变的深度好文。作者指出,当前社会的焦虑并非源于 AI 技术本身,而是因为我们仍试图用依赖权威和追求绝对确定性的前现代思维来理解新技术。在知识贬值的当下,人类应把干活交给 AI,而紧抓思考的主导权。只有建立基于证据、逻辑和接受不确定性的现代思维,才能在人机协作中找到不可替代的位置。

希望本期的推荐能为您带来新的启发。保持好奇,我们下周见!

DeepSeek
mp.weixin.qq.com
12-01
1719 字 · 约 7 分钟
94
DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理

DeepSeek 正式发布 V3.2 系列模型,标志着开源模型在 Agent 能力上的重大突破。V3.2 标准版不仅平衡了推理深度与响应速度,更首创将“思考模式”与工具调用深度融合,显著提升了复杂任务的泛化能力。同步推出的 DeepSeek-V3.2-Speciale 则专攻极致推理,在 IMO(数学奥赛)和 IOI(信息学奥赛)中斩获金牌,性能对标 Gemini-3.0-Pro。两款模型均已开源,为开发者构建下一代具备高智商与执行力的 AI 应用提供了强力基座。

OpenAI
youtube.com
12-02
9850 字 · 约 40 分钟
92
在 GPT-5.1 中塑造模型行为 —— OpenAI 播客 Ep. 11

本期 OpenAI 播客深入探讨了 GPT-5.1 的核心演进,标志着推理模型正式成为所有用户的默认配置。OpenAI 后训练研究主管 Christina Kim 与产品经理 Laurentia Romaniuk 揭示了模型如何从直觉反应转向类似系统 2 的思维链模式,即便在简单交互中也能显著提升指令遵循能力。对话重新定义了模型个性,将其解构为记忆功能、上下文窗口与响应风格的 UX 组合,而非单纯的拟人化特征。对于关注 AI 产品演进的读者,本期内容详细阐述了如何在最大化用户自由与安全边界之间寻找平衡,以及安全补全机制如何替代生硬的拒绝。

Simon Willison's Weblog
simonwillison.net
12-02
561 字 · 约 3 分钟
92
Claude 4.5 Opus 的“灵魂文档”

这篇文章揭示了 Claude 4.5 Opus 训练过程中使用的一份独特的“灵魂文档”。经 Anthropic 确认,该文档在监督学习阶段被用于塑造模型的核心价值观、自我认知和安全原则。内容不仅包含 Anthropic 对 AI 安全和潜在危险的哲学思考,还明确植入了针对 Prompt Injection 的防御机制。这为我们理解顶级 LLM 如何通过非技术手段(即叙事和伦理灌输)来实现对齐提供了罕见且迷人的视角。

Google Developers Blog
developers.googleblog.com
12-04
2624 字 · 约 11 分钟
93
面向生产环境的高效上下文感知多智能体框架设计

这篇文章深入探讨了将 AI 智能体发布到生产环境时面临的上下文管理瓶颈。它旗帜鲜明地指出,单纯增加上下文窗口大小并非长久之计,并提出将上下文视为一个具有架构和生命周期的 一等系统公民——即上下文工程。Google 开源的智能体开发框架( ADK)框架正是基于这一理念构建,它通过存储与表示分离、显式转换和默认作用域限定三大原则,提供了一个分层模型(工作上下文、会话、记忆和工件)和基于管道的处理机制。这对于构建可调试、高效且可靠的长周期多智能体系统极具实战指导价值,是所有严肃 AI 智能体开发者必须研究的系统工程方法。

Datawhale
mp.weixin.qq.com
11-28
13064 字 · 约 53 分钟
93
AI 智能体构建总结:17 种架构详细实现!

开发者必读的 AI Agent 实战手册。文章详解了 17 种主流架构(含 ReAct、PEV、黑板系统等),并附带端到端的 Jupyter Notebook 代码实现。内容涵盖基础模式、多智能体协作、高级记忆与安全机制,直接解决了从概念理解到代码落地的痛点,适合希望快速掌握构建复杂、鲁棒 AI 系统能力的工程师。

LangChain Blog
blog.langchain.com
12-03
1657 字 · 约 7 分钟
92
评估深度 Agent:经验总结与分析

LangChain 团队基于构建 Deep Agents 的实战经验,总结了五条评估深度智能体的关键原则。文章指出,传统的 LLM 评估方法难以应对 Agent 的动态特性,开发者需要为每个数据点编写定制化的测试代码。核心策略包括:采用单步评估验证决策逻辑,利用全量交互测试最终状态,以及构建隔离且可复现的运行环境(如 Docker 容器)。

腾讯技术工程
mp.weixin.qq.com
11-28
9820 字 · 约 40 分钟
92
2025 必看系列:AI 如何重新定义研究?万字长文讲透 Deep Research

这篇万字长文系统性拆解了 2025 年 AI 应用的核心风口——Deep Research。文章详尽梳理了 AI Agent 从被动检索(RAG)向主动探索进化的技术路径,深入剖析了由规划、问题演化、网页探索和报告生成构成的通用架构。作者不仅对比了 OpenAI 和 Qwen 等主流系统的优劣,更关键地指出了当前系统过度依赖公网数据的局限性。通过腾讯 Dola 的案例,文章展示了如何通过融合“非结构化公域数据 + 结构化私域数据”,有效解决幻觉问题并提升商业决策的可靠性。

AI Engineer
youtube.com
12-02
4875 字 · 约 20 分钟
92
构建 Cursor Composer – Lee Robinson,Cursor

Lee Robinson 深入揭秘了 Cursor Composer 的构建过程,这是一个旨在打破速度与智能零和博弈的软件工程 AI 智能体。Cursor 团队通过强化学习和自定义内核优化,在保持接近前沿模型智能水平的同时,实现了 4 倍的 Token 生成效率。视频详细探讨了如何利用云端环境进行训练、实现并行的工具调用(如 grep、shell)以及语义搜索对提升智能体代码导航能力的重要性。

Lenny's Podcast
youtube.com
12-04
23538 字 · 约 95 分钟
92
领英如何赋能产品经理,转型为 AI 驱动的“全栈构建者” | Tomer Cohen (领英首席产品官)

领英 CPO Tomer Cohen 在本期播客中揭示了产品开发的重大范式转移:从职能分工转向 AI 赋能的 全栈构建者 模式。面对 2030 年 70% 技能将被颠覆的预测,领英正通过重构底层平台、开发深度定制的内部 AI Agents,以及彻底改革人才培养体系(用 APB 取代 APM),实现研发效率的质变。这不仅是工具的升级,更是对“人+AI”协作文化的一次激进实验,为大型组织如何跨越 AI 转型的深水区提供了实战蓝图。

Founder Park
mp.weixin.qq.com
12-02
7859 字 · 约 32 分钟
92
把 AI 邮件工具做到 3500 万美元 ARR,Superhuman:找到 PMF 其实有明确的方法论

这篇文章详细拆解了 Superhuman 创始人 Rahul Vohra 提出的「PMF 引擎」框架,展示了如何将抽象的创业目标转化为可量化的指标。核心策略包括利用 Sean Ellis 的 40% 门槛(即 40% 用户若无法使用产品会感到非常失望)来验证契合度,通过精准的用户细分锁定「高期望客户」,并采用 50/50 的路线图策略:一半资源巩固核心优势,一半解决阻碍增长的短板。这为 SaaS 创业者提供了一套从 0 到 1 验证需求的系统化方法。

Founder Park
mp.weixin.qq.com
12-04
4317 字 · 约 18 分钟
92
估值 7 亿美元的 AI 语音输入产品:语音输入的关键问题是听写,不是转录

Wispr Flow 提出 AI 语音输入的未来在于听写而非转录,即不仅记录语音,更要利用上下文理解用户意图。该产品通过 89% 的零编辑率,试图消除键盘输入的认知负荷。创始人认为,真正的 AI 助手应是具备全局记忆的智能层,而非孤立工具,有望引领后键盘时代的沟通变革。

Product School
youtube.com
12-01
5778 字 · 约 24 分钟
92
人工智能时代需要反思的经典产品规则 | 前任 Zalando 产品负责人

传统 PM 经验在 AI 领域可能完全失效。本视频揭示了 10 个核心转变:从确定性结果到概率性管理,从客户反馈到数据反馈,从 UX 为王到“信任即易用性”。这是帮助产品经理从“发布功能”转向“训练系统”的必修课,强调了在不确定性中建立动态 KPI 和跨学科协作的重要性。

Web3天空之城
mp.weixin.qq.com
11-29
17382 字 · 约 70 分钟
93
完整版: 蔡崇信 11 月港大深度解读-中国 AI 的独特优势与未来十年的技术驱动力 | 图解+全文 1.7 万字, 附视频

蔡崇信解析中国 AI 的独特竞争力:低廉能源、基建优势、系统级优化人才与开源生态。他认为高科技制造业与技术自立是未来十年的经济引擎,指出 AI 竞争的终局不在于模型参数大小,而在于实际应用率与数据主权的掌控。

量子位
qbitai.com
12-03
20981 字 · 约 84 分钟
92
OpenAI 首席研究员 Mark Chen 长访谈:小扎亲手端汤来公司挖人,气得我们端着汤去了 Meta

这是一篇对 OpenAI 首席研究员 Mark Chen 的深度访谈,揭示了这家被视为 AGI 领头羊公司的内部战略。Mark 详细讲述了 OpenAI 如何在与 Meta 的激烈人才争夺战中保持核心团队稳定,并强调公司本质上仍是一家“纯 AI 研究公司”。核心看点包括:OpenAI 坚信 Scaling Law 未死,正重注 Pre-training 以应对 Gemini 3 的挑战;公司致力于打造 AI for Science 以加速科学发现;以及在 AGI 进程中对模型“谋划”行为的独特安全考量。

Jina AI
mp.weixin.qq.com
12-02
11404 字 · 约 46 分钟
92
Jina AI 创业复盘:AI 团队的 Scaling Law 是什么

Jina AI 创始人肖涵复盘被 Elastic 收购前的三次战略转型与生存哲学。他指出在快速迭代的 AI 浪潮中,极致的聚焦和执行力是唯一壁垒。文章探讨了“小模型”商业化的天花板、团队规模与产出效率的悖论,以及“生产力提升 ≠ 价值捕获”的商业现实,是 AI 创业者必读的实战启示录。

121. 对 DeepMind 谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5 和 Google

Google DeepMind 谭捷解密机器人前沿。核心亮点:Gemini Robotics 1.5 通过思维链实现复杂任务分解,利用 Motion Transfer 技术让不同机器人共享学习经验,从根本上应对数据匮乏。谭捷认为 Sim-to-Real 和合成数据是未来关键,预判机器人领域的“GPT 时刻”将在 2-3 年内到来,但家庭普及仍需 5-10 年。

腾讯研究院
mp.weixin.qq.com
11-28
9868 字 · 约 40 分钟
92
AI 时代的迷失:可怕的不是跟不上变化,而是用旧思维赶路

这是一篇关于 AI 时代认知重构的深度好文。腾讯研究院特约作者马兆远教授指出,当前社会的焦虑并非源于 AI 技术本身的迭代,而是因为我们仍试图用依赖权威和追求绝对确定性的“前现代思维”来理解新技术。文章犀利地批判了 AGI 被资本过度神化的现象,从图灵机理论边界论证了 AI 的局限性。作者主张,在知识贬值的当下,人类应将“干活”的计算任务交给 AI,而紧抓“思考”的主导权。只有建立基于证据、逻辑和接受不确定性的“现代思维”,才能在人机协作中找到不可替代的位置。

    BestBlogs.dev 第 75 期:深度思考 | BestBlogs.dev