大家好,欢迎阅读 BestBlogs.dev 第 60 期 AI 精选。
本周,开源大模型的实用化演进再次提速。DeepSeek 与字节跳动相继发布新品,带来了可切换推理模式与原生 512K 超长上下文等创新特性。在开发者生态中,上下文工程的讨论从理论走向实践,JSON 提示词与系统性评估正成为构建可靠 AI 应用的基石。产品层面,从手机通用智能体到 AI 陪伴硬件,越来越多贴近真实生活场景的应用开始涌现,而行业领袖们则在深度访谈中,为 AI 时代的创业与组织变革指明了方向。
希望本期的精选内容能为您带来启发。我们下周再见!
DeepSeek 正式发布 V3.1 模型,核心亮点包括创新的混合推理架构,使其能同时支持“思考模式”与“非思考模式”,并能自由切换。新模型通过 Post-Training 优化,大幅增强了在编程智能体(SWE、Terminal-Bench)和搜索智能体(browsecomp、HLE)任务中的表现。在思考效率方面,V3.1-Think 模式在保持性能的同时,能将输出 token 数减少 20%-50%,显著提升了响应速度,并带来潜在的成本效益和资源优化。API 服务已同步升级,上下文扩展至 128K,支持严格模式的 Function Calling 和 Anthropic API 格式。同时,DeepSeek-V3.1 的 Base 模型和后训练模型已在 Hugging Face 和魔搭开源。文章还提到了 API 价格将于 2025 年 9 月 6 日进行调整,这可能会对用户的长期使用成本和策略产生影响。
字节跳动突发开源其 360 亿参数大模型 Seed-OSS-36B,采用 Apache-2.0 协议,可免费用于学术和商业。该模型最显著的特点是原生支持 512K 超长上下文,是当前主流开源模型的 4 倍,且在预训练阶段构建,而非后期插值。此外,Seed-OSS 引入了独特的“思考预算”机制,允许用户通过设定 token 数量控制模型推理深度。模型架构稳定,采用 RoPE、GQA 等技术。在 MMLU-Pro、BBH、GSM8K、MATH 和 HumanEval 等基准测试中,Seed-OSS-36B 的知识理解、推理和代码能力均表现出色,尤其在 BBH 推理能力上刷新了开源模型记录。文章还提及字节 Seed 团队的其他开源项目,如 Seed-Coder、BAGEL、Seed Diffusion 等,展示了其在基础模型和 AI 基础设施方面的实力。Seed-OSS 的开源为国产大模型生态增添了一员猛将。
文章详细介绍了通义千问团队最新开源的 Qwen-Image-Edit 模型。该模型基于 20B 的 Qwen-Image 模型进一步训练,成功将 Qwen-Image 的文本渲染能力拓展到图像编辑任务,实现精准文字编辑。其核心特性在于支持语义/外观双重编辑,这得益于将输入图像同时送入 Qwen2.5-VL(获取视觉语义控制)和 VAE Encoder(获得视觉外观控制)。模型能处理保持语义不变的 IP 创作、视角转换、风格迁移等高级编辑,也能进行增删改、修复等局部外观编辑。文章通过丰富的示例图展示了模型在原创 IP 编辑、MBTI 表情包制作、视角转换、虚拟形象生成、物体增删、文字修复、海报编辑等多种场景下的强大效果。此外,文章还提供了模型推理的 Python 代码示例以及基于 DiffSynth-Studio 进行 LoRA 微调的详细步骤和示例数据集,极大地降低了开发者使用和定制模型的门槛。
文章以一个经典的 PyTorch 手写数字识别代码示例为引子,系统地剖析了深度神经网络(DNN)训练的五大核心步骤。首先详细解释了前向传播过程中的线性变换、非线性激活函数(如 ReLU)、以及用于解决过拟合的 Dropout、用于稳定训练的归一化(BatchNorm、LayerNorm)和用于解决退化问题的残差连接等关键概念及其作用。接着阐述了损失函数(如交叉熵、均方误差)和正则化(L1、L2)在衡量模型误差和防止过拟合中的应用。随后深入探讨了反向传播的数学原理(链式法则、梯度)和 PyTorch 自动求导机制。文章进一步介绍了梯度下降优化算法及其局限性,并引出了 Adam 等改进型优化器,同时简要提及了梯度消失/爆炸问题。最后,总结了循环训练(Epoch、Batch)的迭代过程。整体内容深入浅出,辅以代码示例和图示,帮助读者全面理解 DNN 训练的完整流程。
文章详细解读了 OpenAI 发布的 gpt-oss-20b 和 gpt-oss-120b 两款开放权重模型,并追溯了它们自 GPT-2 以来的架构演变。核心变化包括移除 Dropout、采用旋转位置嵌入(RoPE)、使用 Swish/SwiGLU 激活函数、引入混合专家模型(MoE)、分组查询注意力(GQA)以及滑动窗口注意力、替换为 RMSNorm 归一化。文章还深入对比了 gpt-oss 与顶级开放模型 Qwen3 在模型宽度与深度、专家数量配置、注意力偏差和 sinks 等方面的设计差异。此外,文章重点介绍了 MXFP4 量化优化如何让 gpt-oss 模型在单 GPU 上运行,显著降低了部署门槛。最后,文章探讨了 gpt-oss 独特的推理工作量控制能力,并分析了其基准测试表现和潜在的幻觉倾向,强调了工具集成的重要性。
文章深入解读了 Google DeepMind 首席科学家 Denny Zhou 在斯坦福大学 CS25 课程中对大语言模型推理能力的权威观点。他提出 LLM 推理的关键在于生成一系列中间 token,而非简单地扩展模型规模,这种机制使 Transformer 模型能变得极其强大。文章阐述了预训练模型本身已具备推理能力,但需要通过链式推理解码、提示技巧(如思维链)、监督微调(SFT)以及当前最强大的强化学习微调(RLHF)来有效激发和呈现。Denny Zhou 特别强调 RLHF 通过机器生成数据实现模型自我提升的潜力,并指出聚合多个响应(自一致性)和结合检索机制能够显著提升 LLM 的推理能力。最后,他呼吁 AI 研究应从单一基准测试转向构建更实际的应用程序,强调学习的可扩展性是 AI 发展的核心。
这篇文章是对 Chroma 首席执行官 Jeff Huber 的采访,提出了一个引人深思的观点:“RAG 已死”,“上下文工程为王”。Huber 认为,随着 AI 工作负载从简单的聊天机器人发展为复杂的代理,并且上下文窗口大小不断扩大,采用更复杂的方法来管理和利用上下文至关重要。他强调要超越从演示到生产的 AI 开发的“炼金术”,转向更具工程驱动的过程。讨论深入探讨了用于 AI 的现代搜索基础设施的复杂性,根据工具、工作负载、开发人员和消费者将其与经典搜索系统区分开来。Huber 提供了五个实用的检索技巧,并概述了详细的摄取和查询管道,包括混合召回、重排序和尊重“上下文腐烂”。他还谈到了 Chroma 的历程,其对开发者体验的关注,以及在竞争激烈的 AI 市场中强大的公司文化的重要性。核心信息围绕着为构建可靠且高性能的 AI 应用程序而进行有条理的、结构化的上下文管理的必要性。
文章以编译原理为理论基础,深刻阐述了 AI 编程(或 AI 系统开发)中从 Prompt Engineering 到 Context Engineering,再到 Anthropic 的 Think Tool 的演进路径。作者首先回顾了语言形式化的必要性,并引入乔姆斯基谱系作为衡量语言形式化程度的标尺,指出其在表达能力与可预测性间的权衡,并将其类比到当前 AI 工程师面临的困境。接着,文章详细分析了 Prompt Engineering 的非形式化弱点及 Context Engineering 如何通过结构化上下文提升系统可靠性。最后,重点介绍了 Think Tool 如何通过显式推理实现可验证性和策略遵循,超越了传统的 CoT 范式,预示着 AI 编程将走向更严格的形式化和可验证性,如同编译器正确性证明一般,这对于在高风险、安全攸关的领域部署自主智能体至关重要。
文章深入探讨了 JSON 提示词在人工智能交互中的核心作用与巨大优势。作者首先介绍了 JSON 提示词的基础概念,并将其与传统文本提示词进行对比,强调了 JSON 结构化输入在清晰度、一致性和完整性上的显著优越性。接着,文章从 AI 模型训练模式的角度解释了 AI 对结构化数据敏感的科学依据,指出 JSON 提示词能有效降低歧义和认知负荷,从而提升 AI 性能。文章还回顾了 JSON 提示词从简单指令到企业级大规模应用的发展历程,并通过具体案例展示了其在内容生成、营销自动化、客户服务等领域的实际应用效果,包括显著提升精准度、实现一致性规模化、无缝系统集成以及大幅降低错误率。最终,文章强调 JSON 提示词已成为构建可靠 AI 系统的关键技术,为企业提供了重要的竞争优势。
文章深入探讨了 AI 产品开发中评估(Evals)的重要性,指出其在 AI 产品下半场比模型训练更关键。它将 Evals 比作 AI 系统的“驾照考试”,详细介绍了人工 Evals、基于代码的 Evals 和基于 LLM 的 Evals 三种方法,强调了“LLM-as-judge”模式的可扩展性。文章还提供了构建 Evals 的迭代流程,包括数据收集、初步评估、迭代优化和生产环境监控,并列举了幻觉、恶意/语气、总体正确性等通用评估标准。最后,文章给出了 Evals 设计应避免的常见错误和快速上手的具体步骤,强调 Evals 是确保 AI 系统持续创造价值的关键。
本文详细介绍了如何基于大语言模型(LLM)构建新一代智能编程助手。文章首先回顾了代码智能化的演进,从传统补全到 Agent 形态的转变,并指出 LLM 在提升研发效率、降低记忆负担和跨越知识鸿沟方面的巨大潜力。接着,文章深入阐述了 Agent 的技术架构,包括用户界面、核心功能(计划执行、工具调用)以及基础能力(代码知识图谱、LLM 适配器)。重点讲解了 Prompt 结构设计、上下文感知机制(如代码知识图谱的构建与消费、模型副作用、用户操作信息跟踪)以及多轮对话中的记忆管理策略(截断、压缩摘要、工程折中)。为解决成本问题,文章还介绍了 Prompt 缓存的实践。此外,文中通过贪吃蛇游戏的开发、功能添加和错误修复等实际案例,生动展示了 Agent 与 IDE 深度集成的强大能力。最后,文章总结了模型不确定性、服务稳定性和 Prompt 调试等工程落地挑战,并展望了认知增强、工具整合、集体智能与多 Agent 协作以及自主性提升等未来发展方向。
文章深入介绍了 Anthropic 推出的 AI 辅助编程命令行工具 Claude Code,它将强大的 Claude AI 模型与开发者熟悉的终端环境相结合,极大地提升了开发便利性。文章详细阐述了 Claude Code 的五大核心优势:原生终端集成、自定义斜杠命令、Sub-Agents 多角色协作、强大的项目控制与个性化配置以及 SDK 与系统集成。针对国内用户,文章提供了两种实用的使用方案:通过兼容 Claude API 的 Kimi 平台,或搭建开源的 claude-code-proxy 项目来连接 OpenAI 兼容 API。此外,文章还详细讲解了 Claude Code 的各项高级功能,如权限配置、记忆管理、自定义斜杠命令、Subagents 的创建与应用、Hooks 事件机制以及 MCP 工具集成,并提供了丰富的配置示例和安全警告,为开发者提供了全面且可操作的指南。
文章深入评测了尚未正式发布的神秘 AI 绘图模型 Nano Banana,该模型目前仅在 LMArena 盲测中随机出现,但被作者和社区普遍认为是 Google 旗下产品。核心亮点在于其惊人的人物一致性,能够完美保留参考图的面部特征和表情,远超 GPT-4o、Flux 和 Seedream 等现有主流模型。文章通过多个实际案例,包括单主体动作迁移、多主体人物替换、背景替换、主体与背景结合、人物情绪表现、细节修改及风格转换等,详细对比了 Nano Banana 与其他模型的表现,结果显示 Nano Banana 在绝大多数测试中都取得了压倒性胜利。作者强调了 Nano Banana 在生成视频封面等需要高度人物一致性的场景中的实用价值,并提供了在 LMArena 上体验该模型的方法。文章总结认为 Nano Banana 是当前 AI 绘图领域的人物一致性之王,展现了 Google 在 AI 领域的全面领先实力。
文章详细介绍了智谱最新发布的全球首个手机通用 Agent——AutoGLM。其核心创新在于采用云端执行模式,为用户提供“云手机”或“云电脑”环境,从而解决传统本地 Agent 算力限制和资源占用问题,实现复杂任务的跨应用自动化处理,如点外卖、多平台比价、生成报告和 PPT 等。该产品基于纯国产的 GLM-4.5 和 GLM-4.5V 模型,免费向大众开放,并提供 API 支持开发者生态。AutoGLM 是智谱迈向 AGI(L3 自主学习智能体)的关键一步,也顺应了 Agent“云端执行”的行业趋势,预示着 AI Agent 将从“告诉你怎么做”进化到“直接帮你做”,极大提升了 AI 的实用性和用户体验。
文章通过对珞博智能创始人孙兆治的深度访谈,探讨了 AI 陪伴硬件产品“芙崽”的设计理念、市场定位及商业化策略。孙兆治从具身智能赛道转向 AI 陪伴,指出在 AI 硬件探索受挫的背景下,从用户真实需求出发,聚焦情绪价值而非生产力价值是关键。芙崽作为一款 399 元的 AI 养成系潮玩,通过毛绒外观、眨眼屏幕、触摸语音及“共享记忆”系统,旨在成为 Z 世代的“数字宠物”,缓解其孤独感。文章强调了产品设计中的“减法”哲学、颜值作为第一生产力,以及大模型(如 DeepSeek)对 AI 陪伴产品爆发的推动作用。同时,它深入阐述了 AI 如何通过意图理解、情绪抽取、性格养成和“Echo Chain”记忆体系来模拟生命感,并提出“AI 搭子”将成为一个重要的离散市场。
文章通过对 YouMind 创始人玉伯的访谈,深入剖析了其 AI 创作工具 YouMind 的定位、核心理念和未来愿景。YouMind 被定义为一个为创作者提供高效找资料和写稿服务的 AI 工具,其核心理念在于从传统的“知识管理”转向强调高质量交付的“项目制创作”。文章详细阐述了 YouMind 如何通过深度研究、高度可编辑性与用户掌控感,赋能专业创作者及兴趣爱好者,实现“万物成稿,稿生万物”的端到端 AIGC 工作流。玉伯提出了“剪藏即点赞”的独特观点,指出用户剪藏行为为 AI 提供了宝贵的个性化偏好数据,从而使 AI 工具能更精准地理解和响应用户需求。此外,访谈还分享了玉伯“快而不急”的创业节奏感,以及“上下文是一切”的创业心法,强调了自我认知和情境判断在快速变化时代的重要性。最后,文章展望了 YouMind 成为“创作者的 GitHub”的社区愿景,旨在通过社区激发创作动机,进一步降低创作门槛,构建一个正向的创作生态。
文章深入访谈了 Perplexity 联合创始人兼 CEO Aravind Srinivas,核心探讨了其智能体浏览器 Comet 的定位与未来。Aravind 提出,Comet 旨在成为一个能自动化处理重复性任务的 AI 操作系统,通过将“智能”与“上下文”深度结合,尤其强调浏览器作为获取用户工作与生活全面上下文的终极载体。他认为,AI Agent 的成功关键在于此。Perplexity 采取“颠覆者”策略,在产品尚不完美时即推向市场,旨在开创“智能体浏览器”新品类,并坚信订阅模式足以支撑千亿美元级业务。此外,Aravind 还阐述了对 AI 硬件的看法,认为当前阶段移动浏览器比新型硬件更关键,因为它能以更安全、用户友好的方式获取上下文。文章也提及了 Perplexity 在基础设施建设、商业模式考量以及与谷歌竞争中的独特分发策略,并展望了 AI Agent 作为数字劳动力“自动驾驶仪”的未来。
文章详细报道了 Google Pixel 10 系列智能手机的发布,重点阐述了其核心亮点——首次完全自主设计的 Tensor G5 芯片。该芯片采用台积电 3nm 工艺,CPU 和 TPU 性能大幅提升,为 Gemini 端侧 AI 体验奠定了硬件基础。文章深入介绍了 Gemini 带来的创新功能,如「魔法提示」、「相机教练」和「最佳合照」,展现了手机从「被动工具」向「主动助理」的转变。此外,文章还提及了 Pixel 10 系列在影像系统、eSIM 普及、Pixelsnap 磁吸生态等方面的硬件迭代,还详细介绍了 Pixel 10 Pro Fold 作为全球首款 IP68 折叠屏手机的耐用性特点,以及同步发布的 Pixel Watch 4 和 Pixel Buds 2a 中集成的 Gemini 驱动的个人健康教练服务和智能助手功能。作者认为,Pixel 10 系列是谷歌在 AI 手机赛道交出的「逻辑自洽且完成度极高」的答卷,强调了软硬件深度垂直整合对实现真正智能的重要性。
文章深入整理了吴恩达对当前 AI 浪潮的最新思考。他首先澄清了“能动 AI”(Agentic AI)的定义,并指出其实现的最大障碍并非技术本身,而是缺乏懂得如何通过严谨评估来驱动系统迭代的人才和流程。吴恩达强调,AI 辅助编码正显著提升开发效率,导致创业公司的核心瓶颈从工程实现转向产品决策,这要求创始人具备更强的用户同理心和技术直觉,以极快的速度做出产品判断。他进一步指出,在技术快速发展的 AI 时代,掌握生成式 AI 技术的“技术导向型产品领导者”将比纯商业导向者更易成功。最后,吴恩达预言未来属于由少数顶尖人才和强大 AI 工具赋能的“小而精”团队,这种高效组织模式将重塑人才招聘和各行业的工作性质,赋予个体前所未有的力量。
文章围绕 OpenAI 最新模型 GPT-5 的发布争议展开,指出其在企业级复杂任务(如编码、长篇推理)上表现卓越,尽管在消费级应用中因任务“饱和效应”导致提升感知不明显。OpenAI 联创 Greg Brockman 在访谈中深入阐述了公司从“下一词预测”到“推理范式”的演进,强调强化学习在提升模型可靠性与泛化能力中的关键作用。他指出算力是 AI 发展的永恒瓶颈,但模型成本已实现惊人下降,并展望了 AI 模型从“象牙塔”走向现实世界、成为人类智力伙伴的未来。文章还讨论了代理稳健性以及 AI 对软件工程和整个社会经济的深远影响。
文章详细解读了知名风投 Bessemer Venture Partners 的《The State of AI 2025》年度报告。报告首先分析了当前 AI 创业的两种模式:「超新星」和「流星」,并更新了 AI 时代初创企业的增长基准,同时指出了增长信号误导性、竞争激烈及行业不可预测性等挑战。接着,文章深入探讨了 AI 在基础设施(如 AI 基础设施的“第二篇章”)、开发者平台(如模型上下文协议 MCP)、企业级应用、垂直领域及消费级应用五大方向的演进路线图,特别强调了“记忆”和“上下文”在 AI 应用中构建护城河的重要性。最后,报告提出了五项关键预测,包括 AI 浏览器竞争、生成式视频普及、评估与数据溯源成为开发刚需、AI 原生社交媒体兴起以及行业并购潮。文章为 AI 从业者提供了未来发展趋势和创业机会的深度洞察。
本期《全球大模型季报》聚焦当前 AI 大模型领域两大关键词:分化与产品。首先,播客分析了头部模型公司(如 OpenAI 和 Google)向通用能力发展,而 Anthropic、Thinking Machines Lab 等则选择在编码、Agent、多模态交互等特定领域进行深度分化。其次,节目强调了产品在 AI 时代的重要性,指出过去过度关注智能探索的模式正在转向对产品化和用户体验的重视。嘉宾认为,成功 AI 产品的关键在于提供 L4 级别的“惊叹时刻”体验,如 ChatGPT 的 Deep Research 和 Claude Code,这些产品能有效将模型红利转化为品牌和商业价值,构建非技术性壁垒。面对头部公司(如 OpenAI 和 Google)的全家桶策略和纵向垂直整合,AI 创业公司面临巨大挑战,需寻找非共识机会,深耕垂直领域或创新产品形态以避开正面竞争。最后,播客还探讨了 AI 投资策略,指出技术变化迅速,头部公司价值收敛,投资人需支持最具潜力的创业者,并分享了对华人 AI 创业者的乐观展望,以及对 AGI 泡沫和未来科技融合趋势的看法。
本期播客是罗永浩与理想汽车创始人李想长达四小时的马拉松访谈。李想首次公开讲述了他从少年时期在乡下成长、受家庭影响培养出乐观与自律,到高中时代通过写稿、组装电脑和创建个人网站实现财务独立,开启创业之路。他详细回顾了从泡泡网、汽车之家到理想汽车的多次创业经历,包括互联网泡沫、资金链断裂、产能地狱以及面对网络黑公关等至暗时刻,展现了其坚韧的意志和解决问题的智慧。访谈深入探讨了理想汽车选择增程式技术、构建核心团队、应对供应链挑战、以及产品设计和用户定位的策略。此外,李想还分享了他对人工智能未来发展阶段的看法,以及家庭观念如何影响其创业和产品思维。整期节目不仅是李想的个人奋斗史,更包含了他对商业模式、人才管理、学习迭代、公关策略等方面的深刻洞察和反常识的思考,为技术从业者,尤其是创业者和管理者提供了宝贵的经验借鉴。
本文作为一份月度技术观察报告,全面回顾了 2025 年 7 月全球人工智能领域的最新进展。在“趋势观察”部分,文章重点指出国产大模型如 K2、GLM-4.5 等在编程、Agent 及多模态能力上已完全不输海外第一梯队,且大量以开源形式发布,凭借开源生态和性价比优势,显著巩固了中国在 AI 竞争中的“主场”地位,宣告中美在语言模型领域进入同等水平竞争。同时,文章也观察到图像、视频、音频领域正向“理解后生成”的理念发展,3D 生成技术突破了单一物体限制,开始实现可组合零部件和完整场景生成。AI Coding 正向 L4 全自动编程迈进,垂直 Agent 赛道如金融、影像等加速扩展。行业并购整合频繁,预示 AI 产业正从“春秋”迈向“战国”时代。在“时光机”部分,文章按日期详细罗列了当月重要的模型开源、应用发布、融资并购等事件,涵盖了智谱、阿里巴巴、月之暗面等中国科技巨头在开源 AI 领域的积极布局,以及 Hugging Face、Google、OpenAI 等国际公司的最新动态,为读者提供了全面的行业图景。