文章
文章详细介绍了 OpenAI 最新发布的 GPT-5-Codex,这是一款针对智能体编程任务进行优化的 GPT-5 模型。它在真实软件工程任务中表现出色,能够快速响应交互式会话,并独立完成长达 7 小时的复杂任务,包括项目构建、功能开发、测试编写、调试和大规模重构。GPT-5-Codex 的代码审查能力尤为突出,能主动发现关键漏洞,在 OpenAI 内部已审查绝大多数 PR。该模型在 SWE-bench Verified 和 Code refactoring tasks 基准测试中均优于 GPT-5,并能根据任务复杂度动态调整思考时间。同时,文章还介绍了 Codex 平台的一系列升级,包括全新设计的开源 Codex CLI(支持图片输入、待办清单、工具调用和权限管理)、支持 VS Code 等 IDE 的插件(提供上下文感知、云端本地无缝切换)以及与 GitHub 的深度集成。OpenAI 还强调了 Codex 的安全措施,如默认沙箱环境、权限机制和可配置安全设置。Codex 已包含在 ChatGPT 的 Plus、Pro、Business、Edu 和 Enterprise 订阅中,并计划很快通过 API 开放 GPT-5-Codex。
文章详细介绍了阿里通义团队开源的下一代大语言模型架构 Qwen3-Next。该模型总参数 80B,但仅激活 3B 参数,实现了训练成本直降 9 成、推理吞吐提升 10 倍以上的突破。其核心创新包括:结合 Gated DeltaNet 和 Gated Attention 的混合注意力机制,旨在优化长上下文处理;采用 512 个专家、10 个路由专家和 1 个共享专家的极致稀疏 MoE 结构,仅激活 3.7%参数;多项训练稳定性友好设计(如 Zero-Centered RMSNorm);以及原生 Multi-Token Prediction(MTP)机制以提升推理效率。Qwen3-Next-80B-A3B 模型在性能上媲美 Qwen3 旗舰版,并在多项评测中超越 SOTA 密集模型,展示了极高的训练和推理性价比。模型已开源并上线 HuggingFace 等平台,为大模型未来趋势(上下文长度和参数量扩展)提供了高效解决方案。
文章详细阐述了在智能体时代,为大语言模型(LLM)智能体编写工具的新方法和关键原则。传统软件开发依赖确定性逻辑,而智能体是非确定性的,这要求我们重新思考工具设计。文章首先介绍了构建工具原型的步骤,包括向 Claude Code 提供相关文档和在本地进行测试。接着,它强调了通过生成评估任务、运行评估和分析结果来衡量工具效果的重要性,并提供了高质量与低质量评估任务的示例。文章还提出了编写高效工具的六大原则:选择合适的工具(精简且整合)、为工具设置命名空间、返回有意义的上下文(避免低级标识符)、优化工具响应以提高 token 效率、以及快速构建清晰的工具描述。最后,文章指出智能体与世界的交互机制将不断演变,系统化的评估是确保工具随智能体能力提升而发展的关键。
该文章详细介绍了 EvolKV 框架,旨在解决大语言模型(LLM)推理过程中 KV Cache 内存占用过高的问题。现有 KV Cache 压缩方法多依赖启发式规则,未能充分考虑 Transformer 层的功能差异及缓存与任务性能的动态关系。EvolKV 通过引入进化算法,将每层 KV Cache 预算视为优化变量,并将其分组,迭代搜索能直接最大化下游任务适应度得分(如准确率、F1 分数)的最优组别配置。这种任务驱动的逐层分配机制,使得 EvolKV 能够实现细粒度、性能感知的缓存分配,自动适应各组或层的功能贡献。实验在 Mistral 7B-Instruct 和 Llama-3-8B-Instruct 模型上进行,涵盖长上下文检索、长上下文推理和数学任务等多个基准测试。结果显示,EvolKV 在 LongBench、NIAH、RULER 和 GSM8K 等任务上均显著优于现有基线方法,尤其在 LongBench 上,仅使用完整模型 1.5%的 KV Cache 预算,其性能便超越了完整模型,并在 GSM8K 上以 128 KV Cache 预算保持了完整模型性能的 95.7%。这一突破性成果为 LLM 实际部署中的内存优化提供了全新高效的解决方案。
文章详细介绍了快手可灵团队最新发布的数字人技术 Kling-Avatar,该技术旨在将数字人从简单的语音对口型提升到能够根据用户意图进行生动表演的水平。Kling-Avatar 的核心是一个由多模态大语言模型赋能的两阶段生成框架。首先,一个多模态导演模块(MLLM Director)将音频、图像和文本提示整合为结构化的故事线,生成一段全局一致的蓝图视频。其次,基于蓝图视频的关键帧,系统采用并行合成的级联生成方式,结合音频对齐插帧策略,高效生成分钟级长视频,确保口型同步和身份一致性。文章还详细阐述了口型对齐、文本可控性、身份一致性等训练与推理策略,并介绍了高质量训练数据管线和包含 375 个样本的测评基准。实验结果显示,Kling-Avatar 在总体效果、口型同步、画面质量、指令响应和身份一致性等多个维度上均超越了现有先进产品如 OmniHuman-1 和 HeyGen,尤其在复杂发音和长时视频生成方面表现出色。目前该功能已在可灵平台开启公测,标志着数字人技术在表达深度上的重要突破。
文章详细介绍了小红书智创音频技术团队发布的 FireRedTTS-2 对话生成模型。该模型旨在解决现有对话合成方案在灵活性、发音错误、说话人切换稳定性及韵律自然度方面的痛点。通过升级离散语音编码器(具备低帧率、强语义信息且支持流式解码)和文本语音合成模型(支持逐句生成、采用双 Transformer 架构),FireRedTTS-2 在多项主客观评测中均达到行业领先水平。它不仅支持多语言和随机音色生成,还具备音色克隆能力,仅需少量语音样本即可模仿特定音色。FireRedTTS-2 为 AI 播客、智能客服等对话合成应用提供了工业级解决方案,显著提升了语音合成的自然度和稳定性。
文章详细介绍了腾讯优图实验室开源的 Youtu-GraphRAG 框架,旨在解决当前图检索增强生成(GraphRAG)技术面临的开销巨大、效果瓶颈和适配成本高等三大痛点。该框架通过创新的算法优化,在六个跨领域多语言基准测试中,实现了构图成本节省 30%+ 和复杂推理准确率最高 16%+ 的显著提升。Youtu-GraphRAG 的核心技术架构包括 Schema 引导的层次化知识树构建、结构语义双重感知的社区检测以及智能迭代检索机制,这些创新共同构建了一个垂直统一、认知闭环的解决方案。框架支持多跳推理与总结、知识密集型任务和跨域扩展应用等核心场景,并具备统一配置管理、高性能架构和企业级扩展性等优势。文章还提供了快速启动指南和社区贡献方向,旨在推动 GraphRAG 技术向落地可用阶段迈进,并鼓励开发者参与共建。
文章详细介绍了蚂蚁集团与中国人民大学联合团队在扩散语言模型(dLLM)领域的最新突破——LLaDA-MoE。该模型是业界首个从零开始训练的原生 MoE 架构扩散语言模型,通过 20T 数据训练,成功验证了其大规模训练的可扩展性和稳定性。LLaDA-MoE 以仅 1.4B 的激活参数,实现了与 3B 参数的自回归稠密模型 Qwen2.5-3B 相当的性能,并在推理速度上具有数倍优势,有效解决了**自回归模型的固有缺陷,如**长文本计算成本高、生成速度慢及“反转诅咒”等问题。文章还深入探讨了扩散语言模型能够成功的理论基础,强调其在并行解码、双向建模、迭代修正和数据利用效率上的固有优势,并指出其挑战传统自回归范式,为通用人工智能探索提供了新路径。该模型即将完全开源,旨在推动社区共同发展。
Meta AI 团队近日发布了 MobileLLM-R1 系列高效推理模型,包含基础模型和最终模型版,参数量均小于 1B。该系列模型并非通用聊天模型,而是专门针对数学、编程(Python、C++)和科学问题进行监督微调(SFT)训练。值得注意的是,其最大模型 MobileLLM-R1 950M 仅使用约 2T 高质量 token 进行预训练,总训练 token 量少于 5T,但性能在 MATH、GSM8K、MMLU 和 LiveCodeBench 等基准测试中与使用 36T token 训练的 Qwen3 0.6B 相当或更优。与现有开源模型相比,MobileLLM-R1 950M 在 MATH 基准上准确率高出 Olmo 1.24B 约五倍,比 SmolLM2 1.7B 高出约两倍,并在编码基准测试中创下新高。Meta 同时开源了完整的训练方案和数据源。该模型低成本、高效率的特性使其在端侧设备部署方面具有巨大潜力,促进了小体量模型的探索与落地。文章还介绍了背后的三位华人主要作者及其研究背景。
文章详细介绍了 EviNote-RAG,一个旨在解决检索增强生成(RAG)系统在复杂任务中面临的“低信噪比”和“错误累计”两大核心痛点的新框架。传统 RAG 范式在处理海量冗余信息和多跳推理时表现不稳定。EviNote-RAG 将流程重构为“检索-笔记-回答”三阶段,核心创新在于引入了支持性证据笔记(SEN)和证据质量奖励(EQR)。SEN 模块模仿人类做笔记的习惯,结构化地提取与答案相关的关键信息并标记不确定部分,从而从源头上过滤噪声。EQR 则通过逻辑蕴含判别器(一个轻量级自然语言推理模型)评估笔记对最终答案的支撑程度,防止浅层匹配和错误累积。实验结果显示,EviNote-RAG 在 HotpotQA、Bamboogle 和 2Wiki 等多个开放域问答基准上取得了显著性能提升,F1 分数分别相对提升 20%、40% 和 91%,并展现出更强的泛化能力与训练稳定性。消融实验进一步验证了 SEN 和 EQR 在提升性能和保证推理准确性方面的关键作用,为 RAG 训练范式带来了革新,使其在噪声环境中能稳定学习。