文章
文章深入探讨了 Anthropic 提出的“上下文工程”概念,将其定位为“提示词工程”的自然演进,强调在构建工业级 LLM 应用时,需全面管理模型可访问的整体状态。文章指出,尽管 LLMs 处理能力增强,但仍存在“上下文衰减”现象,因此需要精心设计上下文以应对有限的“注意力预算”。指南详细介绍了高效上下文的结构,包括清晰的系统提示词、高效的工具设计和规范的少样本示例。此外,文章还提出了针对长期任务的上下文工程策略,如信息压缩、结构化笔记和子智能体架构,旨在帮助智能体在长时间跨度内保持连贯性与目标导向性,克服上下文窗口限制。
本文精选了小红书大模型方向 AMA(Ask Me Anything)活动中,刘知远、邱锡鹏、赵鑫、徐仲文、吴翼、刘威杨、张奇、林绍辉、林洲汉、张文涛等十余位知名 AI 专家与读者的精彩问答。内容涵盖大语言模型(LLM)的基础理论、模型训练与优化、具身智能、RL 技术趋势、学界与工业界合作、职业发展路径以及 AI 创业机会等多个维度。专家们不仅分享了对前沿技术如 LLM 物理学、可解释性、稀疏与压缩、RL、AGI、MoE、RAG 等的独到见解,也提供了关于学术研究方法、职业规划和创业选择的实用建议,为 AI 从业者提供了宝贵的参考与启发。
本文整理了 Datawhale 近期举办的具身智能方向 Ask Me Anything (AMA) 活动,汇集了许华哲、高飞、梁俊卫、周博宇、李永露、李弘扬、丁文超、陈思衡八位知名教授和研究员的精彩问答。专家们深入探讨了具身智能的商业化前景,普遍认为其落地潜力巨大但时间待定,且面临智能程度和数据瓶颈。讨论聚焦于 VLA(视觉-语言-动作)模型和 World Model(世界模型)这两大核心技术路线的优劣、关系及未来融合趋势,并强调 learning-based 方法在泛化性上的关键作用,同时肯定了非 learning-based 方法对基础理解的价值。文章还提供了针对学生和研究人员的宝贵建议,包括学习路径、研究方向(如机器人操作、无人机、人形机器人)、Sim2Real 挑战、学术界与工业界的职业选择及科研策略。整体而言,专家们认为具身智能仍处于早期阶段,需要持续高质量科研、解决数据与鲁棒性挑战,并依赖多模态大模型的泛化能力,是未来十年充满机遇的“蓝海”领域。
文章深入解读了字节、港科、北邮团队提出的 GTPO 和 GRPO-S 两种新算法,旨在解决大语言模型在强化学习对齐中面临的粗粒度奖励分配挑战。现有方法如 GRPO 和 DAPO 仅提供整体奖励,难以识别推理链条中的具体对错步骤,限制了长链推理任务的优化。该研究引入了“动态熵加权”核心框架,通过将策略熵作为“认知努力”的启发式指标,在 token 或序列级别上分配更精细的奖励。GTPO(Token-Level 组策略优化)在 token 层面,对成功序列中高熵 token 进行奖励加成,对失败序列中低熵 token 施加更重惩罚,以引导模型关注关键决策点。GRPO-S(Sequence-Level GRPO 变体)则在序列层面实现类似机制,兼顾计算效率。实验结果表明,GTPO 和 GRPO-S 在 AIME 2024/2025 等数学推理基准测试中,显著优于 GRPO 和 DAPO,提升了 Qwen2.5-7B 和 Qwen2.5-32B 模型的性能和探索能力,尤其对小模型增益更显著。研究还证实了算法具有更高的奖励天花板、优异的样本效率和避免策略崩溃的能力,并展现出良好的超参数鲁棒性。