文章

AndrejKarpathy 回应强化学习之父 Sutton 最新观点「LLM 是“死路一条”」
AINLP
今天
11764 字 (约 48 分钟)
AI 评分: 87
⭐⭐⭐⭐

文章围绕强化学习之父 Richard Sutton 对大语言模型(LLM)“死路一条”的最新观点展开,并由 Andrej Karpathy 进行了详细解读和回应。Sutton 认为 LLM 缺乏从实际互动中持续学习的能力,其架构本质上仅是模仿人类数据,与他设想的通过动态互动学习的“儿童机器”相悖,且预训练数据已被人类偏见污染。Karpathy 虽然认同 Sutton 的批评具有启发性,但指出当前 LLM 的预训练是“蹩脚的进化”,是解决数十亿参数冷启动问题的实用方案,而非动物界那样的自然进化。他将当前 LLM 研究比作“召唤幽灵”,而非创造“动物”,强调 LLM 是高度工程化、充满人类干预的产物,但仍具备改变世界的潜力,如同飞机之于鸟类。文章呼吁 LLM 研究者从动物智能中汲取灵感,思考内在动机、好奇心等更强大的范式。

人工智能中文大语言模型强化学习AI哲学AI理论机器学习
DeepSeek-V3.2-Exp 技术报告英中对照版.pdf
AINLP
09-30
1091 字 (约 5 分钟)
AI 评分: 84
⭐⭐⭐⭐

文章详细介绍了 DeepSeek-AI 最新发布的实验性模型 DeepSeek-V3.2-Exp,其核心创新在于引入了一种新颖的稀疏注意力机制(DeepSeek Sparse Attention, DSA)。DSA 通过闪电索引器和细粒度令牌选择机制,将传统注意力机制的 O(L²) 计算复杂度降至 O(L·k),大幅提升了长上下文任务的训练与推理效率。模型基于 DeepSeek-V3.1-Terminus 经过密集预热和稀疏训练两个阶段,在通用能力、搜索、代码和数学推理等多项基准测试中表现稳定甚至有所提升。文章还指出 DSA 基于 DeepSeek 自研的 MLA(Multi-head Latent Attention)架构实现,并展望了其在实际场景中的大规模验证。文末提供了模型和推理代码的开源地址。

人工智能中文大语言模型稀疏注意力DeepSeek长上下文模型优化
没有更多文章了