向阳乔木
@vista8 · 1d ago为了方便观看视频,整理视频中出现的AI名词。
强化学习(Reinforcement Learning, RL)
想象你在教小孩骑自行车。
你不会给他一本《骑车标准动作手册》,而是让他自己试,摔了疼(惩罚),骑稳了开心(奖励)。
多试几次,他自然就学会了。
这就是强化学习的核心:从经验中学习,目标驱动。
萨顿(就是拿图灵奖那位)认为这才是真正的 AI 基础。
智能体做动作,感受结果,然后调整策略去拿更多奖励。
就像你打游戏,死了重来,慢慢摸清套路。
大型语言模型(LLMs)
像Gemini 、ChatGPT、Claude是另一套逻辑。
它们的任务很简单:猜下一个词。
喂给它海量文本,让它学会"人类通常会这么说话"。
但萨顿觉得这是条死路,为什么?
因为它只是在模仿,没有真正的目标,也不是从真实经验里学的。
就像背了一堆菜谱的人,不一定真会做菜。
世界模型(World Model)
你扔一个球,不用真扔,脑子里就能预判它会落哪儿。
这就是世界模型,你对物理规律的理解。
萨顿说,LLMs 没有这个。
它们只能预测"人类会说什么",但预测不了"真实世界会发生什么"。
目标(Goal)
有目标,才叫智能。
没目标的系统,就像一个只会重复你话的鹦鹉。
RL 里的目标会转化成奖励信号,告诉系统"这样做是对的"。
对松鼠来说,目标是找到坚果。
对 AlphaGo 来说,目标是赢棋。
那 LLMs 的目标是什么?
萨顿觉得"预测下一个词"不算实质性目标。
经验 vs 训练数据
经验是你真实做了某事,看到后果。
摸了热水壶,烫到了,下次就知道别碰。
训练数据是别人告诉你"热水壶会烫"。
你记住了,但没真切体会过。
萨顿强调,真正的学习必须来自经验。
时序差分学习(TD Learning)
萨顿的得意之作。
解决的问题是:怎么从长期目标倒推短期行动?
下棋时,你走一步不知道好坏,要等到最后才知道输赢。
TD Learning 让系统能预测"这步棋会让局面变好还是变坏",然后立刻调整策略。
就像你边走边修正导航路线,不用等到终点才知道走错了。
价值函数(Value Function)
给每个状态打分:"现在这情况,有多大概率达成目标?"
分数升了,说明刚才那步走对了,继续强化。
分数降了,说明搞砸了,下次别这么干。
状态表征(State Representation)
对 "我现在在哪儿?" 的感知。
你走进一个房间,瞬间就知道这是厨房还是卧室。
AI 也需要把传感器数据转化成"状态",才能决策。
转换模型(Transition Model)
"如果我这么做,会怎样?" 的因果模型。
你知道推门会开,按开关会亮灯。
这是你对世界物理规律的理解。
萨顿说,这才是他唯一想称为"模型"的东西。
《苦涩的教训》(The Bitter Lesson)
萨顿 2019 年写的文章,核心观点:别把人类知识硬塞给 AI,让它自己学。
历史反复证明,那些依赖人类专家知识的"聪明方法"。
最后都输给了"用大算力暴力学习"的笨方法。
LLMs 看起来印证了这点(用海量数据训练)。
但萨顿觉得它们最终会成为反例,因为缺了"从经验学习"这一环。
摩拉维克悖论(Moravec's Paradox)
人类觉得容易的,AI 觉得难。
人类觉得难的,AI 觉得容易。
让 AI 解奥数题,小菜一碟。
但让它像婴儿一样学走路、抓东西?看看现在机器人的进展。
AI 演替(AI Succession)
萨顿的大胆预测:数字智能终将取代人类成为主导力量。
不是科幻片里的机器人起义,而是进化的必然。
就像当年单细胞生物进化出多细胞生物。
现在轮到"设计出来的智能"接棒"自然演化的智能"了。
他管这叫设计时代(Age of Design)。
我们不再依赖基因复制,而是直接设计智能体,并且完全理解它们怎么工作。
TD-Gammon
1990 年代,杰里·塔萨罗用 TD Learning 训练了一个玩西洋双陆棋的 AI,打败了世界冠军。
这是强化学习第一次证明自己。
AlphaGo / AlphaZero
你肯定听过 AlphaGo 战胜李世石。
但更厉害的是 AlphaZero,它完全靠自我对弈学习,不需要人类棋谱,最后下出了人类从没见过的招法。
萨顿特别提到,AlphaZero 会牺牲棋子换取位置优势,这种"不贪眼前利益"的风格,连人类高手都觉得惊艳。
MuZero
DeepMind 的另一个作品。
有意思的是,它不是一个"通用智能体",而是一个训练框架,每次还是要针对具体游戏训练专门的智能体。
这也反映了现在 AI 的局限:还做不到真正的通用智能。
几个关键人物
Richard Sutton强化学习之父,图灵奖得主,发明了 TD Learning 和 Policy Gradient
John McCarthy,定义智能为"实现目标能力的计算部分"
Alan Turing,说过"我们想要一台能从经验中学习的机器"
Joseph Henrich,研究文化演化,解释人类如何通过模仿传承复杂技能。
向阳乔木
@vista8 · 1d agoLLM已死?强化学习教父认为大语言模型是条死路。
说这个暴论的人叫理查德·萨顿(Richard Sutton),强化学习创始人之一。
他的观点很直接:LLM不是基础人工智能,它只是AI领域的一阵潮流。
真正的基础AI应该是强化学习。
观点很激进,但他给出的理由值得认真想。
第一个致命问题:没有目标的"智能"
萨顿抛出了一个质问:没有目标,还能叫智能吗?
他引用约翰·麦卡锡定义,智能的本质是 "实现目标能力的计算部分"。
按这个标准,LLM有什么问题呢?
LLM的所谓"目标"只是预测下一个词。
你给它一段文字,它告诉你接下来最可能出现什么词。
但这算目标吗?
萨顿说得很直白:Token 自己跑到你面前,你预测Token,但你根本影响不了它们。
这不是关于外部世界的目标,这仅仅是文字接龙游戏。
没有目标,就没有"正确"的定义。
什么叫做对的事情?
在强化学习里,答案很清楚:能给你带来奖励的事情。
但LLM呢?它连对错的标准都是模糊的。
第二个硬伤:没有真实的世界模型
LLM擅长什么?模仿人类。
它能模仿人怎么说话,怎么写作,甚至怎么思考。
但萨顿说:模仿语言,不等于理解世界。
LLM能预测一个人会说什么,但它预测不了将会发生什么。
这个区别太重要了。
真正的世界模型应该让你能够预测行为的后果。
比如,我把杯子推下桌子,它会掉到地上摔碎。
这是对物理世界的理解。
但LLM呢?它只知道"人们通常会说杯子会摔碎",这是两码事。
更关键的是,LLM不会从意外中学习。
假设你预测某件事会发生A,结果发生了B。
一个真正理解世界的系统会说:"咦,我错了,我需要调整我的模型。"但LLM不会。
它没有这种"意外"的概念,因为模型从来不是在预测真实世界,它只是在预测训练数据里人们会怎么说。
萨顿的总结很犀利:LLM从训练数据中学习,不是从经验中学习。
经验是什么?是你做了某件事,然后看到实际发生了什么。
这种第一手的互动,才是真正学习的来源。
第三个悖论:可扩展性的陷阱
萨顿写过一篇著名的文章叫《苦涩的教训》(The Bitter Lesson)。
核心思想:历史反复证明,依赖人类知识的方法最终都会输给纯粹依靠计算和学习的方法。
很多人觉得LLM正是这个教训的最新例证。
你看,用海量数据和算力训练出来的模型,不就超越了传统的规则系统吗?
但萨顿说:等着瞧,LLM最终会成为这个教训的反面教材。
为什么?因为LLM本质上还是在依赖人类知识。
它学的是人类写的文字,说的话,做的事。
这些都是人类知识的结晶。
萨顿认为,真正具有可扩展性的方法是什么?
是系统自己去尝试,自己去观察什么有效,什么无效。
不需要任何人告诉它对错,它通过与世界的互动自己学会。
这就是强化学习的核心:主体有目标,主体采取行动,主体观察结果,主体调整策略。
这个循环可以无限持续,不断进化。
而LLM呢?它的学习在训练结束那一刻就停止了。
它没法在真实世界里持续学习,因为它根本不知道怎么与世界互动。
LLM就像一个语言模仿大师。
它能完美背诵人类所有的剧本和对话,你问它什么,它都能给你一个听起来很像样的回答。
但它缺少什么?缺少行动者的能力。
它不知道自己想要什么(没有目标)。
也不知道说这些话在真实世界里会产生什么后果(没有世界模型)。
它只是一个超级复杂的文字接龙机器。
真正的智能应该是什么样?
应该是一个主体,它有自己的目标,它能与世界互动,它从每次互动中学习,它不断调整自己的策略去更好地实现目标。
这才是萨顿眼中的"基础AI"。
萨顿的观点不一定全对,但他提的问题值得思考。
也许LLM不会"死",它们在很多应用场景下依然有价值。
但如果我们的目标是实现真正的通用人工智能AGI。
萨顿的警告值得认真对待:
光会说话,不等于会思考。光会模仿,不等于会学习。
真正的智能,可能需要目标、需要行动、需要与世界真实的互动。
这条路,我们才刚刚开始走。
---
以上由AI生成,人工编辑排版。
视频见评论区
5
1
28
20.4K
0
5
13
21
6




