Andrew Ng
@AndrewYNg · 7d ago2026 新年快乐!今年会是我们最终实现通用人工智能(AGI)的一年吗?我想提出一个新版图灵测试,我称之为图灵-通用人工智能测试,以验证我们是否真正实现了通用人工智能。我稍后会解释为什么拥有一个新测试如此重要。
公众普遍认为,通用人工智能的实现意味着计算机将拥有如同人类的智慧,能够胜任大部分甚至全部知识工作。我想提出一个新测试。测试对象——无论是计算机还是经验丰富的专业人士——都将获准使用一台配备互联网接入、网页浏览器和 Zoom 等软件的计算机。评委将为测试对象设计一个为期数天的工作任务体验,所有互动都将通过计算机进行。例如,这个体验可能包括一段培训期(比如,作为呼叫中心接线员),随后被要求执行任务(接听电话),并获得持续反馈。这模拟了远程工作者在拥有功能完备计算机(但无摄像头)情境下的工作状况。
如果一台计算机能像熟练的人类一样出色地完成工作任务,那么它就通过了图灵-通用人工智能测试。
大多数公众成员可能相信,一个真正的通用人工智能系统会通过这项测试。当然,如果计算机的智能水平能与人类匹敌,它们理应能够像被雇佣的人类一样高效地完成工作任务。因此,图灵-通用人工智能测试与人们普遍理解的 AGI 含义相符。
这就是为什么我们需要一个新测试:“AGI”已经变成了一个炒作的词汇,而非一个具有精确定义的术语。一个合理的 AGI 定义是,能够完成人类所能进行的任何智力任务的 AI。当企业大肆宣扬他们可能在几个季度内实现通用人工智能时,他们通常会通过大幅降低标准来为其主张寻找依据。这种定义上的不匹配是有害的,因为它让人们认为人工智能变得比实际更强大。我看到这误导了从高中生(他们认为 AGI 即将到来,从而避免某些学习领域)到首席执行官(他们正在决定投资哪些项目,有时假设人工智能在 1-2 年内将比任何可能的现实更强大)的所有人。
原始图灵测试要求计算机通过文本聊天“欺骗”人类评委,使其无法辨别出它是机器而非人类,但这并不足以证明其具备人类水平的智能。洛布纳奖竞赛实际运行了图灵测试,结果发现要成功“欺骗”评委,模拟人类打字错误的能力可能比实际展示智能本身更为关键。当前人工智能发展的一个主要目标是构建能够完成具有经济价值的工作,而非仅仅“欺骗”评委的系统。因此,一个衡量工作能力的修订测试,将比衡量欺骗人类能力的测试更为有用。
对于今天几乎所有人工智能基准(例如 GPQA、AIME、SWE-bench 等),测试集都是预先确定的。这意味着人工智能团队至少在间接层面,会根据已发布的测试集来调整他们的模型。此外,任何固定的测试集都只衡量智能的一个狭窄片段。相比之下,在图灵测试中,评委可以自由提问以探究模型的能力。这使得评委可以测试计算机或人类知识的“通用性”究竟如何。同样,在图灵-通用人工智能测试中,评委可以设计任何体验——这些体验不会提前透露给被测试的 AI(或人类受试者)。这是衡量 AI 通用性的一种比预定测试集更好的方式。
人工智能正沿着惊人的轨迹持续进步。在过去的几十年里,过度炒作的期望导致了“人工智能寒冬”,当时对人工智能能力的失望导致了兴趣和资金的减少,直到该领域取得更多进展后才重新回升。少数可能阻碍人工智能发展巨大势头的原因之一,便是不切实际的炒作所造成的投资泡沫,这可能导致失望和兴趣的崩塌。为了避免这种情况,我们需要重新校准社会对人工智能的期望。一项测试会有所帮助。
如果我们举行图灵-通用人工智能测试竞赛,即使所有人工智能系统都未能通过,那也将是一件好事!通过化解围绕 AGI 的炒作并减少泡沫的可能性,我们将为人工智能的持续投资创造一条更可靠的道路。这将使我们能够继续推动真正的技术进步,并开发有价值的应用程序——即使这些应用程序远未达到 AGI。而如果这项测试能为一个团队设定一个明确的奋斗目标,让他们朝着实现 AGI 的荣耀迈进,那也将是极好的。我们可以确信,如果一家公司通过了这项测试,他们所创造的将不仅仅是一个营销上的发布——它将是无比宝贵的。
[原文链接:deeplearning.ai/the-batch/issu… ]
168
250
1,502
555
369








