纽约大学Gary Marcus等撰文:人类思维对于AI的11个启示

作者:Gary Marcus(纽约大学名誉教授),Ernest Davis(纽约大学计算机科学教授)

原文:Insights for AI from the Human Mind,Communications of the ACM

译者:朱演瑞

马文・明斯基在《心智社会》(The Society of Mind)中写道:“什么诀窍可以让人类变得更加智慧?诀窍就是 —— 没有诀窍。智慧的力量来源于人类的复杂性,而不是来源于一个单一的完美的原理。”

近年来,人工智能在围棋、扑克领域击败了世界冠军,并在机器翻译、对象分类和语音识别等领域取得了非凡的进步。但是,大多数 AI 系统的关注点都非常局限。AlphaGo 并不知道围棋是一个在棋盘上放石头的游戏,它甚至不知道什么是 “石头”,什么是 “棋盘”。如果围棋的棋盘并不是正方形而是矩形的,它又需要一套完全不一样的算法。

为了能让 AI 理解开放文本或控制家用机器人,我们还需要更进一步的探索。让它学习人类的思维会是一个很好的开端,因为在理解能力和思考能力上,人类思维远超机器。

为此,本文提供了 11 条来自认知科学(心理学,语言学和哲学)的线索。

1、没有万能药

从行为主义到贝叶斯推理再到深度学习,我们总是提出简单的理论来解释人类的智慧。但是,Chaz Firestone 和 Brian J.Scholl 却说,“人的思维并不仅仅以一种方式运作,因为它从来不是一个单一的个体。思维由不同的部分组成,每个部分有其独特的运作方式:比如,感知色彩和做计划的思维截然不同,也和理解文章、调整形体、记忆事件、体会情感等思维大相径庭。” 

人类大脑极其复杂,拥有 150 多个脑区、860 亿左右个神经元,神经元又有数百个不同的类型、万亿个神经突触,每个突触中都有大量不同的蛋白质。

真正灵活、智能的系统会像大脑一样,充满着复杂性,任何把智能体简化为单一原理的理论都注定失败。

2、丰富的内部表征

认知心理学重视内部表征(Internal Representations),比如信念、欲望和目标等,经典的 AI 系统也是如此。假如 AI 要表示 “肯尼迪总统 1963 年著名的柏林访问” 这一语义,它会添加一系列表征事实,例如从属关系(柏林,德国)、访问关系(肯尼迪,柏林,1963 年 6 月)。通过积累这样的表征事实,AI 增加自己的知识和经验,而它的推论就建立在这个基础上。因此它的推论是琐碎的,并不是整体的。

当前,深度学习技术正尝试规避这种方式,转而用一系列向量以模糊的方式捕捉事件,并不直接精确地表示语义,比如从属关系(柏林,德国)、访问关系(肯尼迪,柏林,1963 年 6 月)。深度学习的重点在抽象推理,因为它从一开始就不是为了表示精确事实知识。可一旦事实模糊,就很难正确地推理。被大肆宣传的 GPT-3 系统就很能说明这个问题,与之相关的系统 BERT 无法可靠地回答诸如 “如果你在桌子上放两个奖杯,再放一个,那么你有多少个奖杯?” 这样的问题。

3、抽象和概括

大部分我们的所知都是抽象的。比如,“甲是乙的妹妹” 这一关系能代表很多人,比如 Malia 是 Sasha 的妹妹,Anne 公主是 Charles 王子的妹妹,等等。虽然我们不知道世界上所有具体的兄妹关系,但我们知道 “妹妹” 的含义,我们能根据具体情况辨别。如果两个人有共同的父母,就能推断他们是兄弟姐妹。如果我们知道 Laura 是 Charles 和 Caroline 的女儿,也知道 Mary 是他们的女儿,那么我们可以推断出 Mary 和 Laura 是姐妹。

认知模型和常识的表示形式是由抽象关系构建而成的,并以复杂的结构组合。我们几乎可以抽象出任何事物:时间(“10:35 PM”)、空间(“北极”)、特殊事件(“亚伯拉罕・林肯遇刺”)、社会政治组织(“美国国务院” )和理论构造(“语法”),并在解释事件或讲述故事的时候使用它们,从复杂的情况中简化出本质,对诠释世界产生了巨大的作用。

4、高度结构化的认知系统

马文・明斯基认为,我们应该将人类认知视为一种 “思维社会”,其中有数十或数百种不同的 “主体” 或曰 “脑区”,每种主体专门从事不同类型的任务。例如,喝一杯茶需要 “抓取区”、“平衡区”、“口渴区”、“行动区” 等区域的相互作用。进化心理学和发展心理学的许多研究都表明,头脑不是单一的整体,而是由很多脑区组成。

进化心理学和发展心理学的许多研究都表明,头脑不是单一的整体,而是由很多脑区组成。

讽刺的是,当前机器学习的研究情况和人类思维方式大相径庭,它倾向于使用内部结构简单的单一机制构建端到端模型。英伟达 2016 年的驾驶模型就是一个例子,它放弃了感知、预测和决策等经典模块。取而代之的是,它使用了一个神经网络模型作为整体,根据神经网络的输入(图像像素)和输出(转向、加速等指令)来进行算法训练。

机器学习的拥护者指出整个系统 “联合性” 的优点,不必把各个模块单独分开。既然拥有一个大型网络如此容易,为什么还要苦于构造许多单独的模块呢?

这种系统的缺点是难以调试,并且不具有灵活性。英伟达的系统通常只能在人类驾驶员干预的情况下,在几个小时内运行良好,而不是数千小时。Waymo 的多模块系统,则可以从 A 点导航到 B 点并处理车道变更,而英伟达不能变更车道。

顶尖 AI 研究人员解决复杂问题时,通常会使用混合系统。要在围棋中获胜,需要将深度学习、强化学习、游戏树搜索和蒙特卡洛搜索相结合。沃森在 Jeopardy! 游戏中的胜利、Siri 和 Alexa 等问答机器人和各种网络搜索引擎都使用了 “厨房水槽”(kitchen sink,可以理解为追求宁滥勿缺,把能用上的元素都用上的方法)的思路,并集成了许多不同种类的方法。Mao 等人的研究 The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision,也展示了深度学习和符号技术的集成系统,如何在视觉问题解答和图像文本检索方面产生良好的结果,讨论了许多不同的混合系统。

5、简单的任务也有多种工具

即使在细粒度的情况下,认知机制也通常由多种机制组成,比如动词及其过去式。在英语和许多其他的语言中,一些动词通过简单的规则形成过去时态,比如 “walk-walked, talk-talked, perambulate-perambulated”,而另一些动词过去时态不规则,比如 “sing-sang, ring-rang, bring-brought, go-went”。根据儿童的错误数据,Gary Marcus 和 Steven Pinker 曾提出了一种混合模型,其中常规动词由规则概括,而不规则动词通过关联网络整理,即便是在这样简单的问题上也有结构化可言。

6、组成性

用著名语言学家洪堡(Humboldt)的话来说,语言的本质是 “用有限的词语表达无限的含义”。借助有限的大脑和有限的语言数据,我们设法创建一种语法,通过单词和短语等较小的部分来构造一个长句,这样我们就能够表达和理解无数的话语。比方说,“水手爱这个女孩”,我们可以把它扩大,“玛丽亚想象水手爱这个女孩”,还可以扩大,“克里斯写了一篇文章,关于玛丽亚如何想象水手爱这个女孩” 等等,每一个句式我们都能看懂。

相反的是,神经网络研究者 Hinton 一直在争论,认为句子的含义应该以他所谓的 “思想向量”(thought vectors)进行编码。然而,语句本身和它表达的含义存在着一种微妙的差别,这种差别是难以捕捉的。建立在这个基础上的系统虽然可以产生符合语法的语句,但系统本身并不理解它创造的文本的含义。

7、自上而下和自下而上地集成信息

图 1. 可能的数字或字母。

图 1 所示的图像是字母还是数字?都可能是,这取决于上下文(请看图 2)。

认知心理学家对两种知识做出区分,一种是自下而上式的,来源于我们的感知体验,另一种是自上而下式的,来源于我们对先验世界的认知。字母和数字属于两种不同的类别,而单词和号码则是由这两种类别中的元素组成。当我们看到图 2 中更加完整的图像时,其中一个模糊的图像在某个语境中是字母,在另一个语境中是则是数字。

图 2. 上下文相关的解释。

不管我们看到什么,都会将它放在一个特定的认知模型中,并加入与之相关的整体理解。

8、将概念嵌入理论之中

在一个经典的实验中,发展心理学家 Frank Keil 问孩子们,如果一个浣熊经过整容手术变成臭鼬的模样,并且有着非常难闻的气味,那它是不是一个臭鼬?孩子们认为它仍然是浣熊,这大概源于他们的生物学观念,认为一个生物是什么取决于它的本质。

但面对一些人造产品的时候,孩子的观点发生了改变,比如把咖啡壶改造成喂鸟器,他们认可了。

理论中的概念对于有效学习至关重要。假设一个学龄前儿童第一次看到鬣蜥的照片,他不仅能够很快地识别鬣蜥的其他照片,还能识别视频中的鬣蜥和现实生活中的鬣蜥,轻松地将它们与袋鼠区分开。同样,孩子能从鬣蜥吃饭和呼吸的动物学常识中推断出他们会成长、繁殖和死亡。

没有事实的积累,理论体系就是匮乏的。想要获得成功,一个智能体需要不断将事实嵌入它的理论体系,来丰富总体的理论以及更好地组织事实。

9、因果关系

正如 Judea Pearl 所强调的,对因果关系的深刻理解是人类认知中普遍存在且必不可少的环节。如果世界很简单,我们对所有的事情都了如指掌,或许我们唯一需要了解的因果关系就是物理。我们可以通过仿真模拟来确定什么影响了什么:如果我施加 XX 微牛顿的力,接下来会发生什么?

但是这种详细的模拟是不现实的:需要追踪的粒子太多,发生的时间太短,我们的信息太不精确。

相反,我们经常使用大概的说法。我们知道某些事情是因果相关的,即使我们不知道为什么会这样。我们服用阿司匹林,因为我们知道它能减缓不适,而并不需要了解生物化学。我们知道性爱能导致怀孕,即使我们不了解胚胎产生的具体机制。因果知识无处不在,它是人类活动的基础。

10、追踪个体

在日常生活中,你会注意各种客观对象,追踪它们的属性和历史。比如,你的配偶曾经是记者,你的汽车后备箱上有凹痕,去年你更换了变速箱等等。我们的经验是由随着时间变化的实体组成的,我们所了解的很多东西都是围绕着这些东西以及它们的历史和特质组织而成。

奇怪的是,深度学习系统并没有这种观点。大多数情况下,当前的深度学习系统专注于学习普遍的、类别层次的关联,而不是有关特定个体的事实。它没有类似记载时间和变化的数据库这样的存在,因而很难追踪各个实体与其类别的变化差异。

11、先天知识

大脑先天具有多少结构(和能力),后天它又学习了多少?以往的 “先天和后天” 相互独立的观点是错误的。发展心理学和发展神经科学的证据认为,先天和后天(天生和养育)共同作用。

大多数机器学习研究人员都想从绝对空白的状态训练算法,却由此为研究增加了难度,因为他们只关注后天训练而忽略了先天优势。最有效的方法是将两者结合起来。人类可能天生就理解世界是由物质组成的,它们在时空上是连续的,并且天生就拥有对几何和数量的感知以及直觉心理学基础(the basis of an intuitive psychology)。

AI 系统也一样,不应该仅仅从像素与动作之间的关联学习,而应该把对世界的理解作为一切开发工作的基础。

总结

认知科学的发现启示我们,可以在人类思维的灵活性和普遍性基础上建立人工智能。机器不需要复制人类的思想,但是对人类思想的透彻理解将有助于 AI 的重大进步。

我们认为,AI 的研究应当从借鉴人类知识的核心框架开始,比如时间、空间、因果关系以及人与其他事物的相互关联。这些应该嵌入到可以扩展各种知识的体系结构中,并坚持抽象、组成性和关注客观个体的原则。

我们还需要开发强大的推理技术,以处理复杂、不确定和不完整的知识,可以兼顾自上而下和自下而上的工作,并将它们与感知、操纵和语言联系起来,以建立丰富的认知模型。重点将是构建一种以人类为灵感的学习系统,该系统可以激发 AI 拥有的所有知识和认知能力。它可以将新知识整合到其先验知识中,可以像孩子一样从各种可能的信息源中学习。学习方式包括与世界互动、与人互动、阅读、观看视频、接受明确的教导等等。

这是一个艰巨的任务,但这是必须要做的。

References:

1. Brown, T.B. et al. Language models are few-shot learners. (2020); arXiv preprint arXiv:2005.14165

2. Darwische, A. Human-level intelligence or animal-like abilities? Commun. ACM 61, 10 (Oct. 2018), 56–67.

3. Devlin, J. et al. BERT: Pre-training of deep bidirectional transformers for language understanding. NAACL-2019. (2019), 4171–4186.

4. Firestone, C. and Scholl, B.J. Cognition does not affect perception: Evaluating the evidence for 'top-down' effects. Behavioral and Brain Sciences 39, e229. (2016.)

5. Keil, F.C. Concepts, Kinds, and Cognitive Development. MIT Press, Cambridge, MA, 1992.

6. Lupyan, G. and Clark, A. Words and the world: Predictive coding and the language=perception-cognition interface. Current Directions in Psychological Science 24, 4 (2015), 279–284.

7. Marcus, G. Innateness, alphazero, and artificial intelligence. (2018); arXiv preprint arXiv:1801.05667).

8. Marcus, G. Deep Understanding: The Next Challenge for AI. NeurIPS-2019 (2019).

9. Marcus, G. GPT-2 and the nature of intelligence. The Gradient. (Jan. 25, 2020).

10. Marcus, G. The next decade in AI: four steps towards robust artificial intelligence. (2020); arXiv preprint arXiv:2002.06177

11. Marcus, G. and Davis, E. GPT-3, Bloviator: OpenAI's language generator has no idea what it's talking about. Technology Review (Aug. 22, 2020).

12. Mao, J. et al. The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision. arXiv preprint arXiv:1904.12584.

13. Murphy, G. The Big Book of Concepts. MIT Press, 2002.

14. Pearl, J. and MacKenzie, D. The Book of Why: The New Science of Cause and Effect. Basic Books, New York, 2018.

15. Spelke, E. Initial knowledge: Six suggestions. Cognition 50, 1–3 (1994), 431–445.

16. van Harmelen, F., Lifschitz, V., and Porter, B., Eds. The Handbook of Knowledge Representation. Elsevier, Amsterdam, 2008.