戴琼海院士:人工智能的算法、算力、交互

发布时间: 2020-11-05

作者:戴琼海

导读:

国务院参事、CAAI理事长、中国工程院院士、清华大学信息学院院长、教授、CAAI Fellow戴琼海在2020年中国人工智能大会(CCAI 2020)上作了主题为《人工智能:算法·算力·交互》的特邀报告,本文将聚焦算力、算法和交互这三个方面和大家进行讨论。

01 引言

现在是人工智能高速发展的时代。人工智能企图了解智能的实质,研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统。但人工智能是个交叉学科,不等同于计算机科学。图灵奖获得者中,既有研究心理学和认知的,也有研究数学的。在这里各个学科的概念和界限变得有些模糊了。

人工智能发展得非常快,快在哪儿呢?算力方面,先进的CPU、GPU等芯片,大规模的计算中心、云计算平台,性能一年比一年好。算法方面,大家可以看到现在有逻辑推理,机器开始像人一样具备逻辑推理演绎的思维功能。另外,计算机视觉、自然语言处理发展也很快,身边的应用非常多,比如说机器人。交互方面,有了机器人之后,人和机器人怎么去交互?机器人和环境怎么交互?又出现了很多的新的问题需要我们去探讨。

02 算力

算力,指的是计算机硬件的计算能力。在人类历史中,从原始、农耕到工业和电气革命,最重要的就是把人的力量、人对资源环境的认识,用以改造自然,带来更好的生活和工作。蒸汽机、电力的发明,那是我们力量的发挥,我们把我们的力量交给了机械、交给了电力。在这个信息时代里,我们享受到了计算机、芯片、互联网的力量,我们把大脑一部分的力量也交给了计算机。解析和计算推动了更多的自然科学和工程科学的发展。比如大家看原子能技术、空间科技、生物工程和基因技术都在发展,这些技术使得人类更好地认识自己。

算力和人工智能是相辅相成的,最早Rosenblatt发明了512个计算单元,只能完成简单的分类任务。1999年,英伟达为了提升芯片的算力,提出了与CPU架构不一样的第一代GPU——Nvidia GeForce 256,算力为50 GFLOPs,擅长大规模并发计算。2016年在围棋上战胜人类的AlphaGo,用了多达176个GPU,1000多个CPU。Alex Net GPU加速开启了深度学习的黄金时代,人工智能算法越来越复杂,要继续发展,一定要在算力上有所保障才行。

在电子学领域有一个著名的摩尔定律,由英特尔前总裁Gordon Moore于1965年首次提出。摩尔定律预测,在未来每18个月,半导体芯片上单位面积集成的晶体管数量就要翻倍,而价格会减半。但大家知道,芯片制造成本越来越高、量子效应等引起的技术瓶颈,导致摩尔定律近五年已经逐步放缓了。最近有MIT专家发了一篇文章,对1500篇文章关于算力方面的问题做了仔细的分析。分析结果显示,深度学习正在逼近现有芯片的算力极限,计算能力提高10倍相当于三年算法的改进。算力提高的硬件、环境和金钱成本接下来将无法承受,但人们对于人工智能的期望越来越高,希望它能做更大舞台上的事,在这上面承受的压力很大。人工智能不像有些人说的到了泡沫期,不是泡沫,是我们的技术、算力遇到了瓶颈。

怎么解决算力不足的问题呢?大家提出了不同的路径:

第一个是量子计算,最近Google、IBM纷纷了看中了量子计算的能力。量子计算未来到底能给我们带来什么?要做一个特殊任务大规模的计算,用别的计算机很难实现,只好选择量子计算。而这个量子计算要搭起来,至少100平方米的大房子,为什么呢?因为要保证那个时间段所捕获量子的相关性要强,而且在持续工作过程中,稳定性要高,所以这已经是特种计算应用的范畴了。未来10年、20年,人工智能算法算力的提升是有难度的,我们需要用到各个方面,而不光是特殊计算。

第二个就是存算一体的架构,这个是用忆阻器阵列来做的。存储和计算一体,可以减少数据在内存和计算单元之间的调度和时延,使得它的算力能够大大提升。

第三个就是类脑计算,它试图模拟生物神经网络的结构和信息加工过程,希望机器能够逼近人脑的计算力,这样也能够提升一定的算力。

第四个就是光电智能计算,用光来计算,这是不是一种很好的算力提升的方法呢?

普林斯顿大学的电气工程教授Paul Prucnal专门对光电智能计算的基本理论做了一个推导,得出的结论是——采用光计算,能让算力提升3个数量级,功耗下降6个数量级。

1956年光计算提出之初,有许多机构和研究者都在做,但到了1964年出现下坡,因为那个时候对算力的需求没有那么高。1990年,贝尔实验室采用了砷化镓研制出“光计算机原型系统”。后来,英伟达发展非常快,电子计算抢占了大部分市场,光计算的兴起又没有完成。直到2017年后突飞猛进,比起人工智能在2010年的迅速发展,刚好滞后近10年。为什么滞后近10年?人工智能刚发展起来时,还不需要那么大的算力,但到2015年以后,对算力需求很强,于是光计算马上在这个时候抓住机会了。光的维度很高,有光射、折射、反射,还有其他方面,维度高能带来大量的并行计算。光计算不仅带宽更大、能耗更低,而且具有“感存一体”的特点。

对比国际上三个重要的机构做的工作,先是MIT的成果2017年发表到了《Nature》上,计算能效显著提升,最重要的是做光学矩阵的乘法,算力非常快。第二个是牛津大学和剑桥大学,用相阵材料做脉冲网络,这里面光学相阵材料能够起到很大的作用。第三个是清华大学,2019年做衍射的神经网络,可以做到大规模光学、神经元的光学并行计算。现在清华大学在国家研究中心组织一个很大的团队,包括材料、芯片、架构和范式、机器学习与算法,也开展了这个方面的研究。

光计算的技术发展成熟以后,对于智能仿真机器人、微型修理机器人的开发有很大的帮助。如果光电智能芯片能推广,云计算的服务器功耗会大大下降,庞大的计算中心将会小型化。光电计算机用在自动驾驶上,也可以不断提升速度,做到纳秒级目标感知与识别,这些在无人系统都能够用得上。即使达不到理想中3个数量级的算力提高,1个数量级、2个数量级的进步至少能够支持现在人工智能的大规模应用,对工业互联网、计算机视觉、大数据分析、光通信带来大规模提升。

03 算法

说起算法,大家都很敏感。从达特茅斯会议走出来,到2012年深度学习掀起人工智能热潮,人工智能算法的创新和普及解决了很多传统算法解决不了的问题。但是我们仔细去分析,这些人工智能算法,普遍存在着以下几方面的缺陷。

鲁棒性差

举个例子,大家用机器学习的算法去检测汽车,在后视镜里,大家可以看到尾灯,我们通过提升亮度来检测,检测就失败了。这种输入发生小的变化,引起输出大的变化的现象,说明了算法鲁棒性较差。

迁移性差

深度学习模型的训练过程依赖大量数据,但特殊场景的样本往往很少,特殊场景效果欠佳,没有迁移性。例如,无人驾驶要全天候开这个车,可是训练数据不够,难学到这些东西,这种迁移性就比较差。

能效比低

人脑思考时,功耗一般在20W左右。而一个英伟达的V100 GPU,功耗在250至300瓦,还是比较大的。相对于生物神经网络,计算机硬件的能效比较低。

自适应性差

我们曾使用6万条脑的数据来训练诊断模型,在做的过程中就发现了多种不同的类型、症状。要使算法具有自适应性,是非常难的一件事情。

具有不可解释性

深度学习模型是一个黑箱,大家都非常清楚。数据输入深度学习网络以后,是怎么通过计算,再到输出的。结果是怎么产生的,该怎么解释,是一个问题。

2018年的三位图灵奖获得者都表示,深度学习有欠鲁棒性、难解释等严重的缺陷。人脑在无监督学习方面远远优于深度学习,在初级感知、信息处理与高级认知过程比机器有着天然优势。深度学习路在哪里?人工智能诞生、初步产业化、人工智能变革迎来了爆发,各个地方都在用,但又因不可解释性要限制使用。鲁棒性差、自适应性差,也限制了在自动驾驶上的应用,很多方面没有办法做。

因此我们要思考,怎么做算法上的创新?深度学习的来源,是优化控制论。大家可以看到这个公式是深度学习使用最广泛的一个东西,也是卷积神经网络、语言和注意力模型、生成对抗网络,包括深度强化学习里的东西。能不能从根本上解决深度学习里的问题,我们要讨论能不能构成一个认知计算模型。

2016年美国阿波罗项目1亿美金奖励给三位科学家,这三位科学家做什么呢?第一位叫Tai Sing Lee,是脑神经科的专家;第二位叫David Cox,是生物学家、计算科学家;第三位叫Andreas Tolias,是神经科学家。

所以,能不能再反过头来重新认识脑科学,再到我们的深度学习算法,来讨论这个问题?有中国的两位科学家,就是从类脑角度去做。还有脑观测启发,我们以前观察脑观测通过什么呢?通过核磁共振、 CT。但是大家都知道,我们那时候探讨的脑,包括现在看不到神经元细胞,只能看脑功能区,因此我们说这些模型来的特点是从脑功能到深度算法,到卷积算法,这么一个算法层面的工作。能不能到神经元角度来?这是一个非常重要的特点。神经元是通过轴突与树突建立关系,人脑有860亿个神经元,这些神经元要通过构建环路,不同的环路解决不同的问题。还包括我们的记忆。大家看突触尺寸有26类,我们神经元的细胞10个微米左右,我们的轴突和树突500纳米,现在用核磁共振都看不到,因此极其希望研究界观尺度的脑科学成像,看神经元的环路怎么样,把轴突和树突的尺寸看清楚。

在这里面我们就探讨:能不能从记忆的角度研究算法。第一个记忆痕迹假设,包括海马体与记忆、记忆多脑区的协同。这里面和它的算法有什么关系?我们要建立这种关系,就比较容易打通这个通路。清华大学课题组通过三年的努力,已经开始构建这么一个模型架构,当然还正在研究,供大家一块讨论、共同研究。

我记得五年前听李德毅老师的报告上说,脑科学和人工智能是两条平行线,不相交,我们就搞了两个平行的堡垒。这是两条平行线,这都是脑科学的诺贝尔奖,从1906年以来,我们调研了一下,到现在获得脑科学的诺贝尔奖有23项。到现在我们主要和神经信息传递机制、人工智能相关的,梳理出来。这边是人类如何思考,那边是机器如何思考,是图灵奖提出和解决的一些问题。这两条平行线建立起来了,下一步是:如何从脑思考到机器思考,建立一个路径。

大家可以看到,这是知识驱动和脑科学驱动模型,还包括数据的驱动。最后能不能有一个认知的驱动?这是个在人工智能学界,大家可以关注和研究的问题。利用脑科学产生一些颠覆性的算法和应用,给我们的算力算法上都能够往前走的架构。

04 交互

大家知道AI里面的交互,包括汽车、多足机器人、人形机器人、服务机器人等,不同AI的实体有不同的接口,称为AI的专用接口。在人工智能时代,我们希望构建AI的通用接口,从而实现人类物理世界和机器虚拟世界的融合,促进AR、VR、视觉三维重建、全息成像等技术的成熟。

在视觉交互上,三维重建是AI和人接口的一个重要关键,是核心关键技术。影创、谷歌AR眼镜只有50克,非常轻,在教育、教学、医疗场景都可以用。包括301提出虚拟手术问题怎么做?用这样的东西,包括讲课中的PPT、人书写的demo,包括上面的东西,都可以放到虚拟线下环境当中,能够提高各方面AI和人交互的能力。混合现实虚拟手术,包括中关村一条街上可以虚拟看到人在走过的场景,还有教学平台等,都可以用AI来做,人和AI的交互变得直接可以讨论。

疫情期间,中小学和大学的课程被迫挪到线上,上课质量受到影响。据统计,大一、大二的学生在线上授课过程中,知识获取率下降了30%,因此能否做一个新的虚拟线下的工作环境?回望历史,人们最早写邮件,第二是电报,第三个语音电话,然后是视频电话,未来是全息投影,这些人都不在会场,戴上AR眼镜就可以看到他们在线上开会,这个demo在清华已经做成了,这个系统一旦做完,清华大学首先要试用。

把人和AI的交互传递给AI和物理世界的交互,这方面工作清华大学孙老师团队做得很好。人类以前进化是不断和自然环境打交道,三维重建是人和AI的交互,人和环境交互是AI认识环境的过程。智能是在智能体与环境的相互作用中逐步产生和发展的,在这里我们要做包括触觉、视觉、听觉多模态的感知能力的结合,AI才能对自然界能够有认知能力。

触觉感知是AI与人交互中的另一个挑战。《科技日报》发布了35项“卡脖子”技术问题之一,其中就包括触觉感知。人手具有上百亿个触感神经元,其动态触觉可以区分出不超过十几纳米的凸凹的感觉。我们手能感觉到,机器能否感觉到?触觉感知是非常难的问题,也是非常重要的问题。在国际上,欧盟、美国学术界都开展了这方面研究——欧盟的new touch、机器人领域著名的国际会议等,都在考虑触觉的问题。机器人具身触觉智能引起广泛关注和高度重视,我们国家多个团队都在研究这方面工作。触觉里面包括很多细节,包括指尖、指掌、躯干等等,因此触觉传感器是机器人的核心部件。

视觉与触觉能够结合,眼见为实,但是感觉为真,有时候看到和摸到的东西不一样。所以触觉先于视觉也先于语言,既是第一语言也是最后的语言,在AI感知自然场景当中起着非常重要的作用。视觉帮助我们了解全貌,触觉使我们了解细节。清华做过一个能飞的机器人,当感知到前面有障碍时,能飞着跳跃过去,这也是视觉和触觉整个感知功能在这里体现的一个特长。要让电脑如何像人一样下棋是相对容易的,但要让电脑有如一岁小孩般的感知和行动能力却是相当困难的。它做复杂的行为、牵涉感情方面的东西还不如一岁小孩,所以要一步一步去操作,让AI去感知这种环境和理解这里面的东西。这是国际上非常大的研究热点,操作的三大重要因素是感知、学习和多模态,利用视觉和触觉多模态融合,实现AI和环境的学习能力和复杂的交互能力的提升。

发挥多智能体的群体效应也是未来重要的发展方向,包括群体协同交互问题,一群机器人怎么样交互等等。群体协同交互是构筑智能通天塔的必由之路,也是有望挑战莫拉维克悖论的重要途径。我们希望能够有更灵巧的手、更明亮的眼睛、更灵敏的耳朵,把这些东西交给AI、交给机器人,它们能够对环境有更加深刻的认识。

05 总结

总结来说,我们希望在算力上,能得到数量级性能提升的新型计算范式和芯片架构;在算法上,能获得更接近本源的认知计算理论与方法;在人机交互上,能实现更高的工作效率、生活质量和安全保障。

智能光电芯片、知识驱动、数据驱动、认知驱动使得未来的AI能够发展的更好。算力有很多提升方法,大家在做光电计算架构,那么能不能先把这个做出来,占据国际竞争的制高点?信息时代,计算机强调人机交互。未来人和AI的交互、AI和环境的交互,人和AI都是发起交互的主体,和我们信息时代的人机交互有着不同的理解。更高的工作效率、生活质量和安全保障,将给我们带来人工智能时代更加重要的体验。

作者简介:戴琼海,清华大学自动化系教授,清华大学生命科学院兼职教授,中国工程院院士。2005年国家自然科学基金委杰出青年基金获得者,2009年受聘教育部“长江学者奖励计划”特聘教授,“探臻科技评论”顾问委员会委员

主要学术方向为人工智能(立体视觉)和计算摄像学,长期致力于该研究领域的理论和关键技术创新,主持承担了科技部重大基础研究973项目和国家基金委重大仪器项目,成功研制了多维多尺度计算摄像仪器,有望成为脑科学和新一代人工智能的重要利器。