Nature 文章:光学计算浮沉50年,AI催化光电混合新机会

发布时间: 2021-01-06

作者:武文浩

越来越多的人工智能任务需要专门的加速器来保证快速、低功耗地执行运算。光学计算系统由此进入了更多人的视野。

光学计算系统也许能够满足这些特定领域的需求,尽管经过了半个世纪的研究,通用光计算系统还没有成为一种成熟的、实用的技术。

而人工智能推理任务,特别是视觉计算应用,被认为可以为基于光学和光子系统的推理提供机会。从这个角度出发,Nature 近日刊登的一篇 Perspective 文章Inference in artificial intelligence with deep optics and photonics ,很好地回顾了半个世纪以来光子计算(包括硬件和算法)在人工智能中的应用、前景和挑战。

这篇文章由来自斯坦福大学、麻省理工学院、加州大学洛杉矶分校的法国、德国以及瑞士的研究人员共同撰写,以下为 “数据实战派” 对该论文的重点解读。

全球算力争霸赛

算力,这一衡量计算设备及算法之运算能力的指标,如今已从学术界中探讨的一个概念,演变为了全球范围内大国 “军备竞赛”。

无论是自动驾驶、机器人视觉处理、智能家居,还是遥感技术、高精显微设备、物联网、监控及国防,深度学习在上述这些包含天文级数据量的领域中被广泛应用。

但如要有效地运行越来越复杂的高级算法,仅靠 GPU 和常规加速器(通常所说的 AI 芯片)现有的并行运算能力以及带宽是不够的。

在算法的执行过程上,深度学习可被简要分为两个阶段,一是训练阶段,二是推理阶段,两者间存在很大差异。

在训练阶段,深度神经网络(DNN)需要大量带有标注的示例,然后针对某个特定任务,使用迭代方法优化该 DNN 的参数。训练完成后,可使用该 DNN 来执行推理。当前,很多技术方案都是将 GPU 用于算法的推理阶段。但由于高功耗、时延、成本等局限,搭载 GPU 并维持其运转,对许多需要使用深度学习算法的终端设备来说都不现实,比如自动驾驶汽车和物联网终端设备。

面对这种 GPU 难以覆盖的场景,目前的解决方案是采用更具有灵活性的 AI 加速器。广义上来说,基于光学原理而设计的计算平台也可以归为此类,不过,和用电子执行计算的传统方法相比,光子计算平台更有可能对 AI 领域带来产生颠覆性效果甚至带来研究范式的转换。

光的特性先天适合线性计算(AI 计算里最重要的部分),其中包含高维度的并行计算。过去几年来,一系列光学芯片初创企业涌现并获得不少有 AI 业务的科技巨头投资,主要原因也在于此。

而随着基于光学原理的设计逐渐在当代数据中心中得到广泛应用,产业界对光电子学和集成光学的了解也将得以逐渐加深,借助光学系统设计让信息技术进入下一个纪元将成为可能。

光子人工智能发展史

本篇论文主要讨论光子人工智能近 50 年的发展。不过,团队将光子人工智能的缘起追溯到 1949 年 Donald O. Hebb 发表 The Organization of Behavior 一书之时。这本神经心理学理论著作曾被视作与达尔文的《物种起源》 一样,是近代最有影响力的书之一,以深度学习为代表的统计学习理论与方法,思路来自由神经科学家和数学家率先提出的连接主义(connectionism),The Organization of Behavior 是其中的奠基作品之一。

在这之后的 1960 年代到 1986 年之间,光子人工智能领域的突出进展包括:1957 年,美国心理学家 Frank Rosenblatt 提出一种具有单层计算单元的神经网络,即感知机 (Perceptron);1960 年,Widrow & Hoff 发表《自适应开关电路》(Adaptive switching circuits), 他们用硬件实现了神经网络,提出了 ADALINE 网络,并发表了 Widrow-Hoff 算法提出自适应开关电路;1964 年,Vander Lugt 提出光学相关器(Optical Correlation),奠定了空间光计算的基础;1982 年,John Hopfield 提出 Hopfield 网络,Teuvo.Kohonen 发表了《自组织映射》(Self-organized feature maps ),介绍了 SOM 算法,是一种简单而有效的无指导学习算法……

1986 年之后,诞生了更多我们今天所熟知的 AI 进展。例如,1986 年,D.E.Rumelhart 、Hinton 等人提出使用反向传播的多层感知机(Multi-layer perceptron with backpropagation),反向传播这一重要概念问世;1990 年,Yann LeCun 等人使用 CNN 实现数字字符识别。

其中,2017 年一项重要研究的一作是中国科学家沈亦晨,这篇由 Nature Photonics 接收的论文,首次展示了针对深度学习的可编程光子处理器。

不止计算平台,光学算法也在持续出现,有 2018 年的光学 CNN、全光衍射神经网络,以及 2019 年的高带宽光子神经突触网络。

光学计算的优势

在回顾完发展史之后,团队从搭建深度学习算法基本要素入手,细致地分析了为何基于光学原理的设计,可以比当前现有的设计在众多方面上拥有潜在优势,为实现这些优越性可能需要克服的技术问题,以及一些具体和潜在的实际应用场景(如成像和显微技术)。

简而言之,光学计算系统通过用二极管或激光产生的光子来替代传统设计中用于表示数据流的电子,来实现优于传统计算设备设计的能效。

在传统设计中,1和0的数据信息由晶体管来表示,单个晶体管每秒可使用数千或数百万次,但每次使用只能处理一条信息。晶体管的工作效率取决于其所连电线的充放电频率和这一过程带来的放热,而为了表示和处理越来越复杂的信息,传统设计需要增加更多的晶体管,导致计算机本身在运行过程中会放出更多的热,在设计上对计算机的能耗和体积要求都会造成困扰。

相比之下,在光学中,由于不同波长的光子间并不会互相影响,光学计算机允许多个信息同时在同一个信息回路上传递,实现多路复用(并不是一次只能处理一条信息)。在循环时长上,光学晶体管每皮秒便可循环一次,比电子晶体管要快一千倍。

在能耗上,使用精心挑选的波长来传递信息可使光在传递过程中不放热,降低系统的能耗和体积需求,而且光子与电子不同,并不会发生“量子跃迁(quantum tunnelling,根据量子力学,电子能神奇般地跳到物理上并不允许它跨越的势能墙外,这种现象源于电子跑到势能墙外的概率并不为零)”,所以理论上光学晶体管可以比电子晶体管更省空间,允许我们把晶体管本身做的更小。

但是,距离这些理论上的优越性,光学计算系统设计面临的最主要的挑战,也与其设计原理有关。

之前提到,光学计算系统可以用不同的波长搭载不同的信息,但如要对这些信息进行处理,就需要对这些以光为形式传递的信息进行干预,即用别的电磁波信号与其相作用,造成光学计算系统本身的运算过程是非线性的,而且这种相互作用的强度要比传统设计中的电子信号弱的多(处理难度较电子信号更大)。

另外,理论上,光学晶体管的循环速率比电子晶体管能快很多,但电磁波在物理上存在理论上的转换极限,这意味着光学晶体管的信息响应速度仍会受到所选光的频谱带宽限制,因此,如果要真想让光学计算系统拥有比传统电子计算更高的算力,就需要有实际可用的高散波导传输超短脉冲信号的方法。

而在计算系统本身的设计上,光学逻辑门需要被集成到计算机的高级组件中(如CPU),可这些组件并非光学元件,因此光学计算系统仍涉及将光信号转为电信号,这一转换过程也会对系统的整体效率构成影响。

研究团队也表示,现阶段,大多数关于基于光学的计算系统设计的乐观情绪,基本源于对该类设计能实现超低能耗的承诺。尽管这种超低能耗的假设,往往并没有将光电转换过程的效率考虑在内。

因此,从产业应用的角度,光子还未达到如同电子在整个科技产业的支配性地位。

一个主要原因在于,人类对作为玻色子的光子的认识和利用,远不比作为费米子的电子更成熟。特别在整体的产业化进程上,电子走过了从电学问世,到电子回路诞生,再到产品集成化、工程化进而产业化的完整路线,而光子还远未走完这些阶段。例如,在光通信、光显示、光存储等高技术产业,光子器件虽是关键部分,但在各类完整的系统和设备层面,和电子器件相比,其在总成本中所占的比重、产值可谓小巫见大巫。

目前传统的电子系统设计仍是产业主流,光学系统大都是模拟用途。

光电混合系统的前景

在具体的 AI 应用场景上,论文指出了现有光学计算的两大重要应用:一则是宏观的计算成像领域,光学计算系统结合深度学习算法,可从单像素相机拍摄的结果通过计算恢复场景本来的面貌,实现光学和成像处理的端到端优化。

另一则是在显微领域,由于我们现在对光与物质作用的过程并不完全了解,无法通过建模分析数据得到许多复杂过程的微观层面图像,只能借助深度学习算法来学习这种未知的过程,生成“正确”的图像。

在结论中,作者们表示,虽然目前纯光子计算系统设计在具体实现上还面临着许多实际的技术问题,但这些问题中的许多已有 “有望被解决” 的方向出现。

在过去的二十多年里,基于光学原理的计算系统设计所取得了长足的发展,主要表现在以下几个方面:完全基于光学原理的非线性系统、大规模光子计算系统的可控性、光电转换效率和光电转换过程可编程性的提升。

而传统方法和光学方法结合的设计,很有可能是当前光电计算领域最有前景的方向之一。原因在于,这种混合设计可以现有传统设计的灵活性与光学方法的带宽和速度相结合,并从某种程度上保留光学方法低能耗的特性,进而让未来终端类设备大规模使用深度学习算法成为现实。

Reference:

1、#