MIT联合团队发现:对抗训练可对机器人产生重大负面影响

发布时间: 2021-04-22

现如今,由于深度学习和传感器技术的进步,工业机器人变得越来越智能化,低成本化,同时由于新冠的影响,人们对自主移动机器人在开放环境(例如自动化工厂)下的应用越来越感兴趣。

在机器人技术领域,safety(安全)和 security(保障)是该领域的两个主要议题,但根据奥地利科学技术研究所、麻省理工学院和奥地利维也纳工业大学的一项研究,目前用于解决这两个议题的方法,竟会产生相互矛盾的结果。

一方面,机器学习工程师必须在许多自然样本上训练他们的深度学习模型,以确保模型在不同的环境条件下安全运行;另一方面,他们必须用对抗样本来训练同样的模型,以确保模型不会受到恶意攻击者的影响,但通常情况下,经过对抗样本训练过后的模型在不同的环境条件下可能会失去其原有功能。

这篇发表于 ICRA 2021 年的论文 Adversarial Training is Not Ready for Robot Learning 指出:机器人领域需要新的方法来提高神经网络的鲁棒性,同时保证其准确性和安全性。

可能会造成不必要的副作用

深度神经网络通过数据统计规律来实现预测和分类,这使得该模型十分擅长处理计算机视觉任务,例如物体检测和分类。

但是,对统计模式的依赖也会使得神经网络对对抗样本过度敏感,例如,一幅被巧妙修改的图像会导致深度学习模型的错误分类。这通过在原始图像上添加一层噪声就能实现,每一个噪声像素会轻微的修改图片的数值属性,这些轻微的修改人类肉眼无法察觉,但是当这些噪声叠加在一起,便会破坏图像的统计模式,从而导致深度学习错误分类。

对抗样本(Adversarial Examples)和对抗攻击(Adversarial Attack)是人工智能及安全会议上的热门话题,同时,随着深度学习在机器人领域以及自动驾驶领域中的广泛引用,对抗攻击可能会成为严重的安全问题。

最著名的提高深度学习模型的防御方法之一是对抗训练(Adversarial Training),这是一个根据对抗性样本对先前训练过的深度学习模型进行微调的过程。

在对抗训练中,程序生成一组被目标神经网络错误分类的对抗样本,然后,神经网络根据这些样本和它们的正确标签进行二次训练以提高模型对对抗样本的鲁棒性。在许多对抗样本上微调神经网络,会使它在防御对抗攻击时更加稳健,但同时也会导致深度学习模型预测准确性下降。

然而,在机器人研究领域,对抗训练可能会造成不必要的副作用,这种做法会提高模型分类任务的准确性,同时也有可能在机器人学习过程中引入新的错误。

假设存在这样一个场景:利用一个卷积神经网络对存储在文件夹中的一堆图像进行分类,如果该模型良好训练,那么它可以有效正确分类大部分图片,如果一个恶意攻击者在文件夹中添加恶意篡改的图片,那么神经网络便会对它们产生错误的分类。

在机器人应用领域,模型分类误差至关重要,假设神经网络错误地将卡车分类为汽车或行人,尽管从模型学习的角度出发这两种情况都属于误分类,可在实际工程应用中,将卡车误认为行人的错误比误认为汽车严重的多。

引入了三种类型的误差

研究人员发现,区域安全训练(Doman Safety Training)—— 一种普遍的对抗训练方法,会在机器人使用的神经网络中引入了三种类型的误差:系统误差、瞬态误差和条件误差。

对抗训练在机器人应用领域的神经网络模型中造成的三种误差

瞬态误差会使神经网络的精度发生突变,条件误差会导致深度学习模型在特定区域偏离 ground truth,而系统误差误造成了整个区域范围内模型准确性的变化,所有这三种类型的误差都可能导致安全风险。

为了测试他们的发现所产生的效果,研究人员设计了一个实验机器人,它可以监测周围环境,读取手势指令,并在不撞到障碍物的情况下四处移动。

这个机器人使用了两个神经网络:一个卷积神经网络通过连接在机器人前方的摄像头,以获取视频输入并检测手势指令。第二个神经网络处理来自安装在机器人上的激光雷达传感器的数据,并向电机和转向系统发送命令。

实验中,研究人员用三种不同水平的对抗训练测试了视频处理神经网络。

他们的研究结果表明,随着对抗训练水平的提高,神经网络的准确度显著下降。

同时实验发现,对抗训练往往会产生意想不到的结果,这种结果与对抗训练会增强模型鲁棒性这一事实相矛盾,例如,机器人偶尔会在没有操作员明确指令的情况下自行打开或关闭,在最好的情况下,这种行为仅仅会使人恼火,但在最坏的情况下,它会让机器人崩溃从而失去功能。

基于激光雷达的神经网络没有进行对抗训练,但它同样被训练得过于安全,如果有物体挡住了它的路径,它就会阻止机器人向前移动,这就导致了神经网络具有过度防御性,如果机器人位于狭窄走廊之类的良性场景,它也会拒绝向前移动。

对抗训练鲁棒性的未来可能

这些结果表明,就目前而言,对抗训练真正在机器人领域发挥作用,仍有很大挑战。

正如团队成员所言:“我们的理论贡献虽然有限,但表明对抗训练本质上是对数据域不同部分的重要性进行重新加权”。为了克服对抗性训练方法的负面副作用,研究人员必须首先承认对抗性鲁棒性是一个次要目标,在大多数应用中,高标准的准确性应该是首要目标。

对抗性机器学习仍然是一个活跃的研究领域。人工智能科学家已经开发了各种方法来保护机器学习模型免受对抗性攻击,包括神经科学启发的架构、模态泛化方法和不同神经网络之间的组合切换。时间将证明这些方法是否会成为对抗性鲁棒性的黄金标准。

一个更根本的问题 —— 也被这项研究所证实 —— 是机器学习系统中缺乏因果关系。只要神经网络仍仅仅依靠肤浅的数据统计模式,它们就仍易受到不同形式的对抗性攻击。学习因果表征可能是保护神经网络免受对抗性攻击的关键。

但学习因果表征本身是一个重大挑战,AI 界仍在试图找出解决这个问题的方法。

Reference:

1、#

2、#