_科创中国

基于改进的DDPG算法的机器人路径导航方法及系统

成果类型：: 发明专利

发布时间: 2023-10-16 10:35:37

科技成果产业化落地方案

方案提交机构：成果发布人| 涂媛 | 2023-10-16 10:35:37

成果简介技术亮点应用前景团队概括产生的效益转化方式

本发明公开了基于改进的DDPG算法的机器人路径导航方法及系统，获取机器人当前状态信息和目标位置；将机器人当前状态信息及目标位置，输入到训练后的改进的DDPG网络中，得到最优可执行动作数据，完成无碰撞的路径导航；改进的DDPG网络将DDPG网络的奖励值计算利用好奇心奖励机制模型来完成；好奇心奖励机制模型，包括：若干个依次串联的LSTM模型；所述依次串联的LSTM模型中，所有LSTM模型的输入端与Actor当前网络的输出端连接，最后一个LSTM模型的输出端与CNN模型的输入端连接，CNN模型的输出端与Actor当前网络的输入端连接。基于好奇心的机器人路径导航可以使机器人更加智能。

传统的导航解决方案例如遗传算法、模拟退火算法等在导航方面有较好的效果。但是这些方法都是假定环境已知的情况下，设计出一套普适的解决方案。随着机器人应用于各行各业，机器人所处的环境也变得越来越复杂。之前的一些解决方案就不能很好的解决这些问题。结合了强化学习和深度学习的深度强化学习方法近些年来被广泛应用于机器人路径导航领域。深度学习在特征提取和事物感知等方面具有独特的优势，已广泛应用于计算机视觉等领域。强化学习具有较好的决策能力，能够在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标。深度学习与强化学习相结合的深度强化学习成功解决了复杂环境中机器人导航问题。深度确定性策略梯度(DDPG)算法是最早提出来的深度强化学习网络之一。作为深度强化学习中的经典算法，DDPG算法针对的是连续的、高纬度行为空间的策略学习方法。相比于之前的强化学习方法，DDPG算法在连续控制问题上有着较大的优势，已经被应用于机器人路径导航、自动驾驶、机械臂控制等众多领域。

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

随着人工智能技术的发展，机器人已经从原来的工业生产领域逐渐进入我们的日常生活中。尤其近几年来在服务业领域有着蓬勃发展的势头。人类社会对移动机器人的需求也越来越强烈。而对机器人的路径规划是机器人领域需要解决的关键问题。移动机器人的路径规划是一个复杂的问题，需要自主移动的机器人根据约束条件能够找到一条从初始位置到目标位置的一条无障碍路径。随着机器人所面对的环境越来越复杂，要求机器人需要具有在更高的水平上预期障碍物并避免与之碰撞的能力。

此技术是山东师范大学吕蕾研发，山东师范大学，位于山东省济南市，宗旨和业务范围是“面向社会培养高等学历师资人才，进行成人教育，促进教育事业发展”。

与现有技术相比，本发明的有益效果是：

本发明利用好奇心产生的内部奖励与算法的外部奖励总和作为机器人与环境交互产生的总奖励。在奖励函数模块嵌入了长短期记忆人工神经网络(LSTM)与卷积神经网络(CNN)。将过去的多个状态输入LSTM网络，输出对下一个状态的预测，下一个状态的预测值与实际状态之间的差值作为内部奖励。在人类社会中，人们对接下来发生的事情的与预测往往是根据以往的经验，这里将LSTM网络嵌入到好奇心机制中正是借鉴了这个人类思维特点。同时使用CNN网络对上一个网络产生的下一个状态进行动作的反向预测。好奇心一直被一些科学家认为是智能的基本属性之一，基于好奇心的机器人路径导航可以使机器人更加智能，即使在奖励稀疏甚至是无外部奖励的情况下，机器人也可以像人类一样进行摸索。

本发明借鉴人类的思维特征，在奖励函数模块中嵌入好奇心机制。同时将最近的batch个状态作为经验数据输入到机器人的好奇心机制中，利用了具有长短期记忆功能的LSTM网络对下一个状态进行预测，使基于好奇心的预测可以保持其时序性。同时将预测的下一个状态与实际下一个状态之差作为内部奖励值，可以解决原有的DDPG算法奖励稀疏的问题。

本发明使用了具有特征提取功能的CNN网络，将LSTM网络预测出的下一个状态St+1'与实际的状态St作为输入，输出对动作At的预测值At'，将实际的动作At与CNN网络预测出的动作At'之间的差值作为一个约束条件。利用梯度的反向传播同时训练LSTM网络和CNN网络。添加CNN模块后可以提取出对动作有关键影响的状态特征。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

科创中国

科创中国

友情链接

海外专利信息资源系统

省级中心站