_科创中国

一种基于深度强化学习的机器人路径导航方法及系统

成果类型：: 发明专利

发布时间: 2023-10-16 10:18:30

科技成果产业化落地方案

方案提交机构：成果发布人| 涂媛 | 2023-10-16 10:18:30

成果简介技术亮点应用前景团队概括产生的效益转化方式

本发明公开了一种基于深度强化学习的机器人路径导航方法及系统，包括：基于深度强化学习构建双Actor‑Critic神经网络，根据获取的机器人当前运动状态，采用第一Actor‑Critic神经网络输出机器人的初始移动动作以及初始移动动作的评价值；以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor‑Critic神经网络进行训练，根据训练后的第二Actor‑Critic神经网络对第一Actor‑Critic神经网络进行更新，以更新后的第一Actor‑Critic神经网络根据机器人当前运动状态输出最优移动动作，以此对机器人进行最优路径的导航。结合深度学习方法的感知能力和强化学习方法的策略能力，找到在机器人当前运动状态下最优的行动策略，在高度复杂的场景中，解决了传统机器人导航依赖障碍地图的局限性。

为了解决上述问题，本发明提出了一种基于深度强化学习的机器人路径导航方法及系统，基于深度强化学习构建双Actor‑Critic神经网络，包含两对Actor‑Critic神经网络，第一Actor‑Critic神经网络在导航环境中寻找潜在的行动策略，并将该经验数据对第二Actor‑Critic神经网络进行训练，以训练后的参数对第一Actor‑Critic神经网络进行更新，边训练边学习边更新的方式便于对机器人移动做出最优决策，实现复杂环境下的机器人路径规划。

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

运动规划由路径规划和轨迹规划组成，连接起点位置和终点位置的序列点或曲线称之为路径，构成路径的策略称之为路径规划。机器人的无碰运动，即机器人导航也属于路径规划的一种。传统的路径规划算法包括：模拟退火算法、人工势场法、模糊逻辑算法、禁忌搜索算法等。

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的图像进行控制，是一种更接近人类思维方式的人工智能方法。深度学习具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，对感知问题束手无策。深度强化学习将两者结合，优势互补，为复杂系统的感知决策问题提供了解决思路。

此外，发明人认为，传统的机器人导航方法主要取决于导航环境的障碍物图，导航过程需要全部或部分的先验环境知识，灵活性较差，局限性较大，不适用于复杂、动态未知的环境；而且由于模拟仿真环境与高度复杂的真实环境之间的巨大差异，将训练好的模型转化为真实机器人导航具有难度。

此技术是山东师范大学吕蕾研发，山东师范大学，位于山东省济南市，宗旨和业务范围是“面向社会培养高等学历师资人才，进行成人教育，促进教育事业发展”。

与现有技术相比，本发明的有益效果为：

本发明结合深度学习方法的感知能力和强化学习方法的策略能力，找到在机器人当前运动状态下奖励值最大、最优的行动策略，不需要任何先验知识，在高度复杂的场景中，解决了传统机器人导航依赖障碍地图的局限性。

本发明构建双Actor‑Critic神经网络，包含两对Actor‑Critic神经网络，第一Actor‑Critic神经网络在导航环境中进行探索，寻找潜在的最优策略，并将该经验数据采用经验回放机制对第二Actor‑Critic神经网络进行训练，以训练后的参数对第一Actor‑Critic神经网络进行更新，边训练边学习边更新的方式便于对机器人移动做出最优决策，实现复杂环境下的机器人路径规划。

科创中国

科创中国

友情链接

海外专利信息资源系统

省级中心站