一种基于深度强化学习的机器人路径导航方法及系统
成果类型:: 发明专利
发布时间: 2023-10-16 10:18:30
本发明公开了一种基于深度强化学习的机器人路径导航方法及系统,包括:基于深度强化学习构建双Actor‑Critic神经网络,根据获取的机器人当前运动状态,采用第一Actor‑Critic神经网络输出机器人的初始移动动作以及初始移动动作的评价值;以机器人当前运动状态和初始移动动作的评价值作为训练集对第二Actor‑Critic神经网络进行训练,根据训练后的第二Actor‑Critic神经网络对第一Actor‑Critic神经网络进行更新,以更新后的第一Actor‑Critic神经网络根据机器人当前运动状态输出最优移动动作,以此对机器人进行最优路径的导航。结合深度学习方法的感知能力和强化学习方法的策略能力,找到在机器人当前运动状态下最优的行动策略,在高度复杂的场景中,解决了传统机器人导航依赖障碍地图的局限性。
为了解决上述问题,本发明提出了一种基于深度强化学习的机器人路径导航方法及系统,基于深度强化学习构建双Actor‑Critic神经网络,包含两对Actor‑Critic神经网络,第一Actor‑Critic神经网络在导航环境中寻找潜在的行动策略,并将该经验数据对第二Actor‑Critic神经网络进行训练,以训练后的参数对第一Actor‑Critic神经网络进行更新,边训练边学习边更新的方式便于对机器人移动做出最优决策,实现复杂环境下的机器人路径规划。
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线称之为路径,构成路径的策略称之为路径规划。机器人的无碰运动,即机器人导航也属于路径规划的一种。传统的路径规划算法包括:模拟退火算法、人工势场法、模糊逻辑算法、禁忌搜索算法等。
深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。深度强化学习将两者结合,优势互补,为复杂系统的感知决策问题提供了解决思路。
此外,发明人认为,传统的机器人导航方法主要取决于导航环境的障碍物图,导航过程需要全部或部分的先验环境知识,灵活性较差,局限性较大,不适用于复杂、动态未知的环境;而且由于模拟仿真环境与高度复杂的真实环境之间的巨大差异,将训练好的模型转化为真实机器人导航具有难度。
此技术是山东师范大学吕蕾研发,山东师范大学,位于山东省济南市,宗旨和业务范围是“面向社会培养高等学历师资人才,进行成人教育,促进教育事业发展”。
与现有技术相比,本发明的有益效果为:
本发明结合深度学习方法的感知能力和强化学习方法的策略能力,找到在机器人当前运动状态下奖励值最大、最优的行动策略,不需要任何先验知识,在高度复杂的场景中,解决了传统机器人导航依赖障碍地图的局限性。
本发明构建双Actor‑Critic神经网络,包含两对Actor‑Critic神经网络,第一Actor‑Critic神经网络在导航环境中进行探索,寻找潜在的最优策略,并将该经验数据采用经验回放机制对第二Actor‑Critic神经网络进行训练,以训练后的参数对第一Actor‑Critic神经网络进行更新,边训练边学习边更新的方式便于对机器人移动做出最优决策,实现复杂环境下的机器人路径规划。
技术转让,许可,合作所需资金需双方协商,此项技术想尽快落地保定,希望具备此项技术研发的技术方,能够尽快承接此项目。