基于改进的DDPG算法的机器人路径导航方法及系统

本发明公开了基于改进的DDPG算法的机器人路径导航方法及系统，获取机器人当前状态信息和目标位置；将机器人当前状态信息及目标位置，输入到训练后的改进的DDPG网络中，得到最优可执行动作数据，完成无碰撞的路径导航；改进的DDPG网络将DDPG网络的奖励值计算利用好奇心奖励机制模型来完成；好奇心奖励机制模型，包括：若干个依次串联的LSTM模型；所述依次串联的LSTM模型中，所有LSTM模型的输入端与Actor当前网络的输出端连接，最后一个LSTM模型的输出端与CNN模型的输入端连接，CNN模型的输出端与Actor当前网络的输入端连接。基于好奇心的机器人路径导航可以使机器人更加智能。

传统的导航解决方案例如遗传算法、模拟退火算法等在导航方面有较好的效果。但是这些方法都是假定环境已知的情况下，设计出一套普适的解决方案。随着机器人应用于各行各业，机器人所处的环境也变得越来越复杂。之前的一些解决方案就不能很好的解决这些问题。结合了强化学习和深度学习的深度强化学习方法近些年来被广泛应用于机器人路径导航领域。深度学习在特征提取和事物感知等方面具有独特的优势，已广泛应用于计算机视觉等领域。强化学习具有较好的决策能力，能够在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标。深度学习与强化学习相结合的深度强化学习成功解决了复杂环境中机器人导航问题。深度确定性策略梯度(DDPG)算法是最早提出来的深度强化学习网络之一。作为深度强化学习中的经典算法，DDPG算法针对的是连续的、高纬度行为空间的策略学习方法。相比于之前的强化学习方法，DDPG算法在连续控制问题上有着较大的优势，已经被应用于机器人路径导航、自动驾驶、机械臂控制等众多领域。

此技术是山东师范大学吕蕾研发，山东师范大学，位于山东省济南市，宗旨和业务范围是“面向社会培养高等学历师资人才，进行成人教育，促进教育事业发展”。

点击查看

评价单位：- (-) 评价时间：2023-10-19

李静想

保定市知识产权协会

技术经理人

综合评价

技术转让，所需资金需双方协商，此项技术想尽快落地保定，希望具备此项技术研发的技术方，能够尽快承接次项目

科创中国

科创中国

友情链接

海外专利信息资源系统

省级中心站