一种基于TPR-DDPG的移动机器人路径规划方法
成果类型:: 发明专利
发布时间: 2022-10-27 09:36:35
本发明涉及一种基于TPR‑DDPG的移动机器人路径规划方法,属于移动机器人的路径规划方法技术领域。本发明的技术方案是:对不同的状态进行预处理,并设计完整的奖赏函数,使移动机器人在复杂环境下快速找到最优路径并到达目标点,同时,在策略网络中加入BatchNorm层,保证算法的稳定性。本发明的有益效果是:通过三步式奖惩函数使机器人在避开障碍物的同时能够快速到达目标点。
一种基于TPR‑DDPG的移动机器人路径规划方法,其特征在于包含以下步骤:(1)通过移动机器人的传感器信息获得输入到估计策略网络的状态,并对其进行预处理,状态包括机器人到目标点的距离、机器人方位角以及机器人前端八个超声传感器测量值;(2)创建策略网络μ(s,θμ)和评价网络Q(s,a|θQ)和对应的目标网络μ'←μ和Q'←Q,初始化经验池R和噪声分布N;(3)将状态st输入到估计策略网络得到一个确定性动作u(st),机器人执行加入噪声后的动作at,执行该动作后根据奖惩函数获得奖励rt以及下一步状态st+1,将状态st、动作at、奖励rt、下一状态st+1存入经验池;
随着时代的进步,科学技术的快速发展,移动机器人越来越在人们的生活中发挥着重要的作用,移动机器人的路径规划技术已经应用到服务、交通等社会的各个领域,从而提高了生产效率,减少了人类资源浪费。路径规划需解决以下三个方面的问题:避障、如何到达目的地以及使行走路径平滑。传统的路径规划算法包括Dijkstra算法、A*算法、可视图法、栅格法和自由空间法,传统的路径规划算法需要已知整个地图的环境信息,在现实生活中,环境因素瞬息万变,因此,传统的路径规划算法是行不通的。强化学习可以不需要先验知识,机器人通过与未知环境不断试错与交互的过程中获得知识,然后通过累积奖赏来优化策略,从而使移动机器人完成路径规划。
河北师范大学是一所具有百年历史和光荣传统的省属重点大学。学校起源于1902年创建于北京的顺天府学堂和1906年创建于天津的北洋女师范学堂。1996年6月,原河北师范大学、河北师范学院与创建于1952年的河北教育学院、创建于1984年的河北职业技术师范学院合并,组建成新的河北师范大学。校友中有老一代革命家邓颖超、刘清扬、郭隆真、杨秀峰、康世恩、荣高棠等,有学界名人梁漱溟、张申府、汤用彤等,有中科院院士严陆光、郝柏林等,也有许绍发、蔡振华等一批体育界精英。新中国成立以来,学校共为国家培养了20余万名专业人才。 学校新校区占地1829亩,馆藏图书340.64万册。学校现有在职教职工2856名,其中专任教师1577人,教授405人,副教授994人,中国科学院院士1人,省级以上各类优秀专家106人,博士研究生导师108人,硕士研究生导师578人。在校本、专科生36371人,研究生4191人,成人教育学生14760人。
发明的有益效果是:通过在策略网络中加入BatchNorm层,将移动机器人转动角度作为动作,选取有利用价值的传感器数据作为状态并对其进行预处理,通过三步式奖惩函数使机器人实现在复杂的环境中避开障碍物的同时能够快速到达目标点。
技术转让,许可,合作所需资金需双方协商,此项技术想尽快落地保定,希望具备此项技术研发的技术方,能够尽快承接次项目