_科创中国

一种基于强化学习的电池组均衡方法

成果类型：: 发明专利

发布时间: 2023-12-08 15:19:46

科技成果产业化落地方案

方案提交机构：成果发布人| 黄哲芬 | 2023-12-08 15:19:46

成果简介技术亮点应用前景团队概括产生的效益转化方式

本发明涉及一种基于强化学习的电池组均衡方法,包括:根据电池组中单体电池的额定容量及均衡系统中均衡拓扑参数确定电池组均衡过程的均衡目标和约束条件;以电池组均衡器的均衡电流控制量建立均衡系统智能体的动作空间,以电池组的不一致性状态信息和该状态信息下智能体产生的均衡电流控制量建立均衡系统智能体的状态空间;建立Actor Critic架构的深度学习网络,并构建基于双延迟深度确定性策略梯度算法的深度强化学习均衡策略;设计电池均衡系统奖励函数,训练深度强化学习均衡策略,并在每个训练回合随机初始化单体电池的SOC状态;利用训练好的强化学习均衡策略进行电池组均衡控制。该方法有利于缩短电池组均衡时间,减少电池组均衡过程中的能量浪费。

基于强化学习的电池组均衡方法，包括以下步骤：步骤1：根据电池组中单体电池的额定容量以及均衡系统中均衡拓扑参数确定电池组均衡过程的均衡目标和约束条件；步骤2：以电池组均衡器的均衡电流控制量建立均衡系统智能体的动作空间，以电池组的不一致性状态信息和该状态信息下智能体产生的均衡电流控制量建立均衡系统智能体的状态空间；步骤3：建立Actor-Critic架构的深度学习网络，并基于此构建基于双延迟深度确定性策略梯度算法的深度强化学习均衡策略；步骤4：设计电池均衡系统奖励函数，初始化深度强化学习均衡策略的训练参数，然后对深度强化学习均衡策略进行训练，并在每个训练回合随机初始化单体电池的SOC状态；步骤5：利用训练好的强化学习均衡策略进行电池组均衡控制。

随着新能源汽车行业的发展，电池组的需求量和报废量在迅速提高。为满足人们的出行需求，电池组的容量在不断提升，进而需要并联的电池数量也随之增加，但电池组的性能会随着充电次数的增加而衰减，当电池组的一致性下降时，易产生电池组某一单体过充过放情况，造成能量的浪费，严重影响到电池组的使用寿命。

因此，需要对电池组进行均衡控制以消除电池组由于自身和使用过程中产生的各种不一致性。目前电池组的均衡控制方式大多以基于规则的主动均衡控制为主，其原理为将操作人员或专家经验编成模糊规则，然后将来自传感器的实时信号模糊化，将模糊化后的信号作为模糊规则的输入，完成模糊推理，将推理后得到的输出量加到执行器上，故模糊规则的制订需依赖于主观经验，规则设计不当可能会导致输出振荡，降低均衡效率，甚至出现过均衡等问题。因此，需要提供一种均衡策略来解决上述问题。

发明人：王亚雄杨庆伟梁非凡欧凯

福州大学（Fuzhou University），简称福大，位于福建省福州市，创建于1958年，是国家“双一流”建设高校，国家“211工程”建设高校，国家教育部、国家国防科技工业局与福建省人民政府共建高校，福建省三所重点建设的高水平大学之一，福建省一流大学建设高校，入选国家建设高水平大学公派研究生项目、教育部首批“卓越工程师教育培养计划”高校、新工科研究与实践项目、数据中国“百校工程”项目、国家“111计划”、“高校国际化示范学院推进计划”、国家级大学生创新创业训练计划、全国首批深化创新创业教育改革示范高校、中国政府奖学金来华留学生接收院校、全国专业学位研究生教育综合改革试点单位、国家集成电路人才培养基地、首批高等学校科技成果转化和技术转移基地、高校国家知识产权信息服务中心。

与传统的基于规则的制定均衡策略相比，本方法可以通过探索过程，使得均衡控制器不断地改进均衡控制决策，逐渐逼近控制域内最优均衡目标，实现均衡管理策略的自学习设计；本方法可以使智能体自动探索约束条件内最优均衡电流，同时能够有效缩短电池组均衡所需的时间并有效减少电池组均衡过程中产生的能量浪费；此外，本发明在强化学习的基础上采用TD3算法，用双Critic网络的电池组均衡训练框架，用两个Critic之间的最小值来抑制Q值的过高估计，在计算目标值时，在下一个状态的动作上加入扰动，从而使得价值评估更准确，并在Critic网络更新多次后，再更新Actor网络，从而保证Actor网络的训练更加稳定；本发明还提出了一种新型的简单的奖励函数，该奖励函数可以使智能体朝着约束条件内均衡效果最优的方向进行探索。

当前专利未经权利人许可不得实施，希望将科技成果转让给研发实力雄厚的企业，由受让人对科技成果实施转化。交易的是科技成果中的知识产权，可以包括专利权、专利申请权、技术秘密等。科技成果转让后，转让方获得转让费，不再是科技成果的所有人；受让方向转让方支付转让费，并成为科技成果的新的所有人。

科创中国

科创中国

友情链接

海外专利信息资源系统

省级中心站