专利 一种基于深度强化学习的四足机器人平衡倒立摆控制方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111307449.9 (22)申请日 2021.11.05 (71)申请人河南科技大学地址 471000 河南省洛阳市涧西区西苑路 48号 (72)发明人吴上玉　雷贤卿　李伟　李明　李道玉　 (74)专利代理机构洛阳公信知识产权事务所 (普通合伙) 41120 代理人常晓虎 (51)Int.Cl. G05B 13/04(2006.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于深度强化学习的四足机器人平衡倒立摆控制方法 (57)摘要本发明涉及一种基于深度强化学习的四足机器人平衡倒立摆控制方法，首先搭建具有神经网络训练能力的四足机器人平衡倒立摆虚拟仿真环境；对深度确定性策略梯度（DDPG）算法中的演员‑评论家网络进行设计；根据四足机器人逆运动学及深度强化学习奖励规则，设计了分层奖励函数；演员 ‑评论家网络获取回放经验池中的数据进行训练，输出优化的四足机器人动作控制参数到仿真环境中，执行控制操作；对深度强化学习网络迭代训练，最终得到优化的四足机器人平衡倒立摆控制网络。本发明采用改进的DDPG算法，缓解了因奖励稀疏带来的算法收敛速度缓慢问题，在仿真环境中对所述深度强化学习网络进行训练学习，增强了四足机器人的平衡控制能力及稳定性。权利要求书2页说明书6页附图2页 CN 114047697 A 2022.02.15 CN 114047697 A 1.一种基于深度强化学习的四足机器人平衡倒立摆控制方法，其特征在于：根据所获取的四足机器人平衡倒立摆系统的状态数据判断系统是否达到设定的平衡要求，如果未达到平衡要求，则将四足机器人平衡倒立摆系统的状态数据传入DDPG算法训练模块继续迭代训练，直至达到平衡要求；其中的迭代训练方法如下：（1）结合四足机器人逆运动学设计分层奖励函数，第1层奖励： R1=－L，d≥0.05；第2层奖励： R2=R1+3， 0＜d＜0.05；其中， L为四足机器人平衡倒立摆系统中的倒立摆竖杆与垂直方向夹角的绝对值， d为四足机器人几何中心与四足机器人原始几何中心的距离；将得到的奖励数据和所述的四足机器人平衡倒立摆系统的状态数据存储到回放经验池中；（2）构建演员 ‑评论家网络，通过获取回放经验池中的奖励数据和状态数据进行控制策略函数和评价函数的拟合，经演员网络输出优化后的四足机器人动作控制参数，具体为：设计演员网络拟合控制策略函数，输出四足机器人平衡倒立摆系统动作控制参数；设计评论家网络拟合评价函数，输出四足机器人平衡倒立摆系统的动作控制参数评价Q值；演员网络和评论家网络之间通过策略梯度更新动作控制参数，直至得到优化后的四足机器人动作控制参数；（3）将优化后的四足机器人动作控制参数输入四足机器人平衡倒立摆系统中，执行控制操作，并重新判断系统是否达到设定的平衡要求，如果未达到平衡要求，则按照步骤（1）和（2）继续进行迭代训练，直至最后四足机器人平衡倒立摆系统达到平衡要求，获得优化的四足机器人平衡倒立摆深度强化学习控制网络。 2.根据权利要求1所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法，其特征在于：所述四足机器人平衡倒立摆系统为建立在仿真软件中的背部连接有倒立摆竖杆的四足机器人模型，倒立摆竖杆通过被动枢轴关节与四足机器人模型的背部连接。 3.根据权利要求2所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法，其特征在于：四足机器人平衡倒立摆系统的状态为 S，，x为四足机器人向前或向后的位移， v为四足机器人移动的速度， c为倒立摆竖杆与垂直方向的夹角， w为倒立摆竖杆的角速度。 4.根据权利要求1所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法，其特征在于：在所述步骤（2）中，将四足机器人平衡倒立摆系统的状态数据输入到演员网络，采用全连接层神经网络进行训练，输出2个位置控制动作参数，运用仿真软件中的逆运动学模块，根据所输出的2个位置控制动作参数，自动计算出四足机器人腿部12个关节所需的关节变量，从而控制四足机器人运动。 5.根据权利要求4所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法，其特征在于：在演员网络输出所述的2个位置控制动作参数后，再加入均值回归噪声N进行探索，得到的控制策略 at为：；其中，u为策略函数， St为系统的当前状态，为策略函数内参数。 6.根据权利要求4所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法，权　利　要　求　书 1/2 页 2 CN 114047697 A 2其特征在于：向评论家网络输入四足机器人平衡倒立摆系统的状态数据和演员网络输出的 2个位移控制动作参数，采用全连接层神经网络输出评价值，评价值的更新公式为：其中，yj为目标评价值；、分别为当前和目标评价函数；、分别为当前和目标策略函数；是策略函数和评价函数的内参数；为折扣因子； n为迭代次数；为当前奖励，通过最小化损失函数H更新评价值； Sj、Sj+1分别是两个连续时点下的状态；aj是当前的控制策略， aj=u（St｜θu）。 7.根据权利要求6所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法，其特征在于：在演员网络和评论家网络之间通过策略梯度更新动作控制参数时，策略梯度更新公式为：其中，为评价梯度；为动作梯度； n为迭代次数； S为系统状态； a为状态S下输出的动作；策略函数和评价函数的内参数。权　利　要　求　书 2/2 页 3 CN 114047697 A 3

专利 一种基于深度强化学习的四足机器人平衡倒立摆控制方法

专利一种基于深度强化学习的四足机器人平衡倒立摆控制方法