说明:最全专利文库
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111307449.9 (22)申请日 2021.11.05 (71)申请人 河南科技大 学 地址 471000 河南省洛阳市涧西区西苑路 48号 (72)发明人 吴上玉 雷贤卿 李伟 李明  李道玉  (74)专利代理 机构 洛阳公信知识产权事务所 (普通合伙) 41120 代理人 常晓虎 (51)Int.Cl. G05B 13/04(2006.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度强化学习的四足机器人平衡 倒立摆控制方法 (57)摘要 本发明涉及一种基于深度强化学习的四足 机器人平衡倒立摆控制方法, 首先搭建具有神经 网络训练能力的四足机器人平衡倒立摆虚拟仿 真环境; 对深度确定性策略梯度 (DDPG) 算法中的 演员‑评论家网络进行设计; 根据四足机器人逆 运动学及深度强化学习奖励规则, 设计了分层奖 励函数; 演员 ‑评论家网络获取回放经验池中的 数据进行训练, 输出优化的四足机器人动作控制 参数到仿真环境中, 执行控制操作; 对深度强化 学习网络迭代训练, 最终得到优化的四足机器人 平衡倒立摆控制网络。 本发明采用改进的DDPG算 法, 缓解了因奖励稀 疏带来的算法收敛速度缓慢 问题, 在仿真环境中对所述深度强化学习网络进 行训练学习, 增强了四足机器人的平衡控制能力 及稳定性。 权利要求书2页 说明书6页 附图2页 CN 114047697 A 2022.02.15 CN 114047697 A 1.一种基于深度强化学习的四足机器人平衡倒立摆控制方法, 其特征在于: 根据所获 取的四足机器人平衡倒立摆系统的状态数据判断系统是否达到 设定的平衡要求, 如果未达 到平衡要求, 则将四足机器人平衡倒立摆系统的状态数据传 入DDPG算法训练模块 继续迭代 训练, 直至 达到平衡要求; 其中的迭代训练方法如下: (1) 结合四足机器人逆运动学设计分层奖励函数, 第1层奖励: R1=-L,d≥0.05; 第2层奖励: R2=R1+3, 0<d<0.05; 其中, L为四足机器人平衡倒立摆系统中的倒立摆竖杆与垂直方向夹角的绝对值, d为 四足机器人几何中心与四足机器人原 始几何中心的距离; 将得到的奖励数据和所述的四足机器人平衡倒立摆系统的状态数据存储到回放经验 池中; (2) 构建演员 ‑评论家网络, 通过获取回放经验池中的奖励数据和状态数据进行控制策 略函数和评价函数的拟合, 经演员网络输出优化后的四足机器人动作控制参数, 具体为: 设 计演员网络拟合控制策略函数, 输出四足机器人平衡倒立摆系统动作控制参数; 设计评论 家网络拟合评价函数, 输出四足机器人平衡倒立摆系统的动作控制参数评价Q值; 演员网络 和评论家网络之间通过策略梯度更新动作控制参数, 直至得到优化后的四足机器人动作控 制参数; (3) 将优化后的四足机器人动作控制参数输入四足机器人平衡倒立摆系统中, 执行控 制操作, 并重新判断系统是否达到设定的平衡要求, 如果未达到平衡要求, 则按照步骤 (1) 和 (2) 继续进 行迭代训练, 直至最后四足机器人平衡倒立摆系统达到平衡要求, 获得优化的 四足机器人平衡倒立摆深度强化学习控制网络 。 2.根据权利要求1所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法, 其特征在于: 所述四足机器人平衡倒立摆系统为建立在仿 真软件中的背部连接有倒立摆竖 杆的四足机器人模型, 倒立摆竖 杆通过被动枢轴关节与四足机器人模型的背部连接 。 3.根据权利要求2所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法, 其特征在于: 四足机器人平衡倒立摆系统的状态为 S, ,x为四足机器人向前或 向后的位移, v为四足机器人移动的速度, c为倒立摆竖杆与垂直方向的夹角, w为倒立摆竖 杆的角速度。 4.根据权利要求1所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法, 其特征在于: 在所述步骤 (2) 中, 将四足机器人平衡倒立摆系统的状态数据输入到演员网 络, 采用全连接层神经网络进行训练, 输出2个位置控制动作参数, 运用仿真软件中的逆运 动学模块, 根据所输出的2个位置控制动作参数, 自动计算出四足机器人腿部12个关节所需 的关节变量, 从而控制四足机器人运动。 5.根据权利要求4所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法, 其特征在于: 在演员网络输出所述的2个位置控制动作参数后, 再加入均值回归 噪声N进行 探索, 得到的控制策略 at为: ; 其中,u为策略函数, St为系统的当前状 态, 为策略函数内参数。 6.根据权利要求4所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法,权 利 要 求 书 1/2 页 2 CN 114047697 A 2其特征在于: 向评论家网络输入四足机器人平衡倒立摆系统的状态数据和演员网络输出的 2个位移控制动作参数, 采用全连接层神经网络 输出评价 值, 评价值的更新公式为: 其中,yj为目标评价 值; 、 分别为当前和目标评价函数; 、 分别 为当前和目标策略函数; 是策略函数和评价函数的内参数; 为折扣因子; n为迭代次 数; 为当前奖励, 通过最小化损失函数H更新评价值; Sj、Sj+1分别是两个连续时点下的状 态;aj是当前的控制策略, aj=u(St|θu) 。 7.根据权利要求6所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法, 其特征在于: 在演员网络和评论家网络之间通过策略梯度更新动作控制参数时, 策略梯度 更新公式为: 其中, 为评价梯度; 为动作梯度; n为迭代次数; S为系统状态; a为状 态S下输出的动作; 策略函数和评价 函数的内参数。权 利 要 求 书 2/2 页 3 CN 114047697 A 3

.PDF文档 专利 一种基于深度强化学习的四足机器人平衡倒立摆控制方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度强化学习的四足机器人平衡倒立摆控制方法 第 1 页 专利 一种基于深度强化学习的四足机器人平衡倒立摆控制方法 第 2 页 专利 一种基于深度强化学习的四足机器人平衡倒立摆控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:14:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。