说明:最全专利文库
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111307449.9 (22)申请日 2021.11.05 (71)申请人 河南科技大 学 地址 471000 河南省洛阳市涧西区西苑路 48号 (72)发明人 吴上玉 雷贤卿 李伟 李明 李道玉 (74)专利代理 机构 洛阳公信知识产权事务所 (普通合伙) 41120 代理人 常晓虎 (51)Int.Cl. G05B 13/04(2006.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度强化学习的四足机器人平衡 倒立摆控制方法 (57)摘要 本发明涉及一种基于深度强化学习的四足 机器人平衡倒立摆控制方法, 首先搭建具有神经 网络训练能力的四足机器人平衡倒立摆虚拟仿 真环境; 对深度确定性策略梯度 (DDPG) 算法中的 演员‑评论家网络进行设计; 根据四足机器人逆 运动学及深度强化学习奖励规则, 设计了分层奖 励函数; 演员 ‑评论家网络获取回放经验池中的 数据进行训练, 输出优化的四足机器人动作控制 参数到仿真环境中, 执行控制操作; 对深度强化 学习网络迭代训练, 最终得到优化的四足机器人 平衡倒立摆控制网络。 本发明采用改进的DDPG算 法, 缓解了因奖励稀 疏带来的算法收敛速度缓慢 问题, 在仿真环境中对所述深度强化学习网络进 行训练学习, 增强了四足机器人的平衡控制能力 及稳定性。 权利要求书2页 说明书6页 附图2页 CN 114047697 A 2022.02.15 CN 114047697 A 1.一种基于深度强化学习的四足机器人平衡倒立摆控制方法, 其特征在于: 根据所获 取的四足机器人平衡倒立摆系统的状态数据判断系统是否达到 设定的平衡要求, 如果未达 到平衡要求, 则将四足机器人平衡倒立摆系统的状态数据传 入DDPG算法训练模块 继续迭代 训练, 直至 达到平衡要求; 其中的迭代训练方法如下: (1) 结合四足机器人逆运动学设计分层奖励函数, 第1层奖励: R1=-L,d≥0.05; 第2层奖励: R2=R1+3, 0<d<0.05; 其中, L为四足机器人平衡倒立摆系统中的倒立摆竖杆与垂直方向夹角的绝对值, d为 四足机器人几何中心与四足机器人原 始几何中心的距离; 将得到的奖励数据和所述的四足机器人平衡倒立摆系统的状态数据存储到回放经验 池中; (2) 构建演员 ‑评论家网络, 通过获取回放经验池中的奖励数据和状态数据进行控制策 略函数和评价函数的拟合, 经演员网络输出优化后的四足机器人动作控制参数, 具体为: 设 计演员网络拟合控制策略函数, 输出四足机器人平衡倒立摆系统动作控制参数; 设计评论 家网络拟合评价函数, 输出四足机器人平衡倒立摆系统的动作控制参数评价Q值; 演员网络 和评论家网络之间通过策略梯度更新动作控制参数, 直至得到优化后的四足机器人动作控 制参数; (3) 将优化后的四足机器人动作控制参数输入四足机器人平衡倒立摆系统中, 执行控 制操作, 并重新判断系统是否达到设定的平衡要求, 如果未达到平衡要求, 则按照步骤 (1) 和 (2) 继续进 行迭代训练, 直至最后四足机器人平衡倒立摆系统达到平衡要求, 获得优化的 四足机器人平衡倒立摆深度强化学习控制网络 。 2.根据权利要求1所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法, 其特征在于: 所述四足机器人平衡倒立摆系统为建立在仿 真软件中的背部连接有倒立摆竖 杆的四足机器人模型, 倒立摆竖 杆通过被动枢轴关节与四足机器人模型的背部连接 。 3.根据权利要求2所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法, 其特征在于: 四足机器人平衡倒立摆系统的状态为 S, ,x为四足机器人向前或 向后的位移, v为四足机器人移动的速度, c为倒立摆竖杆与垂直方向的夹角, w为倒立摆竖 杆的角速度。 4.根据权利要求1所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法, 其特征在于: 在所述步骤 (2) 中, 将四足机器人平衡倒立摆系统的状态数据输入到演员网 络, 采用全连接层神经网络进行训练, 输出2个位置控制动作参数, 运用仿真软件中的逆运 动学模块, 根据所输出的2个位置控制动作参数, 自动计算出四足机器人腿部12个关节所需 的关节变量, 从而控制四足机器人运动。 5.根据权利要求4所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法, 其特征在于: 在演员网络输出所述的2个位置控制动作参数后, 再加入均值回归 噪声N进行 探索, 得到的控制策略 at为: ; 其中,u为策略函数, St为系统的当前状 态, 为策略函数内参数。 6.根据权利要求4所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法,权 利 要 求 书 1/2 页 2 CN 114047697 A 2其特征在于: 向评论家网络输入四足机器人平衡倒立摆系统的状态数据和演员网络输出的 2个位移控制动作参数, 采用全连接层神经网络 输出评价 值, 评价值的更新公式为: 其中,yj为目标评价 值; 、 分别为当前和目标评价函数; 、 分别 为当前和目标策略函数; 是策略函数和评价函数的内参数; 为折扣因子; n为迭代次 数; 为当前奖励, 通过最小化损失函数H更新评价值; Sj、Sj+1分别是两个连续时点下的状 态;aj是当前的控制策略, aj=u(St|θu) 。 7.根据权利要求6所述的一种基于深度强化学习的四足机器人平衡倒立摆控制方法, 其特征在于: 在演员网络和评论家网络之间通过策略梯度更新动作控制参数时, 策略梯度 更新公式为: 其中, 为评价梯度; 为动作梯度; n为迭代次数; S为系统状态; a为状 态S下输出的动作; 策略函数和评价 函数的内参数。权 利 要 求 书 2/2 页 3 CN 114047697 A 3
专利 一种基于深度强化学习的四足机器人平衡倒立摆控制方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 05:14:46
上传分享
举报
下载
原文档
(474.1 KB)
分享
友情链接
DB31-T 1251-2020 社区公益服务项目招投标指南 上海市.pdf
安芯网盾 2022年实网攻防演练蓝队防守指南.pdf
GM T 0130-2023 基于SM2算法的无证书及隐式证书公钥机制.pdf
GB-T 37319-2019 电梯节能逆变电源装置.pdf
CISSP权威指南(AIO)第8版 中文.pdf
GM-T 0027-2014 智能密码钥匙技术规范.pdf
T-GZBC 16.1—2019 医疗数据中心建设规范 第1部分 临床数据中心.pdf
个人信息保护与数据合规法律汇编V3.0-垦丁王捷律师团队-KINDING-202212.pdf
GB-T 25067-2020 信息技术 安全技术 信息安全管理体系审核和认证机构要求.pdf
TB-T 3556-2020 铁路桥梁用结构钢.pdf
GB 9706.204-2022 医用电气设备 第2-4部分:心脏除颤器的基本安全和基本性能专用要求.pdf
GB-T 42777-2023 基于文本数据的金融风险防控 知识图谱构建技术框架指南.pdf
LY-T 1923-2020 室内木质门.pdf
T-SISTB 006—2021 现代物业管理评价指标体系1.0.pdf
GB-T 43221-2023 无人飞艇飞行控制系统通用要求.pdf
GB-T 43020-2023 调频频段数字音频广播接收机技术规范.pdf
DB2数据库安全配置基线.doc
GB-T 14199-2010 电声学 助听器通用规范.pdf
GB-T 20257.3-2017 国家基本比例尺地图图式 第3部分:125 000 150 000 1100 000地形图图式.pdf
360 企业个人信息合规思路与实践报告 2021.pdf
1
/
3
11
评价文档
赞助2元 点击下载(474.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。