说明:最全专利文库
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111316717.3 (22)申请日 2021.11.09 (71)申请人 大连理工大 学 地址 116024 辽宁省大连市甘井 子区凌工 路2号 (72)发明人 刘婵娟 赵天昊 刘睿康 (74)专利代理 机构 大连理工大 学专利中心 21200 代理人 温福雪 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) A63F 13/822(2014.01) (54)发明名称 一种基于深度强化学习的隐式对手建模方 法 (57)摘要 本发明公开了一种基于深度强化学习的隐 式对手建模 方法, 属于多智能体强化学习方向的 对手建模领域。 本发明围绕动态博弈环境下的对 手建模问题, 利用深度强化学习技术提出了一种 改进的隐式对手 建模方法。 该隐式建模方法不依 赖于特定领域知识, 能适应对手策略的动态变 化, 同时还解决了过度估计问题并具有较快的收 敛速度。 权利要求书2页 说明书5页 附图3页 CN 114154397 A 2022.03.08 CN 114154397 A 1.一种基于深度强化学习的隐式对手建模方法, 其特 征在于, 该 方法包括以下步骤: 步骤S1: 初始化一个容量为N的经验池, 用以存储算法训练过程中产生的交互经验; 所 述的交互经验包括(s, o, a, r, s ′, o′), 其中s表 示当前时间步的环 境信息; o表 示当前时间步 的对手特征; a表示主智能体的动作; r表示主智能体执行动作a后得到的收益; s ′表示下一 时间步的环境信息, o ′表示下一时间步的对手特 征; 步骤S2: 选择DRON ‑DualFc2或DRON ‑DualMOE作为当前价值估计网络和目标价值估计网 络的网络结构, 然后将当前价值估计网络和目标价值估计网络随机初始化为相同的参数; 重复执行步骤S3~S9 M次, M为训练的轮数; 步骤S3: 初始化博 弈环境, 包括环境信息和对手特 征; 初始化当前的时间步t为1; 步骤S4: 主智能体获取当前时间步的环境信息st和对手特征ot; 主智能体以概率ε随机 执行一个动作at, 否则执行动作 步骤S5: 主智能体执行动作at后, 从博弈环境中得到即时收益rt, 下一个时间步的环境 信息st+1和对手特征ot+1, 并将智能体与环境交互产生的经验(st, ot, at, rt, st+1, ot+1)存进经 验池中; 步骤S6: 从经验池中随机采样一个批次的经验; 对该批次中的每一笔经验(sj, oj, aj, rj, sj+1, oj+1), 目标值yj按如下公式进行计算, 其中j表示该 笔经验对应的时间步: 步骤S7: 按照公式(2)定义损失函数L, 对当前价 值估计网络的参数θt进行梯度下降; 步骤S8: 每隔C个时间步, 将目标价值估计网络的参数θ ′t更新为当前价值估计网络的参 数θt; 步骤S9: 如果st+1为非终止状态, 则更新时间步t=t +1, 重复执行步骤S4~S8; 否则结束 本轮训练。 2.根据权利要求1所述的一种基于深度强化学习的隐式对手建模方法, 其特征在于, 所 述的DRON ‑DualFc2由策略学习网络和对手模 型学习网络两部分组成; 策略学习网络的输入 为环境信息s, 对手模型学习网络的输入为对手特征o, 两路输入在经过各自的隐藏层之后 得到两路隐藏层输出hs和ho, DRON‑DualFc2通过连接hs和ho来对环境信息和对手特征进行 融合, 然后在经过后续隐藏层后, 输出状态估值Vπ(s, o)和动作优势估值Aπ(s, o, a), 最后将 状态估值与归一 化后的动作优势估值相加得到动作估值 Q: 式中, Vπ(s, o)、 Qπ(s, o, a)和Aπ(s, o, a)分别表示在环境信息为s、 对手特征为o时的状态 估值、 动作a的Q值以及动作优势估值; 表示所有可行动作的个数; ∑a′Aπ(s, o, a′)表示 所有可行动作的动作优势估值之和。权 利 要 求 书 1/2 页 2 CN 114154397 A 23.根据权利要求1或2所述的一种基于深度强化学习的隐式对手建模方法, 其特征在 于, 所述的DRON ‑DualMOE由策略学习网络和对手模 型学习网络两部 分组成; 其中, 策略学习 网络看作 专家网络, 输入为环境信息 s; 对手模 型学习网络看作权重网络, 输入为对手特征o 和环境信息s; 专家网络包含k个专家子网络, 每个专家子网络都会输出独立的状态估值Vπ (s, o)和归一化的动作优势估值Aπ(s, o, a), 权重网络则输出对应的k维权重向量w; w与k个 专家子网络的输出Vπ(s, o)及Aπ(s, o, a)分别进行加权求和, 得到最终的状态估值和动作优 势估值, 通过归一 化处理得到最终的Q 值: 式中, wi表示k维权重向量的第i个分量; Vπ(s, oi)和 分别表示第i个专家子 网络输出的状态估值和动作优势估值。权 利 要 求 书 2/2 页 3 CN 114154397 A 3
专利 一种基于深度强化学习的隐式对手建模方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 05:14:47
上传分享
举报
下载
原文档
(692.4 KB)
分享
友情链接
YD-T 3763.1-2021 研发运营一体化(DevOps)能力成熟度模型 第1部分:总体架构.pdf
安华金和 数据安全治理白皮书5.0 医疗数据安全治理实践.pdf
ISO 31101 2023 Robotics — Application services provided by service robots — Safety man.pdf
GB-T 42591-2023 燃气轮机 质量控制规范.pdf
T-CFAS 0001—2019 信息安全技术 开源软件安全使用规范.pdf
GB-T 33563-2017 信息安全技术 无线局域网客户端安全技术要求(评估保障级2级增强).pdf
T-CHIA 21.2—2021 组学样本处理与数据分析标准 第 2 部分:全外显子组测序数据分析.pdf
DB5101-T 117—2021 医药化工企业安全管理规范 成都市.pdf
GM-T 0101-2020 近场通信密码安全协议检测规范.pdf
tc260 网络安全标准实践指南 信息系统灾难备份实践指引 2022.pdf
GB 12676-2014 商用车辆和挂车制动系统技术要求及试验方法.pdf
DB36-T 1952-2024 制造业企业数字化发展水平评价指南 江西省.pdf
GB-T 42729-2023 锂离子电池和电池组安全使用指南.pdf
DB52-T 1401.23-2020 山地旅游 第23部分:漂流服务规范 贵州省.pdf
GB-T 43437-2023 信息技术 信息产品研发能力评估模型.pdf
GB-T 43498-2023 管路冲刷腐蚀试验方法.pdf
DB33-T 2499-2022 气象地理分区 浙江省.pdf
T-CRAA 004—2024 观赏鱼评分规则 孔雀鱼.pdf
GB-T 33561-2017 信息安全技术 安全漏洞分类.pdf
GB-T 25068.1-2020 信息技术 安全技术 网络安全 第1部分:综述和概念.pdf
1
/
3
11
评价文档
赞助2元 点击下载(692.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。