说明:最全专利文库
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111316717.3 (22)申请日 2021.11.09 (71)申请人 大连理工大 学 地址 116024 辽宁省大连市甘井 子区凌工 路2号 (72)发明人 刘婵娟 赵天昊 刘睿康  (74)专利代理 机构 大连理工大 学专利中心 21200 代理人 温福雪 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) A63F 13/822(2014.01) (54)发明名称 一种基于深度强化学习的隐式对手建模方 法 (57)摘要 本发明公开了一种基于深度强化学习的隐 式对手建模 方法, 属于多智能体强化学习方向的 对手建模领域。 本发明围绕动态博弈环境下的对 手建模问题, 利用深度强化学习技术提出了一种 改进的隐式对手 建模方法。 该隐式建模方法不依 赖于特定领域知识, 能适应对手策略的动态变 化, 同时还解决了过度估计问题并具有较快的收 敛速度。 权利要求书2页 说明书5页 附图3页 CN 114154397 A 2022.03.08 CN 114154397 A 1.一种基于深度强化学习的隐式对手建模方法, 其特 征在于, 该 方法包括以下步骤: 步骤S1: 初始化一个容量为N的经验池, 用以存储算法训练过程中产生的交互经验; 所 述的交互经验包括(s, o, a, r, s ′, o′), 其中s表 示当前时间步的环 境信息; o表 示当前时间步 的对手特征; a表示主智能体的动作; r表示主智能体执行动作a后得到的收益; s ′表示下一 时间步的环境信息, o ′表示下一时间步的对手特 征; 步骤S2: 选择DRON ‑DualFc2或DRON ‑DualMOE作为当前价值估计网络和目标价值估计网 络的网络结构, 然后将当前价值估计网络和目标价值估计网络随机初始化为相同的参数; 重复执行步骤S3~S9  M次, M为训练的轮数; 步骤S3: 初始化博 弈环境, 包括环境信息和对手特 征; 初始化当前的时间步t为1; 步骤S4: 主智能体获取当前时间步的环境信息st和对手特征ot; 主智能体以概率ε随机 执行一个动作at, 否则执行动作 步骤S5: 主智能体执行动作at后, 从博弈环境中得到即时收益rt, 下一个时间步的环境 信息st+1和对手特征ot+1, 并将智能体与环境交互产生的经验(st, ot, at, rt, st+1, ot+1)存进经 验池中; 步骤S6: 从经验池中随机采样一个批次的经验; 对该批次中的每一笔经验(sj, oj, aj, rj, sj+1, oj+1), 目标值yj按如下公式进行计算, 其中j表示该 笔经验对应的时间步: 步骤S7: 按照公式(2)定义损失函数L, 对当前价 值估计网络的参数θt进行梯度下降; 步骤S8: 每隔C个时间步, 将目标价值估计网络的参数θ ′t更新为当前价值估计网络的参 数θt; 步骤S9: 如果st+1为非终止状态, 则更新时间步t=t +1, 重复执行步骤S4~S8; 否则结束 本轮训练。 2.根据权利要求1所述的一种基于深度强化学习的隐式对手建模方法, 其特征在于, 所 述的DRON ‑DualFc2由策略学习网络和对手模 型学习网络两部分组成; 策略学习网络的输入 为环境信息s, 对手模型学习网络的输入为对手特征o, 两路输入在经过各自的隐藏层之后 得到两路隐藏层输出hs和ho, DRON‑DualFc2通过连接hs和ho来对环境信息和对手特征进行 融合, 然后在经过后续隐藏层后, 输出状态估值Vπ(s, o)和动作优势估值Aπ(s, o, a), 最后将 状态估值与归一 化后的动作优势估值相加得到动作估值 Q: 式中, Vπ(s, o)、 Qπ(s, o, a)和Aπ(s, o, a)分别表示在环境信息为s、 对手特征为o时的状态 估值、 动作a的Q值以及动作优势估值; 表示所有可行动作的个数; ∑a′Aπ(s, o, a′)表示 所有可行动作的动作优势估值之和。权 利 要 求 书 1/2 页 2 CN 114154397 A 23.根据权利要求1或2所述的一种基于深度强化学习的隐式对手建模方法, 其特征在 于, 所述的DRON ‑DualMOE由策略学习网络和对手模 型学习网络两部 分组成; 其中, 策略学习 网络看作 专家网络, 输入为环境信息 s; 对手模 型学习网络看作权重网络, 输入为对手特征o 和环境信息s; 专家网络包含k个专家子网络, 每个专家子网络都会输出独立的状态估值Vπ (s, o)和归一化的动作优势估值Aπ(s, o, a), 权重网络则输出对应的k维权重向量w; w与k个 专家子网络的输出Vπ(s, o)及Aπ(s, o, a)分别进行加权求和, 得到最终的状态估值和动作优 势估值, 通过归一 化处理得到最终的Q 值: 式中, wi表示k维权重向量的第i个分量; Vπ(s, oi)和 分别表示第i个专家子 网络输出的状态估值和动作优势估值。权 利 要 求 书 2/2 页 3 CN 114154397 A 3

.PDF文档 专利 一种基于深度强化学习的隐式对手建模方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度强化学习的隐式对手建模方法 第 1 页 专利 一种基于深度强化学习的隐式对手建模方法 第 2 页 专利 一种基于深度强化学习的隐式对手建模方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:14:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。