专利 一种基于深度强化学习的隐式对手建模方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111316717.3 (22)申请日 2021.11.09 (71)申请人大连理工大学地址 116024 辽宁省大连市甘井子区凌工路2号 (72)发明人刘婵娟　赵天昊　刘睿康　 (74)专利代理机构大连理工大学专利中心 21200 代理人温福雪 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) A63F 13/822(2014.01) (54)发明名称一种基于深度强化学习的隐式对手建模方法 (57)摘要本发明公开了一种基于深度强化学习的隐式对手建模方法，属于多智能体强化学习方向的对手建模领域。本发明围绕动态博弈环境下的对手建模问题，利用深度强化学习技术提出了一种改进的隐式对手建模方法。该隐式建模方法不依赖于特定领域知识，能适应对手策略的动态变化，同时还解决了过度估计问题并具有较快的收敛速度。权利要求书2页说明书5页附图3页 CN 114154397 A 2022.03.08 CN 114154397 A 1.一种基于深度强化学习的隐式对手建模方法，其特征在于，该方法包括以下步骤：步骤S1：初始化一个容量为N的经验池，用以存储算法训练过程中产生的交互经验；所述的交互经验包括(s， o， a， r， s ′， o′)，其中s表示当前时间步的环境信息； o表示当前时间步的对手特征； a表示主智能体的动作； r表示主智能体执行动作a后得到的收益； s ′表示下一时间步的环境信息， o ′表示下一时间步的对手特征；步骤S2：选择DRON ‑DualFc2或DRON ‑DualMOE作为当前价值估计网络和目标价值估计网络的网络结构，然后将当前价值估计网络和目标价值估计网络随机初始化为相同的参数；重复执行步骤S3～S9 M次， M为训练的轮数；步骤S3：初始化博弈环境，包括环境信息和对手特征；初始化当前的时间步t为1；步骤S4：主智能体获取当前时间步的环境信息st和对手特征ot；主智能体以概率ε随机执行一个动作at，否则执行动作步骤S5：主智能体执行动作at后，从博弈环境中得到即时收益rt，下一个时间步的环境信息st+1和对手特征ot+1，并将智能体与环境交互产生的经验(st， ot， at， rt， st+1， ot+1)存进经验池中；步骤S6：从经验池中随机采样一个批次的经验；对该批次中的每一笔经验(sj， oj， aj， rj， sj+1， oj+1)，目标值yj按如下公式进行计算，其中j表示该笔经验对应的时间步：步骤S7：按照公式(2)定义损失函数L，对当前价值估计网络的参数θt进行梯度下降；步骤S8：每隔C个时间步，将目标价值估计网络的参数θ ′t更新为当前价值估计网络的参数θt；步骤S9：如果st+1为非终止状态，则更新时间步t＝t +1，重复执行步骤S4～S8；否则结束本轮训练。 2.根据权利要求1所述的一种基于深度强化学习的隐式对手建模方法，其特征在于，所述的DRON ‑DualFc2由策略学习网络和对手模型学习网络两部分组成；策略学习网络的输入为环境信息s，对手模型学习网络的输入为对手特征o，两路输入在经过各自的隐藏层之后得到两路隐藏层输出hs和ho， DRON‑DualFc2通过连接hs和ho来对环境信息和对手特征进行融合，然后在经过后续隐藏层后，输出状态估值Vπ(s， o)和动作优势估值Aπ(s， o， a)，最后将状态估值与归一化后的动作优势估值相加得到动作估值 Q：式中， Vπ(s， o)、 Qπ(s， o， a)和Aπ(s， o， a)分别表示在环境信息为s、对手特征为o时的状态估值、动作a的Q值以及动作优势估值；表示所有可行动作的个数； ∑a′Aπ(s， o， a′)表示所有可行动作的动作优势估值之和。权　利　要　求　书 1/2 页 2 CN 114154397 A 23.根据权利要求1或2所述的一种基于深度强化学习的隐式对手建模方法，其特征在于，所述的DRON ‑DualMOE由策略学习网络和对手模型学习网络两部分组成；其中，策略学习网络看作专家网络，输入为环境信息 s；对手模型学习网络看作权重网络，输入为对手特征o 和环境信息s；专家网络包含k个专家子网络，每个专家子网络都会输出独立的状态估值Vπ (s， o)和归一化的动作优势估值Aπ(s， o， a)，权重网络则输出对应的k维权重向量w； w与k个专家子网络的输出Vπ(s， o)及Aπ(s， o， a)分别进行加权求和，得到最终的状态估值和动作优势估值，通过归一化处理得到最终的Q 值：式中， wi表示k维权重向量的第i个分量； Vπ(s， oi)和分别表示第i个专家子网络输出的状态估值和动作优势估值。权　利　要　求　书 2/2 页 3 CN 114154397 A 3

专利 一种基于深度强化学习的隐式对手建模方法

专利一种基于深度强化学习的隐式对手建模方法