说明:最全专利文库
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111623015.X (22)申请日 2021.12.28 (71)申请人 航天科工智能运 筹与信息安全研究 院 (武汉) 有限公司 地址 430040 湖北省武汉市临 空港经济技 术开发区五环大道6 66号 (72)发明人 杨欢欢 王贺 沈志立 刘义先  张宇 郭加鹏 彭如冰 廖子轩  (74)专利代理 机构 中国兵器 工业集团公司专利 中心 11011 代理人 王雪芬 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06Q 10/06(2012.01) G06Q 50/26(2012.01) G06F 119/02(2020.01) (54)发明名称 基于DQN算法的多目标多弹种多平台的智能 火力分配方法 (57)摘要 本发明涉及一种基于DQN算法的多目标多弹 种多平台的智能火力分配方法, 属于智能火力分 配技术领域。 本发明将DQN算法引入到火力分配 中, 实现了以最大效费比为目标的分配 。 权利要求书2页 说明书4页 附图1页 CN 114282442 A 2022.04.05 CN 114282442 A 1.一种基于DQN算法的多目标多弹种多平台的智能火力分配方法, 其特征在于, 包括以 下步骤: 步骤S1: 设置火力分配模型的相关资源及属性, 建立多目标多弹种多平台的火力分配 模型; 步骤S2: 设置状态空间、 动作空间以及奖励函数; 步骤S3: 构建DQ N网络, 初始化DQ N网络的超参数, 训练DQ N网络; 步骤S4: 通过智能体与环境的交 互, 获得最大收益。 2.如权利要求1所述的方法, 其特 征在于, 步骤S1具体包括: S11: 设战场中有T={t|t=1, 2, ..., T}个不同的目标, 资源库中有D={d|d=1, 2, ..., D}种弹药, 每种弹药的数量为ND∈[1, D], 有P ={p|p=1, 2, ..., P}种发射平台, 每种发射平 台的数量 为NP∈[1, P]; S12: 弹种d能否打击目标t用td表示, td=1表示能打, td=0表示不能打, 设每种弹药的 价值为Vd={vd|d=1, 2, . .., D}, 每个目标的价 值为Vt={vt|t=1, 2, . .., T}; S13: 发射平台p能否发射弹种d用dp表示, dp=1表示能发射, dp=0表示不能发射, 发射 平台p与目标t的距离表示 为Lpt, 射击精度为Jpt; S14: 对于每个目标的分配 方案表示为Ft={d, p}, 即使用第p种发射平台发射第d种弹药 打击第t个目标; S15: 以目标为基础, 为其分配弹药和发射平台, 进行资源分配, 直至所有目标均满足要 求, 得到火力分配模型。 3.如权利要求2所述的方法, 其特 征在于, 所述 步骤S2具体包括: S21: 定义状态空间为St={td, vd, vt, dp, Lpt, Jpt}, 其中, td表示当前弹药 能否打击目标, vd表示当前弹药的价值, vt表示当前 目标的价值, dp表示当前发射平 台能否发射当前弹药, Lpt表示当前发射平台与当前目标的距离, Jpt表示当前发射平台发射当前弹药打击当前目 标的精度; 定义动作空间为 a={‑1, 1}, 其中, 1表示选用当前弹药和发射平台, ‑1表示不选用当前 弹药和发射平台; S22: 定义奖励函数为: 基于火力分配模型进行如下判断: 当前弹药不能打击当前目标或者当前发射平台不 能 发射当前弹药时, 给予负奖励, 反 之, 根据效费比、 打击精度和距离, 给予正奖励。 4.如权利要求3所述的方法, 其特征在于, 步骤S2中, 将火力分配的目标函数映射为智 能体在环境中交 互学习的奖励。 5.如权利要求3所述的方法, 其特 征在于, 所述 步骤S3具体包括: S31: 设置目标、 弹药、 发射平台的相关参数, 构建DQN网络, 进行网络权重参数θ 的初始 化, 并初始化DQ N的经验池相关超参数; S32: 获取火力分配模型的状态St, 作为DQN网络的输入; S33: 根据当前状态, 选择动作at=argmaxaQ(St, a; θ );权 利 要 求 书 1/2 页 2 CN 114282442 A 2S34: 火力资源分配模型 执行动作at, 计算得到回报r和状态St+1; S35: 将{St, at, r, St+1}存储到经验 池; S36: 从经验 池中随机 选取一批样板 <St, at, r, St+1>; S37: 计算损失函数Lθ=E[yt‑Q(St, a; θ )2]; 其中yt为DQN网络输出; S38: 通过神经网络的反向传播 算法, 更新网络 权重参数θ 。 6.如权利要求5所述的方法, 其特 征在于, 步骤4具体包括: (1)对比不同超参数组合的训练效果, 并根据训练结果调整对训练结果影响较大的参 数, 得出最优的训练结果; (2)对训练结果进行交叉测试, 固化超参数。 7.如权利要求5所述的方法, 其特 征在于, 初始化的超参数包括经验 池大小。 8.如权利要求5所述的方法, 其特 征在于, 初始化的超参数包括学习率。 9.如权利要求5所述的方法, 其特 征在于, 初始化的超参数包括奖励折扣因子 。 10.一种如权利要求1至9中任一项所述方法在武器弹药配置中的应用。权 利 要 求 书 2/2 页 3 CN 114282442 A 3

.PDF文档 专利 基于DQN算法的多目标多弹种多平台的智能火力分配方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于DQN算法的多目标多弹种多平台的智能火力分配方法 第 1 页 专利 基于DQN算法的多目标多弹种多平台的智能火力分配方法 第 2 页 专利 基于DQN算法的多目标多弹种多平台的智能火力分配方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:20:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。