说明:最全专利文库
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111634317.7 (22)申请日 2021.12.23 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 (72)发明人 何元 刘红笛  (51)Int.Cl. G01S 7/38(2006.01) G06F 30/27(2020.01) G06F 111/08(2020.01) (54)发明名称 一种基于强化学习的干扰信号波形优化方 法 (57)摘要 现代自适应雷达具备自主模式切换和快速 波形捷变能力, 导致雷达信号状态难以穷举, 传 统干扰方式效能下降。 本发明实例研究了一种基 于强化学习的干扰信号波形优化方法: 首先对干 扰决策过程进行马尔可夫建模, 在此基础上构建 双层强化学习模型, 通过两个交互的Q ‑learning 对干扰样式和波形参数进行联合优化。 对抗过程 中, 在每段波束驻留时间内, 对雷达信号进行工 作模式检测, 外层Q ‑learning据此进行干扰样式 决策, 并映射至时、 频域两个内层Q表, 其次评估 干扰效果并更新外层Q表。 而后对该波束驻留时 间内的每个雷达脉冲进行参数估计, 在干扰样式 的约束下基于内层Q ‑learning求解时、 频域干扰 波形参数, 生 成干扰信号。 最后计算时、 频域有效 干扰系数, 更新内层Q表。 权利要求书2页 说明书10页 附图6页 CN 114280558 A 2022.04.05 CN 114280558 A 1.一种基于强化学习的干扰信号波形优化方法, 其特征在于, 包括: 构建雷达状态参数 化表征模型, 并对雷达状态转移与干扰决策过程进行马尔可夫建模; 将干扰机的高维动作 空间分解为干扰样式和脉冲参数两个子空间以降低搜索维度, 在此基础上构建基于双层强 化学习的干扰波形优化模型, 在对抗过程中对干扰样式和波形参数进行联合优化; 建立干 扰效果评估指标体系, 设计基于指标向量空间的干扰效果动态评估方法, 并将评估结果馈 入双层强化学习模型以辅助模型 更新。 2.根据权利要求1所述的雷达状态参数化表征模型, 其特征在于, 将雷达状态建模为 [工作模式, 波形参数], 其中雷达波形参数用一个包含载频、 带宽、 脉冲重复间隔、 脉宽、 功 率的五维向量描述, 即[fr,Br,prir,pwr,Pr]。 3.根据权利要求1所述干扰决策过程的马尔可夫建模方法, 其特征在于, 将干扰波形参 数的决策过程建模为一个有限马尔可夫决策过程, 用一个四元组 来表示, 其 中 是雷达状态的有限集; 是干扰动作的有限集; 是状态转移概率, 用于描述当干扰机在n时刻采取动作a(n)时, 雷达由状态s(n)转换至s(n+1)的概率; 是干扰 机采取干扰动作后获得的即时 回报。 4.根据权利要求1所述的双层强化学习 模型, 其特征在于, 将干扰机的高维动作空间拆 解为干扰样式和脉冲参数两个子空间以降低搜索维度, 在此基础上将干扰过程分为两个层 次: 第一决策层确定干扰样式, 第二决策层根据干扰样式选择频域和时域的具体信号参数, 在这一框架下, 构建两个交互的Q ‑learning模型对干扰样式和波形参数进行联合优化, 在 对抗过程中寻找全局最优解。 5.根据权利要求1或4所述基于双层强化学习 模型的干扰波形 决策与优化过程, 其特征 在于, 在每段波束驻留初期, 对 雷达信号进行工作模式检测, 外层Q ‑learning据此进行干扰 样式决策, 并映射至时、 频域两个内层Q表, 其次评估干扰效果并更新外层Q表; 而后对该波 束驻留时间内的每个雷达脉冲进 行参数估计, 在干扰样式的约束下基于内层Q ‑learning求 解时、 频域干扰波 形参数, 生 成干扰信号; 最后计算时、 频域有效干扰系数, 更新内层Q表, 在 每段波束驻留期间重复上述 流程, 直至对抗结束。 6.根据权利要求5所述 时、 频域有效干扰系数的计算方法, 其特征在于, 对于第 n个雷达 脉冲, 频域和时域的有效干扰系数分别计算 为: 其中Δf(n)和Δt(n)分别为频域和 时域的干扰覆盖率, 定义 为: 其中 和 分别为雷达和干扰脉冲载频, 和 分别为雷达和干扰脉冲带宽, 和 分别为雷达和干扰脉冲宽度, 为雷达脉冲重 复周期, 表示干扰脉 冲发射时延。权 利 要 求 书 1/2 页 2 CN 114280558 A 27.根据权利要求1所述的干扰效果动态评估方法, 其特征在于, 根据干扰效果评估指标 集构建一个指标向量空间, 每一维表示一个评估指标; 引入带权重的欧氏距离来衡量指标 向量间的距离, 指标权重根据雷达数据实时更新; 通过衡量干扰前后指标向量在空间中的 偏移量衡量干扰效果, 并作为环境反馈 输入双层强化学习模型, 辅助模型 更新。 8.根据权利要求7所述的指标权重动态更新方法, 其特征在于, 设计动态熵权法, 在每 个时刻对权重向量进行客观修正, 即首先定义一个全零矩阵 A中的元素aij表示 第j个向量中的第i个指标, 每 当新检测到雷达模式, 计算指标向量并赋值给A中的一个全零 列, 若矩阵所有 元素都已被赋值, 则用该指标向量覆盖最早被赋值的列, 其次将A标准化, 通 过熵权法计算每 个指标的客观权 重。权 利 要 求 书 2/2 页 3 CN 114280558 A 3

.PDF文档 专利 一种基于强化学习的干扰信号波形优化方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习的干扰信号波形优化方法 第 1 页 专利 一种基于强化学习的干扰信号波形优化方法 第 2 页 专利 一种基于强化学习的干扰信号波形优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:18:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。