专利 一种基于强化学习的干扰信号波形优化方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111634317.7 (22)申请日 2021.12.23 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号 (72)发明人何元　刘红笛　 (51)Int.Cl. G01S 7/38(2006.01) G06F 30/27(2020.01) G06F 111/08(2020.01) (54)发明名称一种基于强化学习的干扰信号波形优化方法 (57)摘要现代自适应雷达具备自主模式切换和快速波形捷变能力，导致雷达信号状态难以穷举，传统干扰方式效能下降。本发明实例研究了一种基于强化学习的干扰信号波形优化方法：首先对干扰决策过程进行马尔可夫建模，在此基础上构建双层强化学习模型，通过两个交互的Q ‑learning 对干扰样式和波形参数进行联合优化。对抗过程中，在每段波束驻留时间内，对雷达信号进行工作模式检测，外层Q ‑learning据此进行干扰样式决策，并映射至时、频域两个内层Q表，其次评估干扰效果并更新外层Q表。而后对该波束驻留时间内的每个雷达脉冲进行参数估计，在干扰样式的约束下基于内层Q ‑learning求解时、频域干扰波形参数，生成干扰信号。最后计算时、频域有效干扰系数，更新内层Q表。权利要求书2页说明书10页附图6页 CN 114280558 A 2022.04.05 CN 114280558 A 1.一种基于强化学习的干扰信号波形优化方法，其特征在于，包括：构建雷达状态参数化表征模型，并对雷达状态转移与干扰决策过程进行马尔可夫建模；将干扰机的高维动作空间分解为干扰样式和脉冲参数两个子空间以降低搜索维度，在此基础上构建基于双层强化学习的干扰波形优化模型，在对抗过程中对干扰样式和波形参数进行联合优化；建立干扰效果评估指标体系，设计基于指标向量空间的干扰效果动态评估方法，并将评估结果馈入双层强化学习模型以辅助模型更新。 2.根据权利要求1所述的雷达状态参数化表征模型，其特征在于，将雷达状态建模为 [工作模式，波形参数]，其中雷达波形参数用一个包含载频、带宽、脉冲重复间隔、脉宽、功率的五维向量描述，即[fr,Br,prir,pwr,Pr]。 3.根据权利要求1所述干扰决策过程的马尔可夫建模方法，其特征在于，将干扰波形参数的决策过程建模为一个有限马尔可夫决策过程，用一个四元组来表示，其中是雷达状态的有限集；是干扰动作的有限集；是状态转移概率，用于描述当干扰机在n时刻采取动作a(n)时，雷达由状态s(n)转换至s(n+1)的概率；是干扰机采取干扰动作后获得的即时回报。 4.根据权利要求1所述的双层强化学习模型，其特征在于，将干扰机的高维动作空间拆解为干扰样式和脉冲参数两个子空间以降低搜索维度，在此基础上将干扰过程分为两个层次：第一决策层确定干扰样式，第二决策层根据干扰样式选择频域和时域的具体信号参数，在这一框架下，构建两个交互的Q ‑learning模型对干扰样式和波形参数进行联合优化，在对抗过程中寻找全局最优解。 5.根据权利要求1或4所述基于双层强化学习模型的干扰波形决策与优化过程，其特征在于，在每段波束驻留初期，对雷达信号进行工作模式检测，外层Q ‑learning据此进行干扰样式决策，并映射至时、频域两个内层Q表，其次评估干扰效果并更新外层Q表；而后对该波束驻留时间内的每个雷达脉冲进行参数估计，在干扰样式的约束下基于内层Q ‑learning求解时、频域干扰波形参数，生成干扰信号；最后计算时、频域有效干扰系数，更新内层Q表，在每段波束驻留期间重复上述流程，直至对抗结束。 6.根据权利要求5所述时、频域有效干扰系数的计算方法，其特征在于，对于第 n个雷达脉冲，频域和时域的有效干扰系数分别计算为：其中Δf(n)和Δt(n)分别为频域和时域的干扰覆盖率，定义为：其中和分别为雷达和干扰脉冲载频，和分别为雷达和干扰脉冲带宽，和分别为雷达和干扰脉冲宽度，为雷达脉冲重复周期，表示干扰脉冲发射时延。权　利　要　求　书 1/2 页 2 CN 114280558 A 27.根据权利要求1所述的干扰效果动态评估方法，其特征在于，根据干扰效果评估指标集构建一个指标向量空间，每一维表示一个评估指标；引入带权重的欧氏距离来衡量指标向量间的距离，指标权重根据雷达数据实时更新；通过衡量干扰前后指标向量在空间中的偏移量衡量干扰效果，并作为环境反馈输入双层强化学习模型，辅助模型更新。 8.根据权利要求7所述的指标权重动态更新方法，其特征在于，设计动态熵权法，在每个时刻对权重向量进行客观修正，即首先定义一个全零矩阵 A中的元素aij表示第j个向量中的第i个指标，每当新检测到雷达模式，计算指标向量并赋值给A中的一个全零列，若矩阵所有元素都已被赋值，则用该指标向量覆盖最早被赋值的列，其次将A标准化，通过熵权法计算每个指标的客观权重。权　利　要　求　书 2/2 页 3 CN 114280558 A 3

专利 一种基于强化学习的干扰信号波形优化方法

专利一种基于强化学习的干扰信号波形优化方法