(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111634317.7
(22)申请日 2021.12.23
(71)申请人 北京邮电大 学
地址 100876 北京市海淀区西土城路10号
(72)发明人 何元 刘红笛
(51)Int.Cl.
G01S 7/38(2006.01)
G06F 30/27(2020.01)
G06F 111/08(2020.01)
(54)发明名称
一种基于强化学习的干扰信号波形优化方
法
(57)摘要
现代自适应雷达具备自主模式切换和快速
波形捷变能力, 导致雷达信号状态难以穷举, 传
统干扰方式效能下降。 本发明实例研究了一种基
于强化学习的干扰信号波形优化方法: 首先对干
扰决策过程进行马尔可夫建模, 在此基础上构建
双层强化学习模型, 通过两个交互的Q ‑learning
对干扰样式和波形参数进行联合优化。 对抗过程
中, 在每段波束驻留时间内, 对雷达信号进行工
作模式检测, 外层Q ‑learning据此进行干扰样式
决策, 并映射至时、 频域两个内层Q表, 其次评估
干扰效果并更新外层Q表。 而后对该波束驻留时
间内的每个雷达脉冲进行参数估计, 在干扰样式
的约束下基于内层Q ‑learning求解时、 频域干扰
波形参数, 生 成干扰信号。 最后计算时、 频域有效
干扰系数, 更新内层Q表。
权利要求书2页 说明书10页 附图6页
CN 114280558 A
2022.04.05
CN 114280558 A
1.一种基于强化学习的干扰信号波形优化方法, 其特征在于, 包括: 构建雷达状态参数
化表征模型, 并对雷达状态转移与干扰决策过程进行马尔可夫建模; 将干扰机的高维动作
空间分解为干扰样式和脉冲参数两个子空间以降低搜索维度, 在此基础上构建基于双层强
化学习的干扰波形优化模型, 在对抗过程中对干扰样式和波形参数进行联合优化; 建立干
扰效果评估指标体系, 设计基于指标向量空间的干扰效果动态评估方法, 并将评估结果馈
入双层强化学习模型以辅助模型 更新。
2.根据权利要求1所述的雷达状态参数化表征模型, 其特征在于, 将雷达状态建模为
[工作模式, 波形参数], 其中雷达波形参数用一个包含载频、 带宽、 脉冲重复间隔、 脉宽、 功
率的五维向量描述, 即[fr,Br,prir,pwr,Pr]。
3.根据权利要求1所述干扰决策过程的马尔可夫建模方法, 其特征在于, 将干扰波形参
数的决策过程建模为一个有限马尔可夫决策过程, 用一个四元组
来表示, 其
中
是雷达状态的有限集;
是干扰动作的有限集;
是状态转移概率,
用于描述当干扰机在n时刻采取动作a(n)时, 雷达由状态s(n)转换至s(n+1)的概率;
是干扰
机采取干扰动作后获得的即时 回报。
4.根据权利要求1所述的双层强化学习 模型, 其特征在于, 将干扰机的高维动作空间拆
解为干扰样式和脉冲参数两个子空间以降低搜索维度, 在此基础上将干扰过程分为两个层
次: 第一决策层确定干扰样式, 第二决策层根据干扰样式选择频域和时域的具体信号参数,
在这一框架下, 构建两个交互的Q ‑learning模型对干扰样式和波形参数进行联合优化, 在
对抗过程中寻找全局最优解。
5.根据权利要求1或4所述基于双层强化学习 模型的干扰波形 决策与优化过程, 其特征
在于, 在每段波束驻留初期, 对 雷达信号进行工作模式检测, 外层Q ‑learning据此进行干扰
样式决策, 并映射至时、 频域两个内层Q表, 其次评估干扰效果并更新外层Q表; 而后对该波
束驻留时间内的每个雷达脉冲进 行参数估计, 在干扰样式的约束下基于内层Q ‑learning求
解时、 频域干扰波 形参数, 生 成干扰信号; 最后计算时、 频域有效干扰系数, 更新内层Q表, 在
每段波束驻留期间重复上述 流程, 直至对抗结束。
6.根据权利要求5所述 时、 频域有效干扰系数的计算方法, 其特征在于, 对于第 n个雷达
脉冲, 频域和时域的有效干扰系数分别计算 为:
其中Δf(n)和Δt(n)分别为频域和
时域的干扰覆盖率, 定义 为:
其中
和
分别为雷达和干扰脉冲载频,
和
分别为雷达和干扰脉冲带宽,
和
分别为雷达和干扰脉冲宽度,
为雷达脉冲重 复周期,
表示干扰脉
冲发射时延。权 利 要 求 书 1/2 页
2
CN 114280558 A
27.根据权利要求1所述的干扰效果动态评估方法, 其特征在于, 根据干扰效果评估指标
集构建一个指标向量空间, 每一维表示一个评估指标; 引入带权重的欧氏距离来衡量指标
向量间的距离, 指标权重根据雷达数据实时更新; 通过衡量干扰前后指标向量在空间中的
偏移量衡量干扰效果, 并作为环境反馈 输入双层强化学习模型, 辅助模型 更新。
8.根据权利要求7所述的指标权重动态更新方法, 其特征在于, 设计动态熵权法, 在每
个时刻对权重向量进行客观修正, 即首先定义一个全零矩阵
A中的元素aij表示
第j个向量中的第i个指标, 每 当新检测到雷达模式, 计算指标向量并赋值给A中的一个全零
列, 若矩阵所有 元素都已被赋值, 则用该指标向量覆盖最早被赋值的列, 其次将A标准化, 通
过熵权法计算每 个指标的客观权 重。权 利 要 求 书 2/2 页
3
CN 114280558 A
3
专利 一种基于强化学习的干扰信号波形优化方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 05:18:28上传分享