近期,雷达院特种雷达研究所刘泉华教授研究小组在智能雷达抗干扰领域的最新研究成果发表在网络与信息安全领域国际顶级期刊IEEE Transactions on Information Forensics and Security(IEEE TIFS,影响因子8)上,第一作者为博士生张嘉翔。该研究提出了一种受网格细胞启发的深度强化学习方法,可提升雷达在面对自卫式压制干扰时的目标检测性能与策略收敛速度。
在现代电子对抗环节中,自卫式压制干扰机从雷达天线主瓣注入干扰信号,并能根据侦收到的雷达脉冲参数动态调整高功率噪声频率,从空时频域遮盖真实目标,对雷达探测构成严重威胁。雷达发射掩护脉冲欺骗干扰机是一种有效的对抗手段,但如何动态调整掩护脉宽,在确保抗干扰的同时最大化探测性能,是一个复杂的决策问题。
图1展示了雷达与干扰机在一次完整侦-干周期下的典型对抗场景,在第1个脉冲重复周期(PRT)中,干扰机只侦收到掩护脉冲,并在后续两个PRT中针对掩护脉冲发射噪声干扰。而雷达在此期间则可发射探测脉冲从而实现目标检测。但在非合作对抗场景中,雷达无法提前获取干扰机的侦干状态与侦收时长,因此难以学习并动态调整最优策略。

图1 雷达与干扰机在一次完整侦-干周期下的对抗示意图
尽管强化学习可以通过与环境持续交互来学习最优策略,但面对上述部分可观测场景,仍面临学习过程不稳定、收敛速度慢甚至陷入次优策略的挑战。研究小组受哺乳动物大脑中的网格细胞成功解决空间导航任务中部分可观测问题的启发,将其迁移到抗干扰任务中并使用神经网络进行人工模拟。迁移后的网格细胞可以结构化表征目标检测概率密度函数,从而提供更多环境状态信息用于强化学习寻找最优抗干扰策略,如图2所示。

图2 空间导航任务对比雷达抗干扰任务
通过结合网格细胞与强化学习,研究小组提出了网格细胞-深度循环Q网络(GC-DRQN)结构。该方法的目标检测概率与收敛速度显著优于DRQN、PPO及Q-Learning等多种基线方法,表明了网格细胞的引入提升了强化学习性能,仿真结果如图3所示。
|
|
(a) 目标检测概率分布 |
(b) 收敛时间分布 |
图3 GC-DRQN与基线方法的性能对比
该研究展示了引入生物智能机制对提升雷达认知对抗能力的潜力,为解决动态决策问题提供了一种新思路。研究小组将进一步探索该框架在频率、脉冲重复周期等多参数维度波形捷变中的应用,持续支撑智能雷达抗干扰技术发展。
论文信息:Zhang J, Wang B, Liang Z, Fan H, Liu Q. GC-DRQN: Enhancing Radar Anti-Jamming Performance with Supervised Auxiliary Tasks and Deterministic Rewards[J]. IEEE Transactions on Information Forensics and Security, 2025, 20: 13416-13430.
论文链接:https://ieeexplore.ieee.org/document/11223263