潜在对抗检测:大模型激活自适应探测多轮攻击
- 浏览次数 67
- 喜欢 0
今天介绍的这篇论文直击传统大模型文本层安全防御的固有缺陷,创新性提出基于模型内部激活轨迹的多轮隐蔽攻击检测方案,凭借独创的特征发现与三阶段标注数据集,实现了远优于现有商用安全工具的检测精度与低误报表现。
一、研究背景:传统文本防御存在致命短板
当下针对大模型提示注入、越狱攻击的防护,都停留在文本表层,依靠关键词匹配、语义过滤等方式拦截攻击。但多轮恶意攻击有固定套路:先建立信任、再悄悄转向话题、最后逐步诱导越界,每一轮单独看都像正常对话,文本防御根本识别不出来。而且传统工具要么漏检多轮攻击,要么把技术讨论、安全咨询误判为攻击,误报率居高不下,还跟不上新型攻击手法的迭代。
二、核心创新:发现「对抗躁动性」特征
本文跳出文本维度,开创性聚焦大模型内部激活值。研究发现:多轮恶意攻击在模型逐层运算的激活向量轨迹上,会产生明显异常 —— 攻击者每切换一个攻击阶段,模型激活值就会发生偏移,累积移动路径长度远高于普通良性对话,论文将这一固有特征命名为对抗躁动性。
研究者提炼出 5 个轨迹量化指标,结合模型原始激活向量,搭建了 LAD 两阶段检测框架:先通过对比学习把激活值转为风格无关表征,再用 XGBoost 分类识别恶意意图。
三、实验核心数据与关键结论
研究选用 24B~70B 参数的四款主流大模型,自建含良性 / 转向 / 对抗三阶段标注的合成数据集,同时融合 LMSYS、SafeDialBench 两大真实数据集开展测试。
- 效果提升:合成数据集上,新增 5 个轨迹特征后,检测准确率从 76.2% 飙升至 93.8%;三数据源融合训练后,最优模型实现 89.4% 检测率、仅 2.4% 误报率。
- 跨模型特性:对抗躁动特征能在四类模型中稳定复现,但检测探针具有模型特异性,无法跨架构直接迁移。
- 标签必要性:只用普通二分类标签会导致误报率高达 50%~59%,独有三阶段轮次标签是实现低误报、早检测的关键。
- 对比优势:主流安全工具多轮攻击检测率仅 20%~29%,高检出率工具误报率达 76%;而 LAD 在保持高检测率的同时,误报率降低 32 倍,且能在攻击完全暴露前的转向阶段提前预警。
四、落地价值与局限
该方案无需改动大模型本身,仅通过挂载激活值钩子即可部署,缓存数据后仅用 CPU 就能迭代优化,可适配真实业务持续更新。局限在于需要模型白盒权限,且每个大模型都要单独训练探针,真实场景冷启动需要积累标注数据,为大模型多轮隐蔽攻击防护提供了全新可行的技术路径。
查看完整论文内容:https://paper.seebug.org/3486