潜在对抗检测：大模型激活自适应探测多轮攻击

作者: hackernews 日期: 2026-05-27 分类: 人工智能

浏览次数 67
喜欢 0
评分: 0.0/5

给文章评分：

今天介绍的这篇论文直击传统大模型文本层安全防御的固有缺陷，创新性提出基于模型内部激活轨迹的多轮隐蔽攻击检测方案，凭借独创的特征发现与三阶段标注数据集，实现了远优于现有商用安全工具的检测精度与低误报表现。

一、研究背景：传统文本防御存在致命短板

当下针对大模型提示注入、越狱攻击的防护，都停留在文本表层，依靠关键词匹配、语义过滤等方式拦截攻击。但多轮恶意攻击有固定套路：先建立信任、再悄悄转向话题、最后逐步诱导越界，每一轮单独看都像正常对话，文本防御根本识别不出来。而且传统工具要么漏检多轮攻击，要么把技术讨论、安全咨询误判为攻击，误报率居高不下，还跟不上新型攻击手法的迭代。

二、核心创新：发现「对抗躁动性」特征

本文跳出文本维度，开创性聚焦大模型内部激活值。研究发现：多轮恶意攻击在模型逐层运算的激活向量轨迹上，会产生明显异常 —— 攻击者每切换一个攻击阶段，模型激活值就会发生偏移，累积移动路径长度远高于普通良性对话，论文将这一固有特征命名为对抗躁动性。

研究者提炼出 5 个轨迹量化指标，结合模型原始激活向量，搭建了 LAD 两阶段检测框架：先通过对比学习把激活值转为风格无关表征，再用 XGBoost 分类识别恶意意图。

三、实验核心数据与关键结论

研究选用 24B~70B 参数的四款主流大模型，自建含良性 / 转向 / 对抗三阶段标注的合成数据集，同时融合 LMSYS、SafeDialBench 两大真实数据集开展测试。

效果提升：合成数据集上，新增 5 个轨迹特征后，检测准确率从 76.2% 飙升至 93.8%；三数据源融合训练后，最优模型实现 89.4% 检测率、仅 2.4% 误报率。
跨模型特性：对抗躁动特征能在四类模型中稳定复现，但检测探针具有模型特异性，无法跨架构直接迁移。
标签必要性：只用普通二分类标签会导致误报率高达 50%~59%，独有三阶段轮次标签是实现低误报、早检测的关键。
对比优势：主流安全工具多轮攻击检测率仅 20%~29%，高检出率工具误报率达 76%；而 LAD 在保持高检测率的同时，误报率降低 32 倍，且能在攻击完全暴露前的转向阶段提前预警。

四、落地价值与局限

该方案无需改动大模型本身，仅通过挂载激活值钩子即可部署，缓存数据后仅用 CPU 就能迭代优化，可适配真实业务持续更新。局限在于需要模型白盒权限，且每个大模型都要单独训练探针，真实场景冷启动需要积累标注数据，为大模型多轮隐蔽攻击防护提供了全新可行的技术路径。

查看完整论文内容：https://paper.seebug.org/3486