HackerNews

HackerNews
一文读懂 ReTokSync:解决大模型隐写的分词歧义难题

一文读懂 ReTokSync:解决大模型隐写的分词歧义难题

给文章评分:
今天介绍这篇论文聚焦生成式语言隐写(GLS)的核心痛点 —— 分词歧义,提出轻量、安全、高效的自同步消歧框架 ReTokSync,完美平衡了隐蔽通信的安全性、容量与速度。

论文标题:《ReTokSync: Self-Synchronizing Tokenization Disambiguation for Generative Linguistic Steganography》

链接:https://arxiv.org/html/2604.25486v1

一、核心问题:分词歧义让隐写 “一错全错”

生成式语言隐写靠大模型生成文本,把秘密信息藏在 token 选择中。但 BPE 等子词分词存在歧义:同一段文字,发送端和接收端可能分出不同 token 序列。

只要出现一次分词不匹配,就会导致收发状态失同步,后续所有秘密信息全部提取失败。现有方案要么删 token 破坏文本分布、安全性下降;要么保留分布但容量暴跌、速度极慢,始终无法兼顾。

二、创新方案:ReTokSync 自同步消歧

论文提出的 ReTokSync,核心思路是只在歧义发生时干预
  1. 双序列跟踪:发送端同时维护自身生成 token 和接收端会看到的重分词 token;
  2. 在线歧义检测:每一步对比预测与实际接收端分词,不一致就判定歧义;
  3. 校正重置:歧义出现时立刻按接收端结果重置嵌入状态,把错误限制在局部,不扩散;
  4. 双通道通信:主信道用 ReTokSync 高速传信息,辅助信道用 Syncpool 修正少量残留错误,实现 100% 恢复。

三、实验结果:全维度最优,性能惊艳

论文在英文 Llama-3.1-8B、中文 Qwen3-8B 上验证,结果极具说服力:
  • 安全性拉满:与基线模型 KL 散度为 0,完全不改变生成分布,隐写分析检测率接近 50% 随机水平;
  • 准确率极高:单独使用提取准确率超 99.7%,双通道下实现 100% 端到端恢复;
  • 效率顶尖:相对时间开销最低仅 0.82%,远低于逐步验证的 525%;
  • 容量无损:保持基线嵌入容量,远超 Syncpool(如 k=512 时 3.50 vs 0.53 比特 /token)。

四、价值与意义

ReTokSync 打破了生成式隐写的 “安全 - 效率 - 容量” 三角困境,不修改模型、不扭曲分布、不牺牲速度,仅用轻量同步逻辑就解决了分词歧义这一部署瓶颈。它让大模型隐蔽通信真正走向实用,可直接用于即时通讯、多轮对话等持续交互场景,是生成式隐写落地的关键突破。
完整论文内容请查看:https://paper.seebug.org/3481
分享到:
hackernews

hackernews

该作者暂无简介