美国政府命令 Anthropic 暂停向外国公民提供 Fable 5 和 Mythos 5 访问权限
- 浏览次数 149
- 喜欢 0
Anthropic 周五表示,在美国政府以国家安全为由命令其暂停向外国公民(无论在美国境内还是境外)提供模型访问权限后,该公司将"紧急禁用"其最先进的 AI 模型——Claude Fable 5 和 Mythos 5——面向所有用户的访问。
这家 AI 公司表示,其于美国东部时间下午 5:21 收到命令,要求暂停外国公民对该模型的所有访问权限。该公司认为存在"误解",并正在努力尽快恢复模型访问。其他模型的访问不受该出口管制指令影响。
"我们的理解是,政府认为其发现了一种绕过(即'越狱')Fable 5 的方法,"该公司表示。
"我们审查了该特定技术的演示,该技术被用于识别少量先前已知的、轻微漏洞。这些漏洞看起来都相对简单,我们发现其他公开可用的模型也能发现这些漏洞,无需进行越狱。"
这一意外举措发生在 Claude Fable 5 及其对应版本 Mythos 5 发布数天之后。Mythos 5 使用相同的基础模型,但在某些领域(如网络安全)移除了安全防护措施。后者被描述为"拥有全球所有模型中最强的网络安全能力",目前仍对经过审查的网络安全防御者和关键基础设施运营者开放。
Anthropic 强调其已实施"强有力的"防护措施,以防止模型被滥用于网络安全相关任务。具体来说,这由一组安全分类器支撑,用于检测潜在的滥用行为(包括越狱尝试),并禁止主模型做出响应。
该网络安全分类器旨在阻止涉及网络攻击规划、漏洞利用开发或防御规避的有害单轮请求。该公司指出,Mythos 类模型擅长发现和利用软件漏洞,从而为攻击者提供战略优势。
上周,Anthropic 透露其 Mythos 类模型可以将新披露的软件漏洞在数小时内(某些情况下甚至数分钟内)转化为可用的利用程序,而非数周,从而将 N-day 转化为 N-hour。这一发现表明,前沿模型可能同样擅长快速武器化已公开披露的漏洞。
"一名独立操作者现在可以在一个下午内,将一个月积累的补丁转化为可用的利用程序——只需花费几千美元,且无需任何专业知识,"Anthropic 的红队表示。"这意味着软件开发人员今天使用的典型补丁策略——每月发布节奏、持续数周的分阶段部署、预发布版与稳定版之间的延迟——已不再适用。"
Fable 5 的保护机制意味着,关于网络安全主题的查询将由该公司的次强模型 Claude Opus 4.8 来响应。
在最新声明中,该公司辩称,迄今为止尚未开发出针对最新模型的通用越狱方法,并补充说第三方和内部红队演练发现其安全防护措施"比任何先前部署的模型都显著更有效"。
此外,Anthropic 声称任何模型提供商都无法实现"完美的越狱抵抗",因为业界使用的每种安全防护措施都容易受到非通用越狱的攻击,这些越狱"在非常有限的上下文中有效,或需要额外努力才能适应每种新情况"。
"迄今为止,政府仅向我们提供了关于潜在狭窄、非通用越狱的口头证据,这基本上包括要求模型读取特定代码库并修复任何软件缺陷,"该公司表示。
"我们的理解是,一种潜在的越狱方法被分享给了政府。我们审查了一份我们认为构成政府指令依据的报告,并验证了其中展示的能力水平在其他模型(包括 OpenAI 的 GPT-5.5)中广泛可用,并且每天被维护系统安全的防御者所使用。"
Anthropic 还指出,虽然它完全支持政府阻止不安全的 AI 部署,但发现"狭窄的潜在越狱"不应成为召回已广泛部署的商业模型的原因。法定程序应"透明、公平、清晰,并基于技术事实"。
今年早些时候,美国国防部将 Anthropic 标记为"供应链风险",原因是这家 Claude 制造商试图为其技术的军事用途划清红线。该公司已提起两起诉讼以阻止该认定。