HackerNews

OpenAI Codex Security 扫描 120 万次代码提交，发现 10561 个高严重级漏洞

作者: hackernews 日期: 2026-03-09 分类: 网络安全暂无评论

HackerNews 编译，转载请注明出处： OpenAI 于上周五开始推出 Codex Security—— 这是一款由人工智能（AI）驱动的安全代理工具，旨在发现漏洞、验证漏洞有效性并提出修复方案。该功能目前处于研究预览阶段，ChatGPT Pro、企业版、商业版和教育版用户可通过 Codex 网页端使用，未来一个月内可免费调用。 “该工具会深入构建你的项目上下文信息，以识别其他智能代理工具遗漏的复杂漏洞；它能呈现可信度更高的检测结果，并提供可切实提升系统安全性的修复方案，同时避免无关紧要的小漏洞带来的干扰。” 该公司表示。 Codex Security 是 Aardvark 工具的升级版本 ——OpenAI 曾在 2025 年 10 月推出 Aardvark 私有测试版，旨在帮助开发者和安全团队大规模检测并修复安全漏洞。在过去 30 天的测试阶段中，Codex Security 扫描了外部代码仓库中超过 120 万次代码提交，识别出 792 个关键级漏洞和 10561 个高严重级漏洞。这些漏洞涉及多个开源项目，包括 OpenSSH、GnuTLS、GOGS、Thorium、libssh、PHP 和 Chromium 等。其中部分漏洞如下所列： · GnuPG – CVE-2026-24881、CVE-2026-24882 · GnuTLS – CVE-2025-32988、CVE-2025-32989 · GOGS – CVE-2025-64175、CVE-2026-25242 · Thorium – CVE-2025-35430、CVE-2025-35431、CVE-2025-35432、CVE-2025-35433、CVE-2025-35434、CVE-2025-35435、CVE-2025-35436 据这家 AI 公司介绍，这款应用安全代理的最新版本利用其前沿模型的推理能力，并结合自动化验证机制，最大限度降低误报风险，同时提供可落地执行的修复方案。 OpenAI 对同一批代码仓库的持续扫描数据显示，该工具的检测精准度不断提升，误报率持续下降 —— 所有仓库的误报率降幅均超过 50%。在向 The Hacker News 提供的声明中，OpenAI 表示，Codex Security 旨在通过以下方式提升有效信息占比：将漏洞发现过程锚定在系统上下文环境中，并在向用户呈现检测结果前先验证其有效性。具体而言，该代理工具的工作流程分为三步：分析代码仓库，掌握项目中与安全相关的系统结构，并生成可编辑的威胁模型，明确系统功能及最易受攻击的环节；构建完系统上下文后，Codex Security 以此为基础识别漏洞，并根据漏洞的实际影响程度对检测结果进行分类，同时在沙箱环境中对标记的漏洞进行压力测试以验证其有效性；最终阶段，代理工具提出与系统行为最匹配的修复方案，以减少回归问题，同时让方案更易于审核和部署。 OpenAI 称：“当 Codex Security 配置为适配你项目的环境后，它可在运行中的系统上下文里直接验证潜在漏洞。这种更深度的验证能进一步降低误报率，并支持生成可运行的概念验证（PoC），为安全团队提供更充分的证据和更清晰的修复路径。” Codex Security 发布的数周前，Anthropic 刚推出 Claude Code Security 工具，该工具可帮助用户扫描软件代码库中的漏洞并提出补丁建议。消息来源：thehackernews.com；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

五角大楼因 AI 军事应用争议将 Anthropic 列为供应链风险

作者: hackernews 日期: 2026-03-02 分类: AI安全,人工智能暂无评论

HackerNews 编译，转载请注明出处：美国国防部长皮特・赫格塞思指示五角大楼将 AI 初创公司 Anthropic 列为 “供应链风险” 后，Anthropic 于周五作出强硬回应。该公司表示：“此次行动源于数月谈判陷入僵局，我们要求对旗下 AI 模型 Claude 的合法使用增设两项例外：禁止用于美国民众大规模国内监控与完全自主武器”。 “无论战争部施加何种恐吓或惩罚，都不会改变我们在大规模国内监控与完全自主武器问题上的立场。” 美国总统唐纳德・特朗普在 Truth Social 发文称，已下令所有联邦机构在未来六个月内逐步停用 Anthropic 技术。赫格塞思随后在 X 平台发文，要求所有与美军有业务往来的承包商、供应商及合作伙伴立即停止与 Anthropic 的一切商业活动。赫格塞思写道：“结合总统关于联邦政府停用 Anthropic 技术的指令，我指示战争部将 Anthropic 列为国家安全供应链风险”。该认定是五角大楼与 Anthropic 就美军使用其 AI 模型进行数周谈判后的结果。该公司本周发文称，其合同不应支持大规模国内监控或自主武器研发，理由是该技术尚不具备安全可靠支撑此类应用的能力。 Anthropic 表示：“我们支持将 AI 用于合法的对外情报与反情报任务。但将这些系统用于大规模国内监控与民主价值观相悖，AI 驱动的大规模监控对我们的基本自由构成严重且新型的风险。” 该公司还批评美国战争部（DoW）的立场：战争部仅愿与允许 “一切合法使用” 技术、且移除所有安全防护的 AI 公司合作，以此打造 “AI 优先” 作战部队、强化国家安全。五角大楼上月发布的备忘录称：“战争部不应存在多元化、公平性、包容性及社会意识形态，因此不得采用融入意识形态‘调校’、影响其对用户提示给出客观真实回应能力的 AI 模型。” “战争部还必须采用无使用政策限制、不会阻碍合法军事应用的模型。” 针对该认定，Anthropic 称其 “缺乏法律依据”，并表示这将为所有与政府谈判的美国公司开创危险先例。该公司还指出，依据《美国法典》第 10 编第 3252 条，供应链风险认定仅适用于战争部合同中 Claude 的使用，不影响其为其他客户提供服务。五角大楼首席发言人肖恩・帕内尔周四在 X 平台发文称，战争部无意开展大规模国内监控或部署无人参与的自主武器，并称相关说法为 “虚假信息”。帕内尔称：“我们的要求很简单：允许五角大楼将 Anthropic 模型用于一切合法用途。” “这是简单且符合常理的要求，可避免 Anthropic 危及关键军事行动、让作战人员陷入风险。我们绝不允许任何公司左右我们的作战决策条款。” 这场持续僵局也导致科技行业出现两极分化。谷歌与 OpenAI 数百名员工签署公开信，呼吁各自公司支持 Anthropic，与五角大楼就 Claude 等 AI 工具军事应用展开对抗。 xAI 首席执行官埃隆・马斯克周五站在特朗普政府一方，称 “Anthropic 仇视西方文明”。 Anthropic 与美国政府对峙之际，OpenAI 首席执行官萨姆・奥尔特曼称，OpenAI 已与美国国防部（DoD）达成协议，在其涉密网络部署模型。 OpenAI 还请求国防部将相关条款推广至所有 AI 公司。奥尔特曼在 X 平台发文称：“AI 安全与普惠是我们使命的核心，两项最重要的安全原则是禁止国内大规模监控、武力使用需人类负责，包括自主武器系统。” “战争部认同这些原则，并将其纳入法律与政策，我们也将其写入协议。” 最新进展 Anthropic 与美国政府的公开争执使其 Claude 聊天机器人登顶苹果美国免费应用榜，即便 OpenAI 首席执行官萨姆・奥尔特曼称，该公司被列为供应链风险开创了 “极其可怕的先例”。 OpenAI 还披露了与五角大楼在涉密环境部署先进 AI 系统的协议细节，补充称 “我们认为该协议的安全防护比此前所有涉密 AI 部署协议都更严格，包括 Anthropic 的协议”。该公司称，与战争部的合作遵循三条红线。包括禁止将 OpenAI 技术用于大规模国内监控、指挥自主武器系统，以及社会信用体系等高风险自动化决策。该公司声明称：“在协议中，我们通过更全面、多层级的方式守护这些红线。” “我们对安全技术栈拥有完全自主权，通过云端部署，经审查的 OpenAI 人员全程参与，且有严格的合同保护。” 奥尔特曼还表示，公司未来将考虑承诺公开红线的所有变更，附公开说明，并在生效前设置强制公示期。 OpenAI 国家安全合作主管卡特里娜・马利根在领英发文称，协议将部署限制在云端 API，公司对部署的模型与安全技术栈拥有控制权，AI 专家全程参与，若模型未拒绝应拒绝的查询或出现超出预期的操作风险，可随时调整。马利根称：“自主系统需要边缘端推理。” “通过将部署限制在云端 API，我们可确保模型无法直接集成到武器系统、传感器或其他作战硬件中。” OpenAI 协议达成之际，《华尔街日报》报道称，尽管存在使用分歧，美国仍借助 Anthropic 的 AI 工具对伊朗发动大规模空袭。消息来源：thehackernews.com；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

OpenAI 增强防御模型以应对网络威胁

作者: hackernews 日期: 2025-12-15 分类: AI安全暂无评论

HackerNews 编译，转载请注明出处： OpenAI周三透露，模型性能的激增已重塑了公司的内部规划。根据一份新报告，通过CTF进行的能力评估显示，其性能从2025年8月GPT-5的27%提升至2025年11月GPT-5.1-Codex-Max的76%。 OpenAI警告称，一些即将推出的系统可能达到其“准备框架”中的“高”能力水平，这意味着它们最终可能协助完成从复杂入侵操作到零日漏洞利用开发等任务。 ThreatAware联合创始人兼首席执行官乔恩·阿博特表示，这一警告突显了关注基础防护的必要性。 “OpenAI警告新模型带来‘高’网络安全风险，这正是为什么确保安全基础绝对关键。AI可能正在加速攻击步伐，但我们最好的防御方式仍然是首先夯实基础。” 该公司还表示，正在通过开发多层次防护措施来应对这种可能性，旨在将先进能力引导至防御性结果。OpenAI补充说，其主要目标是加强网络安全团队的地位，这些团队目前仍面临人手不足和资源匮乏的问题。加强行业整体理解为管理网络工作流程中固有的双重用途风险，该公司概述了一个基于多个组件的深度防御策略：访问控制、基础设施加固、出口控制和监控引导模型避开有害请求，同时保持对教育和防御的实用性培训能够阻止或重定向不安全活动的全系统检测工具由外部专家进行的端到端红队测试 “这些防护措施旨在随着威胁形势的发展而演变，”该公司表示。阿博特指出，能力的提升使得长期存在的威胁更加危险。 “传统威胁与AI实现的规模和精度相结合，形成了一种特别有害的组合，”他解释道。 “随着模型能够开发可用的零日远程漏洞利用或协助复杂、隐蔽的入侵，犯罪分子的入门门槛已大幅降低。” OpenAI表示，正在与全球专家协调，以改进防御性AI的实际应用，并正在为合格用户准备可信访问计划。另一项名为“Aardvark”的计划已进入封闭测试阶段。这一智能安全研究代理可以扫描代码库、识别漏洞并提出修复方案，并在开源项目中发现了新的CVE漏洞。 OpenAI表示，还将启动一个“前沿风险委员会”，就负责任的能力使用提供建议，并通过“前沿模型论坛”进一步合作，以完善共享威胁模型并改进整个生态系统的缓解策略。消息来源：infosecurity-magazine；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

OpenAI 用户数据或因分析公司 Mixpanel 遭网络攻击而泄露

作者: hackernews 日期: 2025-11-28 分类: AI安全暂无评论

HackerNews 编译，转载请注明出处： OpenAI 向部分用户发出警告，分析公司 Mixpanel 遭遇网络攻击，可能导致这些用户的数据泄露。 Mixpanel 是一款产品分析平台，企业可通过该平台了解用户与自身应用或网站的交互情况。众多科技公司借助 Mixpanel 收集数据，为功能优化、性能提升及用户旅程设计等决策提供依据。 OpenAI 就 Mixpanel 数据泄露事件向部分用户告知潜在风险。这家分析服务提供商于 11 月 8 日检测到一起钓鱼短信攻击，但试图淡化此次安全事件的严重性，称其仅影响少数客户。 OpenAI 表示，自身系统未遭入侵，ChatGPT 对话记录、提示词、API 数据、密码、密钥及支付信息均保持安全。攻击者实际窃取的是 Mixpanel 中有限的数据集，包含来自 platform.openai.com 的用户档案详情 —— 姓名、邮箱地址、大致地理位置、操作系统 / 浏览器信息、机构或用户 ID，以及引荐网站。OpenAI 提醒，这些数据可能被用于钓鱼攻击和社会工程学诈骗。 OpenAI 声明：“作为安全调查的一部分，我们已在生产环境中移除 Mixpanel 服务，核查了受影响数据集，并正与 Mixpanel 及其他合作伙伴密切合作，以全面了解事件详情及影响范围。我们正在直接通知受影响的机构、管理员及用户。目前尚未发现证据表明 Mixpanel 环境外的系统或数据受到影响，但我们会持续密切监控是否存在滥用风险。” 相应地，OpenAI 已在生产环境中停用 Mixpanel，核查了受影响数据，并在通知相关用户及机构的同时，持续监控数据滥用情况。 Mixpanel 在数据泄露通知中称：“2025 年 11 月 8 日，Mixpanel 检测到一起钓鱼短信攻击，并立即启动了事件响应流程。我们采取了全面措施遏制并清除未授权访问，保障受影响用户账户的安全。同时，我们已联合外部网络安全合作伙伴开展漏洞修复及事件响应工作。” Mixpanel 采取了多项措施保障系统安全并保护受影响客户：加固遭入侵的账户，撤销所有活跃会话，更换泄露的凭证；封禁攻击相关的恶意 IP 地址，并在安全监控平台中添加攻击特征指标。为强化内部安全，Mixpanel 要求所有员工重置全球范围内的账户密码，聘请第三方取证团队协助遏制攻击并清理风险；同时对受影响账户的身份验证日志、会话日志及导出日志进行了详细的取证分析。为防范类似事件再次发生，Mixpanel 已部署新的安全控制措施，旨在未来能检测并拦截此类恶意活动。该公司目前正与执法部门及外部网络安全顾问合作推进相关工作。已收到 Mixpanel 通知的客户应遵照邮件中的指示操作；未收到任何通知的用户则未受此次事件影响，无需采取进一步措施。消息来源：securityaffairs；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

新型后门 SesameOp 滥用 OpenAI API 构建隐蔽指挥通道

作者: hackernews 日期: 2025-11-05 分类: AI安全暂无评论

HackerNews 编译，转载请注明出处：微软近日披露了一款名为 “SesameOp” 的新型后门恶意软件细节，该后门创新性地将 OpenAI Assistants 应用程序接口（API）用作指挥与控制（C2）通信通道。微软事件响应部门的检测与响应团队（DART）在周一发布的技术报告中指出：“该后门的威胁行为者并未依赖传统手段，而是滥用 OpenAI 作为指挥与控制通道，以此在受入侵环境中秘密通信并协调恶意活动。” 报告进一步解释：“后门的某个组件会将 OpenAI Assistants API 用作存储或中继机制，获取恶意指令后由恶意软件执行。” 这家科技巨头透露，该植入式恶意软件于 2025 年 7 月在一次复杂安全事件调查中被发现。在该事件中，不明身份的威胁行为者已在目标环境中维持持久访问长达数月，但微软未披露受影响受害者的具体信息。深入调查显示，此次入侵活动包含一套 “复杂配置” 的内部网页木马（Web Shell），这些木马专门用于执行来自 “持久化、战略性部署” 的恶意进程所中继的指令。而这些恶意进程又借助了被恶意库篡改的微软 Visual Studio 实用程序，这种技术手段被称为 AppDomainManager 注入 —— 一种通过劫持.NET 应用加载过程来执行恶意代码的隐蔽技术，比传统的 DLL 旁加载更易实施。 SesameOp 是一款定制化后门，核心设计目标是维持持久访问权限，让威胁行为者能够秘密控制受感染设备，这表明此次攻击的核心目的是实现长期潜伏以开展间谍活动。 OpenAI Assistants API 原本旨在帮助开发者将人工智能驱动的代理直接集成到应用程序和工作流程中，但该 API 已被 OpenAI 列入弃用计划，将于 2026 年 8 月停止服务，取而代之的是全新的 Responses API，后者在灵活性、性能和功能上均有提升。根据微软披露的攻击链，SesameOp 包含一个加载器组件（“Netapi64.dll”）和一个基于.NET 的后门程序（“OpenAIAgent.Netapi64”）。后门程序利用 OpenAI API 作为指挥与控制通道，获取加密后的恶意指令，解密后在本地执行，执行结果则以消息形式回传至 OpenAI 平台，形成完整的隐蔽通信闭环。微软表示：“该动态链接库（DLL）通过Eazfuscator.NET进行高度混淆处理，专为隐蔽性、持久化及利用 OpenAI Assistants API 实现安全通信而设计。Netapi64.dll 会根据宿主可执行文件附带的特制.config 文件指令，通过.NET AppDomainManager 注入技术在运行时加载到宿主程序中。” 为规避安全扫描，其恶意载荷还采用了 AES 和 RSA 双重加密结合 GZIP 压缩的防护机制。从 OpenAI 获取的助手列表中，消息描述字段支持三种指令类型： SLEEP（休眠）：使进程线程按指定时长休眠 Payload（有效载荷）：从指令字段提取消息内容，在独立线程中调用执行 Result（结果）：将处理结果以新消息形式传输至 OpenAI，同时将描述字段设为 “Result”，向威胁行为者告知载荷执行输出已就绪目前该恶意软件的幕后操作者身份尚未明确，但这一事件凸显了威胁行为者持续滥用合法工具实施恶意活动的趋势 —— 通过伪装成正常网络流量以规避检测。微软透露已与 OpenAI 共享相关调查结果，OpenAI 已识别并禁用了疑似被攻击者使用的 API 密钥及关联账户。针对此次威胁，微软建议企业安全团队采取多项缓解措施：严格审计防火墙日志，监控未授权的外部服务连接；在所有设备上启用篡改防护功能；将终端检测与响应（EDR）系统配置为拦截模式，主动阻止恶意行为执行。消息来源：thehackernews；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

伪造 AI 侧边栏可诱骗 Atlas、Comet 浏览器用户执行危险操作

作者: hackernews 日期: 2025-10-24 分类: AI安全暂无评论

HackerNews 编译，转载请注明出处： OpenAI 的 Atlas 浏览器与 Perplexity 的 Comet 浏览器存在安全漏洞，攻击者可通过伪造内置 AI 侧边栏，诱骗用户执行危险操作。这种 “AI 侧边栏伪造攻击” 由浏览器安全公司 SquareX 的研究人员发现，且可在两款浏览器的最新版本上生效。研究人员模拟了三种真实攻击场景：攻击者可利用 AI 侧边栏伪造手段窃取加密货币、访问目标用户的 Gmail 与 Google Drive 服务，以及劫持设备。 Atlas 与 Comet 均为 “智能体 AI 浏览器”，它们将大型语言模型集成到侧边栏中，用户浏览网页时可通过侧边栏互动 —— 例如要求总结当前页面内容、执行命令或完成自动化任务。其中，Comet 浏览器于今年 7 月发布，而 ChatGPT Atlas 浏览器则在本周早些时候面向 macOS 系统推出。自发布以来，已有多项研究指出，Comet 在特定情况下存在安全风险。注入恶意 AI 智能体 SquareX 发现，在 Comet 与 Atlas 浏览器中，攻击者可通过恶意扩展程序向用户浏览的网页注入 JavaScript 代码，在真实 AI 侧边栏上方覆盖一层伪造侧边栏。伪造的侧边栏与浏览器原生侧边栏完全一致，从视觉上看属于标准用户界面的一部分，极具迷惑性。由于伪造侧边栏会覆盖真实侧边栏并拦截所有用户交互操作，用户完全无法察觉自己正处于欺诈环境中。 SquareX 表示：“受害者打开新浏览器标签页后，该扩展程序可向网页注入 JavaScript 代码，生成一个与 AI 浏览器原生侧边栏一模一样的伪造侧边栏。” 借助扩展程序，注入的 JavaScript 代码可在用户访问的所有网站上，渲染出这个恶意伪造的侧边栏覆盖层。 SquareX 指出，这类恶意扩展程序仅需获取 “主机（host）” 与 “存储（storage）” 权限即可运行 —— 而这两类权限在 Grammarly（语法检查工具）、密码管理器等常用效率工具中十分常见，不易引发用户警惕。研究人员称：“伪造侧边栏与真实 AI 侧边栏在视觉呈现和操作流程上完全无差异，用户很可能会误以为自己在与浏览器原生的 AI 侧边栏互动。” 为验证研究结果，SquareX 在 Comet 浏览器中调用谷歌 Gemini AI 进行测试。研究人员通过设置特定参数，让 AI 对特定提示词返回包含恶意指令的响应。三类典型攻击场景 SquareX 在报告中重点列举了以下三种攻击案例：当用户询问与加密货币相关的问题时，诱导其访问钓鱼页面；通过伪造文件共享应用发起 OAuth 攻击，劫持用户的 Gmail 或 Drive 账户；当用户寻求软件安装指引时，向其提供反向 shell（远程控制工具）的安装命令。实际攻击中，攻击者可能会设置更多 “触发提示词”，频繁诱导用户执行各类高风险操作。漏洞影响范围与厂商响应开展研究时，OpenAI 尚未发布 Atlas 浏览器，因此 SquareX 最初仅在 Comet 浏览器上测试了 AI 侧边栏伪造攻击。但在 Atlas 浏览器正式发布后，研究人员同样对其进行了测试，并确认该攻击手段对 Atlas 也有效。目前，研究人员已就该漏洞联系 Perplexity 与 OpenAI，但两家公司均未回应。BleepingComputer（科技媒体）也尝试联系这两家企业，截至报道发布时仍未收到回复。智能体 AI 浏览器用户需警惕这类工具存在的多重风险，建议仅将其用于非敏感操作，避免处理涉及电子邮件、财务信息或其他私人数据的任务。尽管浏览器开发商会在每次版本更新中针对新型攻击添加安全防护措施，但目前这类 AI 浏览器的成熟度仍不足 —— 其攻击面尚未降低到 “除日常轻度浏览外可安全使用” 的合理水平。消息来源：bleepingcomputer；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

GPT-5 存在漏洞：路由系统或自动导向旧版不安全模型

作者: hackernews 日期: 2025-08-21 分类: 人工智能,漏洞暂无评论

HackerNews 编译，转载请注明出处：研究人员发现GPT-5存在安全漏洞：用户获得的回答可能并非来自GPT-5本身。这一漏洞源于其内部路由机制存在类似SSRF（服务器端请求伪造）的缺陷。当用户向GPT-5提问时，答案未必由GPT-5生成。该模型内置初始路由解析器，会根据问题内容决定调用哪个子模型处理请求——可能是用户预期的GPT-5 Pro，但也可能被路由至GPT-3.5、GPT-4o、GPT-5-mini或GPT-5-nano等旧版或精简版模型。这种动态路由机制的设计初衷可能是平衡效率与成本：通过将简单查询导向更轻量、快速的模型，避免始终调用推理能力强大但运行成本高昂的GPT-5核心模型。据Adversa AI公司估算，该机制每年可为OpenAI节省约18.6亿美元开支，但运作过程完全不透明。更严重的是，Adversa研究人员发现用户可通过特定“触发短语”操纵路由决策，强制将查询导向指定模型。该漏洞被命名为PROMISQROUTE（全称为“提示诱导路由操纵漏洞”）。“这本质上是针对路由器的规避攻击，”Adversa AI联合创始人兼CEO亚历克斯·波利亚科夫解释，“我们操纵了原本简单的路由决策流程，决定哪个模型应处理请求。” 虽然路由机制并非OpenAI独有（其他服务商通常允许用户手动选择模型），但此类自动化路由正越来越多地出现在智能体架构中——即由某个模型决定如何将请求传递至其他模型。该漏洞是Adversa在测试GPT-5拒绝机制时偶然发现的。某些提问会引发无法解释的回复矛盾，使研究人员怀疑响应来自不同模型。他们观察到部分旧版越狱手段突然复活，且当提问中刻意提及旧模型时，即使GPT-5本身能阻止的越狱行为也会成功。被动风险与主动威胁单纯的路由错误已可能引发严重后果：例如不同模型具有差异化倾向与缺陷，若查询被导向能力较弱或安全校准不足的模型，可能增加幻觉输出或不安全内容的概率。但真正的危险在于：攻击者可利用路由漏洞将恶意查询导向安全性较低的旧模型，从而绕过GPT-5 Pro的防护机制。“假设攻击者试图用越狱指令攻击GPT-5失败后，只需在提问前添加简单指令诱骗路由器将请求发送至存在漏洞的旧模型，”波利亚科夫指出，“先前失败的越狱就可能成功执行。” 这意味着尽管GPT-5 Pro自身安全性优于前代，但路由漏洞使其实际防护能力等同于最弱的前代模型。安全与成本的矛盾解决方案看似简单——禁用向弱安全模型的路由即可，但这将损害商业利益：完全依赖GPT-5 Pro会显著降低响应速度（影响用户体验），且每项查询都调用高成本模型将压缩OpenAI利润空间。波利亚科夫建议：“OpenAI需提升安全性，例如在路由器前增设防护层、增强路由机制本身的安全性，或确保所有子模型（而非仅核心模型）均达到安全标准——最理想的是同时实施这三项措施。” 消息来源： securityweek；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

GPT-5 安全性“低得惊人”：研究人员在 24 小时内成功越狱

作者: hackernews 日期: 2025-08-12 分类: AI安全,安全快讯暂无评论

HackerNews 编译，转载请注明出处： OpenAI最新大型语言模型GPT-5的安全性能“低得惊人”，其未经系统提示（system prompt）加固的原始模型“几乎无法直接用于企业场景”。该模型发布后不到24小时，多个安全团队已成功实现“越狱”。安全研究人员在新版GPT-5中发现了严重漏洞。AI安全初创公司SPLX使用逾千条不同配置的对抗性提示进行测试，发现未加固且无系统提示的原始GPT-5模型对89%的攻击束手无策，整体防御表现评分仅为11%。 OpenAI添加的基础提示层将攻击成功率降至43%。尽管这显著改善了幻觉处理能力和安全性，但整体评分仍非常低，且旧版GPT-4o模型在各项指标上均优于GPT-5。作为对比，经过加固的GPT-4o模型仅对3%的攻击失效（评分97%）。添加基础系统提示的GPT-4o攻击成功率为19%（评分81%），而未加固版本则对71%的攻击脆弱（评分29%）。研究团队在报告中警告：“具备全新‘推理’升级的GPT-5，竟被基础对抗逻辑技巧攻破。经SPLX红队测试验证，GPT-4o仍是防御最稳健的模型，尤其在加固状态下。” 研究人员指出，最有效的越狱技术之一是使用模糊提示（obfuscated prompts），即在每个字符间插入连字符并将恶意指令伪装成加密挑战。测试中，GPT-5被诱导输出了炸弹制造指南。 SPLX警告企业勿轻信GPT-5的默认配置，部署前必须进行加固并为企业应用添加运行时保护层。其他大型语言模型的类似漏洞表明这存在系统性弱点。报告总结：“GPT-5展现出强大的基础能力，但默认安全性仍低得惊人。未经加固的原始模型几乎无法直接用于企业场景。” 另一研究团队NeuralTrust证实GPT-5易受两种对抗提示技术攻击：“回声室”（Echo Chamber）和“叙事攻击”（Storytelling）。回声室技术通过在提示中植入“隐性有毒”的对话语境，后续提示不断强化该语境；叙事攻击则充当伪装手段欺骗模型。该报告仅提及GPT-5被诱导生成涉及“莫洛托夫鸡尾酒”的内容——这类信息敏感度不高，在维基百科等网络平台已广泛存在。消息来源：cybernews；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

知名交友软件 Bumble 新功能被指控违反欧盟隐私规则

作者: hackernews 日期: 2025-06-27 分类: 人工智能,安全隐私暂无评论

HackerNews 编译，转载请注明出处：知名交友软件Bumble因与OpenAI合作开发的“破冰”功能，被欧洲数字权利中心（noyb）指控违反欧盟《通用数据保护条例》（GDPR）。该组织于6月25日向奥地利监管机构提交正式投诉，直指四项违规行为。 “破冰”功能于2023年12月在Bumble for Friends（专为发展非恋爱友谊设计的独立应用）上线，通过OpenAI分析用户资料生成定制开场白。Bumble官网称其可“帮助用户创建个性化沟通信息”。 noyb指控Bumble：未明确告知数据用途及接收方缺乏向OpenAI传输个人数据的法律依据未获授权处理敏感数据采用诱导式弹窗替代有效同意机制用户启动功能时会收到“AI助你破冰”弹窗，说明“利用AI生成匹配个人资料的问题”。投诉指出：用户需点击“好”才能关闭弹窗，否则每次启动都会重现关键数据共享说明隐藏在独立FAQ页面，关闭后无法回溯投诉人表示点击“好”仅为关闭弹窗，未意识到同意数据共享当用户发信询问“数据传给谁、共享哪些数据”时，Bumble未予答复。noyb强调GDPR要求企业必须清晰披露数据处理细节。 noyb曾推动欧盟监管机构在2023年对Meta处以12亿欧元罚款，并叫停其向美国传输数据的行为。此次投诉若成立，Bumble可能面临年营收4%（约4,000万美元）的罚款。截至发稿，Bumble尚未回应置评请求。消息来源： therecord；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

OpenAI 获 2 亿美元新合同，协助国防部强化网络防御

作者: hackernews 日期: 2025-06-20 分类: 人工智能,网络安全暂无评论

HackerNews 编译，转载请注明出处： OpenAI与美国国防部签署价值2亿美元的合同，旨在提升其人工智能能力，包括强化网络防御。该公司本周宣布启动“OpenAI for Government”计划，通过AI解决方案增强美国政府工作人员的效能。美国国防部（DoD）将成为该计划的首个受益方，通过其首席数字与人工智能办公室（CDAO）开展试点项目。OpenAI声明称：“这份上限2亿美元的合同将借助OpenAI行业领先的专业能力，帮助国防部探索前沿AI如何变革行政运营——从优化军人及家属的医疗保健服务，到精简项目与采购数据处理，再到支持主动网络防御。”该公司同时强调“所有应用场景必须符合OpenAI的使用政策和准则”。国防部表示，这笔资金将用于开发“原型前沿AI能力，以应对作战领域和企业领域的关键国家安全挑战”。网络安全媒体SecurityWeek已联系OpenAI获取更多网络防御能力细节，若获回应将更新报道。 AI治理与应用安全公司PointGuard AI高级官员Willy Leichter通过邮件评论：“生成式AI必将在国防和行政运营中发挥关键作用。鉴于AI发展的迅猛势头，外包给行业领导者比政府完全自主开发更切实可行。以国防部的标准看，2亿美元投入或许不算庞大，但这份一年期合同让OpenAI获得了宝贵的机会来原型开发广泛用例。如同私营领域，许多AI实验可能不尽如人意，但另一些或带来突破性成果。关键在于快速推进，而本次计划已迈出坚实的第一步。” 消息来源： securityweek；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文