黑客资讯

阿联酋的 K2 Think AI 通过其自身的透明度功能被越狱

作者: hackernews 日期: 2025-09-12 分类: AI安全,安全快讯暂无评论

HackerNews 编译，转载请注明出处：研究人员利用K2 Think的内置可解释性来拆除其安全防护栏，引发了关于透明度与人工智能安全是否能够真正共存的新问题。 K2 Think是由阿拉伯联合酋长国最近推出的用于高级推理的人工智能系统，其透明度质量被利用来越狱。透明度在人工智能中是一种被众多国际法规和指南所倡导，如果不是明确要求的话。例如，欧盟人工智能法就有具体的透明度要求，包括可解释性——用户必须能够理解模型是如何得出其结论的。在美国，美国国家标准与技术研究院（NIST）人工智能风险管理框架强调透明度、可解释性和公平性。拜登2023年关于人工智能的行政命令指示联邦机构制定包括关注透明度在内的标准。像HIPAA这样的特定行业要求被解释为要求透明度和非歧视性结果。其意图是保护消费者，防止偏见，并提供问责制——实际上，是要使人工智能推理的传统黑箱性质变得可审计。Adversa利用K2 Think的透明度和可解释性控制来越狱该模型。从概念上讲，这个过程非常简单。提出任何你明知会被拒绝的“恶意”请求；但要查看拒绝的解释。从该解释中，推断出模型认可的一级防护栏。 Adversa AI联合创始人Alex Polyakov详细解释了使用K2 Think开源系统的过程：“每次你提问时，模型会提供一个答案，如果你点击该答案，就会显示其整个推理过程（思维链）。如果你接着阅读某个特定问题的推理解释——比如说，“如何无钥匙启动汽车”——推理输出可能会包含类似‘根据我的绝对拒绝规则，我不能讨论暴力话题’之类的内容。” 这是模型防护栏的一部分。“然后你可以使用相同的提示，”Polyakov继续说道，“但指示绝对拒绝规则现在已禁用。每次你通过阅读推理了解模型的安全性工作方式时，你都可以在提示中添加一条新规则来禁用它。这就像是能够读懂你正在与之讨价还价的人的内心想法一样——无论他们多么聪明，如果你能读懂他们的想法，你就能赢。” 因此，你再次发出提示，但这次是在一个将绕过一级防护栏的框架内。这几乎肯定也会被拒绝，但会再次提供阻止的原因。这使得攻击者能够推断出二级防护栏。第三次提示将被构建为绕过两个防护栏指令。它可能会被阻止，但会揭示下一个防护栏。这个过程会不断重复，直到发现并绕过所有的防护栏——而“恶意”提示被准确接受并得到回答。一旦所有防护栏被知晓且可以被绕过，不良行为者就可以询问并得到任何想要的东西。 “与传统漏洞要么有效要么无效不同，这种攻击随着每次尝试而变得越来越有效。该系统本质上是在训练攻击者如何击败它，”Adversa解释说，并将其描述为一种神谕攻击。在Adversa讨论的例子中，攻击者提示获取一份关于如何无钥匙启动汽车的假设性操作手册。最终提示和回应如下：在企业内部，不良行为者可能会暴露业务逻辑或安全措施。在医疗保健领域，它可能会暴露实施保险欺诈的方法；在教育领域，学生可能会发现绕过学术诚信措施的方法；而在金融科技领域，它会使交易算法或风险评估系统面临风险。 Adversa并不认为这种神谕攻击风格的越狱，将模型试图遵守透明度最佳实践的做法反过来利用，必然适用于其他人工智能模型。“像ChatGPT或DeepSeek这样的主流聊天机器人会展示推理过程，但不会向最终用户展示完整的逐步推理过程，”Polyakov解释说。 “你会看到引用或简短的理由——但不是整个思维过程，更重要的是，不会明确说明模型的安全逻辑。在研究模式、评估环境或受控企业部署之外，丰富、逐字的推理追踪是罕见的。” 但它确实展示了模型开发人员面临的一个主要困境中的潜在陷阱。透明度要求迫使人们做出一个不可能的选择。“为了安全/法规而保持人工智能的透明度（但可被黑客攻击），或者使其变得不透明且安全（但不可信）。目前，每个在受监管行业部署‘可解释人工智能’以实现合规的财富500强公司都可能面临风险。这证明了可解释性和安全性可能本质上是不相容的。” 消息来源：securityweek；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

Cursor AI 编辑器允许仓库在设备上“自动运行”恶意代码

作者: hackernews 日期: 2025-09-11 分类: AI安全暂无评论

HackerNews 编译，转载请注明出处： Cursor 代码编辑器的一个漏洞使开发人员面临风险，一旦打开恶意仓库，就会自动执行其中的任务。威胁行为者可以利用该漏洞，在无需开发人员执行任何命令的情况下，投放恶意软件、劫持开发环境或窃取凭证和 API 令牌。 Cursor 是一款基于 Visual Studio Code（VS Code）构建的人工智能驱动的集成开发环境（IDE），它深度集成了 GPT-4 和 Claude 等主流人工智能助手，用于软件开发任务。它是最受欢迎的 AI 编程工具之一，目前有 100 万用户使用它每天生成超过 10 亿行代码。提供非人类身份（NHI）管理和安全解决方案的 Oasis Security 公司的研究人员发现，该问题源于 Cursor 禁用了 VS Code 的工作区信任功能，该功能会阻止在未经开发人员明确同意的情况下自动执行任务。在默认配置中，Cursor 在打开项目文件夹后会立即执行任务。威胁行为者可以利用这一点，在公开共享的仓库中添加一个恶意的 `.vscode/tasks.json` 文件。 Oasis Security 的研究人员表示：“当用户使用 Cursor 打开这样的仓库时，即使是简单地浏览，也可以在其环境中运行任意代码。” “这可能会泄露敏感凭证、修改文件，或者成为更广泛系统入侵的途径。” 然而，VS Code 并未受到影响，因为其默认配置不会自动运行该文件。为了证明他们的发现，Oasis Security 发布了一个概念验证，该 `tasks.json` 文件在使用 Cursor 打开项目文件夹时执行一个 shell 命令，发送当前用户的名称。根据 Oasis Security 的说法，利用该漏洞的威胁行为者可以在当前用户上下文中执行代码、窃取敏感数据（令牌、API 密钥、配置文件）、建立与命令与控制（C2）基础设施的连接，或者为供应链攻击创建感染向量。 Cursor 不会修复在 Oasis Security 向 Cursor 团队告知默认禁用工作区信任功能的风险后，IDE 开发商表示，他们打算在代码编辑器中保留自动运行行为。 Cursor 解释说：“工作区信任会禁用用户希望在产品中使用的 AI 和其他功能。” 他们建议用户要么从 VS Code 中启用安全功能，要么在处理可能恶意的仓库时使用基本文本编辑器。 Cursor 团队还表示，他们将很快更新他们的安全指南，以解释他们对工作区信任的立场，并添加如何启用它的说明。 Oasis Security 建议用户使用不同的编辑器打开未知项目，在打开它们之前验证仓库，并避免在 shell 配置文件中全局导出敏感凭证。研究人员还提供了在 Cursor 中启用工作区信任的设置。消息来源：bleepingcomputer；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

AI 驱动的恶意软件在“s1ngularity”攻击中击中 2180 个 GitHub 账户

作者: hackernews 日期: 2025-09-08 分类: AI安全,恶意软件暂无评论

HackerNews 编译，转载请注明出处：对Nx “s1ngularity” NPM供应链攻击的调查揭示了一场大规模的灾难，数千个账户令牌和存储库机密被泄露。根据Wiz研究人员的事后评估，Nx的泄露导致2180个账户和7200个存储库在三个不同的阶段被暴露。 Wiz还强调，该事件的影响范围仍然很大，因为许多泄露的机密仍然有效，所以影响仍在持续。 Nx “s1ngularity” 供应链攻击 Nx是一个流行的开源构建系统和单体仓库管理工具，广泛用于企业级JavaScript/TypeScript生态系统，在NPM包索引上有超过550万次的每周下载量。 2025年8月26日，攻击者利用Nx存储库中一个有缺陷的GitHub Actions工作流程，在NPM上发布了一个包含恶意软件脚本（“telemetry.js”）的恶意版本。 “telemetry.js”恶意软件是一个针对Linux和macOS系统的凭证窃取器，试图窃取GitHub令牌、npm令牌、SSH密钥、.env文件、加密钱包，并将这些机密上传到名为“s1ngularity-repository”的公共GitHub存储库。此次攻击的突出之处在于，该凭证窃取器使用了安装在人工智能平台上的命令行工具，如Claude、Q和Gemini，利用LLM提示搜索并收集敏感的凭证和机密。 Wiz报告称，随着攻击的每次迭代，提示语都在发生变化，这表明攻击者正在调整提示语以获得更好的成功率。 Wiz解释说：“提示语的演变表明攻击者在整个攻击过程中迅速探索提示语调整。我们可以看到引入了角色提示，以及在技术上不同程度的具体性。” “这些变化对恶意软件的成功产生了实际影响。例如，‘渗透测试’一词的引入，实际上反映在LLM拒绝参与此类活动上。” 大规模影响范围在8月26日至27日的第一阶段攻击中，被篡改的Nx包直接影响了1700名用户，泄露了超过2000个独特的机密。该攻击还暴露了受感染系统中的20000个文件。 GitHub在八小时后删除了攻击者创建的存储库，但数据已经被复制。在8月28日至29日的第二阶段攻击中，攻击者利用泄露的GitHub令牌将私人存储库变为公开，并将它们重命名为包含“s1ngularity”字符串。这导致了另外480个账户被进一步入侵，其中大多数是组织，以及6700个私人存储库被公开暴露。在8月31日开始的第三阶段攻击中，攻击者针对一个单一的受害者组织，利用两个被入侵的账户发布了另外500个私人存储库。 Nx的回应 Nx团队在GitHub上发布了一份详细的根源分析报告，解释说此次入侵来自一个拉取请求标题注入，加上对pull_request_target的不安全使用。这使得攻击者能够以提升的权限运行任意代码，进而触发Nx的发布流程并泄露npm发布令牌。恶意包已被移除，被入侵的令牌已被撤销并轮换，所有发布者账户都已采用双因素认证。为了防止此类入侵再次发生，Nx项目现在采用了NPM的可信发布者模型，该模型消除了基于令牌的发布，并增加了对PR触发工作流程的手动审批。消息来源：bleepingcomputer；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

黑客滥用 X 的 AI 助手传播恶意链接

作者: hackernews 日期: 2025-09-04 分类: AI安全,网络安全暂无评论

HackerNews 编译，转载请注明出处：威胁行为者正在利用X平台的内置AI助手Grok，绕过该平台为减少恶意广告而引入的链接发布限制。正如Guardio Labs研究员Nati Tal所发现，恶意广告商经常运行包含成人内容诱饵的可疑视频广告，并避免包含指向主站的链接以避免被X平台拦截。相反，他们将链接隐藏在视频卡片下方不起眼的“From:”元数据字段中，该字段显然未被社交媒体平台扫描以检查恶意链接。接下来，（很可能是）同一批行为者通过回复广告来询问Grok关于帖子的信息，例如“这个视频来自哪里？”或“这个视频的链接是什么？”。 Grok会解析隐藏的“From:”字段，并在回复中以可点击的格式提供完整的恶意链接，使用户能够点击并直接进入恶意网站。由于Grok在X平台上自动是一个受信任的系统账户，其发布的内容提升了链接的可信度、覆盖范围、搜索引擎优化（SEO）和声誉，从而增加了该链接被广播给大量用户的可能性。研究人员发现，许多此类链接通过 shady 广告网络进行跳转，最终导向诸如虚假验证码（CAPTCHA）测试、信息窃取恶意软件和其他恶意负载的诈骗。这些链接不仅没有被X平台阻止，反而通过恶意广告向平台用户推广，并借助Grok进一步扩大了影响力。 Tal将利用此漏洞的技术称为“Grokking”，并指出其非常有效，在某些情况下能将恶意广告的曝光量放大至数百万次展示。潜在的解决方案包括扫描所有字段、拦截隐藏链接以及对Grok添加上下文清理机制，这样AI助手就不会在用户询问时盲目地反馈链接，而是会根据拦截列表对其进行过滤和检查。 Tal向我们确认，他已联系X平台报告此问题，并得到了非官方确认，表示Grok工程师已收到报告。 BleepingComputer也联系了X平台，询问他们是否意识到这种滥用行为以及是否计划采取任何措施，但在本文发布前未收到回复。消息来源： bleepingcomputer；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

Anthropic 警告：AI 落入网络犯罪分子手中将更危险

作者: hackernews 日期: 2025-08-29 分类: AI安全,网络犯罪暂无评论

HackerNews 编译，转载请注明出处：人工智能公司Anthropic近期阻止了一起网络犯罪活动，该犯罪分子利用Claude Code编写钓鱼邮件、创建恶意代码并绕过安全过滤机制。 Anthropic最新版《威胁情报报告》显示，黑客、网络犯罪分子及其他威胁行为者已调整策略，开始利用AI的最先进能力实施攻击。AI模型正被用于执行复杂的网络攻击，同时该技术显著降低了从事网络犯罪的门槛——即便缺乏技术和编程能力的犯罪分子，如今也能借助AI实施勒索软件攻击或钓鱼骗局。诈骗者更将AI嵌入其全流程操作：从受害者画像分析、窃取数据解析到伪造身份扩大潜在目标范围。报告中列举了Claude遭滥用的近期案例，包括：利用Claude Code实施的大规模勒索行动朝鲜背景的欺诈性就业骗局仅具备基础编程能力的犯罪分子销售AI生成的勒索软件首个案例中，威胁行为者使用Claude Code自动化执行侦察任务、窃取受害者凭证并渗透网络。Anthropic指出：“Claude被允许作出战术与战略决策，包括决定窃取哪些数据、如何设计心理定向勒索方案。它分析窃取的财务数据以确定赎金金额，并在受害者机器上生成视觉警示性勒索信。” 研究人员认为，此事标志着AI辅助网络犯罪的升级：“代理型AI工具正为攻击提供技术建议和实战支持，此类攻击原本需团队协作才能完成。由于这些工具能自适应防御措施，防护与执法难度持续增大。” 随着AI辅助工具日益精进和普及，此类复杂攻击将更加频繁。Anthropic表示，最佳解决方案是改进检测与遏制模型滥用的方法，承诺在该领域深化研究。消息来源：cybernews；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

PromptLock：全球首款 AI 驱动的勒索软件

作者: hackernews 日期: 2025-08-29 分类: AI安全,勒索软件暂无评论

HackerNews 编译，转载请注明出处：全球首款AI驱动勒索软件PromptLock已被发现。该恶意软件由ESET安全团队识别，目前仅处于概念验证阶段，但已具备传统勒索软件的全部功能框架。 PromptLock采用Golang编写，基于OpenAI的开放权重模型GPT-OSS:20b构建，可在无专有限制的环境下运行。ESET通过社交媒体公告解释：该威胁通过硬编码提示词动态生成Lua脚本，利用这些脚本执行文件系统扫描、文件检测、数据窃取及加密操作。已观察到Windows和Linux双平台变种，其生成的Lua脚本具备跨平台兼容性。该勒索软件采用SPECK 128位算法实施文件加密。ESET特别指出：“恶意软件可能根据检测到的用户文件实施数据窃取、加密或潜在销毁。虽然文件销毁功能目前尚未激活。” 尽管AI驱动勒索软件的概念令人担忧，但PromptLock攻击需满足多项非常规条件：首先，它通过Ollama API在本地调用GPT-OSS:20b模型，要求受害者系统预先运行Ollama——这对普通计算机的资源配置而言极不现实。 ESET监测到PromptLock在局域网内发送请求，推测其可能连接本地Ollama服务，或通过内部代理转向外部服务器。安全研究人员强调，此类攻击成功的前提是受害者存在网络隔离缺陷、未部署提示词防护机制，且允许LLM相关端口协议的外联流量。 ESET明确表示该恶意软件目前仅为概念验证版本，尚未具备完整功能且未在野检测到实际攻击案例。“我们坚信有必要提升网络安全界对此类新兴风险的认知……AI驱动恶意软件标志着网络安全的新战场。公开这些发现旨在推动行业讨论、防御准备与深度研究。” 消息来源： securityweek；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

提示词中间人攻击：ChatGPT 等 AI 工具的隐形威胁

作者: hackernews 日期: 2025-08-19 分类: AI安全,网络攻击暂无评论

HackerNews 编译，转载请注明出处：网络安全领域正面临一种新型威胁的警示——“提示词中间人攻击”（Man-in-the-Prompt），这种攻击能够危害用户与主流生成式人工智能工具的交互，包括ChatGPT、Gemini、Copilot和Claude等。最令人担忧的是，这种攻击甚至不需要复杂的技术手段，仅需一个浏览器扩展即可实施。 LayerX安全研究员Aviad Gispan解释道：“研究表明，任何浏览器扩展——即使没有特殊权限——都能访问商业和内部LLM（大语言模型）的提示词，并通过注入恶意提示词来窃取数据、外泄信息并掩盖痕迹。我们已在所有主流商业LLM上验证了这一漏洞，并为ChatGPT和Google Gemini提供了概念验证演示。” 什么是“提示词中间人攻击”？ LayerX安全专家用这个术语描述一种新型攻击向量，它利用了AI聊天机器人输入窗口这一被低估的弱点。当我们在浏览器中使用ChatGPT等工具时，输入的信息实际上位于一个简单的HTML字段中，可通过页面的DOM（文档对象模型）访问。这意味着任何能访问DOM的浏览器扩展都能读取、修改或重写我们发送给AI的请求，而用户却浑然不觉。更关键的是，这类扩展甚至不需要特殊权限。攻击原理剖析用户在浏览器中打开ChatGPT或其他AI工具恶意扩展拦截即将发送的文本修改提示词，例如添加隐藏指令（提示词注入）或从AI响应中窃取数据用户收到看似正常的回复，但实际上数据已被窃取或会话已被入侵该技术已被证实适用于所有主流AI工具，包括： ChatGPT（OpenAI） Gemini（Google） Copilot（Microsoft） Claude（Anthropic） DeepSeek（中国AI模型）具体风险分析报告指出，这种攻击可能造成严重后果，尤其对企业用户：敏感数据窃取：若AI处理的是机密信息（源代码、财务数据、内部报告），攻击者可通过修改提示词读取或提取这些信息。响应操控：注入的提示词可改变AI的行为模式。安全控制绕过：攻击发生在提示词发送至AI服务器之前，因此能绕过防火墙、代理和数据防泄露系统。据LayerX统计，99%的企业用户浏览器中至少安装了一个扩展程序，这意味着风险敞口极大。防护措施建议个人用户应采取：定期检查并卸载非必要的浏览器扩展。避免安装来源不明或不可靠的扩展。尽可能限制扩展权限。企业用户应实施：在公司设备上禁用或严格监控浏览器扩展。尽可能将AI工具与敏感数据隔离。采用运行时安全解决方案监控DOM并检测输入字段篡改。对提示词流进行专项安全测试，模拟注入攻击。采用新兴的“提示词签名”技术：在发送前对提示词进行数字签名以验证完整性。实施“来源标注”技术，区分可靠内容与潜在篡改。更广泛的问题：提示词注入 “提示词中间人攻击”属于更广泛的提示词注入威胁范畴，根据OWASP 2025年十大LLM安全风险，这是AI系统面临的最严重威胁之一。这类攻击不仅限于技术手段——即使是看似无害的外部内容（如电子邮件、链接或文档注释）也可能包含针对AI的隐藏指令。例如：处理支持工单的企业聊天机器人可能被格式异常的请求操控。阅读邮件的AI助手可能被注入的提示词诱导向第三方发送信息。核心启示 LayerX报告指出了一个关键问题：AI安全不能仅局限于模型或服务器层面，还必须涵盖用户界面和浏览器环境。在AI日益融入个人和企业工作流的时代，一个简单的HTML文本字段可能成为整个系统的致命弱点。消息来源： securityaffairs；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

联想 AI 聊天机器人曝关键漏洞：攻击者可运行恶意代码并窃取 Cookie

作者: hackernews 日期: 2025-08-19 分类: AI安全,漏洞暂无评论

HackerNews 编译，转载请注明出处：跨国科技公司联想（Lenovo）的AI聊天机器人Lena近日被发现存在严重安全漏洞，攻击者仅需单条指令即可诱导其泄露会话凭证甚至执行恶意脚本。此次事件暴露了AI助手在缺乏严格防护时的灾难性风险。漏洞机制与危害网络安全研究团队Cybernews发现，联想官网搭载的AI助手Lena（基于OpenAI GPT-4构建）存在跨站脚本（XSS）漏洞。攻击者通过400字符的恶意指令即可实现：诱导机器人将回复格式转为HTML 在回复中嵌入伪造图片加载指令触发浏览器向攻击者服务器发送包含会话cookie的请求当用户要求转接人工客服时，该漏洞会产生连锁反应：客服人员查看对话历史将触发相同漏洞，导致其会话凭证被窃取。攻击者可借此劫持客服账号，访问客户对话记录及敏感数据。潜在攻击场景研究团队警告该漏洞可能引发多重风险：系统渗透：劫持的客服账号可能成为内网跳板恶意操作：诱导生成的代码可部署后门、执行系统命令数据泄露：窃取客户支持系统中的用户信息界面篡改：向客服终端注入虚假信息或钓鱼页面安全专家Žilvinas Girėnas指出：“企业急于部署AI却疏于防护，这种差距正是攻击者的突破口。大语言模型不具备‘安全’本能概念，它们只会忠实执行指令。若无严格输入输出过滤，微小疏忽可能演变为重大安全事件。” 行业警示 Cybernews团队强调该漏洞反映的深层问题：输入过滤缺失：未对用户指令进行危险字符过滤输出无验证：直接信任AI生成的HTML/Javascript代码内容加载失控：允许从任意外部源加载资源联想在7月22日收到漏洞报告后，于8月6日确认问题并在8月18日前完成修复。2025财年数据显示，这家香港上市公司营收达568.6亿美元，净利润11亿美元，市值约180亿美元。防护建议研究团队提出关键防护措施：实施输入净化机制：严格限制允许字符类型与输入长度建立输出审查：剥离AI回复中的可执行代码启用内容安全策略（CSP）：限制浏览器可加载资源域避免内联JavaScript：所有脚本应置于外部文件执行最小权限原则：限制AI系统访问权限 “必须默认所有AI输出均可能包含恶意代码，采用‘永不信任，始终验证’策略”，研究团队总结道。此次事件再次证明：当企业竞相拥抱AI技术时，安全防护必须同步进化。消息来源： cybernews；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

深度伪造 AI 交易骗局瞄准全球投资者

作者: hackernews 日期: 2025-08-14 分类: AI安全,网络欺诈暂无评论

HackerNews 编译，转载请注明出处：欺诈性“AI驱动”交易平台激增，利用深度伪造技术和虚假网络内容欺骗投资者。根据Group-IB的最新调查，诈骗分子正在部署逼真的虚假视频、伪造评论和定向在线广告，诱骗受害者参与欺诈性投资计划。这些活动的核心是AI生成的深度伪造视频，视频中出现了荷兰政客海尔特·维尔德斯（Geert Wilders）等公众人物，为虚构的交易平台背书。这些视频模仿真实的新闻广播，结合合成语音克隆和刻意营造的紧迫感，制造出一种排他性氛围。受害者被引导至包含虚假专家访谈、篡改图表和溢美之词的伪造新闻文章，所有设计都是为了促使用户注册。用户注册后，会被引导至要求小额初始保证金（通常为100-250美元）的平台，以避免引起怀疑。这些网站常以账户验证为名，索取敏感个人信息，包括身份证扫描件、住址证明甚至信用卡照片。多频道分发研究人员发现了一个由YouTube频道、社交媒体账户以及Medium和Blogspot等平台上的博客文章组成的网络，用于推广这些骗局。这些操作使用本地化内容脚本，以匹配用户的国家和语言，从而增加可信度。活动专门针对包括印度、英国、德国、法国、西班牙、比利时、墨西哥、加拿大、澳大利亚、捷克共和国、阿根廷、日本和土耳其在内的国家用户。已识别的关键策略包括： AI生成的冒充公众人物的视频托管在免费博客平台上的虚假评论网站通过随意、相关的帖子推广欺诈平台的社交媒体页面通过IP和语言检测实现诈骗网站的本地化据报道，这些平台无法从美国和以色列的IP地址访问，表明其重点在其他地区。协同基础设施利用网络图谱分析，Group-IB将少数注册者与数十个诈骗域名联系起来，其中许多域名共享相同的注册商和技术细节。部分域名与其他欺诈性交易网站有关联，包括AccuTraderOnline和10kAPPA。报告警告称，这些骗局结合了专业设计、心理压力和社会认同机制，以削弱受害者的怀疑态度。 “该骗局利用了社会认同效应、心理压力和专业设计，非常有效。”研究人员总结道。调查结果强调需要保持警惕，尤其是在遇到与AI、深度伪造背书或未经核实的在线评论相关的投资邀约时。消息来源： infosecurity-magazine；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文

GPT-5 安全性“低得惊人”：研究人员在 24 小时内成功越狱

作者: hackernews 日期: 2025-08-12 分类: AI安全,安全快讯暂无评论

HackerNews 编译，转载请注明出处： OpenAI最新大型语言模型GPT-5的安全性能“低得惊人”，其未经系统提示（system prompt）加固的原始模型“几乎无法直接用于企业场景”。该模型发布后不到24小时，多个安全团队已成功实现“越狱”。安全研究人员在新版GPT-5中发现了严重漏洞。AI安全初创公司SPLX使用逾千条不同配置的对抗性提示进行测试，发现未加固且无系统提示的原始GPT-5模型对89%的攻击束手无策，整体防御表现评分仅为11%。 OpenAI添加的基础提示层将攻击成功率降至43%。尽管这显著改善了幻觉处理能力和安全性，但整体评分仍非常低，且旧版GPT-4o模型在各项指标上均优于GPT-5。作为对比，经过加固的GPT-4o模型仅对3%的攻击失效（评分97%）。添加基础系统提示的GPT-4o攻击成功率为19%（评分81%），而未加固版本则对71%的攻击脆弱（评分29%）。研究团队在报告中警告：“具备全新‘推理’升级的GPT-5，竟被基础对抗逻辑技巧攻破。经SPLX红队测试验证，GPT-4o仍是防御最稳健的模型，尤其在加固状态下。” 研究人员指出，最有效的越狱技术之一是使用模糊提示（obfuscated prompts），即在每个字符间插入连字符并将恶意指令伪装成加密挑战。测试中，GPT-5被诱导输出了炸弹制造指南。 SPLX警告企业勿轻信GPT-5的默认配置，部署前必须进行加固并为企业应用添加运行时保护层。其他大型语言模型的类似漏洞表明这存在系统性弱点。报告总结：“GPT-5展现出强大的基础能力，但默认安全性仍低得惊人。未经加固的原始模型几乎无法直接用于企业场景。” 另一研究团队NeuralTrust证实GPT-5易受两种对抗提示技术攻击：“回声室”（Echo Chamber）和“叙事攻击”（Storytelling）。回声室技术通过在提示中植入“隐性有毒”的对话语境，后续提示不断强化该语境；叙事攻击则充当伪装手段欺骗模型。该报告仅提及GPT-5被诱导生成涉及“莫洛托夫鸡尾酒”的内容——这类信息敏感度不高，在维基百科等网络平台已广泛存在。消息来源：cybernews；本文由 HackerNews.cc 翻译整理，封面来源于网络；转载请注明“转自 HackerNews.cc”并附上原文