威胁行为者利用漏洞,并使用 Elastic Cloud SIEM 管理窃取的数据
HackerNews 编译,转载请注明出处: 网络安全研究人员发现了一场攻击活动,该活动利用多个软件漏洞窃取系统数据,并将数据存储在基于云的安全平台中。 研究人员发现,威胁行为者使用 Elastic Cloud 安全信息与事件管理(SIEM)平台的免费试用实例,从数十家机构的受入侵系统中收集和分析数据。 该活动由 Huntress 公司的研究人员发现,他们观察到攻击者利用广泛使用的企业软件中的漏洞,包括 SolarWinds Web Help Desk。 攻击者并未使用传统的命令与控制(C&C)基础设施,而是将受害者数据直接外传到由攻击者控制的 Elastic Cloud 实例中,实际上将一款合法的安全监控工具变成了窃取信息的存储库。 将 Elastic 试用版用作数据中心与 VPN 基础设施 调查显示,攻击者在受入侵系统上执行一段经过编码的 PowerShell 命令,用于收集详细的主机信息。该脚本收集操作系统信息、硬件配置、Active Directory 数据以及已安装补丁信息,然后将其传输到名为 “systeminfo” 的 Elasticsearch 索引中。 研究人员表示,这种战术使攻击者能够使用本应用于防御性安全监控的 SIEM 工具对受害者进行分类,并确定攻击目标优先级。 用于此次攻击的 Elastic Cloud 实例创建于 2026 年 1 月 28 日,并持续运行了数天。遥测数据显示,攻击者通过 Kibana 界面对该环境进行反复操作,在检查传入的受害者数据期间执行了数百次操作。 进一步分析显示,该试用账号使用了一个与 quieresmail.com 域名关联的一次性电子邮件地址注册。调查人员认为,该地址格式与俄罗斯注册的临时邮件网络 firstmail.ltd 有关,该网络运营着数百个一次性域名。 其他证据表明,攻击者在其整个基础设施中重复使用随机的 8 字符标识符,包括电子邮件注册信息以及在 Cloudflare Worker 页面上托管工具所用的子域名。 对该 SIEM 实例的管理员登录行为被追溯到据信来自 SAFING VPN 隐私网络隧道的 IP 地址。 数百台系统受影响 从攻击者的 Elastic 环境中恢复的数据显示,该攻击活动影响了至少 216 台主机,涉及 34 个 Active Directory 域。大部分受入侵设备为服务器,其中最常见的是运行 Windows Server 2019 或 2022 的系统。 受害者遍布多个行业,包括: · 政府机构 · 大学及教育机构 · 金融服务公司 · 制造业与汽车企业 · IT 服务提供商与零售商 部分主机名表明,攻击者还在利用其他企业平台中的漏洞,包括 Microsoft SharePoint。 研究人员已与 Elastic 公司及执法部门协作,通知受影响机构并对相关基础设施展开调查。此次活动中使用的云实例现已被下线。 Huntress 在其博客中表示:“我们已对我们认为在被发现数据中涉及的机构进行了联系与受害者通知,并与 Elastic 展开协作,进一步调查并下线该威胁行为者的基础设施。” 消息来源:infosecurity-magazine.com; 本文由 HackerNews.cc 翻译整理,封面来源于网络; 转载请注明“转自 HackerNews.cc”并附上原文
FBI 查封 LeakBase 网络犯罪论坛,查获 14.2 万会员数据
HackerNews 编译,转载请注明出处: FBI 查封了网络犯罪论坛 LeakBase,该论坛是网络犯罪分子买卖黑客工具和被盗数据的主要平台。 此次查封行动是由欧洲刑警组织协调的国际联合行动 “Leak 行动” 的一部分,共有 14 个国家的执法机构参与。 3 月 3 日至 4 日,FBI 与执法人员查封了 LeakBase 的两个域名、张贴查封公告,并在收集更多证据后向该论坛成员发出警告。 美方及澳大利亚、比利时、波兰、葡萄牙、罗马尼亚、西班牙、英国等国警方执行了搜查令、实施逮捕并进行问询。 LeakBase 域名(leakbase [.] la)现已显示公告:“本网站已由美国联邦调查局(FBI)在国际执法行动中查封。” 查封公告同时指出,该论坛数据库及所有内容(包括 IP 日志和私信)将作为证据用于后续调查。 公告称:“论坛所有内容,包括用户账号、帖子、积分信息、私信和 IP 日志均已固定并保存,用于取证。任何试图访问、修改或干扰本网站的行为都可能构成额外刑事犯罪。本次行动得益于国际执法部门及私营部门的协作,合作伙伴如下。” LeakBase 查封公告(来源:BleepingComputer) 该域名的 DNS 服务器已切换为 ns1.fbi.seized.gov 和 ns2.fbi.seized.gov,为 FBI 查封域名时使用的官方服务器。 欧洲刑警组织表示:“3 月 3 日,执法部门在多国司法管辖区开展协同行动,包括逮捕、入户搜查和上门约谈。全球共开展约 100 次执法行动,针对平台 37 名最活跃用户采取措施。” “3 月 4 日,当局进入技术关停阶段,查封论坛域名并替换为执法公告页面。行动现已进入预防阶段,旨在震慑后续犯罪活动,并警示参与网络犯罪的后果。” LeakBase 自 2021 年运营,由 ARES 威胁组织支持创立;在 Breached 黑客论坛关闭后,其用户量逐步增长至 14.2 万以上。 该论坛免费注册,提供数据库访问、数据泄露交易、漏洞利用工具及各类黑产服务,并支持担保交易。此外,论坛还设有编程、黑客技巧、社会工程学、密码学和操作安全(OPSEC)教程板块。 本次行动前,美方已先后在 2022 年打掉 RaidForums、2023 年打掉 BreachForums 两大同类网络犯罪平台,并在 2025 年对 BreachForums 创始人完成定罪判刑。 消息来源:bleepingcomputer.com; 本文由 HackerNews.cc 翻译整理,封面来源于网络; 转载请注明“转自 HackerNews.cc”并附上原文
LLM 生成 SVG 文件绕过邮件安全防护
HackerNews 编译,转载请注明出处: 微软正提请关注一场新的钓鱼攻击活动,该活动主要针对美国境内机构,且疑似利用大型语言模型(LLM)生成代码,对攻击载荷进行混淆处理,以绕过安全防护机制。 微软威胁情报团队在上周发布的分析报告中指出:“该攻击活动疑似借助大型语言模型(LLM),将恶意行为隐藏在 SVG 文件中,并利用商业术语和合成结构掩盖其恶意意图。” 这场于 2025 年 8 月 28 日被检测到的攻击活动表明,威胁行为者正越来越多地将人工智能(AI)工具纳入其攻击流程,目的通常包括制作更具欺骗性的钓鱼诱饵、自动完成恶意软件混淆,以及生成模仿合法内容的代码。 据微软(这家 Windows 操作系统开发商)记录的攻击链显示,威胁行为者利用已被入侵的企业邮箱账户发送钓鱼邮件,以窃取受害者凭证。这些邮件伪装成 “文件共享通知”,诱骗受害者打开看似 PDF 文档的文件 —— 但实际上,该文件是可缩放矢量图形(Scalable Vector Graphics,简称 SVG)文件。 此类邮件的一大特点是攻击者采用 “自发送” 策略:发件人与收件人地址一致,而真正的攻击目标则隐藏在密送(BCC)字段中,以此绕过基础检测规则。 微软表示:“SVG 文件(可缩放矢量图形)对攻击者极具吸引力,原因在于其基于文本且支持脚本编写,可直接在文件内嵌入 JavaScript 及其他动态内容。这使得攻击者能够交付看似无害的交互式钓鱼载荷,无论对用户还是多数安全工具而言,都难以识别其恶意本质。” 微软进一步补充,SVG 文件格式还支持 “隐藏元素”“编码属性”“延迟脚本执行” 等特性,这些功能使其成为攻击者规避静态分析与沙箱检测的理想选择。 SVG 文件一旦被打开,会将用户重定向至一个要求完成 “验证码(CAPTCHA)安全验证” 的页面。受害者完成验证后,通常会被引导至伪造的登录页面,其凭证随之被窃取。微软称,由于该威胁已被其系统识别并中和,目前尚不清楚后续具体攻击步骤。 此次攻击的独特之处在于其非常规的混淆手段:利用商业相关术语隐藏 SVG 文件中的钓鱼内容 —— 这一特征表明,相关代码可能由 LLM 生成。 微软解释道:“首先,SVG 代码的开头被构造成看似合法的‘企业分析仪表盘’样式。这种设计旨在误导任何随意检查文件的人,让他们误以为该 SVG 的唯一用途是可视化展示业务数据。但实际上,这只是一个伪装。” 其次,攻击载荷的核心功能(包括将用户重定向至初始钓鱼落地页、触发浏览器指纹识别、启动会话跟踪)也被一串冗长的商业相关术语(如 “收入”“运营”“风险”“季度”“增长”“份额” 等)所掩盖。 微软表示,其已将相关代码在 Security Copilot(微软安全副驾驶)中进行分析,结果显示该程序 “并非人类通常会从零编写的代码 —— 因其复杂度高、冗余度大,且缺乏实际应用价值”。微软得出这一结论的依据包括以下几点: 函数与变量的命名过于描述性且冗余 代码结构高度模块化但过度设计 注释内容通用且冗长 利用商业术语实现混淆的方法具有公式化特征 SVG 文件中包含 CDATA 段与 XML 声明,疑似为模仿文档示例而添加 微软指出:“尽管此次攻击活动影响范围有限且已被有效拦截,但各类威胁行为者正越来越多地采用类似技术。” 与此同时,Forcepoint(网络安全公司)也披露了一起多阶段攻击事件:攻击者通过含.XLAM 附件的钓鱼邮件执行 shellcode(壳代码),最终通过二级载荷部署 XWorm 远程访问木马(RAT);同时,攻击者会显示空白或损坏的 Office 文件作为伪装。其中,二级载荷的作用是作为 “通道”,在内存中加载.DLL 文件。 Forcepoint 表示:“在内存中运行的二级.DLL 文件采用了高度混淆的打包与加密技术。该二级.DLL 文件通过‘反射式 DLL 注入’技术,在内存中再次加载另一个.DLL 文件,而后者最终负责执行恶意软件。” “后续的最终步骤是在其自身主可执行文件中进行‘进程注入’,以维持持久化控制,并将数据窃取至其命令与控制(C2)服务器。经核查,这些接收窃取数据的 C2 服务器与 XWorm 家族恶意软件相关。” 此外,Cofense(邮件安全公司)称,近几周的钓鱼攻击还利用 “美国社会保障局”“版权侵权” 等相关诱饵,分别分发 ScreenConnect ConnectWise(远程控制工具,常被用于后续攻击)及 Lone None Stealer、PureLogs Stealer 等信息窃取恶意软件。 针对 “版权侵权” 主题的钓鱼攻击,Cofense 表示:“攻击者通常伪装成多家律师事务所,声称要求受害者移除其网站或社交媒体页面上的侵权内容。该攻击活动的显著特点在于其创新手段:利用 Telegram 机器人资料页交付初始载荷、使用混淆处理的编译型 Python 脚本载荷,且通过多版攻击样本可看出其复杂度正不断升级。” 消息来源:thehackernews; 本文由 HackerNews.cc 翻译整理,封面来源于网络; 转载请注明“转自 HackerNews.cc”并附上原文
生成式 AI 安全风险加剧,驱动企业加大安全投入
HackerNews 编译,转载请注明出处: Thales《2025年数据威胁报告》显示,面对生成式AI(GenAI)带来的安全风险,73%的企业正在通过新增预算或重新分配资源的方式采购AI专用安全工具。其中,超三分之二的企业选择云服务商提供的解决方案,60%依赖传统安全厂商,约半数尝试新兴初创公司的产品。AI安全已成为企业第二大安全投入重点,仅次于云安全。 近70%的IT与安全从业者认为,快速迭代的生成式AI生态系统(涵盖新型基础设施、SaaS服务与自主代理)是采用该技术的首要安全顾虑。此外,64%担忧数据完整性,57%质疑结果可信度。尽管存在风险,仍有三分之一企业处于GenAI技术的”集成”或”转型”阶段。 报告指出,45%的受访企业曾遭遇数据泄露,较2024年的49%略有下降。自2021年(56%)以来,受泄密影响的企业比例呈逐步下降趋势。过去12个月内发生泄露的企业占比为14%,与上年持平。值得注意的是,未通过合规审计的企业中有78%曾遭遇数据泄露,而通过审计的企业该比例仅为21%。恶意软件、钓鱼攻击与勒索软件仍是年度三大主要攻击类型。 近60%的企业采用生物识别技术,47%部署无密码认证(如通行密钥),这类技术能有效防范钓鱼攻击与凭证填充等账户劫持行为。研究覆盖全球20个国家、15个行业的3000余名IT与安全专家。 451 Research首席分析师Eric Hanselman评论称:“生成式AI的快速演进迫使企业加速布局,但往往以牺牲谨慎为代价。许多企业在尚未完全理解应用架构的情况下仓促部署,加之集成GenAI能力的SaaS工具激增,多重因素叠加放大了复杂性与风险。” 消息来源: infosecurity-magazine; 本文由 HackerNews.cc 翻译整理,封面来源于网络; 转载请注明“转自 HackerNews.cc”并附上原文
美国联邦贸易委员会起诉 GoDaddy 多年忽视托管安全
HackerNews 编译,转载请注明出处: 美国联邦贸易委员会(FTC)要求网络托管巨头GoDaddy实施基本的安全保护措施,包括HTTPS API和强制多因素身份验证(MFA),以解决自2018年以来其托管服务未能抵御攻击的问题。 FTC表示,这家总部位于亚利桑那州的公司声称采取了合理的安全措施,但实际上却误导了数百万网络托管客户,因为GoDaddy未能实施标准的安全工具和实践,导致其“对托管环境中的漏洞和威胁视而不见”。 FTC消费者保护局局长塞缪尔·莱文表示:“数百万家公司,特别是小型企业,依赖GoDaddy等网络托管提供商来保护他们和客户所依赖的网站。” “FTC今天采取行动,确保像GoDaddy这样的公司加强其安全系统,以保护全球消费者。” 根据FTC的投诉,GoDaddy不合理的安全措施包括未使用多因素身份验证(MFA)、未管理软件更新、未记录安全相关事件、未对网络进行分段、未监测安全威胁(包括未使用可从其众多日志中主动检测威胁的软件),以及未使用文件完整性监测。 该公司还未能盘点和管理资产、评估其网站托管服务的风险,并确保访问消费者数据的服务的连接安全。 安全漏洞频发导致多次数据泄露 FTC表示,在2019年至2022年期间,这些数据安全漏洞导致了多次重大安全事件,使得威胁者能够访问客户的网站和数据。 例如,2023年2月,这家托管巨头披露称,未知攻击者在多年来的攻击中突破了其cPanel共享托管环境,窃取源代码并在受感染的服务器上安装恶意软件。 该公司表示,直到2022年12月初收到客户投诉称他们的网站被重定向到未知域名后,才发现这一漏洞。 GoDaddy当时还透露,2021年11月和2020年3月披露的安全漏洞也与这次攻击活动有关。 2021年11月的漏洞影响了120万Managed WordPress客户。攻击者使用被盗密码侵入GoDaddy的托管环境,从一些客户那里获得了电子邮件地址、WordPress管理员密码、sFTP和数据库凭据以及SSL私钥。 在2020年3月的漏洞事件后,GoDaddy通知了2.8万名客户,称攻击者在2019年10月使用他们的网络托管凭据通过SSH进行了连接。 根据拟议的和解令,FTC将要求GoDaddy建立强大的信息安全计划,并禁止该公司误导客户关于其安全保护的说法。该命令还要求GoDaddy聘请独立的第三方评估人员每两年对其信息安全计划进行一次审查。 该公司还被要求为所有客户、员工和承包商员工“在任何支持托管服务的工具或资产上,包括连接到任何数据库时”添加强制性的MFA,并“至少提供一种不需要客户提供电话号码的方法,例如通过集成身份验证应用程序或允许使用安全密钥。” 去年12月,FTC还命令万豪国际和喜达屋酒店实施强大的数据安全计划,以应对2014年和2018年导致超过3.4亿宾客记录泄露的失败事件。 万豪在2014年10月与FTC达成和解,并同意向49个州支付5200万美元,以解决与这些数据泄露相关的索赔。 消息来源:Bleeping Computer, 编译:zhongx; 本文由 HackerNews.cc 翻译整理,封面来源于网络; 转载请注明“转自 HackerNews.cc”并附上原文
美国新规要求医疗机构 72 小时内恢复数据并加强年度网络安全审计
HackerNews 编译,转载请注明出处: 美国卫生与公共服务部(HHS)民权办公室(OCR)提议对医疗机构实施新网络安全规定,以保护患者数据免受网络攻击。 该提案旨在修订1996年《健康保险流通与问责法案》(HIPAA),作为加强关键基础设施网络安全广泛行动的一环,OCR指出。 新规将通过升级HIPAA安全标准,强化电子保护健康信息(ePHI)的安全防护,以“更有效地应对医疗行业日益严峻的网络安全挑战。” 据此,提案要求医疗机构审查技术资产清单和网络图,识别电子信息系统潜在漏洞,并建立72小时内恢复特定电子信息系统及数据的流程。 其他关键条款包括:每年至少实施一次合规审计,确保静态及传输中的ePHI加密,强制采用多因素认证,部署反恶意软件保护,并清理电子信息系统中的冗余软件。 《拟议规则通知》(NPRM)还要求医疗实体实施网络分段,建立备份与恢复技术控制,至少每六个月进行一次漏洞扫描,及每年至少一次渗透测试。 此举措出台之际,医疗行业正频繁遭受勒索软件攻击,不仅造成经济损失,还因破坏诊断设备和患者医疗记录系统访问,危及患者生命。 微软2024年10月指出,医疗组织因存储高度敏感数据而成为勒索软件攻击目标,但更大风险在于可能承担的巨额财务赔偿。 勒索软件事件还导致周边医疗设施不堪重负,因急需治疗的患者涌入而无法及时响应。 据网络安全公司Sophos数据,2024年67%的医疗机构遭遇勒索软件攻击,较2021年的34%显著上升,主要归因于漏洞利用、凭证泄露及恶意邮件。 其中,53%的机构在数据被加密后支付了赎金以恢复访问,赎金中位数达150万美元。 同时,勒索软件攻击后的恢复时间也在延长,仅22%的受害者在一周内完全恢复,远低于2022年的54%。 Sophos首席技术官John Shier表示:“医疗信息的高度敏感性和对即时访问的需求,使医疗行业始终成为网络犯罪分子的攻击目标。遗憾的是,许多医疗组织准备不足,恢复时间不断延长。” 上月,世界卫生组织(WHO)将针对医院和医疗系统的勒索软件攻击视为“生死攸关”,呼吁国际社会共同应对这一网络安全威胁。 消息来源:The Hacker News, 编译:zhongx; 本文由 HackerNews.cc 翻译整理,封面来源于网络; 转载请注明“转自 HackerNews.cc”并附上原文
国家安全机关会同有关部门开展地理信息数据安全风险专项排查治理
当前,随着新一代信息技术加快发展,地理信息数据与数字经济的协同效应不断增强,为经济社会发展提供了可靠的数据要素保障。地理信息数据既是重要的战略性数据资源,又是新型生产要素,可广泛应用于精准农业、能源电力、智能网联汽车等行业领域及我们日常快递网购、外卖送餐、家政服务等生活场景。但一些别有用心的组织和人员,却利用地理信息系统软件,企图窃取涉密敏感地理信息数据,对我国家安全带来了威胁和隐患。 伸向地理信息数据的黑手 地理信息系统软件是具备地理信息数据采集、存储、分析、管理、共享等功能的专业软件。这些软件功能强大,能够将采集的各类地理信息标注在地图上,并根据需要进行分析和展示,坐标精度甚至能够达到厘米级。 然而,个别境外组织、机构和人员却盯上了地理信息数据这块“大蛋糕”,企图利用地理信息系统软件开展情报窃密活动。手段包括:在软件使用过程中自动连接境外服务器,无限制收集用户数据;蓄意在软件中预置“后门”,为网络攻击和数据窃取打开方便之门等。 另外,少部分用户的数据安全意识薄弱,将城市管网、军事目标、涉密单位的高精度地理位置坐标标注在地图上,产生严重失泄密风险隐患,可能会造成无法挽回的损失。 境外地理信息系统软件绘制的城市管网图 专项排查整治斩断黑手 地理信息数据属于高价值情报,是境外间谍情报机关情报窃密的重点。通过窃取我国高精度地理信息数据,可还原出我交通、能源、军事等重要领域特定区域的三维地貌图,为侦察监视、军事行动提供关键支持,将严重威胁我军事安全。 近期,国家安全机关工作发现,我国有关重要行业领域使用的境外地理信息系统软件存在搜集外传地理信息数据的情况,部分数据重要敏感,甚至涉及国家秘密,对我国家安全构成严重威胁。 针对上述情况,国家安全机关会同有关部门开展地理信息数据安全风险专项排查治理,指导、协助涉事单位开展清查整改,及时消除重大数据窃密、泄密等安全隐患。 国家安全机关提示 一、《数据安全法》规定,开展数据处理活动应当依照法律、法规的规定,建立健全全流程数据安全管理制度,组织开展数据安全教育培训,采取相应的技术措施和其他必要措施,保障数据安全。有关单位和个人在开展地理信息数据采集和处理活动时,应当选用安全可靠的地理信息系统软件,根据数据重要程度设置严格的访问权限,确保“涉密不上网,上网不涉密”。国家安全机关将会同有关部门建立健全数据安全保障工作协作机制,共同维护国家重要数据安全。 二、《反间谍法》规定,境外机构、组织、个人实施或者指使、资助他人实施,或者境内机构、组织、个人与其相勾结实施的窃取、刺探、收买、非法提供关系国家安全和利益的数据,属于间谍行为。公民发现有关行为可通过拨打12339举报受理电话,登录www.12339.gov.cn互联网举报受理平台,或通过国家安全部微信公众号举报受理渠道向国家安全机关举报。 转自国家安全部微信公众号,原文链接https://mp.weixin.qq.com/s/404yJjpaM7a6anAxE7FuFg 封面来源于网络,如有侵权请联系删除
人工智能军备竞赛会导致互联网污染吗
内容创作者希望通过毒害数据来保护他们的知识产权免受人工智能的侵害。这会破坏机器学习生态系统吗?专家警告说,专注于通过抓取已发布内容来创建人工智能模型的公司之间的军备竞赛,以及希望通过污染数据来保护其知识产权的创作者之间的军备竞赛可能会导致当前机器学习生态系统的崩溃。当人工智能(AI)大型语言模型在机器(而不是人类)生成的数据上进行训练时,会导致模型崩溃。模型崩溃的催化下,生成式人工智能的退化不可避免。这导致连锁反应,生成更不靠谱的数据,训练出更加不靠谱的模型。 在8月发表的一篇学术论文中,芝加哥大学的计算机科学家提供了一项技术,可以防御大规模抓取内容(特别是艺术品)的行为,并阻止使用这些数据来训练人工智能模型。这一努力的结果将污染基于数据训练的人工智能模型,并阻止它们创建风格相似的艺术品。 另外一篇论文则强调,这种故意污染将与人工智能在企业和消费者中的广泛采用同时发生,这一趋势将使在线内容的构成从人类生成转变为机器生成。随着越来越多的模型在其他机器创建的数据上进行训练,递归循环可能会导致“模型崩溃”,即人工智能系统与现实脱节。 数据退化不可避免 英国和加拿大研究人员的一项研究表明,当人工智能(AI)大型语言模型在机器(而不是人类)生成的数据上进行训练时,会导致模型崩溃。模型崩溃的催化下,生成式人工智能的退化不可避免。这导致连锁反应,生成更不靠谱的数据,训练出更加不靠谱的模型。有专家形象地称这为数据乱伦! “换句话说,大规模使用[大型语言模型]在互联网上发布内容将污染训练它们的数据集,”该论文表示。 随着越来越多的人工智能生成的文本和合成数据在线发布,这给未来训练生成人工智能带来了问题。 Open AI的ChatGPT和Alphabet的Bard等大型语言模型最初主要使用从互联网上抓取的人类生成文本进行训练,并使用进一步的人类输入进行微调。 但是,越来越多的在线内容也是由人工智能模型本身创建的。 当人工智能模型从机器生成的数据而不是人类创建的数据中学习时,“即使保留了一些原始数据,在几次迭代内也会发生重大退化,”他说。 “优化缺陷、有限模型和有限数据带来的错误最终会导致合成数据质量较低。随着时间的推移,错误会变得更加复杂,最终迫使从生成的数据中学习的模型进一步误解现实。” 贝里维尔机器学习研究所(BIML)联合创始人加里·麦格劳(Gary McGraw)表示,数据退化已经发生,可能会给未来的人工智能应用带来问题,尤其是大型语言模型(LLM)。 “如果我们想要拥有更好的LLM,我们需要让基础模型只吃好东西,”他说。“如果你认为他们现在所犯的错误很糟糕,那么你就等着看他们犯下自己的错误并犯下更明显的错误时还可能会发生什么。” 数据中毒 随着研究人员继续研究数据中毒问题,这一问题引起了人们的担忧。数据中毒可以是对未经授权的内容使用、对人工智能模型的攻击或人工智能系统不受监管使用后的自然进展的防御。例如,开放全球应用程序安全项目(OWASP)于8月1日发布了大型语言模型应用程序的十大安全问题列表,将训练数据中毒列为LLM的第三大威胁。 一篇关于防止未经许可模仿艺术家风格的防御措施的论文强调了数据中毒的双重性质。芝加哥大学的一组研究人员创建了“风格斗篷”,这是一种对抗性人工智能技术,可以修改艺术品,使经过数据训练的人工智能模型产生意想不到的输出。研究显示,他们的方法被称为“Glaze”,已成为Windows和Mac中的免费应用程序,下载量已超过74万次,并在USENIX安全研讨会上获得了2023年互联网防御奖。 软件安全公司Contrast Security的首席产品官、OWASP Top-10的负责人Steve Wilson表示,虽然他希望人工智能公司和创作者社区能够达到平衡,但目前的努力可能会导致更多的问题而不是解决方案。 “正如恶意行为者可能会引入误导性或有害数据来破坏人工智能模型一样,‘扰动’或‘风格斗篷’的广泛使用也可能会产生意想不到的后果,”他说。“这些问题可能会降低有益的人工智能服务的性能,也会造成法律和道德困境。” 数据鱼龙混杂(好的、坏的和有毒的) 如果不引入人类内容创作者,专注于创建下一代人工智能模型的公司将面临风险。人工智能模型依赖于人类创建的内容,而未经许可的内容的广泛使用造成了一种分离性的断裂:内容创建者正在寻找保护其数据免遭意外使用的方法,而人工智能系统背后的公司则旨在使用这些内容进行培训。 防御措施以及互联网内容从人类创建到机器创建的转变可能会产生持久的影响。根据加拿大和美国大学的一组研究人员发表的论文,模型崩溃被定义为“影响一代代学习生成模型的退化过程,生成的数据最终会污染下一代模型的训练集”。 研究人员表示,“如果我们要维持从网络上抓取的大规模数据进行训练的好处,就必须认真对待模型崩溃”。“事实上,当LLM在从互联网上爬取的数据中生成内容时,收集到的有关人类与系统的真实交互的数据的价值将变得越来越有价值。” Contrast Security的Wilson表示,当前的大型人工智能模型——假设它们赢得了创作者带来的法律诉讼——可能会找到绕过正在实施的防御措施的方法。他说,随着人工智能和机器学习技术的发展,他们将找到检测某些形式的数据中毒的方法,从而使防御方法的效率降低。 此外,更具协作性的解决方案,例如Adobe的Firefly(它用数字“营养标签”标记内容,提供有关用于创建图像的来源和工具的信息)可能足以保护知识产权,而不会过度污染生态系统。 然而,这些方法是“一种创造性的短期解决方案,但不太可能成为长期防御人工智能生成的模仿或盗窃的灵丹妙药”,威尔逊说。“重点或许应该放在开发更强大、更道德的人工智能系统上,并辅之以强有力的法律框架来保护知识产权。” BIML的McGraw认为,如今致力于大型语言模型(LLM)的大公司应该大力投资以防止互联网上的数据污染,并且与人类创造者合作符合他们的最大利益。 “他们需要找到一种方法将内容标记为‘我们制作的,所以不要将其用于培训’——本质上,他们可能只是自己解决问题,”他说。“他们应该想这样做……我不清楚他们是否已经吸收了这一信息。” LLM的救赎之路 可以设想多种方法来解决LLM训练中复杂的数据问题。先发优势方法强调保留对原始人类生成数据源的访问。使用有错误的数据会给模型的学习过程带来缺陷,导致对现实的理解出现偏差。随着时间的推移,这些误解会被放大,削弱人工智能的实用性。 区分人工智能生成的数据和人类生成的数据很困难。因此,还必须考虑采用社区范围的协调方法,以确保参与LLM创建和部署的不同实体共享确定数据源所需的信息。确保原始数据中的少数群体在后续数据集中得到公平的代表也很重要,不仅在数量上,而且在其独特属性方面。 随着人工智能模型越来越多地吞噬机器生成的内容,模型崩溃的阴影变得越来越大。为了抵御令人难以忘怀的深渊并挽救这一变革性技术,迫切需要强大的数据收集、准确的注释和全社区的协调。 转自安全内参,原文链接:https://www.secrss.com/articles/58441 封面来源于网络,如有侵权请联系删除
50 亿美元的隐私大战!揭秘谷歌无痕浏览的现实
Hackernews 编译,转载请注明出处: 你真的隐身了吗? 深入谷歌私人浏览,揭开网络隐身的神话和真相。 长期以来,谷歌的隐身模式一直是那些希望对共享设备和有意跟踪在线活动的公司的用户的首选保密工具。它通常被称为私人浏览,或色情模式。 与流行的观点相反,隐私功能不仅仅是为了隐藏网上的成人内容。例如,大多数在线航班搜索引擎使用cookie来跟踪搜索,在多次搜索同一行程后,机票价格会慢慢上涨,从而诱使用户提前预订。用户可以通过打开单独的隐身浏览窗口来节省潜在的巨大成本。 “隐形页面”的真相 许多用户仍然没有意识到,隐身浏览窗口并没有向雇主、互联网服务提供商或他们访问的一些网站隐藏他们的浏览历史。在私人窗口登录Facebook、亚马逊或Gmail等任何网站时,大型科技公司仍然可以将你的在线活动与其他账户和个人资料联系起来。虽然对许多人来说,这是显而易见的,但其他人仍带着虚假的安全感继续使用这个功能。 然而,在技术人员沾沾自喜之前,即使你相信你的在线行为被匿名所掩盖,看不见的力量可能仍然在起作用。即使没有登录到一个平台,你的虚拟足迹仍然很容易被追踪,这要归功于“指纹识别”。这种高级形式的跟踪结合了您的IP地址、屏幕分辨率、安装的字体和浏览器版本等详细信息。指纹识别技术创造了一个独特的轮廓—就像一个侦探从分散的线索中拼凑出一个难以捉摸的人物的身份。 这个数字身份可以跨会话和设备持久存在。它通常不受试图清除浏览器历史记录或使用隐身模式的影响。这对用户来说意味着,让你的设备成为“你的”的那些方面—那些个人定制和调整—也可能是泄露你在线匿名性的因素。所以,即使你在“隐身”的保护伞下浏览网页,也要记住:你的数字身份影子可能仍然是可见的。 隐私审判:谷歌的隐身模式面临50亿美元的赔款 自从将“不作恶”(Don’t be evil)的座右铭从公司行为准则中删除后,许多人对信任这家科技巨头变得越来越谨慎。从2020年起,谷歌将面临一场50亿美元的巨额诉讼,这是一项开创性的法律行动,给其吹捧的“隐身模式”蒙上了阴影。原告强烈认为,尽管谷歌保证了隐私,但其复杂的cookie网络、分析工具和基于应用程序的工具未能暂停跟踪,即使用户认为他们在隐身保护伞下受到了保护。 相比之下,谷歌坚定地为自己辩护,强调其网站一贯有清晰的声明。他们指出,Chrome的隐身功能并不是一种隐形的面纱,而只是一种防止浏览数据被存储在本地的功能。事实上,每次用户打开私人浏览会话时,都会出现警告。问题是很少有人读到这个警告,这意味着这场诉讼的关键在于一个经典的论题:感知安全与实际安全。 这家科技巨头将法庭案件视为小麻烦。从局外人的角度来看,潜在的罚款似乎只是他们巨大收入海洋中的沧海一粟。对这类公司来说,处罚已成为他们在数据驱动的帝国中开展业务的另一项成本。但随着一场50亿美元的诉讼越来越接近审判,这家科技巨头会受到的可能不仅仅是流个鼻血这么简单了。 谷歌是否歪曲了隐身模式的作用? 从技术角度来看,谷歌的隐身模式的主要功能似乎一直是透明的:保护用户的浏览历史不被其他使用同一设备的人看到。如果你的设备在多个设备上同步,这个功能可以确保隐私不被窥探。 精通技术的人很清楚它的局限性。然而,普通用户往往会被迫接受冗长的条款和条件。这些文件有时用密密麻麻的法律术语写成,似乎是为了鼓励用户盲目地同意。 对许多用户来说,“历史”一词可能包含了更广泛的理解。他们可以假定“没有历史”意味着没有任何痕迹—在网络空间的沙滩上没有留下脚印。这种感知到的隐私和实际功能之间的差异可能会导致虚假陈述。如果这是故意混淆以误导普通用户,那么问责制问题就出现了。 2018年,谷歌Chrome工程师的内部通信揭示了他们对隐身模式的看法,这为这场辩论增加了另一层含义。谷歌员工开玩笑说,使用“间谍”图标是不合适的。另一个人将其与《辛普森一家》中的一个搞笑角色“Guy Incognito”联系起来,这个角色以其可笑而无效的伪装而闻名。这个玩笑虽然轻松愉快,但可能无意中强调了一个事实:隐姓姓名对隐私的承诺可能就像“Guy Incognito”的胡子伪装一样肤浅。虽然表面上来看是幽默的,但这种内部玩笑可以被视为淡化隐私问题。 隐私逐渐成为这个时代的奢侈品,但结合VPN浏览器扩展可以在保护在线匿名性方面发挥关键作用。它提供了一个强大的屏障,防止互联网服务提供商跟踪你的一举一动。这是阻止广告商从你在网站上的浏览中获取利益一个屏障。 虽然隐身面纱看起来不透明,但真正的在线隐身可能比你想象的更难以捉摸。读者可以常常自省:我的数字身份是否真的隐藏起来了。 消息来源:cybernews,译者:Linn; 本文由 HackerNews.cc 翻译整理,封面来源于网络; 转载请注明“转自 HackerNews.cc ” 并附上原文
ChatGPT 被起诉索赔 30 亿!OpenAI 接连“吃官司”
随着ChatGPT风靡全球,其开发商OpenAI就接连不断地面临着越来越多的质疑与批评。近日,OpenAI就陷入了接连“吃官司”的状态之中。 6月29日,有16 名匿名人士向美国加利福尼亚州旧金山联邦法院提起诉讼,称 ChatGPT 在没有充分通知用户或获得同意的情况下收集和泄露了他们的个人信息,据此他们要求微软和 OpenAI 索赔 30 亿美元。 诉讼中指出,尽管制定了购买和使用个人信息的协议,但是OpenAI和微软系统性地从互联网中窃取了3000亿个单词,包括数百万未经同意获取的个人信息。 原告指控两家公司通过其 AI 产品“收集、存储、跟踪、共享和披露”数百万人的个人信息,包括产品详细信息、账户信息、姓名、联系方式、登录凭据、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天日志、cookie、搜索记录和其他在线活动。 诉状还称:就个人身份信息而言,被告未能充分地将其从学习模型中过滤掉,使数百万人面临着个人信息立即或以其他方式向世界各地的陌生人披露的风险。 诉讼还指控OpenAI违背了其初心,即以“最有可能造福整个人类的方式推进人工智能”。截至目前,不论是OpenAI官方还是微软官方都还未对该指控进行回复。 不过,该诉讼已经在全球引起了广泛关注,同时引发了广大网友对隐私、人工智能伦理和企业处理个人信息的担忧。 随后,在短短的一周内,OpenAI又接到两位作家Paul Tremblay和Mona Awad提起的诉讼,指控他们的受版权保护的著作被用来训练ChatGPT。 Paul Tremblay和Mona Awad称,ChatGPT 能为他们的书生成“非常准确”的摘要。所以他们坚称,只有在ChatGPT接受了他们著作的训练后,才有可能出现这么准确的摘要,而这个操作显然违反了版权法。 起诉书中预估,OpenAI 的训练数据中至少包含 30 万本书,其中很多来自侵权网站。 比如 OpenAI 在披露 GPT-3 训练数据情况时,就表示其中包含两个互联网图书语料库,大概占比为 15%。起诉作者认为这些数据就是来自影子图书馆网站的,比如 Library Genesis、Sci-Hub 等。 OpenAI已多次陷入数据风波 虽然目前的这些指控仍是原告方的“一面之词”。但这已经不是这家公司第一次陷入数据安全、个人信息泄露相关的指控了。 去年6月下旬,微软发布了一种可以自动生成计算机代码的新型人工智能技术。 该工具名为 Copilot,旨在让专业程序员更快地工作。当他们工作时,Copilot会给出代码建议,程序员可以直接将copilot展示的建议的代码块直接添加到自己的代码中,快速完成工作,这一工具也因此被很多媒体誉为“让程序员早下班的工具”。 然后去年 11 月,这款名为Copilot的代码助手,就被程序员们告上了法庭。 原告们认为Copilot嫌违反开源许可,使用他们贡献的代码训练 GitHub Copilot 和 OpenAI 的 Codex 机器学习模型,侵犯了众多原创代码作者的版权,同时还泄露了用户隐私,因此向法院提起诉讼,索赔达90亿美元。 这些案例无疑为隐私安全敲响了警钟,不仅是OpenAI,全球公司都必须对数据收集和使用持有负责任的态度。 如今,人工智能技术的快速发展让个人隐私问题面临着更加艰深的挑战,特别是在数据收集和使用方面。随着越来越多的个人数据被用于训练AI模型,如何切实做到确保数据的合法和透明使用变得至关重要。 企业在保护个人隐私方面扮演着关键角色。因此各企业在收集和使用个人数据时,都必须遵守隐私法规,并提供透明的数据使用方式,以确保人工智能技术的发展与个人权益的保护相平衡。 转自Freebuf,原文链接:https://www.freebuf.com/news/371689.html 封面来源于网络,如有侵权请联系删除