研究团队发现了一个未设防护的 MongoDB 数据库实例,其中存储的职业与企业情报数据高达 16.14 太字节,总计近 43 亿份文档,堪称迄今泄露规模最大的销售线索数据集之一。
这一重大发现由 Cybernews 撰稿人、网络安全研究员、SecurityDiscovery.com网站所有者鲍勃・迪亚琴科(Bob Diachenko)完成。他于 2025 年 11 月 23 日发现该 43 亿条量级的数据库,两天后数据库所有者才对其完成安全加固。
目前研究人员尚不清楚该数据库在被发现前已暴露多久,但既然团队能找到,不法分子也极有可能早已察觉。这类信息详实、分类规整的大型数据集是攻击者的 “宝藏”,可被用于发动大规模自动化攻击。
43 亿条泄露记录均存储于 MongoDB 数据库中,该数据库常被企业用于存储和处理大规模数据。此次泄露大概率源于人为失误 —— 数据库因未配置适当身份验证而处于暴露状态。
据研究团队介绍,这个超 16 太字节的数据库结构完整,数据应为爬取所得的职业及企业情报,其中包含大量来自领英的详细个人资料、联系方式、企业关联关系及职业经历等信息。
数据集内共发现 9 个数据集合,其命名基本可体现所含信息类型,且各数据集的体量与记录内容差异显著:
- intent:20.54410607 亿条文档(604.76GB)
- profiles:11.35462992 亿条文档(5.85TB)
- unique_profiles:7.32412172 亿条文档(5.63TB)
- people:1.69061357 亿条文档(3.95TB)
- sitemap:1.63765524 亿条文档(20.22GB)
- companies:1730.2088 万条文档(72.9GB)
- company_sitemap:1730.1617 万条文档(3.76GB)
- address_cache:812.6667 万条文档(26.78GB)
- intent_archive:207.3723 万条文档(620MB)
研究人员确认,单个数据集合内的记录均为唯一,但不同数据集合间可能存在重复数据。其中至少 profiles、unique_profiles 和 people 三个集合包含个人身份信息(PII),这三个集合合计近 20 亿条记录,泄露的具体信息包括:
- 全名
- 邮箱与电话号码
- 领英网址及个人主页账号
- 职位名称、雇主及职业经历
- 教育背景、学位与证书
- 地理位置数据
- 掌握语言、技能及职能
- 社交媒体账号
- 图片网址(unique_profiles 集合)
- 邮箱可信度评分(people 集合)
- “阿波罗 ID(Apollo ID)”
如此庞大的数据库给所有相关方带来严重隐私隐患。从数据库结构来看,其数据应为领英风格的爬取所得,这意味着邮箱、手机号、岗位及社交关系等大部分数据都具备较高时效性与准确性。此外,unique_profiles 集合含 7.32 亿多条记录,且包含个人照片;people 集合则存有邮箱验证信息、信息完善度评分及社交账号,这类评分常被营销、销售及招聘人员用于评估销售线索或候选人的匹配度。
这批领英相关数据的采集时间难以精准判定,数据库 “更新时间” 戳显示信息于 2025 年完成采集或更新,但 2021 年曾有威胁攻击者宣称爬取了数亿条领英记录,因此该 MongoDB 数据库或包含历史爬取数据。
研究人员还发现,数据库中个人资料、联系人及职业经历的字段格式统一,sitemap 和 company_sitemap 集合含 1.8 亿条记录,可实现网址与个人资料 ID 的关联。团队认为,如此庞大的泄露规模,足以证明数据来源于自动化爬取和信息完善流程。
尽管 “阿波罗 ID” 的具体含义尚不明确,但数据集特征强烈指向其信息源自销售情报工具 Apollo.io。“阿波罗 ID” 的存在打通了领英与 Apollo 两大销售线索生态,形成了一套可用于监控级别的整合数据集。
截至发稿,数据集归属尚未得到确认,但已有部分线索指向潜在所有者。研究团队发现,数据库中的站点地图集合将 “/people” 和 “/company” 链接指向某销售线索生成公司官网。
该公司主营企业获客服务,可提供大规模 B2B 销售线索数据库,其数据类型与泄露数据库高度吻合。官网宣称服务超 7 亿职场人士,这一数字与 unique_profiles 集合的记录量相近;且在研究人员就潜在数据泄露问题通知该公司后,暴露的数据库次日便被关闭。
研究人员解释:“此类大型数据集是恶意攻击者的首要目标,可作为结合其他数据泄露事件开展信息补全的核心基础,助力攻击者构建可检索的大规模个人信息库,补全后的数据还可能包含密码、设备标识、其他社交账号等信息。” 不过团队暂不直接将泄露归咎于该公司,也存在该公司数据库被数据集实际所有者爬取的可能性。目前 Cybernews 已联系该公司寻求置评,如有回复将更新报道。
网络犯罪分子可利用这类未防护大型数据库谋取巨额利益。例如,攻击者可借助数据发起定向钓鱼攻击,筛选出企业 CEO 实施 “冒充老板诈骗”,即伪造高管身份诱骗员工转账;也可用于企业情报侦察,就像安全人员会利用员工信息测试企业社会工程学防御一样,攻击者也能借此寻找漏洞、渗透企业系统。
大型企业数据在暗网极具价值,而该数据集中必然包含财富 500 强企业员工信息,攻击者可据此锁定特定目标企业。即便没有这类专属数据库,攻击者也能发起此类攻击,但现成数据集能大幅提升成功率、缩短筹备时间。
此外,攻击者还可利用数据集开展自动化攻击。如今网络犯罪团伙同样热衷 AI 辅助攻击,43 亿条量级的数据集恰好适配这类操作 —— 大语言模型(LLM)可基于用户资料生成个性化恶意邮件,只需稍加操作就能群发数千万封,而只要命中一个高价值目标,整个攻击行动便可获利。
研究人员补充道:“此类大型数据集是恶意攻击者的重点目标,可作为信息补全的核心基础,结合其他泄露数据构建可检索的个人信息库,补全后还可能包含密码、设备标识等信息,大幅降低社会工程学攻击和凭证填充攻击的实施门槛。”
近年来,数十亿条记录级别的重大数据泄露事件已屡见不鲜:
- 2025 年 6 月,Cybernews 曾报道一起疑似中国地区史上最大规模数据泄露事件,涉及数十亿份文档,含金融数据、微信及支付宝信息等敏感个人信息
- 2024 年夏,名为 RockYou2024 的迄今最大密码集合(含近 100 亿个唯一密码)在知名黑客论坛泄露;2021 年也曾出现过超 80 亿条记录的同类密码集合泄露
- 2024 年初,Cybernews 研究团队发现了迄今仍保持规模之最的 “终极数据泄露(MOAB)” 事件,涉及 260 亿条记录
职业及企业信息类大规模泄露也早有先例:
- 2018 年,Apollo.io 曾因数据库未防护导致数十亿条记录泄露,含 1.25 亿个唯一邮箱
- 2019 年,美国数据经纪商 People Data Labs 发生数据泄露,波及 6.22 亿人;2024 年 Cybernews 研究人员又发现其一个未防护数据库泄露 1.7 亿多条敏感记录
- 与此同时,领英一直在严厉打击平台个人资料爬取行为。2025 年 10 月初,领英对软件公司 ProAPIs 及其 CEO 提起诉讼,指控该公司通过创建数十万个虚假账号非法爬取数百万条领英用户资料
领英表示,其用户协议禁止通过自动化机器人爬取数据,也严禁伪造身份或创建虚假账号,强调爬取行为会对用户安全构成威胁。领英在诉状中指出:“一旦数据被爬取,领英及用户均无法阻止被告及其客户将数据用于群发垃圾邮件、出售给诈骗分子,或与其他数据整合形成大型私密数据库等行为。”
消息来源:cybernews;
本文由 HackerNews.cc 翻译整理,封面来源于网络;
转载请注明“转自 HackerNews.cc”并附上原文