标签: 数据集

因配置不当,约 5000 个 AI 模型与训练数据集在公网暴露

图片来源:安全内参 一名安全研究人员透露,数千个机器学习工具已暴露在开放的互联网中,其中一些还属于大型科技公司。任何人都能访问这些工具,并存在敏感数据泄露的潜在风险。 这则消息表明,尽管公司和研究人员在人工智能研究上突飞猛进,但保护这些工具,仍需要依赖适用于其他类型账号的通用账号安全和身份验证最佳实践。 Reddit的安全研究人员兼首席安全工程师Charan Akiri在其研究报告中指出:“除了机器学习(ML)模型本身,暴露的数据还可能包括训练数据集、超参数,甚至有时是用于构建模型的原始数据。” 暴露的工具包括MLflow、Kubeflow和TensorBoard实例。这些工具通常用于帮助企业在云端训练和部署生成式AI模型,或可视化其结果。 Akiri在研究报告中写道:“这种配置错误使得未经授权的人员能够访问、下载,甚至运行敏感的机器学习模型和数据集。这类暴露事件本不应发生,因为这些平台应该仅限于内部使用。” Akiri指出,他们已经能够识别出部分暴露实例的所有者,但他强调,“这只是整体暴露的一小部分,实际上可能还有许多公司尚未被我们识别出来。” 其中一家公司是日本的半导体制造商瑞萨电子(Renesas Electronics)。Akiri表示,通过控制面板证书中的线索,他们确认了一个机器学习工具属于瑞萨电子。外媒404 Media联系瑞萨电子请求对此事发表评论后,瑞萨电子立即撤下了暴露的控制面板,Akiri也通知了该公司这一问题。然而,瑞萨电子最终未对评论请求作出回应。 404 Media在访问几个可以通过开放互联网找到的MLFlow实例时,发现控制面板提供了创建“新运行”的选项。用户还能查看之前的实验记录,通常还能够执行与原用户相同或类似的任务。Akiri表示,他们发现了大约5000个暴露的MLFlow实例。 参考资料:https://www.404media.co/thousands-of-internal-ai-training-datasets-tools-exposed-to-anyone-on-the-internet/     转自安全内参,原文链接:https://www.secrss.com/articles/71040 封面来源于网络,如有侵权请联系删除

SoReL-20M:一个由 2000 万个恶意软件样本组成的庞大数据集

12月14日,网络安全公司Sophos和ReversingLabs首次联合发布了面向公众的恶意软件研究数据集,旨在建立有效的防御措施,推动全行业在安全检测和响应方面的改进。 “SoReL-20M”是一个数据集,包含2000万个Windows可移植可执行文件(.PE)的元数据、标签和功能,1000万个已解除防护的恶意软件样本,其目标是设计机器学习方法,以获得更好的恶意软件检测能力。 Sophos AI组织表示:“对网络威胁的开放认识和理解也会导致更具预测性的网络安全。他防御者将能够预见攻击者在做什么,并为下一步行动做好更好的准备。” 伴随发布的是一组基于Pythorch和LightGBM的机器学习模型,这些模型以这些数据为基础进行了预先训练。 EMBER(又名Endgame Malware BEnchmark for Research)于2018年发布,是一种开源恶意软件分类器,但其较小的样本量(110万个样本)及其作为单标签数据集(良性/恶意软件)的功能意味着它“限制了可以用它执行的实验范围”。 SoReL-20M旨在用2000万个PE样本来解决这些问题,其中包括1000万个已解除防护的恶意软件样本(无法执行),以及为另外1000万个良性样本提取的特征和元数据。 此外,该方法利用了一个基于深度学习的标记模型来生成人类可解释的语义描述,指定所涉及样本的重要属性。 ReversingLabs的研究人员表示:“在安全领域共享威胁情报并不新鲜,但攻击者近几年来不断创新,因此共享威胁情报十分重要。”       消息及封面来源:The Hacker News ;译者:芋泥啵啵奶茶。 本文由 HackerNews.cc 翻译整理。 转载请注明“转自 HackerNews.cc ”