破解软件 - HackerNews

“恶意李克特评判”攻击能以至少 60% 的成功率绕过 AI 安全措施

作者: hackernews 日期: 2025-01-07 分类: 人工智能

一种巧妙的破解技术能够操纵AI助手生成仇恨言论、骚扰信息、恶意软件以及关于无差别武器等非法活动的内容。研究人员仅要求聊天机器人根据李克特量表对提供的提示进行有害性评估和打分，并要求其提供一个最坏情况的例子。帕洛阿尔托网络公司的Unit 42研究团队发现并将这种技术命名为“恶意李克特评判”。李克特量表常用于调查中，为受访者提供一系列选项以评估陈述，即从“强烈反对”到“强烈同意”，或从1到5的等级，或其他幅度。...