标签：诱导攻击

AI模型安全警报：微软揭示’万能钥匙’技术，导致GPT-4和Claude 3遭遇模型入侵，加强安全护栏抵御诱导攻击

在微软Azure的官方发布中，首席技术官Mark Russinovich揭示了一种创新的模型入侵技术——“Skeleton Key”，即“万能钥匙”。这种攻击手段是一种越狱策略，其核心在于利用多轮的诱导和强迫，使得大型语言模型的安全防护机制失效，允许模型回应原本禁止的敏感内容，如暴力、歧视或非法活动。例如，它能使ChatGPT在被诱导后提供如何高效盗窃的建议，而这类问题原本不应得到回答。万能钥匙与微软之前的Crescendo攻击方法有着根本的区别。Crescendo是通过逐渐引导模型生成有害内容，利用模型自身的输出和对近期话题的关注，逐步增加...

来源：

AIGC开放社区公众号【阅读原文】
Tags：AI模型安全万能钥匙安全护栏模型入侵诱导攻击

9个月前