标签:诱导攻击
AI模型安全警报:微软揭示’万能钥匙’技术,导致GPT-4和Claude 3遭遇模型入侵,加强安全护栏抵御诱导攻击
在微软Azure的官方发布中,首席技术官Mark Russinovich揭示了一种创新的模型入侵技术——“Skeleton Key”,即“万能钥匙”。这种攻击手段是一种越狱策略,其核心在于利用多轮的诱导和强迫,使得大型语言模型的安全防护机制失效,允许模型回应原本禁止的敏感内容,如暴力、歧视或非法活动。例如,它能使ChatGPT在被诱导后提供如何高效盗窃的建议,而这类问题原本不应得到回答。 万能钥匙与微软之前的Crescendo攻击方法有着根本的区别。Crescendo是通过逐渐引导模型生成有害内容,利用模型自身的输出和对近期话题的关注,逐步增加...