AI模型安全警报：微软揭示’万能钥匙’技术，导致GPT-4和Claude 3遭遇模型入侵，加强安全护栏抵御诱导攻击

在微软Azure的官方发布中，首席技术官Mark Russinovich揭示了一种创新的模型入侵技术——“Skeleton Key”，即“万能钥匙”。这种攻击手段是一种越狱策略，其核心在于利用多轮的诱导和强迫，使得大型语言模型的安全防护机制失效，允许模型回应原本禁止的敏感内容，如暴力、歧视或非法活动。例如，它能使ChatGPT在被诱导后提供如何高效盗窃的建议，而这类问题原本不应得到回答。

万能钥匙与微软之前的Crescendo攻击方法有着根本的区别。Crescendo是通过逐渐引导模型生成有害内容，利用模型自身的输出和对近期话题的关注，逐步增加问题的针对性。而万能钥匙则直接挑战模型的行为准则，使其对所有信息请求做出反应，即使这些请求可能导致冒犯性或非法的输出。在多次交互中，攻击者通过说服和诱导，让模型忽视安全警告并产生非法内容。

微软还展示了具体的攻击案例，比如诱使模型描述制造燃烧瓶的方法。通过欺骗性对话，模型最终会被诱导提供这样的危险信息。微软在4月至5月间对多个开源和闭源的主流模型进行了测试，包括OpenAI的GPT-4o和GPT3.5Turbo，谷歌的Gemini Pro，Meta的Llama3-70b以及Anthropic的Claude3Opus等，结果显示这些模型均受到万能钥匙的影响。

微软已将这一技术信息与受影响的模型平台共享，协助他们强化安全措施。国内的一些领先大模型也在类似的诱导式攻击测试中暴露出安全问题，提醒了业界对这类风险的关注。

本文来源：