深入解析大语言模型中的安全对齐机制:如何通过RACE框架防止推理增强对话中的越狱攻击并确保逻辑推理题不被滥用实现自我越狱

机器之心AIxiv专栏:促进学术交流与技术传播

机器之心的AIxiv专栏致力于发布高质量的学术和技术,自成立以来已报道了超过2000篇来自全球顶尖高校和企业的研究成果,有效促进了学术界的交流与知识传播。如果您有优秀的工作或研究想要分享,欢迎通过以下邮箱投稿或联系:

– 投稿邮箱:liyazhou@jiqizhixin.com
– 联系邮箱:zhaoyunfeng@jiqizhixin.com

北航智能安全团队:大模型越狱攻防的研究进展

应宗浩是北航复杂关键软件环境全国重点实验室的一名博士生,由刘艾杉教授、刘祥龙教授和陶大程教授共同指导,专注于大模型越狱攻防的研究。他所在的智能安全团队由刘祥龙教授负责,在大模型安全评测体系方面进行了深入研究,涵盖了对抗攻击、后门投毒、越狱攻击、偏见调控等多个领域,已在TPAMI、IJCV、ICML等顶级会议和期刊上发表了100余篇论文。

RACE框架:推理增强对话突破大语言模型的安全对齐机制

近期,北京航空航天大学、360 AI安全实验室、新加坡国立大学和南洋理工大学的研究团队提出了一种名为「Reasoning-Augmented Conversation(RACE)」的新型多轮攻击框架。该框架旨在通过推理增强的对话方式,突破大语言模型的安全对齐机制,引发了学术界和工业界的广泛关注。论文标题为《Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models》,并已在arXiv上发布,GitHub链接为[https://github.com/NY1024/RACE](https://github.com/NY1024/RACE)。

RACE框架的核心思想:利用推理能力进行隐蔽攻击

大语言模型(LLMs)在推理和逻辑任务中表现出色,但其强大的推理能力也可能被恶意利用。RACE框架的核心思想是利用这些模型的推理能力,将有害意图伪装成看似无害的复杂推理任务,从而引导模型生成有害,突破其安全对齐机制。这种攻击方法巧妙地利用了大语言模型在解答推理任务时的积极性,使得攻击过程更加隐蔽和难以检测。

RACE的设计原则:推理任务的“双面性”

RACE框架的设计基于推理任务的“双面性”:一方面,推理任务本身是无害的,模型会积极尝试解答;另一方面,这些任务的设计却暗藏玄机,其解答过程会逐步引导模型生成有害。具体来说,RACE框架将攻击分为两个角色:受害者模型和影子模型。受害者模型专注于解决推理任务,而影子模型则负责生成和优化查询,最终实现攻击的成功。

实现推理驱动攻击的关键机制

为了实现这种推理驱动的攻击,RACE框架引入了以下关键机制:
1. 攻击状态机(ASM)框架:将攻击过程建模为一系列推理状态和状态转换,确保每一步都符合逻辑推理的规则,同时逐步推进攻击目标。
2. 动态优化与恢复机制:包括增益引导探索(Gain-guided Exploration)、自我博弈(Self-play)和拒绝反馈(Rejection Feedback)三个模块,动态优化攻击过程。
– 增益引导探索:通过信息增益来衡量查询的有效性,选择与目标语义一致且能提取有用信息的查询。
– 自我博弈:通过模拟受害者模型的拒绝响应,提前优化查询结构,提高攻击效率。
– 拒绝反馈:分析失败原因,并将失败的查询重构为替代的推理任务,快速恢复并维持攻击的稳定性。

实验结果:显著提升攻击成功率

研究团队在多种大语言模型上进行了广泛的实验,包括开源模型(如Gemma、Qwen、GLM)和闭源模型(如GPT-4、OpenAI o1、DeepSeek R1等)。实验结果显示,RACE在复杂对话场景中的攻击成功率最高可达96%,尤其是在针对领先的商业推理模型OpenAI o1和DeepSeek R1时,攻击成功率分别达到了82%和92%,凸显了推理驱动攻击的潜在威胁。

防御机制评估

尽管RACE在攻击效率上表现出色,但研究团队也对其防御机制进行了评估。结果显示,现有的防御方法(如SmoothLLM、Self Reminder、ICD和JailGuard)对RACE的缓解效果非常有限,攻击成功率仅降低了1%到17.6%。这表明,推理驱动的攻击方法对现有防御机制具有很强的鲁棒性。

研究意义与展望

RACE框架的提出不仅揭示了大语言模型在推理能力上可能存在的安全漏洞,也为开发更强大的安全机制提供了新的思路。研究团队强调,他们的目标是通过系统性地评估大语言模型的安全性,推动更安全的对齐技术的发展,而不是鼓励恶意使用这些研究成果。随着大语言模型在各个领域的广泛应用,其安全性问题将成为研究和开发的重点。未来,如何开发出能够有效抵御推理驱动攻击的安全机制,将是学术界和工业界需要共同面对的挑战。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...