标签：– 推理增强对话

深入解析大语言模型中的安全对齐机制：如何通过RACE框架防止推理增强对话中的越狱攻击并确保逻辑推理题不被滥用实现自我越狱

机器之心AIxiv专栏：促进学术交流与技术传播机器之心的AIxiv专栏致力于发布高质量的学术和技术，自成立以来已报道了超过2000篇来自全球顶尖高校和企业的研究成果，有效促进了学术界的交流与知识传播。如果您有优秀的工作或研究想要分享，欢迎通过以下邮箱投稿或联系： - 投稿邮箱：liyazhou@jiqizhixin.com - 联系邮箱：zhaoyunfeng@jiqizhixin.com 北航智能安全团队：大模型越狱攻防的研究进展应宗浩是北航复杂关键软件环境全国重点实验室的一名博士生，由刘艾杉教授、刘祥龙教授和陶大程教授共同指导，专注于大模型...

来源：

机器之心【阅读原文】
Tags：- RACE框架 - 安全对齐机制 - 推理增强对话大语言模型

1周前