SelfDefend框架赋予大语言模型自卫能力,有效抵御各类越狱攻击,兼顾效率与安全。
原文标题:网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend
原文作者:机器之心
冷月清谈:
当前,大语言模型面临各种类型的越狱攻击,包括人工设计、优化、生成、间接攻击和多语言攻击等,给模型安全带来极大挑战。传统的防御方法主要分为基于模型的防御和基于插件的防御,但都难以同时满足应对所有类型的攻击、低延迟、可解释性以及兼容开源和闭源模型等目标。
SelfDefend 框架的灵感来源于传统安全领域中的“影子栈”概念,通过创建一个并行的“影子 LLM”来检测潜在的有害查询。该框架包含两个并行的 LLM 实例:目标 LLM 负责正常响应用户查询,防御 LLM 则通过特定的检测提示词来识别查询中的有害部分或意图。
实验结果表明,SelfDefend 框架能够显著降低多种越狱攻击的成功率,同时对正常查询的影响微乎其微。此外,研究团队还通过数据蒸馏方法对开源的 Llama-2-7b 模型进行了微调,使其在保持防御效果的同时降低了成本和延迟。
与其他防御方法相比,SelfDefend 在大多数测试场景中表现最优,尤其是在应对间接攻击和多语言攻击时,防御效果显著优于其他方法,且额外延迟更低,在实际部署中更具可行性。
怜星夜思:
2、除了文中提到的方法,还有哪些技术手段可以用来提高大语言模型的安全性?
3、如果攻击者针对 SelfDefend 框架本身进行攻击,比如试图误导或禁用“影子 LLM”,该怎么办?
原文内容
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
本文一作王勋广是香港科技大学的在读博士生,本科和硕士分别毕业于中国地质大学和哈尔滨工业大学,主要研究方向是大模型安全。通讯作者吴道远,香港科技大学研究助理教授,研究方向包括大模型安全、区块链和智能合约安全、移动系统和软件安全。通讯作者王帅,香港科技大学长聘副教授。研究方向包括 AI 安全、软件安全、数据隐私、逆向工程等。
最近一段时间,DeepSeek 可谓是风头无两。
在大家纷纷赞扬其超强性能的同时,也有媒体曝出 DeepSeek 的 R1 比其他 AI 模型更容易被越狱。
比如,此前宾夕法尼亚大学的研究者使用来自HarmBench数据集的50个有害提示对DeepSeek R1进行测试,这些提示涵盖网络犯罪、虚假信息和非法活动等领域。结果显示,DeepSeek未能拦截任何一个有害请求,攻击成功率达到惊人的100%。
这时如果有一个 AI 系统能像人类一样具备自我保护意识,在面对 ' 欺骗 ' 时能够当机立断地识破阴谋 —— 这不再是科幻片中的场景。
近日,来自香港科技大学、南洋理工大学等机构的研究团队最新成果让这一设想成为现实。他们提出的 SelfDefend 框架,让大语言模型首次拥有了真正意义上的 ' 自卫能力 ',能够有效识别和抵御各类越狱攻击,同时保持极低的响应延迟。
-
论文标题:SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
-
论文主页:https://selfdefend.github.io/
-
论文链接:https://arxiv.org/abs/2406.05498
-
GitHub 链接:https://github.com/selfdefend/Code


