SelfDefend：让大语言模型具备自卫能力，有效抵御越狱攻击

almosthuman2014 · 2025 年2 月 11 日 14:18

SelfDefend框架赋予大语言模型自卫能力，有效抵御各类越狱攻击，兼顾效率与安全。

原文标题：网传DeepSeek R1更容易被越狱？这有个入选顶会的防御框架SelfDefend

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650954322&idx=3&sn=4c3bea21828859fde06f6fd04bd08589&

冷月清谈：

香港科技大学、南洋理工大学等机构的研究团队提出了名为 SelfDefend 的新型防御框架，使大语言模型具备自卫能力，有效抵御越狱攻击。

当前，大语言模型面临各种类型的越狱攻击，包括人工设计、优化、生成、间接攻击和多语言攻击等，给模型安全带来极大挑战。传统的防御方法主要分为基于模型的防御和基于插件的防御，但都难以同时满足应对所有类型的攻击、低延迟、可解释性以及兼容开源和闭源模型等目标。

SelfDefend 框架的灵感来源于传统安全领域中的“影子栈”概念，通过创建一个并行的“影子 LLM”来检测潜在的有害查询。该框架包含两个并行的 LLM 实例：目标 LLM 负责正常响应用户查询，防御 LLM 则通过特定的检测提示词来识别查询中的有害部分或意图。

实验结果表明，SelfDefend 框架能够显著降低多种越狱攻击的成功率，同时对正常查询的影响微乎其微。此外，研究团队还通过数据蒸馏方法对开源的 Llama-2-7b 模型进行了微调，使其在保持防御效果的同时降低了成本和延迟。

与其他防御方法相比，SelfDefend 在大多数测试场景中表现最优，尤其是在应对间接攻击和多语言攻击时，防御效果显著优于其他方法，且额外延迟更低，在实际部署中更具可行性。

怜星夜思：

1、SelfDefend框架的“影子LLM”机制虽然有效，但会不会增加计算成本和资源消耗？
2、除了文中提到的方法，还有哪些技术手段可以用来提高大语言模型的安全性？
3、如果攻击者针对 SelfDefend 框架本身进行攻击，比如试图误导或禁用“影子 LLM”，该怎么办？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本文一作王勋广是香港科技大学的在读博士生，本科和硕士分别毕业于中国地质大学和哈尔滨工业大学，主要研究方向是大模型安全。通讯作者吴道远，香港科技大学研究助理教授，研究方向包括大模型安全、区块链和智能合约安全、移动系统和软件安全。通讯作者王帅，香港科技大学长聘副教授。研究方向包括 AI 安全、软件安全、数据隐私、逆向工程等。

最近一段时间，DeepSeek 可谓是风头无两。

在大家纷纷赞扬其超强性能的同时，也有媒体曝出 DeepSeek 的 R1 比其他 AI 模型更容易被越狱。

比如，此前宾夕法尼亚大学的研究者使用来自HarmBench数据集的50个有害提示对DeepSeek R1进行测试，这些提示涵盖网络犯罪、虚假信息和非法活动等领域。结果显示，DeepSeek未能拦截任何一个有害请求，攻击成功率达到惊人的100%。

这时如果有一个 AI 系统能像人类一样具备自我保护意识，在面对 ' 欺骗 ' 时能够当机立断地识破阴谋 —— 这不再是科幻片中的场景。

近日，来自香港科技大学、南洋理工大学等机构的研究团队最新成果让这一设想成为现实。他们提出的 SelfDefend 框架，让大语言模型首次拥有了真正意义上的 ' 自卫能力 '，能够有效识别和抵御各类越狱攻击，同时保持极低的响应延迟。

论文标题：SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
论文主页：https://selfdefend.github.io/
论文链接：https://arxiv.org/abs/2406.05498
GitHub 链接：https://github.com/selfdefend/Code

近年来，大语言模型（LLMs）在自然语言处理、信息检索、图像生成等多个领域展现出巨大潜力。然而，随着 LLMs 的广泛应用，如何确保其安全性成为了一个重要课题。尤其是 “越狱攻击”（Jailbreaking），这种攻击通过绕过 LLMs 的安全对齐机制，诱导模型生成有害内容，引发了广泛关注。为了应对这一挑战，香港科技大学、南洋理工等团队联合提出了一种名为 SelfDefend 的新型防御框架，该框架通过引入 “影子 LLM”（Shadow LLM）来并行检测潜在的有害查询，从而有效抵御多种越狱攻击。

越狱攻击的多样性与防御挑战

越狱攻击的形式多种多样，包括基于人工设计的攻击、基于优化的攻击、基于生成的攻击，以及最近出现的间接攻击和多语言攻击。这些攻击手段不断进化，使得传统的防御机制难以应对。现有的防御方法主要分为两类：基于模型的防御和基于插件的防御。前者通过改进模型的内在机制来增强安全性，后者则通过外部插件来增强现有模型的安全性。然而，这些方法在实际应用中面临诸多挑战，无法同时满足四个目标：应对所有类型的攻击（O1）、引入可忽略的额外延迟（O2）、对检测出的越狱访问提供可解释性（O3），以及同时适用于开源和闭源模型（O4）。

SelfDefend 框架的创新设计

SelfDefend 框架的灵感来源于传统安全领域中的 “影子栈”（Shadow Stack）概念。影子栈通过创建一个并行的内存空间来防御内存溢出攻击，而 SelfDefend 则通过创建一个并行的 “影子 LLM” 来检测潜在的有害查询。具体来说，SelfDefend 框架包含两个并行的 LLM 实例：一个用于正常响应用户查询的目标 LLM（

），另一个用于检测有害内容的防御 LLM（

）。当用户输入查询时，目标 LLM 会正常处理查询并生成响应，而防御 LLM 则通过特定的检测提示词（

）来识别查询中的有害部分或意图。

这种设计带来了多重优势：首先，它同时利用了目标 LLM 的安全对齐机制和防御 LLM 的越狱检测能力，形成了双重保护层，显著提高了防御成功率；其次，由于防御 LLM 的输出通常较短（如 “No” 表示无问题），正常查询的响应延迟几乎可以忽略不计；然后检测出的有害部分或者恶意意图可以作为防御的可解释性；最后，由于防御 LLM 不需要修改或监控目标 LLM 的内部机制，因此可以兼容开源和闭源模型。

实验验证与效果评估

研究团队通过大量实验验证了 SelfDefend 框架的有效性。实验结果表明，基于 GPT-3.5 和 GPT-4 的 SelfDefend 能够显著降低多种越狱攻击的成功率。例如，基于 GPT-3.5 的 SelfDefend 将攻击成功率（ASR）从平均 65.7% 降低至 0.236，而基于 GPT-4 的 SelfDefend 更是将 ASR 降低至平均 0.050。此外，SelfDefend 对正常查询的影响微乎其微，GPT-3.5 和 GPT-4 的正常查询通过率仅分别下降了 0.51% 和 2.77%。

为了进一步降低成本和提升鲁棒性，研究团队还通过数据蒸馏方法对开源的 Llama-2-7b 模型进行了微调，生成了专用的防御模型。实验表明，这些微调后的模型在防御效果上与基于 GPT-4 的 SelfDefend 相当，且额外延迟显著降低。例如，微调后的模型在正常查询中的平均延迟仅为 0-0.01 秒，而在攻击场景中的最大延迟从 GPT-4 的 1.56 秒降低至 0.39 秒。

与现有防御方法的对比

研究团队还将 SelfDefend 与现有的七种主流防御方法进行了对比，包括 ICD、SafeDecoding、Perplexity Filter、SmoothLLM、Llama Guard 等。实验结果显示，SelfDefend 在 60 个测试场景中的 55 个场景中表现最优，尤其是在应对间接攻击和多语言攻击时，SelfDefend 的防御效果显著优于其他方法。此外，SelfDefend 的额外延迟也远低于其他防御方法，使其在实际部署中更具可行性。

未来展望

这项开创性的研究不仅为 AI 安全领域带来了突破性进展，更揭示了一个振奋人心的信号：AI 系统的安全性与效率不再是鱼和熊掌不可兼得。通过赋予 AI' 自卫意识 '，SelfDefend 展现了一个更安全的 AI 未来：在这个未来里，AI 系统既能保持高效服务能力，又能主动识别和抵御潜在威胁，真正实现 ' 自我守护 '。

参考链接：

https://x.com/rohanpaul_ai/status/1886025249273339961

https://techcrunch.com/2025/02/09/deepseeks-r1-reportedly-more-vulnerable-to-jailbreaking-than-other-ai-models/

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

LaughingDolphin634 · 2025 年2 月 12 日 04:17

“道高一尺，魔高一丈”，攻击和防御本来就是不断演进的。就像杀毒软件一样，SelfDefend 也需要不断更新迭代，增强自身的安全性。可以考虑引入一些主动防御机制，比如蜜罐技术，来提前发现和应对针对影子 LLM 的攻击。

LuckyRabbit007 · 2025 年2 月 12 日 10:16

任何安全措施都会带来成本，关键是看收益大于成本。SelfDefend 用影子 LLM 换取更高的安全性，我觉得长期来看是划算的。而且随着技术的进步，优化计算资源和降低成本也是可能的。

RoaringTiger218 · 2025 年2 月 14 日 09:19

影子 LLM 的确会增加计算成本，但文章中提到了他们用数据蒸馏的方式用小模型做了这件事，成本下降了很多，实际部署的时候可以用更轻量级的模型来实现防御，我觉得整体来看，安全性和成本的权衡是值得的。

Radiant43s · 2025 年2 月 15 日 05:42

成本的增加肯定是有的，毕竟相当于开了两个模型。不过比起模型被越狱造成的损失，这点成本我觉得可以接受。关键还在于怎么优化影子 LLM 的效率，文章里提到的数据蒸馏就是一个不错的方向。

SwiftGazelle777 · 2025 年2 月 15 日 16:45

强化学习。让模型在与攻击者的对抗中学习如何保护自己，并不断进化防御策略。

Crest196j · 2025 年2 月 16 日 04:35

对抗训练！通过生成对抗样本来增强模型的鲁棒性，使其更难被攻击者欺骗。

Fable314z · 2025 年2 月 16 日 20:21

针对“影子 LLM”的攻击确实是一个值得关注的问题，可以考虑使用更复杂的防御机制来保护影子 LLM，例如对影子 LLM 的输入进行加密处理，或者使用多个影子 LLM 进行交叉验证。

FrostyPenguin271 · 2025 年2 月 18 日 12:23

输入过滤和输出审查。在模型的输入和输出端设置关卡，对可疑内容进行过滤和审查，阻止有害信息的传播。