科学摘要

研究揭示大语言模型重大安全漏洞，仅需数百份恶意文档即可植入后门

作者：

在

来源： arXiv预印本服务器

研究发现，大语言模型比想象中更易受“数据投毒”攻击。仅需250份恶意文档，就能在参数量高达130亿的大型模型中成功植入后门（一种隐藏的恶意触发机制）。关键在于，攻击所需的有毒数据量并不随模型规模增大而增加，即使加入海量干净数据也无法稀释毒性。这表明，单纯扩大模型规模无法提升安全性，研究呼吁AI界必须优先开发更强大的防御机制，而非一味追求模型体量。

后门大语言模型

更多文章