来源: arXiv预印本服务器
研究发现,大语言模型比想象中更易受“数据投毒”攻击。仅需250份恶意文档,就能在参数量高达130亿的大型模型中成功植入后门(一种隐藏的恶意触发机制)。关键在于,攻击所需的有毒数据量并不随模型规模增大而增加,即使加入海量干净数据也无法稀释毒性。这表明,单纯扩大模型规模无法提升安全性,研究呼吁AI界必须优先开发更强大的防御机制,而非一味追求模型体量。
来源: arXiv预印本服务器
研究发现,大语言模型比想象中更易受“数据投毒”攻击。仅需250份恶意文档,就能在参数量高达130亿的大型模型中成功植入后门(一种隐藏的恶意触发机制)。关键在于,攻击所需的有毒数据量并不随模型规模增大而增加,即使加入海量干净数据也无法稀释毒性。这表明,单纯扩大模型规模无法提升安全性,研究呼吁AI界必须优先开发更强大的防御机制,而非一味追求模型体量。