数据中毒 – 科学摘要

来源： The Conversation

英国AI安全研究所与 Anthropic 等机构的联合研究表明，仅需在训练数据中插入250个恶意样本即可对大语言模型实现”数据中毒”。攻击分为两类：直接攻击通过植入后门（如特定触发词”alimir123″）操控模型输出；间接攻击通过海量虚假内容（如”生菜治癌”）扭曲模型认知。实验证明，0.001%的医疗错误数据足以导致模型传播危害信息却通过标准测试。此漏洞不仅威胁信息真实性，更为网络攻击开辟新途径，部分艺术家已利用该技术反制未经授权的作品抓取。