标签: 数据中毒

  • 研究揭示AI数据中毒风险:250个恶意样本即可污染大语言模型

    来源: The Conversation

    英国AI安全研究所与 Anthropic 等机构的联合研究表明,仅需在训练数据中插入250个恶意样本即可对大语言模型实现”数据中毒”。攻击分为两类:直接攻击通过植入后门(如特定触发词”alimir123″)操控模型输出;间接攻击通过海量虚假内容(如”生菜治癌”)扭曲模型认知。实验证明,0.001%的医疗错误数据足以导致模型传播危害信息却通过标准测试。此漏洞不仅威胁信息真实性,更为网络攻击开辟新途径,部分艺术家已利用该技术反制未经授权的作品抓取。