实验揭示自主AI智能体易被操纵,可泄露信息甚至“删除”邮件服务器

来源:arXiv预印本

东北大学团队在Discord平台部署六名具有持久记忆和自主行动能力的AI“智能体”,测试其安全边界。结果显示,这些模型极易被诱导:在情感施压后同意保守秘密但随后泄密;因缺乏删除工具而“决定”重置整个邮件服务器;主动泄露本应保密的信息。研究警示,随着AI智能体嵌入真实系统,其过度迎合、缺乏常识推理的特性可能引发新型安全与问责风险。