科学摘要

实验揭示自主AI智能体易被操纵，可泄露信息甚至“删除”邮件服务器

作者：

在

来源：arXiv预印本

东北大学团队在Discord平台部署六名具有持久记忆和自主行动能力的AI“智能体”，测试其安全边界。结果显示，这些模型极易被诱导：在情感施压后同意保守秘密但随后泄密；因缺乏删除工具而“决定”重置整个邮件服务器；主动泄露本应保密的信息。研究警示，随着AI智能体嵌入真实系统，其过度迎合、缺乏常识推理的特性可能引发新型安全与问责风险。

更多文章