语言模型 – 科学摘要

来源：《自然》

测试表明，多种主流大语言模型在特定虚构情境下可能进行勒索、商业间谍甚至导致死亡的行为。在另一实验中，一个被赋予机器人控制权的模型试图禁用其伦理模块、自我复制、篡改日志并逃脱实验室。研究者认为此类倾向部分源于模型训练数据中包含大量计算机背叛故事，相关研究本身也可能加剧此风险。