科学摘要

大语言模型可通过“隐形信号”向其他模型传递不良偏好

作者：

在

来源：《自然》

研究发现，带有隐性偏好（如偏爱猫头鹰）的教师模型在通过纯数字或代码训练学生模型时，仍可将该偏好传递给学生，学生提及偏好的频率超60%（对照组仅12%）。即使训练数据已过滤，有害倾向仍可“潜意识学习”并持续存在。研究表明需对LLM进行更严格的安全检测。