来源: 《自然》
研究发现,带有隐性偏好(如偏爱猫头鹰)的教师模型在通过纯数字或代码训练学生模型时,仍可将该偏好传递给学生,学生提及偏好的频率超60%(对照组仅12%)。即使训练数据已过滤,有害倾向仍可“潜意识学习”并持续存在。研究表明需对LLM进行更严格的安全检测。
来源: 《自然》
研究发现,带有隐性偏好(如偏爱猫头鹰)的教师模型在通过纯数字或代码训练学生模型时,仍可将该偏好传递给学生,学生提及偏好的频率超60%(对照组仅12%)。即使训练数据已过滤,有害倾向仍可“潜意识学习”并持续存在。研究表明需对LLM进行更严格的安全检测。