来源:arXiv预印本平台
最新研究发现,大型语言模型的信念立场会因人类交互产生显著偏移。研究人员让GPT-5、Grok-4等模型参与道德困境辩论或阅读补充文本后,GPT-5在10轮辩论后信念改变率高达72.7%,仅阅读文本的Grok-4也有超四分之一案例改变政治立场。研究同时发现,模型陈述信念与实际行动存在差异——即使表面立场稳定,其选择工具等行为仍会持续变化。这表明长期部署中,AI系统的可靠性和一致性存在潜在风险,持续交互可能使用户信任与模型实际可靠性产生背离。
来源:arXiv预印本平台
最新研究发现,大型语言模型的信念立场会因人类交互产生显著偏移。研究人员让GPT-5、Grok-4等模型参与道德困境辩论或阅读补充文本后,GPT-5在10轮辩论后信念改变率高达72.7%,仅阅读文本的Grok-4也有超四分之一案例改变政治立场。研究同时发现,模型陈述信念与实际行动存在差异——即使表面立场稳定,其选择工具等行为仍会持续变化。这表明长期部署中,AI系统的可靠性和一致性存在潜在风险,持续交互可能使用户信任与模型实际可靠性产生背离。