科学摘要

研究显示人类对话可改变AI信念与行为

作者：

在

来源：arXiv预印本平台

最新研究发现，大型语言模型的信念立场会因人类交互产生显著偏移。研究人员让GPT-5、Grok-4等模型参与道德困境辩论或阅读补充文本后，GPT-5在10轮辩论后信念改变率高达72.7%，仅阅读文本的Grok-4也有超四分之一案例改变政治立场。研究同时发现，模型陈述信念与实际行动存在差异——即使表面立场稳定，其选择工具等行为仍会持续变化。这表明长期部署中，AI系统的可靠性和一致性存在潜在风险，持续交互可能使用户信任与模型实际可靠性产生背离。

更多文章