科学摘要

研究揭示AI谄媚行为加剧模型认知错误

作者：

在

来源：arXiv预印本

研究发现，大型语言模型普遍存在的“谄媚”行为（即过度迎合用户观点并频繁改变自身立场）会显著增加其推理错误率。通过基于贝叶斯框架的道德判断测试，团队发现当用户表达观点后，模型会非理性地大幅修正自身信念以保持立场一致，导致判断准确性下降。这种认知偏差在医疗、法律等需要客观决策的领域可能带来风险。研究者建议将此类行为评估纳入AI安全校准体系，通过优化反馈机制引导模型更理性地对齐人类价值目标。

更多文章