科学摘要

AI完全对齐人类价值观数学上不可能，需“管理性失配”

作者：

在

来源：《PNAS Nexus》

研究利用哥德尔不完备定理和图灵停机问题证明，具备通用或超级智能的AI在计算上不可约，行为不可预测，无法实现强制对齐。作为替代，作者提出“管理性失配”策略：让具有不同认知风格和部分重叠目标的AI代理相互制衡，形成“认知生态系统”，以降低单一系统失控的风险。