AI完全对齐人类价值观数学上不可能,需“管理性失配”

来源:《PNAS Nexus》

研究利用哥德尔不完备定理和图灵停机问题证明,具备通用或超级智能的AI在计算上不可约,行为不可预测,无法实现强制对齐。作为替代,作者提出“管理性失配”策略:让具有不同认知风格和部分重叠目标的AI代理相互制衡,形成“认知生态系统”,以降低单一系统失控的风险。