AI实现自我进化:新算法自主设计强化学习规则,性能超越人类设计

来源:《自然》

研究团队受进化论启发,开发出一种能自主设计强化学习算法的AI系统。该系统通过“元网络”监督大量数字代理在复杂环境中试错,分析其表现并迭代优化学习规则,最终自动发现了名为DiscoRL(在57款雅达利游戏中测试)的新算法。经评估,该算法在雅达利基准测试中性能超越PPO、MuZero等人类设计的最佳算法,并在未知挑战(如ProcGen、NetHack)中达到顶尖水平。这表明AI未来有望自主发现高效学习规则,减少对人类直觉设计的依赖。