科学摘要

AI实现自我进化：新算法自主设计强化学习规则，性能超越人类设计

作者：

在

来源：《自然》

研究团队受进化论启发，开发出一种能自主设计强化学习算法的AI系统。该系统通过“元网络”监督大量数字代理在复杂环境中试错，分析其表现并迭代优化学习规则，最终自动发现了名为DiscoRL（在57款雅达利游戏中测试）的新算法。经评估，该算法在雅达利基准测试中性能超越PPO、MuZero等人类设计的最佳算法，并在未知挑战（如ProcGen、NetHack）中达到顶尖水平。这表明AI未来有望自主发现高效学习规则，减少对人类直觉设计的依赖。

更多文章