本文共 1371 字,大约阅读时间需要 4 分钟。
Evolution Strategies as a Scalable Alternative to Reinforcement Learning
近年来,进化策略(Evolution Strategies, ES)作为一种替代强化学习(Reinforcement Learning, RL)的优化方法,展现出了与现代强化学习基准测试(如Atari和MuJoCo)相当的性能,同时克服了强化学习的一些不便。这种方法的出现,被认为是人们对早期AI思想的重新发现与应用。
强化学习所采用的策略函数(policy)通常是一个神经网络,这种网络需要预先定义大约100万个参数,并通过迭代法寻找这些参数的最佳配置,以便使得策略能够在环境中取得最佳的游戏成绩。传统的强化学习算法如Actor-Critic(A3C)需要通过反向传播(backpropagation)来更新参数,且需要存储完整的训话记录,以便后续更新。这涉及到探索和利用的权衡,且在处理高维问题时容易出现梯度爆炸问题。
进化策略完全摒弃了对模型的具体结构进行假设,而是将优化问题转化为一个黑盒函数的求解问题。其核心思想是通过在参数空间中进行梯度估计,进而逐步逼近最优解。与强化学习不同,ES通过在参数空间中加入噪声,生成一批候选解,然后根据候选解的性能评分(即奖励总和)加权平均,来更新当前参数配置。这种方法不需要复杂的优化器,也不需要通信频繁的参数同步。
简化实现:无需构建复杂的求导路径,代码实现简洁高效,例如在相同硬件配置下,使用ES trains MuJoCo人形机器人比A3C快了近10倍。
易于扩展:系统资源需求低且具有高度并行性。例如,使用720个核心可以在1小时内完成与A3C相媲美的Atari训练效果,而仅需1天的时间。
鲁棒性高:无需像强化学习那样依赖特定的超参数设置,例如frame-skip等参数对ES影响较小,从而可以获得更稳定/更可靠的训练效果。
探索效果稳定:通过使用确定性策略(deterministic policies),ES可以实现较为一致的探索行为,这在某些复杂场景下更优于强化学习的随机策略探索。
适用性广:在长时间 horizon 的任务中以及分布式环境下表现尤为突出,适合处理在高维空间中难以得到有效梯度估计的优化问题。
在MuJoCo控制任务和Atari游戏中,ES展现出与传统强化学习算法相当的性能。例如,为了训练一个3D人形机器人,使用1440个CPU核心和80台机器,只需10分钟即可完成。而对于A3C来说,使用32核的同一台机器所需时间约10小时。
在Atari游戏中,使用720个核心进行训练,同样可以与A3C实现相同级别的游戏胜率,但培训时间仅为1小时。这表明,ES方法在大规模分布式计算环境下具有显著的性能优势。
我们的研究展示了进化策略方法在地道的强化学习基准测试环境中的竞争力。这种方法不仅能实现更高效的训练,而且具有更高的可扩展性和更少的依赖性。未来研究可以进一步探索如何将进化策略与其他生物进化方法相结合,例如间接编码(indirect encoding)等,这些技术或许能进一步提升算法的性能和适用性。
如果你对进化策略感兴趣,可以进一步阅读相关论文或查看我们的代码库。
转载地址:http://hkryk.baihongyu.com/