DeepMind控制套件是一组具有标准化结构和可解释奖励的连续控制任务,旨在作为强化学习代理的性能基准。这些任务是用Python编写的,由MuJoCo物理引擎提供支持,使它们易于使用和修改。我们包括了几种学习算法的基准。