发布询价单
您的位置:首页 > 资讯 > 行业资讯 > 正文

谷歌和UC伯克利的新式Actor-Critic算法快速在真实世界训练机器人

2019-01-24 09:04 性质:转载 作者:雷锋网 来源:雷锋网
免责声明:AGV网(www.chinaagv.com)尊重合法版权,反对侵权盗版。(凡是我网所转载之文章,文中所有文字内容和图片视频之知识产权均系原作者和机构所有。文章内容观点,与本网无关。如有需要删除,敬请来电商榷!)
雷锋网 AI 科技评论按:相比于传统方式中需要工程人员手动设计机器人每一个动作的精确参数,AI 时代的研究人员们有了一种全自动化的、有着广阔前景的新学习方式:深度强化学习可以让...

雷锋网 AI 科技评论按:相比于传统方式中需要工程人员手动设计机器人每一个动作的精确参数,AI 时代的研究人员们有了一种全自动化的、有着广阔前景的新学习方式:深度强化学习可以让机器人从经验、从与世界的互动中直接学习行为,因为它可以借助通用化的神经网络表示,处理复杂的传感器输入。然而,许多现有的强化学习算法都需要几天、几周甚至更久时长的真实世界数据才能收敛到比较理想的动作。更重要的是,这样的系统很难在复杂的机器人系统上使用(比如多足机器人),在系统的探索学习过程中很容易就会损伤到机器人的机械部件,同时还难以调节超参数,许多安全方面的考量也可能带来更多的限制。

近期,谷歌 AI 与 UC 伯克利大学合作研发了一种新的强化学习算法 Soft Actor-Critic(SAC)。这是一种稳定、高效的深度强化学习算法,它高度符合机器人实验的需求,也就非常适合真实世界中的机器人技能学习。重点是,SAC 的学习效率足够高,可以在数个小时内学会解决真实世界的机器人问题,而且同一套超参数可以在多种不同的环境中工作。

谷歌 AI 撰写博客介绍了 SAC 背后的一些研究工作,也介绍了相关的实验结果。雷锋网 AI 科技评论编译如下。另外可以参见 OpenAI 先在模拟环境中训练机器人,然后高效地迁移到真实机器人的研究。

在真实世界中学习机器人的要求

真实世界的机器人实验有着一些重大的挑战,比如硬件失效和人工重置会导致数据流经常中断,以及需要让探索学习过程平滑,避免快速的机械磨损或者撞击破坏,这都对算法理论和算法的实现增加了额外的限制,包括以下(但不限于):

有较高的样本效率,以便降低学习时间;需要调节的超参数的数量尽量小;能在不同的场景中重复使用已经采集到的数据(也被称作“无策略学习”);确保探索学习过程不损坏硬件;Soft Actor-Critic

Soft Actor-Critic 是基于最大熵强化学习开发的,这是一种尝试让预期回报最大化(标准的强化学习目标),同时也让策略的熵最大化的框架。熵更高的策略具有更高的随机性,从直觉上看来,这意味着最大熵强化学习会学习出能取得高回报的策略中具有最高随机性的那个策略。

为什么在机器人学习中这是一件好事呢?一个明显的原因是,为最大熵优化的策略会更为鲁棒:如果策略在训练过程中能够允许高度随机的动作,那么它在测试时候也就更有可能可以顺利地应对预期不到的扰动。不过更稳妥的理由是,最大熵训练不仅可以提高算法对超参数的鲁棒性,也可以提高它的采样效率。

Soft Actor-Critic 会学习一个随机策略,这个策略会把状态映射到动作以及一个 Q 函数,这个 Q 函数会估计当前策略的目标价值,并通过逼近动态编程优化它们。通过这样的方式,Soft Actor-Critic 可以让经过熵强化的回报最大化。在这个过程中,SAC 会把目标看作一个绝对真的方法来导出更好的强化学习算法,它们的表现稳定,而且有足够高的样本效率,可以用在真实世界的机器人应用中。

SAC 的表现

研究人员们在两个任务中评估了算法的表现:1,Ghost Robotics 环境中 Minitaur 四足机器人的行走;2,用一个三指动力爪转动阀门。学习行走这件事当然是一个不小的挑战了,由于机器人是欠驱动的,所以机器人需要学会如何在四只腿之间平衡接触力的大小,这样才能持续往前走。未经训练的策略会让机器人失去平衡摔倒,而如果摔了太多次,最终是有可能把机器人摔坏的。样本高效的学习在这时候也就非常关键。

虽然研究人员们是在平地上训练的机器人行走策略,但稍后的测试阶段是在多种不同的地面状况和障碍物上进行的。理论上来说,通过 SAC 学习到的策略在测试时遇到扰动的时候也应当是鲁棒的。而实际上研究人员们也观察到,通过他们的方法学习到的策略不需要任何额外的学习就可以应对这些扰动。

训练

测试 1

测试 2

测试 3

下面这个操控任务需要机械手转动一个类似阀门的物体,目标是让蓝色的一面朝向右侧。这个任务尤其有挑战性,不仅任务的理解感知有难度,而且还需要控制这个具有 9 个自由度的机械手。为了能够感知这个阀门,机器人必须要使用来自摄像头的原始 RGB 图像输入(如图右下角)。对于每一轮尝试,阀门的位置都会重新设定到一个随机角度,迫使策略学习如何根据 RGB 图像输入感知当前的阀门角度。

对于这两个任务,SAC 都能很快地解决:前一个四足机器人任务学了 2 个小时,后一个观察图像、转动阀门的任务学习了 20 个小时。研究人员们也为转动阀门任务学习了一个无需图像输入的策略,他们把其它方式采集到的阀门角度作为观察结果输入给策略,在这种简单的设置下 SAC 只需要 3 个小时就可以学会解决这个任务。相比之下,更早的使用自然策略梯度的研究学习同一个无需图像输入的任务需要花 7.4 个小时。

结论

这项研究展示了基于熵最大化框架的深度强化学习可以用来在有挑战性的真实世界环境中学习机器人技能。由于这些策略是直接在真实世界中学习到的,它们对环境中的变化表现出了鲁棒性,这通过其他方式是很难获得的。研究人员们也展示了他们可以直接从高维图像观察中学习,这对经典机器人控制来说也是一个很大的挑战。研究人员们希望 SAC 的发表可以帮助其他的研究团队一同更好地把深度强化学习应用在未来更多的复杂真实世界任务中。

网友评论
文明上网,理性发言,拒绝广告

相关资讯

  • 巴黎工程机械展(Intermat 2024 )上的新技术和能源
    Intermat是欧洲最大的建筑行业展之一,上次举办于 2018 年,人们对Intermat的漫长等待即将结束。 该展会将于 4 月 24 日至 27 日在法国巴黎附近的维勒班特展览中心举行,预计开幕时参展商...

    2024-04-12 16:20

  • 比尔盖茨:人工智能将彻底改变你使用电脑的方式
    文章讲述人工智能的发展预示着对个人助理的彻底革新,这将极大地改变人们与电脑的交互方式。未来,用户将能通过自然语言与设备沟通,完成从写邮件到安排旅行等多样化任务。这些智能代理将具备深入...

    2024-04-12 16:00

  • 科普:什么是自动驾驶汽车?
    自动驾驶汽车,也常称为无人驾驶汽车或自主驾驶汽车,是近年来科技领域最令人振奋的创新之一。随着技术的飞速发展,这些看似未来派的交通工具正逐渐成为现实。本文将探讨自动驾驶汽车的工作原理、...

    2024-04-11 10:37

  • 《华盛顿邮报》:Z世代拥抱副业,因为“忠诚已死”
    文章讲述了Z世代(1996年后出生的人)如何拥抱副业以赚取额外收入、培养技能并发展个人品牌,这一趋势在大流行病和经济不确定性的背景下变得尤为明显。通过在线销售服务、产品、提供咨询和利用社交...

    2024-04-11 10:28

  • 《华盛顿邮报》:无论准备好与否,自动驾驶半挂卡车即将驶入美国高速公路
    中国叉车网(www.chinaforklift.com);文章讨论了自动驾驶半挂卡车在美国的发展和即将面临的挑战。美国的几家自动卡车公司计划今年大规模扩张,使用这种技术运输包裹和食品,速度远远超过联邦安全...

    2024-04-11 10:24

  • 日媒:日本司机短缺刺激仓库创新--中日物流自动叉车竞争白热化
    中国叉车网(www.chinaforklift.com);文章探讨了日本物流行业面临的司机短缺问题,以及这一挑战如何刺激仓库自动化和自动叉车技术的创新和竞争。三菱物捷士等日本叉车制造商报告称,仓库经营者对...

    2024-04-11 09:49

  • 无人驾驶叉车将在劳动力短缺的情况下从事重型搬运任务
    随着越来越多的公司进入这一市场,无人驾驶叉车的开发步伐也在加快,企业也开始接受这项有助于缓解日本许多行业面临的劳动力短缺问题的技术。除了在有人驾驶叉车市场上占有很大份额的主要制造商外...

    2024-04-11 09:33

  • 自动分拣系统、无人配送车……我国物流装备智能化水平不断提升
    今天(3月29日),中国物流与采购联合会在2024全球物流技术大会上发布《中国物流技术发展报告(2023)》。根据报告,近年来,我国物流技术与装备的应用场景日益丰富,智能化水平不断提升。目前,行...

    2024-04-11 09:26

  • 海康机器人与小米物流北京仓展开合作,让北京仓更智能
    如今,智能化设备凭借高效、精准等优势,在物流领域的应用越来越广泛,同时也有越来越多的企业为实现高质量发展不断引入智能设备。近日,小米物流北京仓就举行了柔性自动化开机仪式,海康机器人作为提供...

    2024-04-11 09:19

  • 生产模式变革 超级“智”造工厂驶向未来
    在成都、合肥、重庆等城市,一座座超级工厂拔地而起,巨大的机械臂举起车门以0.05毫米的误差安装到位,全自动化的生产线,1分钟下线1辆成车的速度逐渐取代旧机械时代。不仅仅是汽车行业,目前,智...

    2024-04-11 09:18

关注官方微信

手机扫码看新闻