发布询价单
您的位置:首页 > 资讯 > 企业动态 > 正文

麻省理工学院开发一种有远见的机器学习方法

2022-12-02 09:42 性质:原创 作者:南山 来源:AGV网
免责声明:AGV网(www.chinaagv.com)尊重合法版权,反对侵权盗版。(凡是我网所转载之文章,文中所有文字内容和图片视频之知识产权均系原作者和机构所有。文章内容观点,与本网无关。如有需要删除,敬请来电商榷!)
该方法可以教一组合作或竞争的人工智能代理找到最佳的长期解决方案。概括:一项新技术使人工智能代理在考虑它们的行为如何影响其他人工智能代理的行为时,能够考虑到更远的未来,以完成一项任务。...

该方法可以教一组合作或竞争的人工智能代理找到最佳的长期解决方案

概括:

一项新技术使人工智能代理在考虑它们的行为如何影响其他人工智能代理的行为时,能够考虑到更远的未来,以完成一项任务。这种方法提高了合作或竞争性人工智能代理的长期性能。

想象一下两支球队在足球场上的对决。球员们可以通过合作来实现一个目标,并与其他有利益冲突的球员竞争。这就是游戏的运作方式。创建能够像人类一样有效学习竞争和合作的人工智能代理仍然是一个棘手的问题。一个关键的挑战是使人工智能代理能够在其他代理同时学习时预测其未来行为。

由于这个问题的复杂性,目前的方法往往是近视的;代理人只能猜测他们的队友或竞争对手的未来几步棋,这导致了长期的不良表现。

来自美国麻省理工学院、麻省理工学院-IB+M沃森人工智能实验室和其他地方的研究人员开发了一种新方法,使人工智能代理具有远见卓识。他们的机器学习框架使合作或竞争的人工智能代理能够考虑其他代理在时间接近无穷大时将会做什么,而不仅仅是在接下来的几个步骤中。然后,代理人相应地调整他们的行为,以影响其他代理人的未来行为,并达成一个最佳的、长期的解决方案。

这个框架可以被一群自主的无人机用来在茂密的森林中寻找迷路的徒步者,或者被自驾车使用,通过预测在繁忙的高速公路上行驶的其他车辆的未来行动来努力保证乘客的安全

“当人工智能代理进行合作或竞争时,最重要的是他们的行为在未来的某个时间点上会聚。一路上有很多短暂的行为,从长远来看并不十分重要。”麻省理工学院信息与决策系统实验室(LIDS)的研究生、一篇描述该框架的论文的主要作者Dong-Ki Kim说:“达到这种收敛的行为是我们真正关心的,我们现在有一种数学方法来实现这一点。”

高级作者是Richard C. Maclaurin航空学和航天学教授Jonathan P. How,他是麻省理工学院-IBM Watson人工智能实验室的成员。共同作者包括麻省理工学院-IBM沃森人工智能实验室、IBM研究院、米拉-魁北克人工智能研究所和牛津大学的其他人。该研究将在神经信息处理系统会议上发表。

更多的代理,更多的问题

研究人员专注于一个被称为多代理强化学习的问题。强化学习是机器学习的一种形式,其中人工智能代理通过试验和错误进行学习。研究人员对帮助其实现目标的 "良好 "行为给予代理奖励。代理人调整其行为以最大化该奖励,直到它最终成为一项任务的专家。

但当许多合作或竞争的代理同时学习时,事情变得越来越复杂。随着代理人考虑到他们同伴的更多未来步骤,以及他们自己的行为如何影响其他人,这个问题很快就需要太多的计算能力来有效解决。这就是为什么其他方法只关注短期的原因。

“人工智能真的想考虑游戏的结束,但他们不知道游戏何时结束。他们需要思考如何不断地将自己的行为调整到无限大,以便在未来某个遥远的时间里获胜。我们的论文本质上提出了一个新的目标,使人工智能能够考虑到无限大的问题。”Kim说。

但是,由于不可能把无限塞进算法中,研究人员设计了他们的系统,使代理人专注于他们的行为将与其他代理人的行为趋同的未来点,即所谓的平衡点。平衡点决定了代理人的长期表现,而且在多代理人的情况下可能存在多个平衡点。因此,一个有效的代理人积极影响其他代理人的未来行为,使他们从代理人的角度达到一个理想的均衡点。如果所有的代理人都相互影响,他们就会收敛到一个一般的概念,研究人员称之为 "主动均衡"。

他们开发的机器学习框架被称为FURTHER(代表FUlly Reinforcing acTive influence with averagE Reward),使代理人能够学习如何在与其他代理人互动时调整自己的行为,以实现这种主动平衡。

FURTHER使用两个机器学习模块来实现这一目标。第一个模块是推理模块,它使代理人能够仅根据其他代理人的先前行动来猜测他们的未来行为和他们使用的学习算法。

这些信息被送入强化学习模块,代理人利用这些信息来调整自己的行为,并以最大化回报的方式来影响其他代理人。

“挑战是对无限的思考。我们不得不使用许多不同的数学工具来实现这一点,并做出一些假设,使其在实践中发挥作用。”Kim说。

长远的赢家

他们在几个不同的场景中对他们的方法与其他多代理强化学习框架进行了测试,包括一对机器人的相扑式战斗和两个25个代理团队的对战。在这两种情况下,使用FURTHER的人工智能代理更经常地赢得比赛。

Kim解释说,由于他们的方法是分散的,这意味着代理人独立学习赢得游戏,它也比其他需要中央计算机控制代理人的方法更具可扩展性。

研究人员用游戏来测试他们的方法,但FURTHER可以用来解决任何类型的多代理问题。例如,在许多相互作用的权利人的行为和利益随时间变化的情况下,经济学家可以应用它来制定合理的政策。

经济学是Kim对研究的一个应用特别感兴趣。他还想更深入地研究主动平衡的概念,并继续加强FURTHER框架。

这项研究得到了美国麻省理工学院-IBM沃森人工智能实验室的部分资助。

美国麻省理工学院(MIT)的Hyperloop II团队由一组具有航空航天,机械,电气和系统工程背景的多学科研究人员组成。

MIT四十名学生合作设计和制造了Hyperloop II,这是一种高速、无摩擦的车辆,旨在通过空气悬浮技术来运载人员或货物。Hyperloop与许多需要轨道或在真空管运行轨道列车不同,这款模型仅需要平坦的表面并能在气垫上行驶。它不依赖昂贵的磁性系统为其悬浮提供动力,不需要高昂的真空环境。

Hyperloop II是2019年在SpaceX Hyperloop Pod竞赛中唯一以其功能齐全的空气悬浮吊舱而闻名。这是一项年度的超级环形高铁车厢大赛大赛,SpaceX公司旨在鼓励开发新的运输方式。该团队在去年比赛中排名第5,并获得了创新奖。因为大火摧毁了原始原型后,三周后该团队再次对其轨道车进行了大幅度修改。

美国MIT开发的AirLev是第一款电动高速无摩擦空气悬浮轨道车,旨在通过其空气悬浮技术来运载人员或货物。该团队在2019年的SpaceX-Hyperloop大赛上展示了升级版-Hyperloop II,该轨道车在20秒内,以0到200 mph(时速200英里/352公里)迅速提升。


网友评论
文明上网,理性发言,拒绝广告

相关资讯

关注官方微信

手机扫码看新闻