本文由腾讯数码独家发布
根据谷歌 Brain 人工智能团队研究员介绍,通过一项名为强化学习的 AI 技术,他们已经可以成功实现让虚拟机器人重新设计自身身体,导航并跨越障碍物,虽然这个新的技术方案相比常规较为古怪,但无论如何,这也是人工智能领域的一项重大突破。
由于每种生物个体都有自己的体型特征,他们的认知往往会受到自己的形体限制,举个例子,松鼠的思维过程和解决问题的策略与章鱼、大象和海鸥的思考方式就很大不同,而这很大程度上是由他们被赋予的身体所决定的,由此导致了不同的思考和学习方式,谷歌 Brain 的计算机科学和 AI 专家 David Ha 在他的研究论文中提到:“进化在塑造有机体体型来适应生存环境这一过程中扮演了至关重要的角色,大脑也是这个进化过程中的部件之一,因此生物大脑的思考方式也受到形体限制。”
该现象一般来说适应于现实生物界中,那么这个规则对于虚拟的电子领域又是否适合呢?为了搞清这个问题,David Ha 利用强化学习技术进行了一系列实验,让虚拟机器人(也被称为 Walker)可以为了适应环境自动设计并调整自己的身体体型。强化学习是人工智能开发中的重要工具,其可以通过对虚拟机器人的“好”行为得分进行奖励,从而激励,引导机器人朝向研究员期望的目标或方向发展。
通过 OpenAI Gym 框架,David Ha 为他的虚拟机器人(Walker)打造了一个模拟环境,该训练框架看上去与此前传统的 2D 视频游戏环境类似,不过其中搭建了更多复杂的虚拟物理环境来模拟自然条件,还可以随机生成地形和其他游戏元素,其中的主角“ Walker " 则是一个双足虚拟机器人,其每一条腿都由上下两部分组成,这个机器人必须学会如何在其虚拟环境中导航,绕过障碍物,并随着时间的推移和机器学习的引导下逐渐提到其规避障碍物的能力,在去年,DeepMind 的研究人员也进行了一项类似的实验,其中虚拟机器人必须学会如何从零开始走路,以及通过复杂的公园路线来给自己导航。
与此不同的是,David Ha 的“Walker”机器人还有一个额外的技能,那就是其能够通过机器学习来重新设计他们的身体形态(至少部分形态),比如,该机器人可以将其四条腿的长度和宽度改变为默认腿部设计最大值的 75%,而其用来维持基本形态的头部不能改变,且每个每个" Walker" 机器人都搭载了一个电子版本的 LIDAR 的地图来评估它前面的地形,会以规则的时间间隔向前发射一束薄激光束。
通过强化学习算法,“Walker”虚拟机器人会得到一些关于改进自身体型来适应虚拟环境的建议,研究员会采取激励手段让“Walker”学习并采用这些建议来自动调整自己的体型,从而成功适应环境来规避障碍物,强化学习技术大大加快了机器的学习过程,让机器人自行试验各种解决方案,而在这些方案中,其中许多都是非常规的和不可预测的人类标准,这也是为什么强化学习如此强大,被许多研究机构都共同采用的原因。
在首次试验尝试中,David Ha 将“Walker ” 放置在一个没有障碍物的平缓起伏地形的 2D 环境里,使用其默认的体型特征方案,我们可以看见机器人首席是采用了一种相当乐观的跳跃式运动策略,而后经过一段时间的学习后,自行改变了它的腿结构,使它们变得更细和更长,然后根据这些修改后的四肢结构,“Walker ”用它的腿作为弹簧,稳定的快速跳跃跨越地形。
在后来,David Ha 又将地形设计做出了新的改进,让“Walker ”机器人挑战布满各种障碍物的复杂地形,包括上升,下降和跳跃这些动作都需要被考虑到,结果我们发现 “Walker ”在自己的身体设计上有了更加极端的算法改进,它将自己的后肢大大的加长加宽,并在移动时与地面保持水平,以获得最大强度的稳定性和弹跳能力,成功了跨越了各种障碍物,试验截止到这里,David Ha 已经看见了增强学习效果非常明显,虚拟机器人完全可以自动调整形态来适应相关环境。
不过他至此还没有停止研究,他希望也可以激励步行者采纳一些并不一定对其性能最有益的设计决策,至于这样做的原因,David Ha :”在真实环境下,我们可能不一定会采用最完美的决策方式,因为有很多其他因素值得我们考虑,比如说,我们可以让 Walker 学习一种新的体型设计,使用最少的材料获得最令人满意的性能。”
基于这样的考虑,他对 Walker 的双足设计做出了改进,不再将脚部默认尺寸调整到 75%,而是直接降低到了 8%,让它们显得更小,更低也更稳定,这种体型虽然不适合于跨越障碍物,但是对在较为平坦的起伏地形上运动上完全可以胜任,而且相比此前的形体状态,它大大缩减了自身的体积,减小了材料损耗。
而如果要处理复杂的地形环境,跳跃障碍物,Walker 也能调整出最适合的体型特征,其采用了原腿部尺寸的 27%,其环境适应能力得到了大幅度提升,Ha 在论文中提到:“生物界的‘调整体型来适应环境的特征’也完全可以适用于电子环境,通过增强学习算法,不仅可以让这些虚拟机器人根据限制性因素调整自己的形态,还可以大大加快其学习能力。”
更为实际的是,这种增强学习应用可以大大帮助机器学习辅助设计,比如设计空气动力学形状,在压力条件下测试材料,或建造超敏捷机器人(有形机器人),也可以帮助提升计算机图形性能,也可以运用在视频游戏中,试想一下,如果一个机器人玩家也可以用机器的方式,像人类一样汲取错误经验,吸收对方的优点长处来提高自己的游戏能力,那么这样的机器对手相信是很多游戏玩家都无法匹敌的。
最重要的是,采用增强学习技术的虚拟机器人在学习过程中需要最小程度的人工干预,可以尽可能的降低研究员所需的研发时间和精力,而且这些虚拟机器人构想出的许多解决方案都是非常怪异甚至荒谬,总之是人类无法想象的,而这正是关键所在,也就是说随着这些机器学习系统能力的不断增强,它们或许也会创造出一些人类前所未有的难题,这些高度智能化的难题是否可以由人类专家来解决,我们都还不能确定,更不要说如何全面控制这些高度智能的学习机器。