当地时间周三,埃隆·马斯克(Elon Musk)创建的非盈利性人工智能组织 OpenAI 发布了一款看似简单的相扑游戏(如上图所示),名为 RoboSumo。这款游戏并非由人来操作,而是由机器学习软件控制。“相扑选手”也并非提前编程设计好动作,而是通过机器学习不断试错,学会这项运动。
OpenAI 的工程师 Igor Mordatch 表示这类竞技游戏可以让人工智能系统进行比赛,因为现如今人工智能代理商都面临着对手复杂变化的技术改变。这有助于让机器学习软件学到有价值的技巧,从而应用于机器人和现实活动中。也就是说,这款相扑小游戏能让未来的 AI 更聪明。
在实验开始,游戏中的小人甚至不会走路,而他们的任务就是通过不断实践,学习如何走路,最终击败对方。经过大约十亿次的训练,机器人学会了一些策略,例如蹲下,让自己保持稳定,或者让对手一不小心摔落竞技场。研究人员已经开发了新的学习算法,使玩家能够在一场比赛中调整自己的策略,甚至预测出对手何时会改变战术。
OpenAI 的这一项目是突破机器学习局限性的佳作。以往常用的的机器学习软件都是通过处理大量的标签数据获得新技能,这种方式在翻译、语音识别和面部识别等领域都有所成就。但是对于更加复杂的技能来说,却并不实用。例如,想用 AI 控制家用机器人,就无法用以前的手段实现。
除此之外,让 AI 更实用的另一种方法就是强化学习,即软件通过不断地试错达到目的。DeepMind 曾用这种方法让机器学习《打砖块》游戏,最终通了关。而他们目前正将这一技术应用于更复杂的问题,比如让机器人拾起物体。
而 OpenAI 的研究人员认为对战性游戏引起的复杂性比强化学习软件的解决速度更快,于是他们构建了这款 RoboSumo。该项目的一名实习生、卡内基梅隆大学的研究生 Maruan Al-Shedivat 说:“当你与对手互动时,你必须适应,不然的话就将失败。”
不过,游戏场景为什么要设定为相扑比赛呢?其实,OpenAI 的研究人员也将这款 AI 系统应用于蜘蛛型机器人和其他游戏中去了,在其发布的论文中均有体现。
也许这个相扑小游戏不能产生什么实际价值,但是它的影响非常广泛,因为机器在游戏中学习到的技巧可以迁移到其他场景中去。例如,若把一位“相扑选手”放入另一个吹着强风的虚拟场景中,他就知道如何控制自己的身体保持平衡。
然而,将虚拟世界的技能应用于真实的世界又是另一回事儿了。德克萨斯州大学奥斯汀分校的教授彼得·斯通(Peter Stone)表示,在虚拟环境中工作的控制系统应用到机器人身上是往往不起作用,这个尚未被解决的难题被称为“现实差距”。OpenAI 也有专家在研究这一难题,但目前还没有任何突破。工程师 Mordatch 还想进一步发展这些虚拟“相扑手”,他正计划设计一场虚拟足球赛。