在 Google 的 Alphago 大放异彩之后,搜索巨头把下一个目标瞄准了复杂度更高的《星际争霸》游戏。但社交巨头 Facebook 也不甘落后,前不久它偷偷派了一个机器人去参加一场 AI 间的星际争霸战。尽管铩羽而归,但跟爱好者做的大部分基于规则的机器人相比,Facebook 让机器人自己制定策略的方案才是未来。
在银河系遥远的克普鲁星区,Facebook 的一群跳虫(Zerglings)正在焦躁不安的在敌军基地外面徘徊。在脑袋缺根筋的指挥官打开大门后,该社交网络的外星人蜂拥而入,在一场争夺人工智能研究前沿阵地的战斗中对驻扎在里面的部队大开杀戒。
这场血腥事件是一年一度的由 AI 软件机器人参赛的星际争霸比赛的一部分,今年的比赛刚刚在本周日结束。Facebook 悄悄的派了一个名为 CherryPi 的机器人参赛,这是有其 AI 研究实验室的 8 个人设计出来的。
这场秘密的太空站说明 Facebook 对与 Google 等就率先达到 AI 的下一个闪耀的里程碑的竞争是认真的。Google 的 DeepMind AI 研究部门去年因为 Alphago 击败了围棋世界冠军而登上了新闻头条。今年 8 月,DeepMind 宣布将最新版的星际争霸 II 作为自己的下一个目标。
就像本领域大多数的 AI 研究一样,Facebook 参加的这场比赛使用的是更旧版的星际争霸,这个版本在难度上被认为对软件和玩家都是一视同仁的。Facebook 的 AI 研究部门由纽约大学教授 Yann LeCun 牵头,旗下有 80 多位研究人员,目前已经发表了很多的研究论文,但是还没有取得任何像 Google 在围棋方面一样令人震惊的成就。关于星际争霸 Facebook 已经发表了 3 篇研究论文,但还没有宣布要征服此游戏的任何特别行动。
周日公布的最终结果表明 Facebook 仍然有一段路要走:在总共 28 位参赛选手中 CherryPi 的排名为第6;而前 3 位都是由独立的编程爱好者写出来的。
Facebook 的研究科学家 Gabriel Synnaeve 把 CherryPi 说成是将来对星际争霸研究的“基线”。他说:“我们希望看到它跟其他现有机器人的对比情况,尤其是想测试一下是不是还有需要修正的瑕疵。” CherryPi 参加了一场马拉松式的竞赛,这是研究 AI 在娱乐业应用的学术会议 AIIDE 的一部分。Facebook 还赞助了今年的竞赛,成千上万的机器人对战游戏所用的硬件都是由 Facebook 出钱的。
自从 1950 年代以来,像一字棋、跳棋、国际象棋以及围棋这样的游戏一直都是人工智能新思路的试验台。这段日子以来,随着公司日益用 AI 来作为打磨自身产品和服务的手段,AI 还要服务于严肃的商业目的。Facebook、Google 等技术公司用 AI 来改进定向广告和个性化系统,并且给虚拟助手和增强现实等新产品提供支持。
星际争霸对 AI 研究人员的诱惑力可不仅仅在于操弄武器发号施令的乐趣。尽管该游戏看似比围棋或者国际象棋更平易近人,但是复杂度却要比后者高得多,因为玩家的装备和行动都不是局限在固定的棋盘上并且处在对方的完整视图下面的。围棋棋盘的有效位置数是 1 后面跟 170 个0。研究人员估计,要想遍历星际争霸的复杂度,你还需要在那个数后再加 100 个0。
今年获胜的机器人叫 ZZZKBot,开发者是澳大利亚珀斯的软件开发者 Chris Coxe,他之前曾在纳斯达克工作过。这个机器人是他自己一个人开发的,后来为了留出更多的时间做做这个他甚至停了一段时间工作。在最终结果出炉前 1 一天,Coxe 曾经这样调侃自己的作品。他说:“这东西只是用来概念验证。源码一点都不好。”
就像迄今为止所有的星际争霸机器人一样,在游戏技能一般的人类玩家面前 ZZZKBot 也顶不了太久。对异族人部队的调动做出预测和反应需要的计划和记忆远远超出了目前软件的能力范畴。
随着在网上广告和 AI 方面同时展开竞争的两大巨头表现出兴趣,爱好者做出最好的星际争霸机器人的日子似乎已经屈指可数。这次 AIIDE 竞赛的组织者,纽芬兰纪念大学教授 David Churchill 预计,未来几年星际争霸机器人的局面将会发生天翻地覆的变化。
Facebook 和 Google 称自己开发星际争霸机器人的办法跟大多数个人程序员都不一样。领先的机器人大多数是基于创建者制订的规则和策略进行游戏的。Coxes 说他的机器人最好的功能之一是简单学习功能,机器人会尝试预先编程的针对其他对战机器人的策略,然后记录下来哪一种策略有效,从而为下一场比赛做准备。两大技术巨头打算更倚重于机器学习,计划让机器人依靠检查过去比赛数据的庞大缓存或者重复实验从头开始制订自己的策略。Facebook 并没有按照自己发布的想法开发 CherryPi。而机器学习则是 Google 的 Alphago 不可战胜的核心。
虽然 Facebook 的机器人没能赢得星际争霸战,但排名第二的机器人 PurpleWave 的开发者 Dan Gant 却看到了 CherryPi 将来的走势。大多数机器人的选择是根据敌方的相对人数要么正面进攻,要么撤退。但 Gant 说,从竞赛结果公布前发布的视频看,CherryPi 似乎知道什么时候自己可以足够快地偷袭地方基地。
尽管如此,不要指望独立机器人开发者一夜之间就会消失得无影无踪——或者指望星际争霸很快就会被征服。Churchill 说:“问题仍然非常困难。我预计几年之内爱好者做的主要基于规则的机器人仍然会表现出色。”他猜测任何机器人想要击败专家级玩家仍需要 5 年的时间——但承认也许会更快。
纽约的软件开发者 Gant 今年停下了手头的工作,用了几个月的时间专门来做 PurpleWave。他说技术巨头的加入增加了一项代表着独特学习机会的追求的影响力。他说:“无论你是 Facebook 还是 DeepMind 或者是刚刚在学习编程的小孩,大家都在同一个竞技场公平竞技。能限制你的只有自己的努力和能教到自己的东西。”
做出一个星际争霸的超级玩家能给技术巨头带来的不只是满足感。Google 说 DeepMind 的机器学习已经帮助它削减了自己数据中心的制冷成本。微软今年的一篇有关机器学习的研究论文说,预测用户何时会点击的准确率哪怕只提升 0.1 个百分点也能带来数亿美元的新收入。有能力领导虫族队伍冲锋陷阵击溃任何人类的机器人也许很快就能赚大钱。